Este texto pretendia ser o último de uma série de textos que venho publicando para possibilitar a reprodução dos resultados do artigo baseado em minha dissertação de mestrado.

Digo pretendia, pois lembrei que tem mais uma aplicação que é em painel que foi solicitada pelos revisores da revista. Além disso, pretendo fazer outra postagem só sobre apresentação dos resultados e asua representação com tabelas e gráficos.

Pacotes necessários

Neste texto só utilizarei o pacote do R para lidar com dependência espacial.

library(spdep)

Base de dados

A base de dados mantém-se a mesma, asism como a matriz de vizinhan identificada neste texto.

#Leitura da Base de Dados
BASE <- read.csv("http://raw.githubusercontent.com/RodrigoAnderle/Artigos-Reproduz-veis/master/Fatores%20Espaciais%20Comuns%20(RBERU)/NE1991.csv"
                 , header = T)

#Leitura da matriz de vizinhança
R1<-read.gal("https://raw.githubusercontent.com/RodrigoAnderle/Artigos-Reproduz-veis/master/Fatores%20Espaciais%20Comuns%20(RBERU)/R1.gal"
             ,BASE$MUN) 
WR1<-nb2listw(R1) # ajuste necessário para utilização nas funções

Modelo com defasagem espacial (SARMA)

Como foi identificado no último texto, o modelo SARMA, com defesagem espacial na variável dependente, rho e no termo de erro, lambda.

# Modelo com defasagem espacial SARMA
CC9110S<-sacsarlm(lng9110~lnProd1991+EMedio1991+Analf1991+Urb1991
        +LnPop1991+Indus1991+Serv1991+Gini1991,
        data = BASE,
        listw = WR1)

summary(CC9110S) #resultados
## 
## Call:sacsarlm(formula = lng9110 ~ lnProd1991 + EMedio1991 + Analf1991 + 
##     Urb1991 + LnPop1991 + Indus1991 + Serv1991 + Gini1991, data = BASE, 
##     listw = WR1)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.456534 -0.118247 -0.017445  0.087560  1.043854 
## 
## Type: sac 
## Coefficients: (asymptotic standard errors) 
##               Estimate Std. Error  z value  Pr(>|z|)
## (Intercept)  2.3906617  0.2049621  11.6639 < 2.2e-16
## lnProd1991  -0.9100138  0.0193155 -47.1130 < 2.2e-16
## EMedio1991   0.3866587  0.1328454   2.9106  0.003607
## Analf1991   -0.2305111  0.0781418  -2.9499  0.003179
## Urb1991      0.1603314  0.0330216   4.8554 1.202e-06
## LnPop1991    0.0600553  0.0069496   8.6416 < 2.2e-16
## Indus1991   -0.1545643  0.0643397  -2.4023  0.016292
## Serv1991     0.0345903  0.0769695   0.4494  0.653141
## Gini1991     0.1183966  0.2293167   0.5163  0.605644
## 
## Rho: -0.13643
## Asymptotic standard error: 0.041862
##     z-value: -3.2591, p-value: 0.0011176
## Lambda: 0.39612
## Asymptotic standard error: 0.046998
##     z-value: 8.4283, p-value: < 2.22e-16
## 
## LR test value: 60.376, p-value: 7.7494e-14
## 
## Log likelihood: 400.2239 for sac model
## ML residual variance (sigma squared): 0.032561, (sigma: 0.18045)
## Number of observations: 1451 
## Number of parameters estimated: 12 
## AIC: -776.45, (AIC for lm: -720.07)

Como os resultados apontam, a defasagem espacial da variável dependente (crescimento da produtividade) apresenta um sinal negativo, enquanto que a do termo do erro, um sinal positivo. Isso significa que havaria um impacto negativo do crescimento da produtividade dos vizinhos na produtividade de cada município nordestino. Explico um pouco melhor essa discussão no resumo do artigo.

Hipótese dos Fatores Comuns

Desagregando um pouco mais os efeitos espaciais, chegamos a hipótese dos fatores comuns sugerida por Anselin(2003).

CC9110DS<-sacsarlm(lng9110 ~ lnProd1991 + EMedio1991 + Analf1991 +Urb1991
        +LnPop1991+Indus1991+Serv1991+Gini1991,
        data = BASE, 
        listw = WR1,
         type="sacmixed")

summary(CC9110DS) #resultados
## 
## Call:sacsarlm(formula = lng9110 ~ lnProd1991 + EMedio1991 + Analf1991 + 
##     Urb1991 + LnPop1991 + Indus1991 + Serv1991 + Gini1991, data = BASE, 
##     listw = WR1, type = "sacmixed")
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.415556 -0.112518 -0.014351  0.083407  0.957092 
## 
## Type: sacmixed 
## Coefficients: (asymptotic standard errors) 
##                  Estimate Std. Error  z value  Pr(>|z|)
## (Intercept)     1.8007531  0.3415846   5.2718 1.351e-07
## lnProd1991     -0.9460443  0.0212993 -44.4167 < 2.2e-16
## EMedio1991      0.4236719  0.1403108   3.0195 0.0025317
## Analf1991      -0.1540237  0.0937700  -1.6426 0.1004722
## Urb1991         0.1235858  0.0370368   3.3368 0.0008474
## LnPop1991       0.0662680  0.0076149   8.7024 < 2.2e-16
## Indus1991      -0.1122041  0.0704433  -1.5928 0.1111984
## Serv1991        0.0279012  0.0794638   0.3511 0.7254991
## Gini1991        0.5941387  0.2537195   2.3417 0.0191954
## lag.lnProd1991  0.6224406  0.0560086  11.1133 < 2.2e-16
## lag.EMedio1991 -0.3228937  0.2150716  -1.5013 0.1332698
## lag.Analf1991   0.0030240  0.1230146   0.0246 0.9803880
## lag.Urb1991     0.0209759  0.0524928   0.3996 0.6894551
## lag.LnPop1991  -0.0413596  0.0101517  -4.0741 4.618e-05
## lag.Indus1991  -0.1948100  0.1034418  -1.8833 0.0596623
## lag.Serv1991   -0.2874959  0.1366569  -2.1038 0.0353977
## lag.Gini1991   -1.4904506  0.3626945  -4.1094 3.967e-05
## 
## Rho: 0.59325
## Asymptotic standard error: 0.057998
##     z-value: 10.229, p-value: < 2.22e-16
## Lambda: -0.51277
## Asymptotic standard error: 0.092199
##     z-value: -5.5615, p-value: 2.6745e-08
## 
## LR test value: 119.82, p-value: < 2.22e-16
## 
## Log likelihood: 429.948 for sacmixed model
## ML residual variance (sigma squared): 0.028609, (sigma: 0.16914)
## Number of observations: 1451 
## Number of parameters estimated: 20 
## AIC: -819.9, (AIC for lm: -720.07)

Este modelo insere uma defasagem espacial para cada variável explicativa, além das defasagens no termo de erro e da variável dependente. A primeira constatação é que os sinais do rho e do lambda se invertem. Por isso do termo “fatores comuns”, quando defasadas as variáveis de controle, o impacto da produtividade da vizinhança deixa de ser negativo, sugerindo que aquele sinal negativo era, na verdade, o resultado da concorrência dos fatores produtivos na vizinhança. Isso significa que, mesmo municípios “pouco desenvolvidos”, recebem impactos positivos de vizinhança.

Qual o modelo mais ajustado?

Um claro problema gerado pelo último modelo é que temos resultados conflitantes. Nesse sentido, precisamos qual dos modelos tem melhor ajuste. Mais uma vez com base em Anselin(2003), realizamos o teste de razão de verossimilhança (Likelikhood ratio) descrito abaixo. O modelo com maior valor de Log likelihood é o de melhor ajuste.

durbin9110<- LR.sarlm(CC9110DS,CC9110S)
print(durbin9110)
## 
##  Likelihood ratio for spatial linear models
## 
## data:  
## Likelihood ratio = 59.448, df = 8, p-value = 5.98e-10
## sample estimates:
## Log likelihood of CC9110DS  Log likelihood of CC9110S 
##                   429.9480                   400.2239

Observações

Em virtude do tempo não me dediquei muito na apresentação dos resultados. Mais adiante, pretendo fazer uma apresentação dos resultados de forma mais completa.