projetos:planaltopaulista:restrito:cris:glm

Dúvidas GLM's: parte 1

Duvidas sobre os GLM's

Achei o Crawley bastante complicado de entender algumas coisas, teria alguma bibliografia um pouco mais acessivel para indicar?

R: não conheço nada muito mais palatável! Acho que o grande lance é a base para modelos lineares simples (sempre!). Tente o livro do John Fox: An R and S-plus Companion to Applied Regression. A parte de glm é boa, tanto quanto no Crawley, às vezes ler escrito de outra forma melhora, mas há conceitos complexos de distribuição de erro e etc. que não são intuitivos

A ordem de adicao dos fatores (variáveis preditoras) deve ser definida pela literatura ou posso fazer diretamente com os dados, verificando qual dos fatores esta mais correlacionado com a variavel resposta?

Caso as variáveis sejam ortogonais (independentes) a ordem não influencia nunca (OBA!). Como isso não acontece, a sugestão é comecar com o modelo completo (todas as variáveis ao mesmo tempo). A sugestão do Crawley é começar com o modelo cheio,..depois ir tirando, primeiro as interações de maior nível, menor nível, variáveis (que são apontadas como menos relacionadas pela própria analise ou pela literatura). Quando a variável é colinear, a ordem que vc. tira é importante, por isso tome cuidado. Duas variáveis muito relacionadas fazem com que a retirada da primeira (independente da identidade) não influencie o modelo, enquanto a segunda leva toda a variação com ela, ou seja aí a ordem importa!

Resposta Cris: perguntei porque rodei um “piloto” para uma variável resposta (densidade) e o modelo completo, considerando todas as preditoras (luz, serrapilheira e número de adultos reprodutivos na parcela grande) é muito difícil de interpretar! Me assustei…

O que exatamente significa adicionar um fator com interacao (*)? Quer dizer que as variaveis preditoras estao correlacionadas (sao covariaveis)?

NÃO!! Nada a haver com a colinearidade (note que covariável é outra coisa!). Isso é a base dos modelos: fatores ou níveis podem diferir quanto ao intercepto, ou seja são diferentes na média. Entretanto eles podem diferir tb. no efeito que tem na variável resposta (ou seja na angulação, pensando em duas retas!). Essa diferença na angulação é a interação! Exemplo: o aumento de uma unidade da preditora “A” faz sua resposta aumentar em 5 unidades e a preditora “B” faz ela decrescer em 3 unidades, dizemos que há interação. Nesse exemplo o modelo é Resp= 1/5 A - 1/3 B ou seja há interação quando o parâmetro “b” da reta são diferentes. Para a construção do modelo os sinais não tem relação direta com a algebra . O sinal de interação é “:” ou seja A:B, entretanto se desejamos além da interação, verificar a diferença entre as médias podemos pedir (A:B) + (A+B), ou simplesmente A*B. O * significa ambos (+ e :) Respondi??

Resposta Cris: respondeu… mas não sei se consigo pensar na resposta à minha dúvida que gerou essa pergunta… essa dúvida surgiu quando fiz os testes e não sabia se deveria considerar a floresta com um sinal de (+) ou o asterisco (*)… vou tentar um palpite: se eu colocar o (*) para “floresta” significa que a inclinação da reta pode variar de uma floresta para outra, ou seja, pode haver uma relação linear pra todas mas as inclinações podem ser diferentes?

Se eu encontro correlacao entre as variaveis preditoras como devo proceder?

Caso haja colinearidade, escolha aquela que tem mais sentido biológico!! Por exemplo: diversidade = latitude + PIB . O produto interno bruto de um pais é altamente relacionado com a latitude , entretanto ele apesar de fortemente explicativo para a diversidade biológica não tem interpretação além daquela relacionada à latitude…UAU, VIAJEI!!

Resposta Cris: perguntei isso porque existe uma relação linear positiva entre a porcentagem de abertura do dossel e a profundidade da serrapilheira…

plot(serap ~ dossel, data=dados)	
mod.cov <- lm(serap ~ dossel, data=dados)
abline(mod.cov)
summary(mod.cov)

Mas o r é baixo

> summary(mod.cov)

Call:
lm(formula = serap ~ dossel, data = dados)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.2514 -2.0133 -0.3793  1.6805  6.9136 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  4.26418    0.38805  10.989  < 2e-16 ***
dossel       0.22678    0.05963   3.803 0.000197 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 2.466 on 177 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared: 0.07553,    Adjusted R-squared: 0.07031 
F-statistic: 14.46 on 1 and 177 DF,  p-value: 0.0001967

E se considero a floresta

> mod.cov.flor <- lm(serap ~ dossel*flor, data=dados)

A resposta é:

Call:
lm(formula = serap ~ dossel * flor, data = dados)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.7429 -1.2240 -0.1438  0.9766  6.0766 

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)    
(Intercept)         2.83305    0.68594   4.130 5.72e-05 ***
dossel              0.27588    0.16019   1.722   0.0869 .  
florjeanzao         0.96234    1.06960   0.900   0.3696    
flormedico          4.20089    1.56739   2.680   0.0081 ** 
florodorico         2.18637    1.20347   1.817   0.0711 .  
florosasco          2.42497    1.13111   2.144   0.0335 *  
florteomar          2.51328    0.97774   2.570   0.0110 *  
dossel:florjeanzao -0.28716    0.18474  -1.554   0.1220    
dossel:flormedico  -0.07724    0.23107  -0.334   0.7386    
dossel:florodorico -0.22013    0.27771  -0.793   0.4291    
dossel:florosasco   0.02511    0.20675   0.121   0.9035    
dossel:florteomar  -0.42978    0.22828  -1.883   0.0615 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.819 on 167 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared: 0.5256,     Adjusted R-squared: 0.4944 
F-statistic: 16.82 on 11 and 167 DF,  p-value: < 2.2e-16

Complicado de interpretar…O r aumenta, mas não é significativa a relação com a interação…

Quando uso lm() o resultado do comando anova(mod1, mod2) é diferente de quando uso o glm()? Ou o fato de não apresentar um F quando usei o glm() é alguma particularidade do modelo que eu construí?

SIM, para o modelos gerais o F não funciona, geralmente tem que dizer qual é o modelo de comparação em um argumento. Acho que para a mortalidade é o chisquare, depende do tipo de distribuição do erro! Veja o tutorial ou Crawley

COVARIÁVEL é uma variavél que influencia também a resposta ela não precisa estar relacionada com a outra variável para isso. Pode ser completamente não correlacionada (ZERO!) e mesmo assim ser uma boa covariável pois explica grande parte da variação dos dados, variação que a outra não conseguia explicar… No caso de colinearidade as variáveis estão explicando a mesma variação na resposta…é diferente