Duvidas sobre os GLM's
R: não conheço nada muito mais palatável! Acho que o grande lance é a base para modelos lineares simples (sempre!). Tente o livro do John Fox: An R and S-plus Companion to Applied Regression. A parte de glm é boa, tanto quanto no Crawley, às vezes ler escrito de outra forma melhora, mas há conceitos complexos de distribuição de erro e etc. que não são intuitivos
Caso as variáveis sejam ortogonais (independentes) a ordem não influencia nunca (OBA!). Como isso não acontece, a sugestão é comecar com o modelo completo (todas as variáveis ao mesmo tempo). A sugestão do Crawley é começar com o modelo cheio,..depois ir tirando, primeiro as interações de maior nível, menor nível, variáveis (que são apontadas como menos relacionadas pela própria analise ou pela literatura). Quando a variável é colinear, a ordem que vc. tira é importante, por isso tome cuidado. Duas variáveis muito relacionadas fazem com que a retirada da primeira (independente da identidade) não influencie o modelo, enquanto a segunda leva toda a variação com ela, ou seja aí a ordem importa!
Resposta Cris: perguntei porque rodei um “piloto” para uma variável resposta (densidade) e o modelo completo, considerando todas as preditoras (luz, serrapilheira e número de adultos reprodutivos na parcela grande) é muito difícil de interpretar! Me assustei…
NÃO!! Nada a haver com a colinearidade (note que covariável é outra coisa!). Isso é a base dos modelos: fatores ou níveis podem diferir quanto ao intercepto, ou seja são diferentes na média. Entretanto eles podem diferir tb. no efeito que tem na variável resposta (ou seja na angulação, pensando em duas retas!). Essa diferença na angulação é a interação! Exemplo: o aumento de uma unidade da preditora “A” faz sua resposta aumentar em 5 unidades e a preditora “B” faz ela decrescer em 3 unidades, dizemos que há interação. Nesse exemplo o modelo é Resp= 1/5 A - 1/3 B ou seja há interação quando o parâmetro “b” da reta são diferentes. Para a construção do modelo os sinais não tem relação direta com a algebra . O sinal de interação é “:” ou seja A:B, entretanto se desejamos além da interação, verificar a diferença entre as médias podemos pedir (A:B) + (A+B), ou simplesmente A*B. O * significa ambos (+ e :) Respondi??
Resposta Cris: respondeu… mas não sei se consigo pensar na resposta à minha dúvida que gerou essa pergunta… essa dúvida surgiu quando fiz os testes e não sabia se deveria considerar a floresta com um sinal de (+) ou o asterisco (*)… vou tentar um palpite: se eu colocar o (*) para “floresta” significa que a inclinação da reta pode variar de uma floresta para outra, ou seja, pode haver uma relação linear pra todas mas as inclinações podem ser diferentes?
Caso haja colinearidade, escolha aquela que tem mais sentido biológico!! Por exemplo: diversidade = latitude + PIB . O produto interno bruto de um pais é altamente relacionado com a latitude , entretanto ele apesar de fortemente explicativo para a diversidade biológica não tem interpretação além daquela relacionada à latitude…UAU, VIAJEI!!
Resposta Cris: perguntei isso porque existe uma relação linear positiva entre a porcentagem de abertura do dossel e a profundidade da serrapilheira…
plot(serap ~ dossel, data=dados) mod.cov <- lm(serap ~ dossel, data=dados) abline(mod.cov) summary(mod.cov)
Mas o r é baixo
> summary(mod.cov)
Call:
lm(formula = serap ~ dossel, data = dados)
Residuals:
Min 1Q Median 3Q Max
-5.2514 -2.0133 -0.3793 1.6805 6.9136
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.26418 0.38805 10.989 < 2e-16 ***
dossel 0.22678 0.05963 3.803 0.000197 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.466 on 177 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.07553, Adjusted R-squared: 0.07031
F-statistic: 14.46 on 1 and 177 DF, p-value: 0.0001967
E se considero a floresta
> mod.cov.flor <- lm(serap ~ dossel*flor, data=dados)
A resposta é:
Call:
lm(formula = serap ~ dossel * flor, data = dados)
Residuals:
Min 1Q Median 3Q Max
-4.7429 -1.2240 -0.1438 0.9766 6.0766
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.83305 0.68594 4.130 5.72e-05 ***
dossel 0.27588 0.16019 1.722 0.0869 .
florjeanzao 0.96234 1.06960 0.900 0.3696
flormedico 4.20089 1.56739 2.680 0.0081 **
florodorico 2.18637 1.20347 1.817 0.0711 .
florosasco 2.42497 1.13111 2.144 0.0335 *
florteomar 2.51328 0.97774 2.570 0.0110 *
dossel:florjeanzao -0.28716 0.18474 -1.554 0.1220
dossel:flormedico -0.07724 0.23107 -0.334 0.7386
dossel:florodorico -0.22013 0.27771 -0.793 0.4291
dossel:florosasco 0.02511 0.20675 0.121 0.9035
dossel:florteomar -0.42978 0.22828 -1.883 0.0615 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.819 on 167 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.5256, Adjusted R-squared: 0.4944
F-statistic: 16.82 on 11 and 167 DF, p-value: < 2.2e-16
Complicado de interpretar…O r aumenta, mas não é significativa a relação com a interação…
SIM, para o modelos gerais o F não funciona, geralmente tem que dizer qual é o modelo de comparação em um argumento. Acho que para a mortalidade é o chisquare, depende do tipo de distribuição do erro! Veja o tutorial ou Crawley
COVARIÁVEL é uma variavél que influencia também a resposta ela não precisa estar relacionada com a outra variável para isso. Pode ser completamente não correlacionada (ZERO!) e mesmo assim ser uma boa covariável pois explica grande parte da variação dos dados, variação que a outra não conseguia explicar… No caso de colinearidade as variáveis estão explicando a mesma variação na resposta…é diferente