Příkazy pro cross-sectional data
Z Kuchařka studia na IES FSV UK
[editovat] Začínám pracovat
setwd("c:/Users/Radovan/ies/VI/visek/du I/prace") # nastavit pracovní adresář
library(tseries) # načtení všech potřebných knihoven; např. "garchFit(fGarch)" znamená, že funkce garchFit je v knihovně fGarch
...
attach(u1<-read.table("uloha1.txt", header=TRUE)) # read.table načte texťák se sloupci oddělenými tabulátory a tečkami místo desetinných čárek (najít, nahradit) do proměnné ul1 a attach pak zpřístupní pod názvy sloupců jednotlivé proměnné; lze také využít ruční postup: promenna1<-ul[[1]]
[editovat] Ověřím předpoklady lineárního modelu (OLS)
Zdroj: Wooldridge
- vztah mezi vysvětlující a vysvětlovanou proměnnou je lineární,
- pozorování nejsou náhodná čísla a je jich více než počet vysvětlujících proměnných,
- E(u_i|x_1i, . . . , x_ki) = 0, kde u_i jsou disturbance,
- matice pozorování X má plnou hodnost,
- var(u|x_1, . . . ,x_k) = σ^2, kde u je reziduum,
- rezidua u jsou rozdělena nezávisle na vysvětlujících proměnných a u ~ N(0,σ^2).
Předpoklady 1-4 se berou jako splněné.
Předpoklad č. 5 je předpoklad homoskedasticity, to jest že rozptyl disturbancí je podobný pro všechny případy. Homoskedasticita neplatí, pokud např. pro vyšší hodnoty vysvětlované proměnné jsou disturbance také větší. Ověřuje se grafickým testem Residuals vs Fitted, v R např.:
regrese<-lm(price~age+nbh+cbh+inst+rooms+area+land+baths+dist) # provedu regresi plot(regrese) # zajímá mě graf Residuals vs Fitted
Rezidua by měla být podél červené čáry. Dále se využívají "číselné" testy:
gqtest {lmtest} # [http://www.stat.ucl.ac.be/ISdidactique/Rhelp/library/lmtest/html/gqtest.html Goldfeld-Quandt test] for heteroskedasticity
bptest {lmtest} # [http://rweb.stat.umn.edu/R/library/lmtest/html/bptest.html Breusch-Pagan Test], H_0 = homoskedasticita
Pokud předpoklad není splněn, lze využít "heteroskedasticity corrected (robust)" odhady rozptylu odhadů koeficientů. Vymyslel je White. Newey a West pak k tomu přidali ještě to, že jejich metodě odhadu rozptylu nevadí ani heteroskedastcita, ani autokorelace, která se však týká zejména časových řad. Tyto funkce vám ale vypočítají jen odhady rozptylů zobrazené na diagonále zobrazené kovariační matice. Ty můžete srovnat s tím, co spočítá standardní metoda. Více v paperu Econometric Computing with HC and HAC Covariance Matrix Estimators.
Předpoklad č. 6 se ověřuje testováním normality disturbancí. Na to je opět grafický test, QQ plot, který je přístupný opět pod plot(lm(x~y)). Číselných testů je spousta.