Regressionsanalyse
13. Regressionsanalyse
Prof. Burgard (FU Berlin) Schließende Se 21/22 1 / 68
Copyright By PowCoder代写 加微信 powcoder
Regressionsanalyse
Übersicht
Das lineare Regressionsmodell
Die Kleinste-Quadrate-Schätzung
Das empirische Bestimmtheitsmaß R2 Konfidenzintervalle und zur Regression
Prof. Burgard (FU Berlin) Schließende Se 21/22 2 / 68
Übersicht
Das lineare Regressionsmodell
Die Kleinste-Quadrate-Schätzung
Das empirische Bestimmtheitsmaß R2 Konfidenzintervalle und zur Regression
Prof. Burgard (FU Berlin) Schließende Se 21/22 3 / 68
Motivation: Streudiagramm
3.5 4.0 4.5
5.0 5.5 6.0
zwischen x und y lässt sich durch eine Gerade beschreiben.
Streudiagramm
Prof. Burgard (FU Berlin) Schließende Se 21/22 4 / 68
7 8 9 10 11 12
Problem: passt am besten?
3.5 4.0 4.5
5.0 5.5 6.0
Vorschlag 1
Prof. Burgard (FU Berlin) Schließende Se 21/22
7 8 9 10 11 12
Problem: passt am besten?
3.5 4.0 4.5
5.0 5.5 6.0
Vorschlag 2
Prof. Burgard (FU Berlin) Schließende Se 21/22
7 8 9 10 11 12
Abstand der Gerade zu den Punkten soll minimiert werden. Man nimmt hierbei in der Regel den vertikalen Abstand.
Hat die Gerade die Form: y = β1 + β2x, so ist der vertikale Abstand des Punktes (xi , yi ) zur Geraden: |yi − (β1 + β2xi )|.
Abstände Anpassung 1 Abstände Anpassung 2
3.5 4.0 4.5 5.0 5.5 6.0 3.5 4.0 4.5 5.0 xx
Prof. Burgard (FU Berlin) Schließende Se 21/22
7 8 9 10 11 12
7 8 9 10 11 12
Distanzmaße
Für den Gesamtabstand Q könnte man folgende Distanzmaße wählen: a) Q = i yi − (β1 + β2xi )
Nachteil: positive und negative Abstände heben sich auf. b) Q = i |yi − (β1 + β2xi )|
Nachteil: Schwer zu handhaben c) Q=i(yi −(β1+β2xi))2.
Wird dieser Abstand minimiert, so spricht man von der „kleinste “.
Prof. Burgard (FU Berlin) Schließende Se 21/22 8 / 68
: Nicht in jedem Fall ist ein linearer Zusammenhang angemessen:
4.5 5.0 5.5 6.0 6.5 7.0 4.5 5.0 5.5 6.0 6.5 7.0 xx
Prof. Burgard (FU Berlin) Schließende Se 21/22
5.5 6.0 6.5
7.5 8.0 8.5
lineare Regressionsmodell
Übersicht
Das lineare Regressionsmodell
Die Kleinste-Quadrate-Schätzung
Das empirische Bestimmtheitsmaß R2 Konfidenzintervalle und zur Regression
Prof. Burgard (FU Berlin) Schließende Se 21/22 10 / 68
lineare einfache lineare : (xi,yi) i = 1,…,n
Bezeichnung:
xi : unabhängige Variable yi : abhängige Variable
Modell und Modellannahmen:
yi = β1 + β2xi + εi
(i) ε1, . . . , εn sind identisch verteilte Zufallsvariablen mit:
E(εi) = 0 V(εi) = σ2
(ii) ε1,…,εn sindunabhängig
sind zu prüfen!
(i = 1, . . . , n)
Prof. Burgard (FU Berlin) Schließende Se 21/22 11 / 68
lineare allgemeine lineare ̈r jede Beobachtung i registriert man nun P unabhängige Variablen xi,1,…,xi,p,…,xi,P (die sogenannten „Kovariaten“) und die abhängige Variable yi .
Modell und Modellannahmen:
yi =βpxi,p+εi (i=1,…,n)
(i) ε1, . . . , εn sind identisch verteilte Zufallsvariablen mit:
E(εi) = 0 V(εi) = σ2
(ii) ε1,…,εn sindunabhängig
(iii) εi und Xi,p (p = 1, . . . , P) sind unkorreliert.
Auch hier sind die Modellannahmen zu überprüfen!
Prof. Burgard (FU Berlin) Schließende Se 21/22 12 / 68
lineare Regressionsmodell
Alternative Formulierung
P E(Yi|Xi,1 = xi,1,…,Xi,P = xi,P) = βpxi,p
p=1 V(Yi|Xi,1 = xi,1,…,Xi,P = xi,P) = σε2
undYi (i=1,…,n)sindbeigegebenenKovariatenwertenunabhängig. Damit ist die Prognose mit dem Modell relativ einfach: Für beliebige
x1,…,xP gilt
P E(Y|x1,…,xP) = βpxp
Prof. Burgard (FU Berlin) Schließende Se 21/22 13 / 68
Vorhersage
Prof. Burgard (FU Berlin) Schließende Se 21/22 14 / 68
8 10 12 14
lineare : Margarine
Der Verkaufsleiter einer Margarine-Firma ist mit dem mengenmäßigen Absatz seiner Marke nicht zufrieden. Er möchte wissen, von welchen Faktoren, die er beeinflussen kann, der Absatz im Wesentlichen abhängt. Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn verschiedenen Verkaufsgebieten. Dabei sind:
abgesetzte im Verkaufsgebiet i Preis pro Karton im Verkaufsgebiet i Verkaufsförderung (in Euro) im Verkaufsgebiet i
Prof. Burgard (FU Berlin) Schließende Se 21/22 15 / 68
lineare : Margarine (Cont’d)
12.50 2000 10.00 550
Wir erhalten also als Modell:
xi ,3 9.95 1000
2298 = β1 + 1814 = β1 + 1647 = β1 + 1469 = β1 +
969=β1 + 1918 = β1 + 1810 = β1 + 1896 = β1 + 1715 = β1 + 1966 = β1 +
12.50β2 + 10.00β2 + 9.95β2 + 11.50β2 + 12.00β2 + 10.00β2 + 8.00β2 + 9.00β2 + 9.50β2 + 12.50β2 +
2000β3 550β3 1000β3 800β3 0β3 1500β3 800β3 1200β3 1100β3 1300β3
+ ε1 + ε2 + ε3 + ε4 +ε5 + ε6 +ε7 + ε8 + ε9 + ε10
11.50 800 12.00 0 10.00 1500
8.00 800 9.00 1200 9.50 1100
12.50 1300
Prof. Burgard
(FU Berlin)
Schließende Se 21/22
lineare : Margarine (Cont’d)
können wir unter Verwendung von Matrizen viel kompakter darstellen:
2298 1 12.50
1814 1 10.00
1647 1 9.95
1469 1 11.50
969 = 1 12.00 1918 1 10.00
ε3 ε4
1810 1 8.00 1896 1 9.00 1200 1715 1 9.50 1100
1 12.50 1300
Y = Xβ + ε
ε8 ε9
Allgemein schreiben wir:
Die Matrix X wird „Designmatrix“ genannt.
0· β2 +ε5 1500 ε6
800 β3 ε7
Prof. Burgard (FU Berlin) Schließende Se 21/22
lineare der über den Einfluss von Merkmalen auf den Erwartungswert eines „abhängigen“ Merkmals treffen
Die Verwendung des Ausdrucks „abhängiges“ Merkmal bzw. „abhängige“ Variable impliziert keine Kausalität. Es werden lediglich Aussagen darüber gemacht, wie sich der Erwartungswert des „abhängigen“ Merkmals ändert, wenn man die „unabhängigen“ Merkmale, auf die bedingt wird, ändert.
Prof. Burgard (FU Berlin) Schließende Se 21/22 18 / 68
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Übersicht
Das lineare Regressionsmodell
Die Kleinste-Quadrate-Schätzung
Das empirische Bestimmtheitsmaß R2 Konfidenzintervalle und zur Regression
Prof. Burgard (FU Berlin) Schließende Se 21/22 19 / 68
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Die Kleinste-Quadrate-Schätzung
existieren 2 Bezeichnungen: Least Square Estimator (LSE) oder Ordinary Least Square (OLS)-Estimator = „gewöhnliche kleinste Quadrate“ Schätzung.
β = (β1, . . . , βP )′ soll so geschätzt werden, dass die Summe der Quadrate der Prognosefehler minimal wird:
βˆpxi,p p=1
(i = 1,…,n)
ˆ22 Q(β)= (Y−Y)= εˆ
Bezeichnungen:
• Beobachtungsvektor: Y = (Y1, . . . , Yn)′ • Prognosevektor: Yˆ = (Yˆ1, . . . , Yˆn)′
Prof. Burgard (FU Berlin) Schließende Se 21/22
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Herleitung des KQ-Schätzers
Die Kleinste-Quadrate-Schätzung wählt βˆ so, dass der (euklidische) Abstand zwischen dem resultierenden Prognosevektor Yˆ und dem Beobachtungsvektor Y
ˆˆ2 Y − Y = ( Y i − Y i )
minimal wird.
Für die Kleinste-Quadrate-Schätzung ist es vorteilhaft, den Prognosevektor als Matrixprodukt der Kovariaten mit dem Parametervektor
βˆ = ( βˆ 1 , . . . , βˆ P ) ′
Prof. Burgard (FU Berlin) Schließende Se 21/22 21 / 68
auszudrücken.
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Matrix der Kovariaten und Prognosevektor
x1,1 x1,2 ··· x1,P . .
X=. . xn,1 xn,2 · · · xn,P
Jede Zeile enthält die Kovariatenwerte einer Untersuchungseinheit. entspricht einer Kovariaten. Dimension der Matrix: n × P
Pp = 1 x 1 , p βˆ p ˆ ˆ .
Y = Xβ = . Pp = 1 x n , p βˆ p
Prof. Burgard (FU Berlin) Schließende Se 21/22
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Schätzung von β Ziel:
ˆ2′′ Q(β)=minQ(β)=min εˆ =minεˆεˆ=min (Y −Xβ)(Y −Xβ)
Q(β) Q(β) =
lässt sich vereinfachen (Y − Xβ)′(Y − Xβ)
(Y′ −β′X′)(Y −Xβ)
Y′Y −β′X′Y −Y′Xβ+β′X′Xβ Y ′Y − 2β′X′Y + β′X′Xβ
= Diffenzieren nach βˆ liefert nun:
∂Q(β) = −2X′Y + 2X′Xβ ∂β
Prof. Burgard (FU Berlin)
Schließende Se 21/22
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Schätzung von β (Cont’d)
Um das Minimum βˆ zu finden, setzen wir die erste Ableitung Null: 0 = −2X′Y + 2X′Xβˆ
abhängige Variable
und für die Residuen
bestimmen.
Yˆ = X βˆ εˆ = Y − X βˆ
= X′Y (Normalgleichung)
= (X′X)−1X′Y
Mit dieser Parameterschätzung lassen sich nun die Schätzwerte für die
Prof. Burgard (FU Berlin) Schließende Se 21/22 24 / 68
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Momenten-Matrix
(X′X)−1 bezeichnet die Inverse der Momenten-Matrix X′X; Dimension = P × P:
x2 ··· xi,1xi,P i i,1 i
′. . XX=. .
xi,Pxi,1 ··· x2
Der (P × 1)-Vektor hat die folgenden Gestalt: ixi,1yi
′ . XY=.
Die Inversion der symmetrischen Momentenmatrix X′X wird von allen Statistik-Software-Paketen, die einen Regressionsteil anbieten, durchgeführt.
Prof. Burgard (FU Berlin) Schließende Se 21/22 25 / 68
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Speziallfall: Einfache lineare Regression
Im Falle der Einfach-Regression mit X1 = 1 und X2 = X kann die Kleinste-Quadrate-Schätzung noch relativ einfach explizit aufgelöst werden. Die Normalgleichung (NG) liefert in diesem Fall:
n ixi βˆ1 iyi xx2 βˆ=xy
iiii2iii Dies ergibt die Gleichungen:
nβˆ1+xiβˆ2 = yi ii
xiβˆ1+xi2βˆ2 = xiyi iii
Aus der ersten Gleichung folgt:
βˆ 1 = y ̄ − βˆ 2 x ̄
Prof. Burgard (FU Berlin) Schließende Se 21/22 26 / 68
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Speziallfall: Einfache lineare Regression (Cont’d)
Einsetzen von βˆ1 in die zweite Gleichung liefert:
y ̄xi −βˆ2x ̄xi +βˆ2xi2 = xiyi iiii
x i 2 − x ̄ x i = x i ( y i − y ̄ )
xy − x ̄y ̄ x 2 − ( x ̄ ) 2
Prof. Burgard
(FU Berlin)
Schließende Se 21/22
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Speziallfall: Einfache lineare Regression (Cont’d)
Beziehung zwischen βˆ2 und der empirischen Korrelation rxy : βˆ2 = sy rxy wegen rxy = sxy
Damit ist der empirische Korrelationskoeffizient proportional zum Steigungskoeffizienten βˆ2 einer linearen Regression von Y auf X. Dies zeigt nochmals, dass rxy lediglich ein Maß für lineare Zusammenhänge ist.
Die Gleichung y ̄ = βˆ1 + βˆ2x ̄ besagt, dass die Regressionsgerade an der Stelle x ̄ gerade den Wert y ̄ annimmt. Sie verläuft damit immer durch den Schwerpunkt (x ̄, y ̄) des Streudiagramms.
Prof. Burgard (FU Berlin) Schließende Se 21/22 28 / 68
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Beispiel: Haushaltseinkommen & Konsumausgaben
Es wird die Abhängigkeit der Konsumausgaben (Y) vom Nettoeinkommen (X) bei verschiedenen Haushalten in Deutschland betrachtet. liegen vor (Angaben in Euro):
i 1 2 3 4 5 6 7 8 9 10 xi 1105 1399 1726 1897 1629 1943 3662 3387 4191 4223 yi 1115 1342 1418 1448 1401 1740 2757 2622 3017 3142 Quelle: Einkommens- und Verbrauchsstichprobe 2008; wollen ein einfaches lineares Regressionsmodell aufstellen, um den Zusammenhang zwischen Konsumausgaben und Nettoeinkommen zu untersuchen.
Prof. Burgard (FU Berlin) Schließende Se 21/22 29 / 68
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
Dabei ist das Nettoeinkommen die unabhängige Variable, die Konsumausgaben die abhängige Variable. lautet:
yˆ = βˆ 1 + βˆ 2 x
Um β1 und β2 zu schätzen, erweitern wir die Tabelle: i xi yi xi2 xiyi
1 1232075 2 1877459 3 2447468 4 2746856 5 2282229 6 3380820
10096134 8 8880714 9 12644247
13287518 25168 20002 76515736 58875519
Dies ergibt:
x ̄ = 2516,8,
y ̄ = 2000,2,
x 2 = 7651573,6, xy = 5881551,9.
Prof. Burgard (FU Berlin) Schließende Se 21/22 30 / 68
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
Nun können wir die Parameter des Modells schätzen:
xy − x ̄y ̄ x 2 − ( x ̄ ) 2
5887551, 9 − 2516, 8 · 2000, 2 7651573, 6 − 2516, 82
βˆ1 = y ̄−βˆ2x ̄
= 2000,2 − 0,648 · 2516,8
Die Regressionsgerade hat also die Gestalt:
yˆ = 369, 61 + 0, 648x
Prof. Burgard (FU Berlin) Schließende Se 21/22 31 / 68
Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
Es ergibt sich folgendes Streudiagramm (mit eingezeichneter Regressionsgeraden):
1000 1500 2000 2500 3000 3500 4000
Haushaltsnettoeinkommen in Euro
Prof. Burgard (FU Berlin) Schließende Se 21/22 32 / 68
Konsumausgaben in Euro
1500 2000 2500 3000
empirische Bestimmtheitsmaß R2
Übersicht
Das lineare Regressionsmodell
Die Kleinste-Quadrate-Schätzung
Das empirische Bestimmtheitsmaß R2 Konfidenzintervalle und zur Regression
Prof. Burgard (FU Berlin) Schließende Se 21/22 33 / 68
empirische Bestimmtheitsmaß R2
Varianz der Residuen und der ̈hle als Schätzung für die Residuen εi :
εˆ = y − yˆ
i=1 Maß für die Varianz von yi :
Y i − Y ̄ 2
einfache Regression ˆ ˆ = yi − β1 − β2xi
Maß für die Varianz von εˆ : i
2 2 εˆ−εˆ= εˆ
Prof. Burgard (FU Berlin)
Schließende Se 21/22
empirische Bestimmtheitsmaß R2
Varianzzerlegung – grafisch
(1) Gesamtabweichung:
( y i − y ̄ ) 2
erklärte Abweichung:
( yˆ − y ̄ ) 2 i
unerklärte Abweichung:
( y − yˆ ) 2 ii
Prof. Burgard
(FU Berlin)
Schließende Se 21/22
empirische Bestimmtheitsmaß R2
Varianzzerlegung
(y −y ̄)2 = (yˆ −y ̄)2+(y −yˆ)2 iiii
erkl. Abw. unerkl. Abw.
1 − unerkl. Abw. Ges.abw.
Ges.abw. − unerkl. Abw. Ges.abw.
„erklärte Abweichung“ „Gesamtabweichung“
Prof. Burgard
(FU Berlin)
Schließende Se 21/22
empirische Bestimmtheitsmaß R2
Das empirische Bestimmtheitsmaß R2 Definition ( ß)
R2=1− i=1 i
ni = 1 Y i − Y ̄ 2
• man erhält im Fall der einfachen Regression: R2 = r2
• wenn die Varianz von Y nahe der Varianz von ε ist, ist R2 nahe der 0
• wenn die Varianz von Y viel größer als die Varianz von ε ist, ist R2
nahe der 1
• der Fall, dass die Varianz von Y kleiner als die von ε ist, ist nicht möglich (siehe Varianzzerlegung)
Prof. Burgard (FU Berlin) Schließende Se 21/22 37 / 68
empirische Bestimmtheitsmaß R2
Interpretation von R2
• R2 schwankt zwischen 0 und 1
• wenn R2 nahe der 1 ist, heißt das, dass die erklärte Abweichung nahe der Gesamtabweichung liegt und somit ein linearer Zusammenhang besteht, der durch die lineare Regression sehr gut beschrieben werden kann
• ist R2 nahe der 0, so ist die unerklärte Abweichung nahe der Gesamtabweichung; ein linearer Zusammenhang ist in diesem Fall nicht vorhanden, sodass eine lineare Regression zu keiner guten Approximation führt
• das Bestimmtheitsmaß eignet sich insbesondere zum Vergleich mehrerer Regressionen mit verschiedenen unabhängigen Variablen
Prof. Burgard (FU Berlin) Schließende Se 21/22 38 / 68
empirische Bestimmtheitsmaß R2
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
Im RStudio können βˆ1 und βˆ2 natürlich problemlos „per Hand“ berechnet werden. Vorzugsweise wählt man jedoch die lm-Funktion:
# Daten einlesen
daten <- read.csv2("nettoek_konsum.csv") # schätzen
modell <- lm(Konsumausgaben ~ HHNettoek, data=daten) summary(modell)
Prof. Burgard (FU Berlin) Schließende Se 21/22 39 / 68
empirische Bestimmtheitsmaß R2
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
lm(formula = Konsumausgaben ~ HHNettoek, data = daten)
Residuals:
Min 1Q Median 3Q Max
-150.64 -56.91 22.16 51.63 111.55
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 369.61215 63.23315 5.845 0.000385 *** HHNettoek 0.64788 0.02286 28.342 2.6e-09 ***
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 82.97 on 8 degrees of freedom
Multiple R-squared: 0.9901, Adjusted R-squared: 0.9889 F-statistic: 803.3 on 1 and 8 DF, p-value: 2.596e-09
Prof. Burgard (FU Berlin) Schließende Se 21/22 40 / 68
empirische Bestimmtheitsmaß R2
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
# Streudiagramm mit Regressionsgerade
plot(Konsumausgaben ~ HHNettoek, data=daten) abline(modell, col=”red”)
1000 1500 2000 2500 3000 3500 4000
Haushaltsnettoeinkommen in Euro
Prof. Burgard (FU Berlin) Schließende Se 21/22 41 / 68
Konsumausgaben in Euro
1500 2000 2500 3000
empirische Bestimmtheitsmaß R2
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
Um eine Vorhersage der Konsumausgaben in einem Haushalt mit einem Nettoeinkommen von 2500 zu machen, geben wir
# Vorhersage
neu <- data.frame(HHNettoek=2500) predict(modell, neu)
ein. Die Ausgabe ist 1989.316 (= 369, 61 + 0, 648 · 2500).
Prof. Burgard (FU Berlin) Schließende Se 21/22 42 / 68
empirische Bestimmtheitsmaß R2
Übung: Renditen von Wertpapieren
Es ist bekannt, dass die Kurse verschiedener Aktien i.d.R. nicht unabhängig voneinander sind. Die Begriffe „Hausse“ und „Baisse“ stehen für Phasen, in denen die meisten Aktienkurse steigen bzw. fallen. soll der Zusammenhang zwischen der Monatsrendite der Aktie der Münchener Rückversicherung und dem DAX untersucht werden.
a) die _mtl.csv in das RStudio. Uns interessieren im Folgenden die Variablen MRUECK und DAFOX.
b) Boxplots für die Monatsrenditen der beiden Aktien.
c) ein Streudiagramm für die Monatsrenditen der beide
程序代写 CS代考 加微信: powcoder QQ: 1823890830 Email: powcoder@163.com