CS代考 Regressionsanalyse

Regressionsanalyse
13. Regressionsanalyse
Prof. Burgard (FU Berlin) Schließende Se 21/22 1 / 68

Regressionsanalyse
Übersicht
Das lineare Regressionsmodell
Die Kleinste-Quadrate-Schätzung
Das empirische Bestimmtheitsmaß R2 Konfidenzintervalle und zur Regression
Prof. Burgard (FU Berlin) Schließende Se 21/22 2 / 68

Übersicht
Das lineare Regressionsmodell
Die Kleinste-Quadrate-Schätzung
Das empirische Bestimmtheitsmaß R2 Konfidenzintervalle und zur Regression
Prof. Burgard (FU Berlin) Schließende Se 21/22 3 / 68

Motivation: Streudiagramm
3.5 4.0 4.5
5.0 5.5 6.0
zwischen x und y lässt sich durch eine Gerade beschreiben.
Streudiagramm
Prof. Burgard (FU Berlin) Schließende Se 21/22 4 / 68
7 8 9 10 11 12

Problem: passt am besten?
3.5 4.0 4.5
5.0 5.5 6.0
Vorschlag 1
Prof. Burgard (FU Berlin) Schließende Se 21/22
7 8 9 10 11 12

Problem: passt am besten?
3.5 4.0 4.5
5.0 5.5 6.0
Vorschlag 2
Prof. Burgard (FU Berlin) Schließende Se 21/22
7 8 9 10 11 12

Abstand der Gerade zu den Punkten soll minimiert werden. Man nimmt hierbei in der Regel den vertikalen Abstand.
Hat die Gerade die Form: y = β1 + β2x, so ist der vertikale Abstand des Punktes (xi , yi ) zur Geraden: |yi − (β1 + β2xi )|.
Abstände Anpassung 1 Abstände Anpassung 2
3.5 4.0 4.5 5.0 5.5 6.0 3.5 4.0 4.5 5.0 xx
Prof. Burgard (FU Berlin) Schließende Se 21/22
7 8 9 10 11 12
7 8 9 10 11 12

Distanzmaße
Für den Gesamtabstand Q könnte man folgende Distanzmaße wählen: a) Q = 􏰗i yi − (β1 + β2xi )
Nachteil: positive und negative Abstände heben sich auf. b) Q = 􏰗i |yi − (β1 + β2xi )|
Nachteil: Schwer zu handhaben c) Q=􏰗i(yi −(β1+β2xi))2.
Wird dieser Abstand minimiert, so spricht man von der „kleinste “.
Prof. Burgard (FU Berlin) Schließende Se 21/22 8 / 68

: Nicht in jedem Fall ist ein linearer Zusammenhang angemessen:
4.5 5.0 5.5 6.0 6.5 7.0 4.5 5.0 5.5 6.0 6.5 7.0 xx
Prof. Burgard (FU Berlin) Schließende Se 21/22
5.5 6.0 6.5
7.5 8.0 8.5

lineare Regressionsmodell
Übersicht
Das lineare Regressionsmodell
Die Kleinste-Quadrate-Schätzung
Das empirische Bestimmtheitsmaß R2 Konfidenzintervalle und zur Regression
Prof. Burgard (FU Berlin) Schließende Se 21/22 10 / 68

lineare einfache lineare : (xi,yi) i = 1,…,n
Bezeichnung:
xi : unabhängige Variable yi : abhängige Variable
Modell und Modellannahmen:
yi = β1 + β2xi + εi
(i) ε1, . . . , εn sind identisch verteilte Zufallsvariablen mit:
E(εi) = 0 V(εi) = σ2
(ii) ε1,…,εn sindunabhängig
sind zu prüfen!
(i = 1, . . . , n)
Prof. Burgard (FU Berlin) Schließende Se 21/22 11 / 68

lineare allgemeine lineare ̈r jede Beobachtung i registriert man nun P unabhängige Variablen xi,1,…,xi,p,…,xi,P (die sogenannten „Kovariaten“) und die abhängige Variable yi .
Modell und Modellannahmen:
yi =􏰉βpxi,p+εi (i=1,…,n)
(i) ε1, . . . , εn sind identisch verteilte Zufallsvariablen mit:
E(εi) = 0 V(εi) = σ2
(ii) ε1,…,εn sindunabhängig
(iii) εi und Xi,p (p = 1, . . . , P) sind unkorreliert.
Auch hier sind die Modellannahmen zu überprüfen!
Prof. Burgard (FU Berlin) Schließende Se 21/22 12 / 68

lineare Regressionsmodell
Alternative Formulierung
P E(Yi|Xi,1 = xi,1,…,Xi,P = xi,P) = 􏰉βpxi,p
p=1 V(Yi|Xi,1 = xi,1,…,Xi,P = xi,P) = σε2
undYi (i=1,…,n)sindbeigegebenenKovariatenwertenunabhängig. Damit ist die Prognose mit dem Modell relativ einfach: Für beliebige
x1,…,xP gilt
P E(Y|x1,…,xP) = 􏰉βpxp
Prof. Burgard (FU Berlin) Schließende Se 21/22 13 / 68

Vorhersage
Prof. Burgard (FU Berlin) Schließende Se 21/22 14 / 68
8 10 12 14

lineare : Margarine
Der Verkaufsleiter einer Margarine-Firma ist mit dem mengenmäßigen Absatz seiner Marke nicht zufrieden. Er möchte wissen, von welchen Faktoren, die er beeinflussen kann, der Absatz im Wesentlichen abhängt. Zu diesem Zweck nimmt er eine Stichprobe von Beobachtungen aus zehn verschiedenen Verkaufsgebieten. Dabei sind:
abgesetzte im Verkaufsgebiet i Preis pro Karton im Verkaufsgebiet i Verkaufsförderung (in Euro) im Verkaufsgebiet i
Prof. Burgard (FU Berlin) Schließende Se 21/22 15 / 68

lineare : Margarine (Cont’d)
12.50 2000 10.00 550
Wir erhalten also als Modell:
xi ,3 9.95 1000
2298 = β1 + 1814 = β1 + 1647 = β1 + 1469 = β1 +
969=β1 + 1918 = β1 + 1810 = β1 + 1896 = β1 + 1715 = β1 + 1966 = β1 +
12.50β2 + 10.00β2 + 9.95β2 + 11.50β2 + 12.00β2 + 10.00β2 + 8.00β2 + 9.00β2 + 9.50β2 + 12.50β2 +
2000β3 550β3 1000β3 800β3 0β3 1500β3 800β3 1200β3 1100β3 1300β3
+ ε1 + ε2 + ε3 + ε4 +ε5 + ε6 +ε7 + ε8 + ε9 + ε10
11.50 800 12.00 0 10.00 1500
8.00 800 9.00 1200 9.50 1100
12.50 1300
Prof. Burgard
(FU Berlin)
Schließende Se 21/22

lineare : Margarine (Cont’d)
können wir unter Verwendung von Matrizen viel kompakter darstellen:
2298 1 12.50
1814 1 10.00
 1647   1 9.95
1469 1 11.50  
 969 = 1 12.00 1918 1 10.00
ε3 ε4 
 1810   1 8.00 1896 1 9.00 1200  1715   1 9.50 1100 
1 12.50 1300
Y = Xβ + ε
ε8   ε9 
Allgemein schreiben wir:
Die Matrix X wird „Designmatrix“ genannt.
0· β2 +ε5  1500   ε6 
800  β3  ε7 
Prof. Burgard (FU Berlin) Schließende Se 21/22

lineare der über den Einfluss von Merkmalen auf den Erwartungswert eines „abhängigen“ Merkmals treffen
Die Verwendung des Ausdrucks „abhängiges“ Merkmal bzw. „abhängige“ Variable impliziert keine Kausalität. Es werden lediglich Aussagen darüber gemacht, wie sich der Erwartungswert des „abhängigen“ Merkmals ändert, wenn man die „unabhängigen“ Merkmale, auf die bedingt wird, ändert.
Prof. Burgard (FU Berlin) Schließende Se 21/22 18 / 68

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Übersicht
Das lineare Regressionsmodell
Die Kleinste-Quadrate-Schätzung
Das empirische Bestimmtheitsmaß R2 Konfidenzintervalle und zur Regression
Prof. Burgard (FU Berlin) Schließende Se 21/22 19 / 68

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Die Kleinste-Quadrate-Schätzung
existieren 2 Bezeichnungen: Least Square Estimator (LSE) oder Ordinary Least Square (OLS)-Estimator = „gewöhnliche kleinste Quadrate“ Schätzung.
β = (β1, . . . , βP )′ soll so geschätzt werden, dass die Summe der Quadrate der Prognosefehler minimal wird:
􏰉βˆpxi,p p=1
(i = 1,…,n)
􏰉ˆ2􏰉2 Q(β)= (Y−Y)= εˆ
Bezeichnungen:
• Beobachtungsvektor: Y = (Y1, . . . , Yn)′ • Prognosevektor: Yˆ = (Yˆ1, . . . , Yˆn)′
Prof. Burgard (FU Berlin) Schließende Se 21/22

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Herleitung des KQ-Schätzers
Die Kleinste-Quadrate-Schätzung wählt βˆ so, dass der (euklidische) Abstand zwischen dem resultierenden Prognosevektor Yˆ und dem Beobachtungsvektor Y
ˆ􏰝ˆ2 􏰦􏰦 Y − Y 􏰦􏰦 = ( Y i − Y i )
minimal wird.
Für die Kleinste-Quadrate-Schätzung ist es vorteilhaft, den Prognosevektor als Matrixprodukt der Kovariaten mit dem Parametervektor
βˆ = ( βˆ 1 , . . . , βˆ P ) ′
Prof. Burgard (FU Berlin) Schließende Se 21/22 21 / 68
auszudrücken.

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Matrix der Kovariaten und Prognosevektor
 x1,1 x1,2 ··· x1,P  . .
X=. . xn,1 xn,2 · · · xn,P
Jede Zeile enthält die Kovariatenwerte einer Untersuchungseinheit. entspricht einer Kovariaten. Dimension der Matrix: n × P
 􏰗 Pp = 1 x 1 , p βˆ p  ˆ ˆ  . 
Y = Xβ =  .  􏰗 Pp = 1 x n , p βˆ p
Prof. Burgard (FU Berlin) Schließende Se 21/22

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Schätzung von β Ziel:
ˆ􏰉2′􏰃′􏰄 Q(β)=minQ(β)=min εˆ =minεˆεˆ=min (Y −Xβ)(Y −Xβ)
Q(β) Q(β) =
lässt sich vereinfachen (Y − Xβ)′(Y − Xβ)
(Y′ −β′X′)(Y −Xβ)
Y′Y −β′X′Y −Y′Xβ+β′X′Xβ Y ′Y − 2β′X′Y + β′X′Xβ
= Diffenzieren nach βˆ liefert nun:
∂Q(β) = −2X′Y + 2X′Xβ ∂β
Prof. Burgard (FU Berlin)
Schließende Se 21/22

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Schätzung von β (Cont’d)
Um das Minimum βˆ zu finden, setzen wir die erste Ableitung Null: 0 = −2X′Y + 2X′Xβˆ
abhängige Variable
und für die Residuen
bestimmen.
Yˆ = X βˆ εˆ = Y − X βˆ
= X′Y (Normalgleichung)
= (X′X)−1X′Y
Mit dieser Parameterschätzung lassen sich nun die Schätzwerte für die
Prof. Burgard (FU Berlin) Schließende Se 21/22 24 / 68

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Momenten-Matrix
(X′X)−1 bezeichnet die Inverse der Momenten-Matrix X′X; Dimension = P × P:
 􏰗 x2 ··· 􏰗 xi,1xi,P  i i,1 i
′. . XX=. . 
􏰗 xi,Pxi,1 ··· 􏰗 x2
Der (P × 1)-Vektor hat die folgenden Gestalt: 􏰗ixi,1yi 
′  .  XY=.
Die Inversion der symmetrischen Momentenmatrix X′X wird von allen Statistik-Software-Paketen, die einen Regressionsteil anbieten, durchgeführt.
Prof. Burgard (FU Berlin) Schließende Se 21/22 25 / 68

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Speziallfall: Einfache lineare Regression
Im Falle der Einfach-Regression mit X1 = 1 und X2 = X kann die Kleinste-Quadrate-Schätzung noch relativ einfach explizit aufgelöst werden. Die Normalgleichung (NG) liefert in diesem Fall:
􏰅n 􏰗ixi 􏰆􏰅βˆ1􏰆 􏰅􏰗iyi􏰆 􏰗x􏰗x2 βˆ=􏰗xy
iiii2iii Dies ergibt die Gleichungen:
nβˆ1+􏰉xiβˆ2 = 􏰉yi ii
􏰉xiβˆ1+􏰉xi2βˆ2 = 􏰉xiyi iii
Aus der ersten Gleichung folgt:
βˆ 1 = y ̄ − βˆ 2 x ̄
Prof. Burgard (FU Berlin) Schließende Se 21/22 26 / 68

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Speziallfall: Einfache lineare Regression (Cont’d)
Einsetzen von βˆ1 in die zweite Gleichung liefert:
y ̄􏰉xi −βˆ2x ̄􏰉xi +βˆ2􏰉xi2 = 􏰉xiyi iiii
􏰉 x i 2 − x ̄ 􏰉 x i = 􏰉 x i ( y i − y ̄ )
xy − x ̄y ̄ x 2 − ( x ̄ ) 2
Prof. Burgard
(FU Berlin)
Schließende Se 21/22

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Speziallfall: Einfache lineare Regression (Cont’d)
Beziehung zwischen βˆ2 und der empirischen Korrelation rxy : βˆ2 = sy rxy wegen rxy = sxy
Damit ist der empirische Korrelationskoeffizient proportional zum Steigungskoeffizienten βˆ2 einer linearen Regression von Y auf X. Dies zeigt nochmals, dass rxy lediglich ein Maß für lineare Zusammenhänge ist.
Die Gleichung y ̄ = βˆ1 + βˆ2x ̄ besagt, dass die Regressionsgerade an der Stelle x ̄ gerade den Wert y ̄ annimmt. Sie verläuft damit immer durch den Schwerpunkt (x ̄, y ̄) des Streudiagramms.
Prof. Burgard (FU Berlin) Schließende Se 21/22 28 / 68

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Beispiel: Haushaltseinkommen & Konsumausgaben
Es wird die Abhängigkeit der Konsumausgaben (Y) vom Nettoeinkommen (X) bei verschiedenen Haushalten in Deutschland betrachtet. liegen vor (Angaben in Euro):
i 1 2 3 4 5 6 7 8 9 10 xi 1105 1399 1726 1897 1629 1943 3662 3387 4191 4223 yi 1115 1342 1418 1448 1401 1740 2757 2622 3017 3142 Quelle: Einkommens- und Verbrauchsstichprobe 2008; wollen ein einfaches lineares Regressionsmodell aufstellen, um den Zusammenhang zwischen Konsumausgaben und Nettoeinkommen zu untersuchen.
Prof. Burgard (FU Berlin) Schließende Se 21/22 29 / 68

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
Dabei ist das Nettoeinkommen die unabhängige Variable, die Konsumausgaben die abhängige Variable. lautet:
yˆ = βˆ 1 + βˆ 2 x
Um β1 und β2 zu schätzen, erweitern wir die Tabelle: i xi yi xi2 xiyi
1 1232075 2 1877459 3 2447468 4 2746856 5 2282229 6 3380820
10096134 8 8880714 9 12644247
13287518 25168 20002 76515736 58875519
Dies ergibt:
x ̄ = 2516,8,
y ̄ = 2000,2,
x 2 = 7651573,6, xy = 5881551,9.
Prof. Burgard (FU Berlin) Schließende Se 21/22 30 / 68

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
Nun können wir die Parameter des Modells schätzen:
xy − x ̄y ̄ x 2 − ( x ̄ ) 2
5887551, 9 − 2516, 8 · 2000, 2 7651573, 6 − 2516, 82
βˆ1 = y ̄−βˆ2x ̄
= 2000,2 − 0,648 · 2516,8
Die Regressionsgerade hat also die Gestalt:
yˆ = 369, 61 + 0, 648x
Prof. Burgard (FU Berlin) Schließende Se 21/22 31 / 68

Regressionsanalyse
Die Kleinste-Quadrate-Schätzung
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
Es ergibt sich folgendes Streudiagramm (mit eingezeichneter Regressionsgeraden):
1000 1500 2000 2500 3000 3500 4000
Haushaltsnettoeinkommen in Euro
Prof. Burgard (FU Berlin) Schließende Se 21/22 32 / 68
Konsumausgaben in Euro
1500 2000 2500 3000

empirische Bestimmtheitsmaß R2
Übersicht
Das lineare Regressionsmodell
Die Kleinste-Quadrate-Schätzung
Das empirische Bestimmtheitsmaß R2 Konfidenzintervalle und zur Regression
Prof. Burgard (FU Berlin) Schließende Se 21/22 33 / 68

empirische Bestimmtheitsmaß R2
Varianz der Residuen und der ̈hle als Schätzung für die Residuen εi :
εˆ = y − yˆ
i=1 Maß für die Varianz von yi :
􏰉 􏰃 Y i − Y ̄ 􏰄 2
einfache Regression ˆ ˆ = yi − β1 − β2xi
Maß für die Varianz von εˆ : i
􏰉􏰃 􏰄2 􏰉2 εˆ−εˆ= εˆ
Prof. Burgard (FU Berlin)
Schließende Se 21/22

empirische Bestimmtheitsmaß R2
Varianzzerlegung – grafisch
(1) Gesamtabweichung:
􏰗 ( y i − y ̄ ) 2
erklärte Abweichung:
􏰗 ( yˆ − y ̄ ) 2 i
unerklärte Abweichung:
􏰗 ( y − yˆ ) 2 ii
Prof. Burgard
(FU Berlin)
Schließende Se 21/22

empirische Bestimmtheitsmaß R2
Varianzzerlegung
􏰉(y −y ̄)2 = 􏰉(yˆ −y ̄)2+􏰉(y −yˆ)2 iiii
􏰢 􏰡􏰠 􏰣 􏰢 􏰡􏰠 􏰣
erkl. Abw. unerkl. Abw.
1 − unerkl. Abw. Ges.abw.
Ges.abw. − unerkl. Abw. Ges.abw.
„erklärte Abweichung“ „Gesamtabweichung“
Prof. Burgard
(FU Berlin)
Schließende Se 21/22

empirische Bestimmtheitsmaß R2
Das empirische Bestimmtheitsmaß R2 Definition ( ß)
R2=1− i=1 i
􏰗 ni = 1 􏰃 Y i − Y ̄ 􏰄 2
• man erhält im Fall der einfachen Regression: R2 = r2
• wenn die Varianz von Y nahe der Varianz von ε ist, ist R2 nahe der 0
• wenn die Varianz von Y viel größer als die Varianz von ε ist, ist R2
nahe der 1
• der Fall, dass die Varianz von Y kleiner als die von ε ist, ist nicht möglich (siehe Varianzzerlegung)
Prof. Burgard (FU Berlin) Schließende Se 21/22 37 / 68

empirische Bestimmtheitsmaß R2
Interpretation von R2
• R2 schwankt zwischen 0 und 1
• wenn R2 nahe der 1 ist, heißt das, dass die erklärte Abweichung nahe der Gesamtabweichung liegt und somit ein linearer Zusammenhang besteht, der durch die lineare Regression sehr gut beschrieben werden kann
• ist R2 nahe der 0, so ist die unerklärte Abweichung nahe der Gesamtabweichung; ein linearer Zusammenhang ist in diesem Fall nicht vorhanden, sodass eine lineare Regression zu keiner guten Approximation führt
• das Bestimmtheitsmaß eignet sich insbesondere zum Vergleich mehrerer Regressionen mit verschiedenen unabhängigen Variablen
Prof. Burgard (FU Berlin) Schließende Se 21/22 38 / 68

empirische Bestimmtheitsmaß R2
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
Im RStudio können βˆ1 und βˆ2 natürlich problemlos „per Hand“ berechnet werden. Vorzugsweise wählt man jedoch die lm-Funktion:
# Daten einlesen
daten <- read.csv2("nettoek_konsum.csv") # schätzen modell <- lm(Konsumausgaben ~ HHNettoek, data=daten) summary(modell) Prof. Burgard (FU Berlin) Schließende Se 21/22 39 / 68 empirische Bestimmtheitsmaß R2 Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d) lm(formula = Konsumausgaben ~ HHNettoek, data = daten) Residuals: Min 1Q Median 3Q Max -150.64 -56.91 22.16 51.63 111.55 Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 369.61215 63.23315 5.845 0.000385 *** HHNettoek 0.64788 0.02286 28.342 2.6e-09 ***
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 82.97 on 8 degrees of freedom
Multiple R-squared: 0.9901, Adjusted R-squared: 0.9889 F-statistic: 803.3 on 1 and 8 DF, p-value: 2.596e-09
Prof. Burgard (FU Berlin) Schließende Se 21/22 40 / 68

empirische Bestimmtheitsmaß R2
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
# Streudiagramm mit Regressionsgerade
plot(Konsumausgaben ~ HHNettoek, data=daten) abline(modell, col=”red”)
1000 1500 2000 2500 3000 3500 4000
Haushaltsnettoeinkommen in Euro
Prof. Burgard (FU Berlin) Schließende Se 21/22 41 / 68
Konsumausgaben in Euro
1500 2000 2500 3000

empirische Bestimmtheitsmaß R2
Beispiel: Haushaltseinkommen & Konsumausgaben (Cont’d)
Um eine Vorhersage der Konsumausgaben in einem Haushalt mit einem Nettoeinkommen von 2500 zu machen, geben wir
# Vorhersage
neu <- data.frame(HHNettoek=2500) predict(modell, neu) ein. Die Ausgabe ist 1989.316 (= 369, 61 + 0, 648 · 2500). Prof. Burgard (FU Berlin) Schließende Se 21/22 42 / 68 empirische Bestimmtheitsmaß R2 Übung: Renditen von Wertpapieren Es ist bekannt, dass die Kurse verschiedener Aktien i.d.R. nicht unabhängig voneinander sind. Die Begriffe „Hausse“ und „Baisse“ stehen für Phasen, in denen die meisten Aktienkurse steigen bzw. fallen. soll der Zusammenhang zwischen der Monatsrendite der Aktie der Münchener Rückversicherung und dem DAX untersucht werden. a) die _mtl.csv in das RStudio. Uns interessieren im Folgenden die Variablen MRUECK und DAFOX. b) Boxplots für die Monatsrenditen der beiden Aktien. c) ein Streudiagramm für die Monatsrenditen der beide 程序代写 CS代考加微信: powcoder QQ: 1823890830 Email: powcoder@163.com

Related Posts