Prof. Universität Berlin
Institut für Statistik und Ökonometrie
Hinweise zur Probeklausur Schlieÿende Statistik
Probeklausur
– Die Probeklausur besteht aus zwei Teilen. Die Aufgaben aus Teil 1 sind mit dem RStudio am PC zu lösen, die Aufgaben aus Teil 2 sind klassisch auf dem Papier zu lösen. Die Klausurzeit kann frei eingeteilt werden. Es wird jedoch empfohlen, die Aufgaben aus Teil 1 zuerst zu lösen.
– auf keinen Fall mit Bleistift! Bleistift ist nicht dokumentenecht.
– bei Rechenaufgaben deutlich, wo das Endergebnis steht. zwei Endergebnisse angeben, die sich widersprechen, müssen wir das falsche Ergebnis werten.
– Alle Lösungen aus Teil 1 sollten auf dem Desktop gespeichert werden.
– daran, Ihr RSkript regelmäÿig am besten jeweils nach Lösung einer Teilaufgabe zu speichern.
– mit dem RStudio (Fehlermeldungen o.ä.) verständigen Sie durch Handzeichen die Aufsicht. Fehlermeldungen in keinem Fall eigenmächtig weg!
– Während der Klausur darf nicht aufs Internet/Intranet zugegrien werden.
– sind ausschlieÿlich ein beidseitig handschriftlich (!) beschriebenes Din-A4-Blatt, die vom Lehrstuhl bereitgestellte Befehlsreferenz sowie ein nicht-programmierbarer Taschenrechner erlaubt.
Aufgabe 1234Σ mögliche Punkte 30 30 30 30 120 erreichte ̈ende Statistik
Prof. Universität Berlin Institut für Statistik und Ökonometrie Schlieÿende Statistik Probe
Teil 1: R-Aufgaben
Lösen Sie die Aufgaben in diesem Teil mit dem RStudio am PC. Auf dem Aufgabenblatt notierte Lösun- gen werden für diesen Teil nicht gewertet! darauf, dass der Lösungsweg nachvollziehbar ist. pro Aufgabe nur ein RSkript, damit die Lösungen übersichtlich bleiben.
Aufgabe 1: (30 Punkte)
Temperaturen.csv enthält die durchschnittlichen täglichen April-Temperaturen, die in den letzten 10 Jahren in den Hauptstädten von Groÿbritannien und Indonesien beobachtet wurden.
Variable temperatur stadt
1 = London; 2 = Jakarta
a) den .csv in ein neues R-Skript. den [2] Datensatz daten.
b) zwei Vektoren tl und tj, welche jeweils die Temperaturen in London sowie Jakarta [2] enthalten. an, dass beide Variablen normalverteilt sind.
soll getestet werden, ob der Anteil der Tage, bei denen die Temperatur in London bei mindestens 10 Grad liegt, 55% übersteigt.
c) Hypothese sowie Alternative für dieses Testproblem. [2]
d) eine neue 0-1 kodierte Variable: warm = tl > 10 und führen Sie einen geeigneten [5] Test durch. Begründen Sie kurz .
e) Wie lautet die Testentscheidung zum Signikanzniveau α = 0, 02? Begründen Sie kurz. [2]
f) die asymptotische Verteilung der Teststatistik aus Aufgabenteil d) an. [2]
Nun soll gezeigt werden, dass die durchschnittliche Temperatur in Jakarta jene in London übersteigt.
g) Hypothese sowie Alternative für dieses Testproblem. [2]
h) Handelt es sich bei diesem Testproblem um eine verbundene oder unverbundene Stichprobe? [2] Begründen Sie kurz.
i) Boxplots, welche die Temperatur je Stadt enthalten. dabei auf eine [4] sinnvolle Beschriftung. Würden Sie anhand der Boxplots von gleichen Varianzen ausgehen? Begründen Sie kurz.
j) Welchen statistischen Test würden Sie auf Basis von h) und i) zur Überprüfung der Hypothese [4] empfehlen? Begründen Sie kurz und führen Sie den entsprechenden Test aus.
k) Treen Sie eine Testentscheidung zum Signikanzniveau α = 0, 01. Begründen Sie kurz.
l) aus k) inhaltlich in einem Satz.
Schlieÿende Statistik 2
Prof. Universität Berlin Institut für Statistik und Ökonometrie 2: (30 Punkte)
Der US-amerikanische Verkäufer von Pharmazeutika Walgreens möchte den Erfolg seiner Franchise- nehmer untersuchen. walgreens.csv enthält die Daten von 27 zufällig ausgewählten Geschäften in den USA. Die Daten beinhalten folgende Informationen:
Variable Beschreibung
Z1 Jährlicher Nettoumsatz in 1000 US$
Z2 Gröÿe des Stores in 1000 Quadratfuÿ
Z3 Wert des Warenbestands in 1000 US$
Z4 Budget für Werbung in 1000 US$
Z5 Gröÿe des Vertriebsgebiets in 1000 Haushalten
Z6 Anzahl der Mitbewerber im : in dieser Aufgabe das Signikanzniveau α = 0, 05.
a) den Datensatz walgreens.csv in R-Studio und nennen ihn walgreens. [2]
b) Sie wollen der Frage nachgehen, inwiefern sich das Werbebudget der einzelnen Geschäfte auf [6] den jährlichen Nettoumsatz auswirkt. den Zusammenhang durch eine geeignete
Graphik und beschriften Sie die Achsen entsprechend. Führen sie eine einfache lineare Regression
durch und zeichnen Sie die Regressionssgerade in ein. Wählen Sie für die Gerade
eine andere Farbe als schwarz.
c) Ist der Einuss der Werbung auf den Umsatz im Modell signikant [Ja/Nein]? eine [2] kurze Begründung.
d) können Sie laut Modell erwarten, wenn Sie das Jahresbudget für Werbung [2] um 1000 US$ erhöhen?
e) ist, dass die Fehlerterme paarweise unabhängig sind. Was könnte [3] das inhaltlich in diesem Modell bedeuten? eine Methode an, um diese Annahme zu überprüfen (ohne es zu tun).
Sie wollen nun auch die anderen Variablen in einieÿen lassen und eine multiple Regres- sionsanalyse errechnen. uss der Variable Z3 interessiert Sie dabei jedoch nicht.
f) Führen Sie eine multiple Regressionsanalyse durch, in der Sie den jährlichen Nettoumsatz auf [3] die ̈ÿe des Stores, Werbebudget, Gröÿe des Vertriebsgebiets und Anzahl der Mitbewerber im Distrikt regressieren.
g) das R2 des Modells an. das Modell für aussagekräftig? [3]
h) könnte eine Aussage darüber treen, ob das Modell insgesamt signikant ist? Nen- [3] nen und Alternative und geben Testentscheidung mitsamt Begründung
i) Ist der Einuss der Anzahl der Mitbewerber im Distrikt laut Modelloutput signikant? Geben [2] Sie eine Begründung.
j) den erwarteten Jahresumsatz eines neuen 1200 Quadratfuÿ groÿen Ladens mit 10.000 [4] US-$ Jahresbudget für Werbung in einem Distrikt mit 10.000 Haushalten, in dem es noch keinen Mitbewerber gibt, an.
Schlieÿende Statistik 3 Probe
Prof. Universität Berlin Institut für Statistik und Ökonometrie 2:
die Lösungen zu den folgenden Aufgaben direkt in die dafür vorgesehenen Freiräume unter der jeweiligen Aufgabenstellung ein. darauf, dass bei Rechnungen der Lösungsweg nachvollziehbar ist. Sie können das RStudio zur Berechnung von Wahrscheinlichkeiten, Quantilen etc. verwenden. von dieser Option Gebrauch machen, müssen jedoch die verwendeten R-Befehle unter den entsprechenden Ergebnissen unbedingt vermerkt sein!
Aufgabe 3: (30 Punkte)
(X1 , . . . , Xn ) seien unabhängige, identisch verteilte Zufallsvariablen mit Erwartungswert μ und Va- rianz σ2. Der Parameter μ soll geschätzt werden. Hierzu stehen Ihnen folgende Schätzfunktionen zur Verfügung:
μˆ 1 = 2 · X 1 3
a) Überprüfen Sie, ob die beiden Schätzfunktionen erwartungstreu sind und sich somit zur Schät- [6]
zung von μ eignen?
Schlieÿende Statistik 4 Probe
Prof. für Statistik und Ökonometrie
b) die Varianz der beiden Schätzfunktionen.
̈t Berlin Probeklausur
c) Anhand welches Kriteriums wird Ezienz gemessen? auf dessen Basis die beiden [4] Schätzer.
Schlieÿende Statistik 5 Probe
Prof. Universität Berlin Institut für Statistik und Ökonometrie Monat vor den Präsidentschaftswahlen in den USA im Jahr 2000 wurden im Bundesstaat Florida n = 2000 zufällig ausgewähle Personen zu ihrem Wahlverhalten befragt. Dabei sprachen sich 1050 für . Bush und 950 für Al Gore aus. Die Zustimmung für . Bush in Florida werde durch p beschrieben.
d) das Kondenzintervall für p zum Kondenzniveau 1 − α = 0.99? [8]
e) Um ein schmaleres Kondenzintervall zu erreichen, hätte man auch bei einer Stichprobe gleichen [2] Umfangs α ändern können. Müsste man α vergröÿern oder verkleinern, um ein schmaleres Kondenzintervall zu erreichen? Begründen Sie ihre Antwort kurz.
Schlieÿende Statistik 6 Probe
Prof. Universität Berlin Institut für Statistik und Ökonometrie Probeklausur
f) vor der Wahl beschlieÿt sein Wahlkampeiter eine kurzfristige Umfrage. Aufgrund [4] des Zeitdrucks sind Sie bereit ein doppelt so langes 95%-Kondenzintervall zu akzeptieren, um
den den Befragungsaufwand zu verringern. Wie groÿ müsste n dennoch sein?
Schlieÿende Statistik 7 Probe
Prof. Universität Berlin Institut für Statistik und Ökonometrie 4: (30 Punkte)
a) In einem Call-Center soll die Dauer der Telefonate in Minuten modelliert werden. Dabei wurde in der Vergangenheit eine durchschnittliche Dauer von 4 Minuten beobachtet.
i) ist für die Zufallsvariable X, welche die Dauer eines Telefonats in Minuten [2] modelliert, sinnvoll? einen guten Schätzer für die/den Parameter der Verteilung
ii) die Varianz V (X). [2]
iii) Wie hoch ist die Wahrscheinlichkeit dafür, dass ein Telefonat weniger als eine Minute dau- [2] ert?
Schlieÿende Statistik 8 Probe
Prof. Universität Berlin
Institut für Statistik und Ökonometrie
iv) Wie lautet die Formel, die einen Prozess ohne Gedächtnis beschreibt?
Probeklausur
v) Wie hoch ist die Wahrscheinlichkeit, dass ein Telefonat noch mindestens weitere 2 Minuten [3] dauert, nachdem es schon seit einer Minute läuft?
b) Finden und berichtigen Sie die Fehler in folgenden Aussagen: [4]
Eine asymptotisch unverzerrte Schätzfunktion θˆ(X1 , . . . , Xn ) ist auch immer unverzerrt.
-Tests führen Tests von unverbundenen Stichproben eher zu einer Ableh- nung der Nullhypothese als Tests mit verbundenen Stichproben, da die Varianz der Dierenz bei ersteren gröÿer ist.
Schlieÿende Statistik 9 Probe
Prof. für Statistik und Ökonometrie
c) Gegeben sei folgende Ausgabe einer Einfachregression. Call:
lm(formula = Y ∼ X) Residuals:
Min 1Q Median 3Q Max -21.696 -6.696 -2.397 4.015 110.897
̈t Berlin Probeklausur
Coefficients:
(Intercept)
Std. Error
Pr(>|t|) 0.242459 0.054045 .
Signif. codes: 0***0.001**0.01*0.05.0.1 1
Residual standard error: 14.29 on 162 degrees of freedom
Multiple R-squared: 0.2445, Adjusted R-squared: 0.2351
F-statistic: 26.21 on 1 and 162 DF, p-value: 1.375e-10
i) das einfache lineare Regressionsmodell und die Modellannahmen, welche [3] hier zugrunde liegen.
ii) das Vorhersagemodell für Y an. [2]
iii) Was fällt Ihnen auf, wenn Sie die p-Werte des t-Tests für X und des F-Tests miteinander [2] vergleichen?
Schlieÿende Statistik 10 Probe
Prof. Universität Berlin Institut für Statistik und Ökonometrie Probeklausur
d) der Hypothesentests haben Sie sowohl P Werte als auch die Teststatistik kennen- [4] gelernt. Erklären Sie den Zusammenhang zwischen den beiden Werten und wie Sie mit ihnen
eine Testentscheidung treen.
Schlieÿende Statistik 11 Probe
Prof. Universität Berlin Institut für Statistik und Ökonometrie Probeklausur
e) Punkte (xi,yi), sodass R2 = 0. haben in diesem Fall yˆi [4] und y ̄?
Schlieÿende Statistik
Klausurende