Konfidenzintervalle
11. Konfidenzintervalle
Prof. Burgard (FU Berlin) Schließende Se 21/22 1 / 32
Copyright By PowCoder代写 加微信 powcoder
Konfidenzintervalle
Übersicht
11 Definition eines für verschiedene Parameter
Prof. Burgard (FU Berlin) Schließende Se 21/22 2 / 32
Konfidenzintervalle
Rückblick
• bisher betrachtete Punktschätzung gaukelt eine „Pseudogenauigkeit“ vor
• geschätzter Parameterwert wird punktgenau angegeben
• obwohl: – insbesondere im stetigen Fall – wahrer Parameterwert sehr
selten exakt getroffen wird
• „gute Schätzer“ werden aber Schätzwerte liefern, die sich im Rahmen akzeptabler Genauigkeit nah um den wahren Parameterwert scharen
Prof. Burgard (FU Berlin) Schließende Se 21/22 3 / 32
Definition eines Konfidenzintervalls
Übersicht
11 Definition eines für verschiedene Parameter
Prof. Burgard (FU Berlin) Schließende Se 21/22 4 / 32
Definition eines
Für gut interpretierbare Parameter einer Verteilung (z.B. den Erwartungswert) soll auf Basis einer Stichprobe . . .
a) ein Intervall angegeben werden, so dass die Wahrscheinlichkeit berechnet werden kann, mit der der wahre Parameter von dem Intervall überdeckt wird.
b) Die Überdeckungswahrscheinlichkeit ist mindestens so groß wie ein vorgegebener Wert („Konfidenzniveau“).
Alternative Bezeichnung: Intervallschätzung
Prof. Burgard (FU Berlin) Schließende Se 21/22 5 / 32
Definition eines Definition
Gesucht sind zwei Stichprobenfunktionen
U(X1,…,Xn) < O(X1,...,Xn) PU(X1, . . . , Xn) ≤ θ ≤ O(X1, . . . , Xn) ≥ 1 − α
Definition (Konfidenzintervall)
[U , O ] ist das Konfidenzintervall für θ zum Konfidenzniveau 1 − α (α =„Irrtumswahrscheinlichkeit“).
Prof. Burgard (FU Berlin) Schließende Se 21/22 6 / 32
Definition eines
U = u und O = o werden beobachtet. Aussage:
„θ liegt im Intervall [u, o]“
• diese Aussage ist mit Wahrscheinlichkeit α bei wiederholter
Anwendung falsch
• daher sollte α klein sein!
• wurden die Grenzen für ein konkretes Intervall berechnet, so gilt die Wahrscheinlichkeitsaussage nicht mehr!
• statistisches Problem bei der Festlegung von U(X1, . . . , Xn) und O(X1,...,Xn):
a) Die Intervall-Länge soll möglichst klein sein.
b) muss eingehalten werden.
Prof. Burgard (FU Berlin) Schließende Se 21/22 7 / 32
für verschiedene Parameter
Übersicht
11 Definition eines für verschiedene Parameter
Prof. Burgard (FU Berlin) Schließende Se 21/22 8 / 32
für verschiedene Parameter
Konfidenzintervall für den Erwartungswert μ der Normalverteilung (σ bekannt)
a) X ̄ ist ein guter Schätzer für μ. sollte um X ̄ konzentriert sein.
b) Die Normalverteilung ist symmetrisch um μ. Daher sollte das Konfidenzintervall ebenfalls symmetrisch um X ̄ sein.
Ansatz: U = X ̄ − c O = X ̄ + c
c) Drücke c in Vielfachen der Standardabweichung von X ̄ = σ aus:
̄σ ̄σ U = X − k √n O = X + k √n
Prof. Burgard
(FU Berlin)
Schließende Se 21/22
für verschiedene Parameter
Konfidenzintervall für den Erwartungswert μ der Normalverteilung (σ bekannt) (Cont’d)
d) Bestimmung von k:
1−α ≤ P(U≤μ≤O) ̄σ ̄σ
= P X−k√n≤μ≤X+k√n erhält man:
X ̄ − k σ ≤ μ ≤ X ̄ + k σ nn
⇔ −kσ ≤μ−X ̄≤kσ nn
⇔ −k≤√σ ≤k
⇔ −k≤√σ ≤k n
Prof. Burgard
(FU Berlin) Schließende Se 21/22 10 / 32
für verschiedene Parameter
Konfidenzintervall für den Erwartungswert μ der Normalverteilung (σ bekannt) (Cont’d)
X ̄ − μ Da √σ
∼ N(0,1), lautet die Lösung: k = z1− α2 , d.h.
P X−z1−α2 √n≤μ≤X+z1−α2 √n =1−α
Prof. Burgard (FU Berlin) Schließende Se 21/22 11 / 32
für verschiedene Parameter
Schwankungs- vs. für X ̄: σ ̄σ
P μ−z1−α2 √n ≤X ≤μ+z1−α2 √n =1−α
• Die Wahrscheinlichkeit, dass der aus einer Stichprobe vom Umfang n bestimmte Mittelwert X ̄ im Intervall liegt, beträgt 1 − α.
• Die Grenzen des Intervalls sind fest, X ̄ ist eine Zufallsvariable. Konfidenzintervall für μ:
P X−z1−α2 √n≤μ≤X+z1−α2 √n =1−α
• Die Wahrscheinlichkeit, dass μ im Konfidenzintervall liegt, beträgt 1−α.
• μ ist eine (unbekannte) Konstante, die Grenzen des Intervalls sind Zufallsvariablen, weil X ̄ eine Zufallsvariable ist!
Prof. Burgard (FU Berlin) Schließende Se 21/22 12 / 32
für verschiedene Parameter
Übung: 3-Liter-Auto
Ein Automobilhersteller hat einen sparsamen PKW entwickelt. Dieser soll nach den Wünschen der Marketing-Abteilung als „3-Liter-Auto“ vermarktet werden. des PKWs (in Liter/100 km) wurde auf 20 Testfahrten gemessen:
3.55 3.18 2.84 2.73 3.04 3.05 2.88 3.36 2.85 2.75 3.03 3.38 2.50 2.97 2.91 2.86 3.41 2.95 3.02 2.29
(Datensatz im Rstudio: 3-Liter-Auto.csv)
a) den durchschnittlichen Benzinverbrauch über die 20
Testfahrten.
b) ist bekannt, dass der Verbrauch bei diesem PKW-Modell eine Standardabweichung von σ = 0.3 Liter/100 km aufweist. das 95%-Konfidenzintervall für den Durchschnittsverbrauch.
c) haben die Ergebnisse aus a) bzw. b) jeweils in Bezug auf das Vorhaben der Marketing-Abteilung?
Prof. Burgard (FU Berlin) Schließende Se 21/22 13 / 32
für verschiedene Parameter
Konfidenzintervall für μ der Normalverteilung (σ unbekannt) Wenn man versucht, den Parameter μ der Normalverteilung zu schätzen,
gibt es in den meisten Fällen keinen plausiblen Grund, σ als bekannt anzunehmen.
Idee: Ersetze σ2 durch die konsistente Schätzung: n
Dies liefert:
Bestimmung von k:
σˆ2= 1 Xi−X ̄2
̄ σˆ ̄ σˆ U = X − k √n O = X + k √n
X ̄−μ P(U≤μ≤O)=P −k≤ σˆ ≤k
Prof. Burgard (FU Berlin) Schließende Se 21/22
für verschiedene Parameter
Konfidenzintervall für μ der Normalverteilung (σ unbekannt) (Cont’d)
Problem: Durch die Schätzung von σ durch σˆ kommt zusätzliche √
Unsicherheit in den Term. Die Zufallsgröße T = X ̄−μ ist nicht σˆ/ n
standardnormalverteilt!
T ist t-verteilt mit ν = n − 1 Freiheitsgraden (degrees of freedom (df)).
Prof. Burgard (FU Berlin) Schließende Se 21/22 15 / 32
für verschiedene Parameter
Einschub: Die t-Verteilung
Die t-Verteilung besitzt den Parameter ν („Freiheitsgrade“). Sie ist in jedem Statistik-Lehrbuch tabelliert.
tν,α ist das α-Quantil der t-Verteilung mit ν Freiheitsgraden. Wegen der Symmetrie zum Nullpunkt gilt:
Für große Werte von ν gilt:
wobei: zα das α-Quantil der Standardnormalverteilung ist.
Im R-Studio:
tν,α = −tν,1−α tν,α ≈ zα
dt(x, df) Dichtefunktion pt(x, df) Verteilungsfunktion qt(p, df) Quantilsfunktion rt(n, df) Zufallszahlengenerator
df entspricht der Anzahl der Freiheitsgrade.
Prof. Burgard (FU Berlin) Schließende Se 21/22 16 / 32
für verschiedene Parameter
Einschub: Die t-Verteilung (Dichte)
Dichte der t−Verteilung
−4 −2 0 2 4 x
Prof. Burgard (FU Berlin) Schließende Se 21/22 17 / 32
0.0 0.1 0.2 0.3 0.4
für verschiedene Parameter
Übung: t-Verteilung
a) k = 1000 Zufallsstichproben vom Umfang n = 4 aus der Normalverteilung N(10,32) und bestimmen Sie jeweils den Mittelwert als Schätzer für μ.
b) die Schätzwerte in einem Histogramm dar und vergleichen Sie das Ergebnis mit der entsprechenden Verteilungsannahme (aus der Vorlesung ist bekannt, welche Verteilung der Mittelwert über normalverteilte Zufallsvariablen hat).
c) eine neue standardisierte Variable z aus den Schätzwerten. bei der Standardisierung zunächst σ als bekannt voraus. z graphisch dar und vergleichen Sie mit der Dichte der Standardnormalverteilung.
Prof. Burgard (FU Berlin) Schließende Se 21/22 18 / 32
für verschiedene Parameter
Übung: t-Verteilung (Cont’d)
d) nun analog zu c) die Variable t, indem Sie bei der Standardisierung σ als unbekannt betrachten und durch die Stichprobenstandardabweichung s schätzen. Eignet sich die Standardnormalverteilung zur Beschreibung der Dichte von t? nach einer passenden Verteilung und zeichnen Sie deren Dichtekurve zur Kontrolle über das Histogramm von t.
Prof. Burgard (FU Berlin) Schließende Se 21/22 19 / 32
für verschiedene Parameter
Konfidenzintervall für μ der Normalverteilung (σ unbekannt) (Cont’d)
− t n − 1 , 1 − α2 ≤ σˆ ≤ t n − 1 , 1 − α2 = 1 − α
erhält man:
̄ σˆ U = X − t n − 1 , 1 − α2 √ n
̄ σˆ O = X + t n − 1 , 1 − α2 √ n
Die Konfidenzintervallgrenzen bei unbekanntem σ2 unterscheiden sich also nur durch die Verwendung von tn−1,1−α2 statt z1−α2 . Da die t-Verteilung stärker streut als die Standardnormalverteilung (d.h. z1− α2 < tn−1,1− α2 ), ist das Konfidenzintervall breiter als bei bekanntem σ2.
Prof. Burgard (FU Berlin) Schließende Se 21/22 20 / 32
für verschiedene Parameter
Beispiel: Qualitätskontrolle
Sei X die Brenndauer einer Glühbirne. Es kann davon ausgegangen werden, dass X ∼ N(μ,σ2) gilt.
Es werden nun n = 20 Birnen getestet. Aus der Stichprobe werden der Mittelwert und die empirische Standardabweichung bestimmt:
X ̄=1300 und σˆ=125 Gesucht ist das 95% Konfidenzintervall für μ.
tn−1,1− α2 = t19,0.975 = 2.093
U =1300−2.093125 =1300−58.5 20
O =1300+2.093125 =1300+58.5 20
ist gegeben durch: [1241.5, 1358.5]
Prof. Burgard (FU Berlin) Schließende Se 21/22 21 / 32
für verschiedene Parameter
Übung: Qualitätskontrolle
Die Qualitätskontrolle in einem Abfüllwerk für alkoholische Getränke nimmt täglich eine Stichprobe an Flaschen aus dem Abfüllprozess und überprüft den Füllstand X, der gemäß Spezifikation 0.33 Liter betragen sollte. In der Praxis ist x selten exakt 0.33, sondern weicht leicht ab. Für die Abweichungen wird ein Normalverteilungsmodell unterstellt. Wir betrachten die Stichproben aus dem ersten Quartal 2002: Es liegen Stichproben vom Umfang 15 von allen 90 Tagen in diesem Zeitraum vor.
a) die Stichproben aus der Datei Bier.csv in eine Matrix und nennen es x.
b) über den R-Befehl
alledaten <- as.vector(x) im RStudio eine Variable, die alle 90 · 15 = 1350 Füllstände enthält. Überprüfen Sie die Berechtigung der Normalverteilungsannahme, indem Sie einen QQ-Plot für die Variable alledaten erzeugen.
Prof. Burgard (FU Berlin) Schließende Se 21/22 22 / 32
für verschiedene Parameter
Übung: Qualitätskontrolle (Cont’d)
c) Mittelwert und Stichprobenstandardabweichung für jede Stichprobe.
d) für jede - und Untergrenze des Konfidenzintervalls zum Konfidenzniveau 95%.
e) Überprüfen Sie die Überdeckung, indem Sie bestimmen, wie viele der 90 Intervalle das wahre μ überdecken. dabei davon aus, dass das wahre μ tatsächlich 0.33 ist.
Prof. Burgard (FU Berlin) Schließende Se 21/22 23 / 32
für verschiedene Parameter
Konfidenzintervalle für Wahrscheinlichkeiten und Modell: Xi ∼ B(1,p) Beispiele:
Merkmal bei einer zufällig ausgewählten Person vorhanden: ja/nein
Anteil der Merkmalsträger in der eines Experiments mit zwei möglichen Ausprägungen Wahrscheinlichkeit für den positiven Ausgang des Experiments
n Schätzerfürp:pˆ=X ̄=n1 Xi
Prof. Burgard (FU Berlin)
Schließende Se 21/22
für verschiedene Parameter
Konfidenzintervalle für Wahrscheinlichkeiten und Anteile (Cont’d)
Wegen des zentralen Grenzwertsatzes gilt:
pˆ∼:Np, n
P−z1−α2 ≤
Problem: Die Varianz p(1−p) von pˆ ist nicht bekannt!
≤z1−α2 ≈1−α Lösungsweg a) Varianz durch konsistenten Schätzwert pˆ(1−pˆ) ersetzen.
Lösungsweg b) Ungleichung so umformen, dass p isoliert in der Mitte steht. Prof. Burgard (FU Berlin) Schließende Se 21/22 25 / 32
für verschiedene Parameter
Konfidenzintervalle für Wahrscheinlichkeiten und Anteile
Lösungsweg a)
Sehr einfach, aber höhere Ansprüche an die Fallzahl n, da pˆ als fast konstant angenommen wird:
1−α≈P−z1−α2 ≤ pˆ ( 1 − pˆ )
pˆ(1−pˆ) n
pˆ ( 1 − pˆ ) n
pˆ − z 1 − α2 n ≤ p ≤ pˆ + z 1 − α2 pˆ(1−pˆ)
Approximatives (1 − α)-Konfidenzintervall für p:
Untergrenze: pˆ − z1− α2 n pˆ(1−pˆ)
Obergrenze: pˆ + z1− α2 n
Es sollte np(1 − p) ≥ 20 gelten, damit die Näherung „ausreichend“ genau
Prof. Burgard (FU Berlin) Schließende Se 21/22 26 / 32
für verschiedene Parameter
Konfidenzintervalle für Wahrscheinlichkeiten und Anteile
Lösungsweg b):
Nach einigen Umformungen erhält man ein Konfidenzintervall für p:
Untergrenze:
Obergrenze:
wobei: z = z1−α2 .
pˆ + z 2 − z z 2 + pˆ(1−pˆ) 2n 2n n
pˆ+z2 +zz 2+pˆ(1−pˆ) 2n 2n n
ist zwar ebenfalls approximativ (weil es aus dem zentralen Grenzwertsatz und nicht der exakten Verteilung hergeleitet wurde), es ist aber genauer als das Konfidenzintervall, welches sich aus Lösungsweg a) ergibt. für die Anwendung gilt: np (1 − p) ≥ 5.
Prof. Burgard (FU Berlin) Schließende Se 21/22 27 / 32
für verschiedene Parameter
Beispiel: Bevölkerungsumfrage
Umfrage bei n = 909 zufällig ausgewählten Personen im März 2011. Ergebnis: 71% für Atomausstieg
Es soll das 99%-Konfidenzintervall für den Anteil (p) berechnet werden.
pˆ = 0.71 und daher npˆ(1 − pˆ) = 187.16 ≥ 20
⇒ einfache Formel reicht!
pˆ − z 1 − α2
pˆ ( 1 − pˆ ) pˆ ( 1 − pˆ ) n ; pˆ + z 1 − α2 n
0.71(1 − 0.71) = 0.71−2.576 909 ;
0.71(1 − 0.71) 0.71 + 2.576 909
= [0.671; 0.749]
(z1−α/2 = z0.995 = 2.576)
Prof. Burgard (FU Berlin) Schließende Se 21/22
für verschiedene Parameter
Festlegung des Stichprobenumfangs bei der Schätzung von :
Bestimme den Stichprobenumfang n einer Erhebung so, dass die Länge des Konfidenzintervalls für einen Anteil eine vorbestimmte Breite nicht überschreitet.
Benutzung des approximativen (1 − α)-Konfidenzintervalls für:
pˆ ( 1 − pˆ )
Auflösen nach n:
= 2z1−α2 n
2 2 pˆ ( 1 − pˆ )
L=4z1−α2 n
2 pˆ ( 1 − pˆ )
⇒ n = 4 z 1 − α2 Prof. Burgard (FU Berlin) Schließende Statistik
WiSe 21/22
für verschiedene Parameter
Festlegung des Stichprobenumfangs bei der Schätzung von Anteilswerten (Cont’d)
Benötigte Fallzahl hängt von dem Anteilswert pˆ ab, der geschätzt werden soll.
0.0 0.2 0.4
0.6 0.8 1.0
b) Ersetze pˆ durch den „ungünstigsten“ Wert, wenn Vorinformationen
vorliegen.
c) Wenn keine Vorinformationen vorliegen: Ersetze p durch pˆ = 0.5, weil für diesen Wert die Varianz maximal (=0.25) wird.
a) Ersetze pˆ durch einen Wert aus früheren Befragungen.
Prof. Burgard (FU Berlin) Schließende Se 21/22 30 / 32
0.00 0.05 0.10
0.15 0.20 0.25
p^(1 − p^)
für verschiedene Parameter
Beispiel: Meinungsumfrage zu UNO-Einsätzen
Es soll im Rahmen einer Umfrage untersucht werden, ob die Bevölkerung UNO-Einsätze in bestimmten Situationen befürwortet. Dabei wird gefordert, dass das 95%-Konfidenzintervall nicht breiter als 5%-Punkte sein soll.
Zwar ist p normalerweise ungefähr bekannt aber zeitlich sehr instabil („politische Stimmung“).
⇒ Sicherheitshalber ungünstigtes p = 0.5 annehmen!
2 pˆ ( 1 − pˆ ) n ≥ 4z1−α2 L2
= 4 · 1.962 0.5(1 − 0.5) 0.052
Es sollten also mindestens 1537 Personen befragt werden!
Prof. Burgard (FU Berlin) Schließende Se 21/22 31 / 32
für verschiedene Parameter
Übung: der Bundestagswahl 2013 wurden n = 2000 repräsentativ ausgewählte Personen zu ihrem Wahlverhalten befragt. Dabei gaben 1650 Personen an, wählen zu wollen. p beschreibe die Wahlbeteiligung (Anteil der Wähler an den Wahlberechtigten).
a) ein Konfidenzintervall für p zum Niveau 1 − α = 0.99.
b) Wie groß muss der Stichprobenumfang n mindestens gewählt werden, damit das Konfidenzintervall eine Länge von 0.02 hat, wenn keine Vorinformation über p besteht?
c) Geht man davon aus, dass die Wahlbeteiligung bei einer Bundestagswahl nicht unter 70% liegt, wie groß muss n dann mindestens sein, um die Länge von 0.02 nicht zu überschreiten?
Prof. Burgard (FU Berlin) Schließende Se 21/22 32 / 32
程序代写 CS代考 加微信: powcoder QQ: 1823890830 Email: powcoder@163.com