代写代考 Konfidenzintervalle

Konfidenzintervalle
11. Konfidenzintervalle
Prof. Burgard (FU Berlin) Schließende Se 21/22 1 / 32

Konfidenzintervalle
Übersicht
11 Definition eines für verschiedene Parameter
Prof. Burgard (FU Berlin) Schließende Se 21/22 2 / 32

Konfidenzintervalle
Rückblick
• bisher betrachtete Punktschätzung gaukelt eine „Pseudogenauigkeit“ vor
• geschätzter Parameterwert wird punktgenau angegeben
• obwohl: – insbesondere im stetigen Fall – wahrer Parameterwert sehr
selten exakt getroffen wird
• „gute Schätzer“ werden aber Schätzwerte liefern, die sich im Rahmen akzeptabler Genauigkeit nah um den wahren Parameterwert scharen
Prof. Burgard (FU Berlin) Schließende Se 21/22 3 / 32

Definition eines Konfidenzintervalls
Übersicht
11 Definition eines für verschiedene Parameter
Prof. Burgard (FU Berlin) Schließende Se 21/22 4 / 32

Definition eines
Für gut interpretierbare Parameter einer Verteilung (z.B. den Erwartungswert) soll auf Basis einer Stichprobe . . .
a) ein Intervall angegeben werden, so dass die Wahrscheinlichkeit berechnet werden kann, mit der der wahre Parameter von dem Intervall überdeckt wird.
b) Die Überdeckungswahrscheinlichkeit ist mindestens so groß wie ein vorgegebener Wert („Konfidenzniveau“).
Alternative Bezeichnung: Intervallschätzung
Prof. Burgard (FU Berlin) Schließende Se 21/22 5 / 32

Definition eines Definition
Gesucht sind zwei Stichprobenfunktionen
U(X1,…,Xn) < O(X1,...,Xn) P􏰓U(X1, . . . , Xn) ≤ θ ≤ O(X1, . . . , Xn)􏰔 ≥ 1 − α Definition (Konfidenzintervall) [U , O ] ist das Konfidenzintervall für θ zum Konfidenzniveau 1 − α (α =„Irrtumswahrscheinlichkeit“). Prof. Burgard (FU Berlin) Schließende Se 21/22 6 / 32 Definition eines U = u und O = o werden beobachtet. Aussage: „θ liegt im Intervall [u, o]“ • diese Aussage ist mit Wahrscheinlichkeit α bei wiederholter Anwendung falsch • daher sollte α klein sein! • wurden die Grenzen für ein konkretes Intervall berechnet, so gilt die Wahrscheinlichkeitsaussage nicht mehr! • statistisches Problem bei der Festlegung von U(X1, . . . , Xn) und O(X1,...,Xn): a) Die Intervall-Länge soll möglichst klein sein. b) muss eingehalten werden. Prof. Burgard (FU Berlin) Schließende Se 21/22 7 / 32 für verschiedene Parameter Übersicht 11 Definition eines für verschiedene Parameter Prof. Burgard (FU Berlin) Schließende Se 21/22 8 / 32 für verschiedene Parameter Konfidenzintervall für den Erwartungswert μ der Normalverteilung (σ bekannt) a) X ̄ ist ein guter Schätzer für μ. sollte um X ̄ konzentriert sein. b) Die Normalverteilung ist symmetrisch um μ. Daher sollte das Konfidenzintervall ebenfalls symmetrisch um X ̄ sein. Ansatz: U = X ̄ − c O = X ̄ + c c) Drücke c in Vielfachen der Standardabweichung von X ̄ 􏰓= σ 􏰔 aus: ̄σ ̄σ U = X − k √n O = X + k √n Prof. Burgard (FU Berlin) Schließende Se 21/22 für verschiedene Parameter Konfidenzintervall für den Erwartungswert μ der Normalverteilung (σ bekannt) (Cont’d) d) Bestimmung von k: 1−α ≤ P(U≤μ≤O) 􏰅 ̄σ ̄σ􏰆 = P X−k√n≤μ≤X+k√n erhält man: X ̄ − k σ ≤ μ ≤ X ̄ + k σ nn ⇔ −kσ ≤μ−X ̄≤kσ nn ⇔ −k≤√σ ≤k ⇔ −k≤√σ ≤k n Prof. Burgard (FU Berlin) Schließende Se 21/22 10 / 32 für verschiedene Parameter Konfidenzintervall für den Erwartungswert μ der Normalverteilung (σ bekannt) (Cont’d) X ̄ − μ Da √σ ∼ N(0,1), lautet die Lösung: k = z1− α2 , d.h. P X−z1−α2 √n≤μ≤X+z1−α2 √n =1−α Prof. Burgard (FU Berlin) Schließende Se 21/22 11 / 32 für verschiedene Parameter Schwankungs- vs. für X ̄: 􏰅σ ̄σ􏰆 P μ−z1−α2 √n ≤X ≤μ+z1−α2 √n =1−α • Die Wahrscheinlichkeit, dass der aus einer Stichprobe vom Umfang n bestimmte Mittelwert X ̄ im Intervall liegt, beträgt 1 − α. • Die Grenzen des Intervalls sind fest, X ̄ ist eine Zufallsvariable. Konfidenzintervall für μ: P X−z1−α2 √n≤μ≤X+z1−α2 √n =1−α • Die Wahrscheinlichkeit, dass μ im Konfidenzintervall liegt, beträgt 1−α. • μ ist eine (unbekannte) Konstante, die Grenzen des Intervalls sind Zufallsvariablen, weil X ̄ eine Zufallsvariable ist! Prof. Burgard (FU Berlin) Schließende Se 21/22 12 / 32 für verschiedene Parameter Übung: 3-Liter-Auto Ein Automobilhersteller hat einen sparsamen PKW entwickelt. Dieser soll nach den Wünschen der Marketing-Abteilung als „3-Liter-Auto“ vermarktet werden. des PKWs (in Liter/100 km) wurde auf 20 Testfahrten gemessen: 3.55 3.18 2.84 2.73 3.04 3.05 2.88 3.36 2.85 2.75 3.03 3.38 2.50 2.97 2.91 2.86 3.41 2.95 3.02 2.29 (Datensatz im Rstudio: 3-Liter-Auto.csv) a) den durchschnittlichen Benzinverbrauch über die 20 Testfahrten. b) ist bekannt, dass der Verbrauch bei diesem PKW-Modell eine Standardabweichung von σ = 0.3 Liter/100 km aufweist. das 95%-Konfidenzintervall für den Durchschnittsverbrauch. c) haben die Ergebnisse aus a) bzw. b) jeweils in Bezug auf das Vorhaben der Marketing-Abteilung? Prof. Burgard (FU Berlin) Schließende Se 21/22 13 / 32 für verschiedene Parameter Konfidenzintervall für μ der Normalverteilung (σ unbekannt) Wenn man versucht, den Parameter μ der Normalverteilung zu schätzen, gibt es in den meisten Fällen keinen plausiblen Grund, σ als bekannt anzunehmen. Idee: Ersetze σ2 durch die konsistente Schätzung: n Dies liefert: Bestimmung von k: σˆ2= 1 􏰉􏰃Xi−X ̄􏰄2 ̄ σˆ ̄ σˆ U = X − k √n O = X + k √n 􏰌 X ̄−μ 􏰍 P(U≤μ≤O)=P −k≤ σˆ ≤k Prof. Burgard (FU Berlin) Schließende Se 21/22 für verschiedene Parameter Konfidenzintervall für μ der Normalverteilung (σ unbekannt) (Cont’d) Problem: Durch die Schätzung von σ durch σˆ kommt zusätzliche √ Unsicherheit in den Term. Die Zufallsgröße T = X ̄−μ ist nicht σˆ/ n standardnormalverteilt! T ist t-verteilt mit ν = n − 1 Freiheitsgraden (degrees of freedom (df)). Prof. Burgard (FU Berlin) Schließende Se 21/22 15 / 32 für verschiedene Parameter Einschub: Die t-Verteilung Die t-Verteilung besitzt den Parameter ν („Freiheitsgrade“). Sie ist in jedem Statistik-Lehrbuch tabelliert. tν,α ist das α-Quantil der t-Verteilung mit ν Freiheitsgraden. Wegen der Symmetrie zum Nullpunkt gilt: Für große Werte von ν gilt: wobei: zα das α-Quantil der Standardnormalverteilung ist. Im R-Studio: tν,α = −tν,1−α tν,α ≈ zα dt(x, df) Dichtefunktion pt(x, df) Verteilungsfunktion qt(p, df) Quantilsfunktion rt(n, df) Zufallszahlengenerator df entspricht der Anzahl der Freiheitsgrade. Prof. Burgard (FU Berlin) Schließende Se 21/22 16 / 32 für verschiedene Parameter Einschub: Die t-Verteilung (Dichte) Dichte der t−Verteilung −4 −2 0 2 4 x Prof. Burgard (FU Berlin) Schließende Se 21/22 17 / 32 0.0 0.1 0.2 0.3 0.4 für verschiedene Parameter Übung: t-Verteilung a) k = 1000 Zufallsstichproben vom Umfang n = 4 aus der Normalverteilung N(10,32) und bestimmen Sie jeweils den Mittelwert als Schätzer für μ. b) die Schätzwerte in einem Histogramm dar und vergleichen Sie das Ergebnis mit der entsprechenden Verteilungsannahme (aus der Vorlesung ist bekannt, welche Verteilung der Mittelwert über normalverteilte Zufallsvariablen hat). c) eine neue standardisierte Variable z aus den Schätzwerten. bei der Standardisierung zunächst σ als bekannt voraus. z graphisch dar und vergleichen Sie mit der Dichte der Standardnormalverteilung. Prof. Burgard (FU Berlin) Schließende Se 21/22 18 / 32 für verschiedene Parameter Übung: t-Verteilung (Cont’d) d) nun analog zu c) die Variable t, indem Sie bei der Standardisierung σ als unbekannt betrachten und durch die Stichprobenstandardabweichung s schätzen. Eignet sich die Standardnormalverteilung zur Beschreibung der Dichte von t? nach einer passenden Verteilung und zeichnen Sie deren Dichtekurve zur Kontrolle über das Histogramm von t. Prof. Burgard (FU Berlin) Schließende Se 21/22 19 / 32 für verschiedene Parameter Konfidenzintervall für μ der Normalverteilung (σ unbekannt) (Cont’d) − t n − 1 , 1 − α2 ≤ σˆ ≤ t n − 1 , 1 − α2 = 1 − α erhält man: ̄ σˆ U = X − t n − 1 , 1 − α2 √ n ̄ σˆ O = X + t n − 1 , 1 − α2 √ n Die Konfidenzintervallgrenzen bei unbekanntem σ2 unterscheiden sich also nur durch die Verwendung von tn−1,1−α2 statt z1−α2 . Da die t-Verteilung stärker streut als die Standardnormalverteilung (d.h. z1− α2 < tn−1,1− α2 ), ist das Konfidenzintervall breiter als bei bekanntem σ2. Prof. Burgard (FU Berlin) Schließende Se 21/22 20 / 32 für verschiedene Parameter Beispiel: Qualitätskontrolle Sei X die Brenndauer einer Glühbirne. Es kann davon ausgegangen werden, dass X ∼ N(μ,σ2) gilt. Es werden nun n = 20 Birnen getestet. Aus der Stichprobe werden der Mittelwert und die empirische Standardabweichung bestimmt: X ̄=1300 und σˆ=125 Gesucht ist das 95% Konfidenzintervall für μ. tn−1,1− α2 = t19,0.975 = 2.093 U =1300−2.093125 =1300−58.5 20 O =1300+2.093125 =1300+58.5 20 ist gegeben durch: [1241.5, 1358.5] Prof. Burgard (FU Berlin) Schließende Se 21/22 21 / 32 für verschiedene Parameter Übung: Qualitätskontrolle Die Qualitätskontrolle in einem Abfüllwerk für alkoholische Getränke nimmt täglich eine Stichprobe an Flaschen aus dem Abfüllprozess und überprüft den Füllstand X, der gemäß Spezifikation 0.33 Liter betragen sollte. In der Praxis ist x selten exakt 0.33, sondern weicht leicht ab. Für die Abweichungen wird ein Normalverteilungsmodell unterstellt. Wir betrachten die Stichproben aus dem ersten Quartal 2002: Es liegen Stichproben vom Umfang 15 von allen 90 Tagen in diesem Zeitraum vor. a) die Stichproben aus der Datei Bier.csv in eine Matrix und nennen es x. b) über den R-Befehl alledaten <- as.vector(x) im RStudio eine Variable, die alle 90 · 15 = 1350 Füllstände enthält. Überprüfen Sie die Berechtigung der Normalverteilungsannahme, indem Sie einen QQ-Plot für die Variable alledaten erzeugen. Prof. Burgard (FU Berlin) Schließende Se 21/22 22 / 32 für verschiedene Parameter Übung: Qualitätskontrolle (Cont’d) c) Mittelwert und Stichprobenstandardabweichung für jede Stichprobe. d) für jede - und Untergrenze des Konfidenzintervalls zum Konfidenzniveau 95%. e) Überprüfen Sie die Überdeckung, indem Sie bestimmen, wie viele der 90 Intervalle das wahre μ überdecken. dabei davon aus, dass das wahre μ tatsächlich 0.33 ist. Prof. Burgard (FU Berlin) Schließende Se 21/22 23 / 32 für verschiedene Parameter Konfidenzintervalle für Wahrscheinlichkeiten und Modell: Xi ∼ B(1,p) Beispiele: Merkmal bei einer zufällig ausgewählten Person vorhanden: ja/nein Anteil der Merkmalsträger in der eines Experiments mit zwei möglichen Ausprägungen Wahrscheinlichkeit für den positiven Ausgang des Experiments n Schätzerfürp:pˆ=X ̄=n1 􏰗Xi Prof. Burgard (FU Berlin) Schließende Se 21/22 für verschiedene Parameter Konfidenzintervalle für Wahrscheinlichkeiten und Anteile (Cont’d) Wegen des zentralen Grenzwertsatzes gilt: pˆ∼:Np, n  P−z1−α2 ≤ 􏰜 Problem: Die Varianz p(1−p) von pˆ ist nicht bekannt! ≤z1−α2 ≈1−α Lösungsweg a) Varianz durch konsistenten Schätzwert pˆ(1−pˆ) ersetzen. Lösungsweg b) Ungleichung so umformen, dass p isoliert in der Mitte steht. Prof. Burgard (FU Berlin) Schließende Se 21/22 25 / 32 für verschiedene Parameter Konfidenzintervalle für Wahrscheinlichkeiten und Anteile Lösungsweg a) Sehr einfach, aber höhere Ansprüche an die Fallzahl n, da pˆ als fast konstant angenommen wird: 1−α≈P−z1−α2 ≤ 􏰜 􏰙 pˆ ( 1 − pˆ ) pˆ(1−pˆ) n 􏰙 pˆ ( 1 − pˆ ) 􏰍 n pˆ − z 1 − α2 n ≤ p ≤ pˆ + z 1 − α2 􏰜 pˆ(1−pˆ) Approximatives (1 − α)-Konfidenzintervall für p: Untergrenze: pˆ − z1− α2 n 􏰜 pˆ(1−pˆ) Obergrenze: pˆ + z1− α2 n Es sollte np(1 − p) ≥ 20 gelten, damit die Näherung „ausreichend“ genau Prof. Burgard (FU Berlin) Schließende Se 21/22 26 / 32 für verschiedene Parameter Konfidenzintervalle für Wahrscheinlichkeiten und Anteile Lösungsweg b): Nach einigen Umformungen erhält man ein Konfidenzintervall für p: Untergrenze: Obergrenze: wobei: z = z1−α2 . pˆ + z 2 − z 􏰜􏰃 z 􏰄2 + pˆ(1−pˆ) 2n 2n n pˆ+z2 +z􏰜􏰃z 􏰄2+pˆ(1−pˆ) 2n 2n n ist zwar ebenfalls approximativ (weil es aus dem zentralen Grenzwertsatz und nicht der exakten Verteilung hergeleitet wurde), es ist aber genauer als das Konfidenzintervall, welches sich aus Lösungsweg a) ergibt. für die Anwendung gilt: np (1 − p) ≥ 5. Prof. Burgard (FU Berlin) Schließende Se 21/22 27 / 32 für verschiedene Parameter Beispiel: Bevölkerungsumfrage Umfrage bei n = 909 zufällig ausgewählten Personen im März 2011. Ergebnis: 71% für Atomausstieg Es soll das 99%-Konfidenzintervall für den Anteil (p) berechnet werden. pˆ = 0.71 und daher npˆ(1 − pˆ) = 187.16 ≥ 20 ⇒ einfache Formel reicht! 􏰎 pˆ − z 1 − α2 􏰎 􏰙 pˆ ( 1 − pˆ ) 􏰙 pˆ ( 1 − pˆ ) 􏰏 n ; pˆ + z 1 − α2 n 􏰙 0.71(1 − 0.71) = 0.71−2.576 909 ; 􏰙 0.71(1 − 0.71) 􏰏 0.71 + 2.576 909 = [0.671; 0.749] (z1−α/2 = z0.995 = 2.576) Prof. Burgard (FU Berlin) Schließende Se 21/22 für verschiedene Parameter Festlegung des Stichprobenumfangs bei der Schätzung von : Bestimme den Stichprobenumfang n einer Erhebung so, dass die Länge des Konfidenzintervalls für einen Anteil eine vorbestimmte Breite nicht überschreitet. Benutzung des approximativen (1 − α)-Konfidenzintervalls für: 􏰙 pˆ ( 1 − pˆ ) Auflösen nach n: = 2z1−α2 n 2 2 pˆ ( 1 − pˆ ) L=4z1−α2 n 2 pˆ ( 1 − pˆ ) ⇒ n = 4 z 1 − α2 Prof. Burgard (FU Berlin) Schließende Statistik WiSe 21/22 für verschiedene Parameter Festlegung des Stichprobenumfangs bei der Schätzung von Anteilswerten (Cont’d) Benötigte Fallzahl hängt von dem Anteilswert pˆ ab, der geschätzt werden soll. 0.0 0.2 0.4 0.6 0.8 1.0 b) Ersetze pˆ durch den „ungünstigsten“ Wert, wenn Vorinformationen vorliegen. c) Wenn keine Vorinformationen vorliegen: Ersetze p durch pˆ = 0.5, weil für diesen Wert die Varianz maximal (=0.25) wird. a) Ersetze pˆ durch einen Wert aus früheren Befragungen. Prof. Burgard (FU Berlin) Schließende Se 21/22 30 / 32 0.00 0.05 0.10 0.15 0.20 0.25 p^(1 − p^) für verschiedene Parameter Beispiel: Meinungsumfrage zu UNO-Einsätzen Es soll im Rahmen einer Umfrage untersucht werden, ob die Bevölkerung UNO-Einsätze in bestimmten Situationen befürwortet. Dabei wird gefordert, dass das 95%-Konfidenzintervall nicht breiter als 5%-Punkte sein soll. Zwar ist p normalerweise ungefähr bekannt aber zeitlich sehr instabil („politische Stimmung“). ⇒ Sicherheitshalber ungünstigtes p = 0.5 annehmen! 2 pˆ ( 1 − pˆ ) n ≥ 4z1−α2 L2 = 4 · 1.962 0.5(1 − 0.5) 0.052 Es sollten also mindestens 1537 Personen befragt werden! Prof. Burgard (FU Berlin) Schließende Se 21/22 31 / 32 für verschiedene Parameter Übung: der Bundestagswahl 2013 wurden n = 2000 repräsentativ ausgewählte Personen zu ihrem Wahlverhalten befragt. Dabei gaben 1650 Personen an, wählen zu wollen. p beschreibe die Wahlbeteiligung (Anteil der Wähler an den Wahlberechtigten). a) ein Konfidenzintervall für p zum Niveau 1 − α = 0.99. b) Wie groß muss der Stichprobenumfang n mindestens gewählt werden, damit das Konfidenzintervall eine Länge von 0.02 hat, wenn keine Vorinformation über p besteht? c) Geht man davon aus, dass die Wahlbeteiligung bei einer Bundestagswahl nicht unter 70% liegt, wie groß muss n dann mindestens sein, um die Länge von 0.02 nicht zu überschreiten? Prof. Burgard (FU Berlin) Schließende Se 21/22 32 / 32 程序代写 CS代考加微信: powcoder QQ: 1823890830 Email: powcoder@163.com

Related Posts