95-Konfidenzintervall. Konfidenzintervall. ABC der medizinischen Statistik. Kapitel III. Punkt- und Intervallschätzungen des Mittelwerts

Wahrscheinlichkeiten, die als ausreichend anerkannt sind, um die allgemeinen Parameter anhand der Stichprobenmerkmale sicher beurteilen zu können, werden aufgerufen Treuhänder .

Als Konfidenzwahrscheinlichkeiten werden üblicherweise Werte von 0,95 gewählt; 0,99; 0,999 (normalerweise werden sie als Prozentsatz ausgedrückt – 95 %, 99 %, 99,9 %). Je höher das Verantwortungsmaß, desto höher das Vertrauen: 99 % oder 99,9 %.

In der wissenschaftlichen Forschung im Bereich Körperkultur und Sport wird ein Konfidenzniveau von 0,95 (95 %) als ausreichend angesehen.

Das Intervall, in dem das arithmetische Stichprobenmittel der Gesamtbevölkerung mit einer gegebenen Konfidenzwahrscheinlichkeit ermittelt wird, wird aufgerufen Konfidenzintervall .

Bewertungssignifikanzniveau ist eine kleine Zahl α, deren Wert die Wahrscheinlichkeit impliziert, dass sie außerhalb der Grenzen des Konfidenzintervalls liegt. Gemäß den Konfidenzwahrscheinlichkeiten: α 1 = (1-0,95) = 0,05; α 2 \u003d (1 - 0,99) \u003d 0,01 usw.

Konfidenzintervall für Mittelwert (Erwartung) A Normalverteilung:

,

Wo ist die Zuverlässigkeit (Konfidenzwahrscheinlichkeit) der Schätzung? - Stichprobenmittelwert; s – korrigierte Standardabweichung; n ist die Stichprobengröße; t γ ist der aus der Student-Verteilungstabelle (siehe Anhang, Tabelle 1) ermittelte Wert für gegebenes n und γ.

Um die Grenzen des Konfidenzintervalls des Mittelwerts der Gesamtbevölkerung zu ermitteln, ist es notwendig:

1. Berechnen und s.

2. Es ist notwendig, die Konfidenzwahrscheinlichkeit (Zuverlässigkeit) γ der Schätzung auf 0,95 (95 %) oder das Signifikanzniveau α auf 0,05 (5 %) festzulegen.

3. Finden Sie anhand der Tabelle t – Student-Verteilungen (Anhang, Tabelle 1) die Grenzwerte von t γ .

Da die t-Verteilung symmetrisch zum Nullpunkt ist, reicht es aus, nur den positiven Wert von t zu kennen. Wenn die Stichprobengröße beispielsweise n=16 beträgt, dann ist die Anzahl der Freiheitsgrade (Freiheitsgrade, df) T– Ausschüttungen df=16 - 1=15 . Laut Tabelle 1 Anwendung t 0,05 = 2,13 .

4. Wir finden die Grenzen des Konfidenzintervalls für α = 0,05 und n=16:

Grenzen des Vertrauens:

Für große Stichprobengrößen (n ≥ 30) t – Die Verteilung der Schüler wird normal. Daher ist das Konfidenzintervall für für n ≥ 30 lässt sich wie folgt schreiben:

Wo u sind die Prozentpunkte der normalisierten Normalverteilung.

Für Standard-Konfidenzwahrscheinlichkeiten (95 %, 99 %; 99,9 %) und Signifikanzniveaus α-Werte ( u) sind in Tabelle 8 aufgeführt.

Tabelle 8

Werte für Standard-Konfidenzniveaus α

α u
0,05 1,96
0,01 2,58
0,001 3,28

Basierend auf den Daten von Beispiel 1 definieren wir die Grenzen der 95 % Konfidenzintervall (α = 0,05) für das durchschnittliche Ergebnis des Aufspringens von der Stelle. In unserem Beispiel beträgt die Stichprobengröße n = 65, dann können Empfehlungen für eine große Stichprobengröße verwendet werden, um die Grenzen des Konfidenzintervalls zu bestimmen.

Schätzung von Konfidenzintervallen

Lernziele

Die Statistiken berücksichtigen Folgendes zwei Hauptaufgaben:

    Wir haben eine Schätzung auf der Grundlage von Beispieldaten und möchten eine probabilistische Aussage darüber machen, wo der wahre Wert des geschätzten Parameters liegt.

    Wir haben eine spezifische Hypothese, die anhand von Beispieldaten getestet werden muss.

In diesem Thema betrachten wir das erste Problem. Wir führen auch die Definition eines Konfidenzintervalls ein.

Ein Konfidenzintervall ist ein Intervall, das um den geschätzten Wert eines Parameters herum aufgebaut ist und zeigt, wo der wahre Wert des geschätzten Parameters mit einer a priori gegebenen Wahrscheinlichkeit liegt.

Nachdem Sie das Material zu diesem Thema studiert haben, werden Sie:

    Erfahren Sie, wie groß das Konfidenzintervall der Schätzung ist.

    lernen, statistische Probleme zu klassifizieren;

    beherrschen die Technik der Konstruktion von Konfidenzintervallen, sowohl unter Verwendung statistischer Formeln als auch unter Verwendung von Softwaretools;

    lernen, die erforderlichen Stichprobengrößen zu bestimmen, um bestimmte Parameter der Genauigkeit statistischer Schätzungen zu erreichen.

Verteilungen von Stichprobenmerkmalen

T-Verteilung

Wie oben erläutert, kommt die Verteilung der Zufallsvariablen einer standardisierten Normalverteilung mit den Parametern 0 und 1 nahe. Da wir den Wert von σ nicht kennen, ersetzen wir ihn durch eine Schätzung s. Die Menge hat bereits eine andere Verteilung, nämlich oder Studentenverteilung, der durch den Parameter n -1 (Anzahl der Freiheitsgrade) bestimmt wird. Diese Verteilung kommt der Normalverteilung nahe (je größer n, desto enger sind die Verteilungen).

Auf Abb. 95
Dargestellt wird die Student-Verteilung mit 30 Freiheitsgraden. Wie Sie sehen, kommt es der Normalverteilung sehr nahe.

Ähnlich wie die Funktionen zum Arbeiten mit der Normalverteilung NORMDIST und NORMINV gibt es Funktionen zum Arbeiten mit der t-Verteilung – STUDIST (TDIST) und STUDRASPBR (TINV). Ein Beispiel für die Verwendung dieser Funktionen finden Sie in der Datei STUDRIST.XLS (Vorlage und Lösung) und in Abb. 96
.

Verteilungen anderer Merkmale

Wie wir bereits wissen, benötigen wir eine t-Verteilung, um die Genauigkeit der Erwartungsschätzung zu bestimmen. Um andere Parameter wie die Varianz zu schätzen, sind andere Verteilungen erforderlich. Zwei davon sind die F-Verteilung und x 2 -Verteilung.

Konfidenzintervall für den Mittelwert

Konfidenzintervall ist ein Intervall, das um den geschätzten Wert des Parameters herum aufgebaut ist und zeigt, wo der wahre Wert des geschätzten Parameters mit einer a priori gegebenen Wahrscheinlichkeit liegt.

Es erfolgt die Konstruktion eines Konfidenzintervalls für den Mittelwert auf die folgende Weise:

Beispiel

Das Fastfood-Restaurant plant, sein Sortiment um eine neue Sandwichsorte zu erweitern. Um die Nachfrage danach abzuschätzen, plant der Manager, 40 Besucher unter denen, die es bereits ausprobiert haben, nach dem Zufallsprinzip auszuwählen und sie zu bitten, ihre Einstellung zum neuen Produkt auf einer Skala von 1 bis 10 zu bewerten. Der Manager möchte die schätzen Ermitteln Sie die erwartete Anzahl der Punkte, die das neue Produkt erhalten wird, und erstellen Sie für diese Schätzung ein 95 %-Konfidenzintervall. Wie es geht? (siehe Datei SANDWICH1.XLS (Vorlage und Lösung).

Lösung

Um dieses Problem zu lösen, können Sie . Die Ergebnisse sind in Abb. dargestellt. 97
.

Konfidenzintervall für den Gesamtwert

Manchmal ist es anhand von Beispieldaten erforderlich, nicht die mathematische Erwartung, sondern die Gesamtsumme der Werte zu schätzen. In einer Situation mit einem Wirtschaftsprüfer kann es beispielsweise von Interesse sein, nicht den Durchschnittswert einer Rechnung, sondern die Summe aller Rechnungen zu schätzen.

Sei N die Gesamtzahl der Elemente, n die Stichprobengröße, T 3 die Summe der Werte in der Stichprobe, T" die Schätzung für die Summe über die gesamte Grundgesamtheit, dann wird das Konfidenzintervall berechnet nach der Formel, wobei s die Schätzung der Standardabweichung für die Stichprobe und der geschätzte Durchschnitt für die Stichprobe ist.

Beispiel

Nehmen wir an, ein Finanzamt möchte die Höhe der gesamten Steuererstattungen für 10.000 Steuerpflichtige schätzen. Der Steuerzahler erhält entweder eine Rückerstattung oder zahlt zusätzliche Steuern. Ermitteln Sie das 95 %-Konfidenzintervall für den Rückerstattungsbetrag unter der Annahme einer Stichprobengröße von 500 Personen (siehe Datei REFUND AMOUNT.XLS (Vorlage und Lösung).

Lösung

Für diesen Fall gibt es in StatPro kein spezielles Verfahren, Sie können jedoch sehen, dass die Grenzen aus den Grenzen für den Mittelwert mithilfe der obigen Formeln ermittelt werden können (Abb. 98).
).

Konfidenzintervall für Proportionen

Sei p die Erwartung eines Kundenanteils und pv eine Schätzung dieses Anteils, ermittelt aus einer Stichprobe der Größe n. Es kann gezeigt werden, dass für ausreichend große Die geschätzte Verteilung wird mit dem Mittelwert p und der Standardabweichung nahezu normal sein . Der Standardfehler der Schätzung wird in diesem Fall ausgedrückt als und das Konfidenzintervall als .

Beispiel

Das Fastfood-Restaurant plant, sein Sortiment um eine neue Sandwichsorte zu erweitern. Um die Nachfrage danach abzuschätzen, wählte der Manager zufällig 40 Besucher aus denen, die es bereits ausprobiert hatten, und bat sie, ihre Einstellung zum neuen Produkt auf einer Skala von 1 bis 10 zu bewerten. Der Manager möchte den erwarteten Anteil abschätzen der Kunden, die das neue Produkt mit mindestens 6 Punkten bewerten (er geht davon aus, dass diese Kunden die Verbraucher des neuen Produkts sind).

Lösung

Zunächst erstellen wir eine neue Spalte auf der Grundlage von 1, wenn die Punktzahl des Kunden mehr als 6 Punkte betrug, andernfalls auf 0 (siehe Datei SANDWICH2.XLS (Vorlage und Lösung).

Methode 1

Wir zählen den Betrag 1, schätzen den Anteil und verwenden dann die Formeln.

Der Wert von z cr wird aus speziellen Normalverteilungstabellen entnommen (z. B. 1,96 für ein 95 %-Konfidenzintervall).

Unter Verwendung dieses Ansatzes und spezifischer Daten zur Konstruktion eines 95 %-Intervalls erhalten wir die folgenden Ergebnisse (Abb. 99).
). Der kritische Wert des Parameters z cr beträgt 1,96. Der Standardfehler der Schätzung beträgt 0,077. Die untere Grenze des Konfidenzintervalls liegt bei 0,475. Die Obergrenze des Konfidenzintervalls liegt bei 0,775. Somit kann ein Manager mit 95-prozentiger Sicherheit davon ausgehen, dass der Prozentsatz der Kunden, die ein neues Produkt mit 6 Punkten oder mehr bewerten, zwischen 47,5 und 77,5 liegt.

Methode 2

Dieses Problem kann mit Standard-StatPro-Tools gelöst werden. Hierzu genügt die Feststellung, dass der Anteil in diesem Fall mit dem Durchschnittswert der Spalte Typ übereinstimmt. Als nächstes bewerben StatPro/Statistische Inferenz/Ein-Stichproben-Analyse um ein Konfidenzintervall für den Mittelwert (Erwartungsschätzung) für die Spalte „Typ“ zu erstellen. Die in diesem Fall erhaltenen Ergebnisse werden dem Ergebnis der 1. Methode sehr nahe kommen (Abb. 99).

Konfidenzintervall für Standardabweichung

s wird als Schätzung der Standardabweichung verwendet (die Formel ist in Abschnitt 1 angegeben). Die Dichtefunktion der Schätzung s ist die Chi-Quadrat-Funktion, die wie die t-Verteilung n-1 Freiheitsgrade hat. Für die Arbeit mit dieser Distribution gibt es spezielle Funktionen CHI2DIST (CHIDIST) und CHI2OBR (CHIINV).

Das Konfidenzintervall ist in diesem Fall nicht mehr symmetrisch. Das bedingte Schema der Grenzen ist in Abb. dargestellt. 100 .

Beispiel

Die Maschine soll Teile mit einem Durchmesser von 10 cm produzieren, allerdings kommt es aufgrund verschiedener Umstände zu Fehlern. Dem Qualitätskontrolleur sind zwei Dinge wichtig: Erstens sollte der Durchschnittswert 10 cm betragen; Zweitens werden auch in diesem Fall viele Details verworfen, wenn die Abweichungen groß sind. Jeden Tag fertigt er eine Probe von 50 Teilen an (siehe Datei QUALITÄTSKONTROLLE.XLS (Vorlage und Lösung). Welche Schlussfolgerungen kann eine solche Probe geben?

Lösung

Wir erstellen 95 %-Konfidenzintervalle für den Mittelwert und die Standardabweichung mithilfe von StatPro/Statistische Inferenz/Ein-Stichproben-Analyse(Abb. 101
).

Unter der Annahme einer Normalverteilung der Durchmesser berechnen wir außerdem den Anteil fehlerhafter Produkte und legen eine maximale Abweichung von 0,065 fest. Mithilfe der Möglichkeiten der Nachschlagetabelle (bei zwei Parametern) konstruieren wir die Abhängigkeit des Ausschussprozentsatzes vom Mittelwert und der Standardabweichung (Abb. 102).
).

Konfidenzintervall für die Differenz zweier Mittelwerte

Dies ist eine der wichtigsten Anwendungen statistischer Methoden. Situationsbeispiele.

    Ein Bekleidungsgeschäftsleiter möchte wissen, wie viel mehr oder weniger die durchschnittliche Käuferin im Geschäft ausgibt als ein Mann.

    Die beiden Fluggesellschaften fliegen ähnliche Strecken. Eine Verbraucherorganisation möchte die Differenz zwischen den durchschnittlich zu erwartenden Flugverspätungen beider Fluggesellschaften vergleichen.

    Das Unternehmen verschickt Gutscheine für bestimmte Warenarten in einer Stadt und nicht in einer anderen. Manager möchten die durchschnittlichen Käufe dieser Artikel in den nächsten zwei Monaten vergleichen.

    Ein Autohändler beschäftigt sich bei Präsentationen oft mit Ehepaaren. Um ihre persönlichen Reaktionen auf die Präsentation zu verstehen, werden Paare häufig getrennt interviewt. Der Manager möchte den Unterschied in den Bewertungen von Männern und Frauen bewerten.

Fall unabhängiger Stichproben

Die mittlere Differenz weist eine t-Verteilung mit n 1 + n 2 – 2 Freiheitsgraden auf. Das Konfidenzintervall für μ 1 – μ 2 wird durch das Verhältnis ausgedrückt:

Dieses Problem kann nicht nur durch die oben genannten Formeln, sondern auch durch Standard-StatPro-Tools gelöst werden. Dazu genügt eine Bewerbung

Konfidenzintervall für Differenz zwischen Proportionen

Sei der mathematische Erwartungswert der Aktien. Ihre Stichprobenschätzungen seien auf Stichproben der Größe n 1 bzw. n 2 aufgebaut. Dann gibt es eine Schätzung für die Differenz. Daher wird das Konfidenzintervall für diese Differenz wie folgt ausgedrückt:

Hier ist z cr der Wert, der aus der Normalverteilung spezieller Tabellen erhalten wird (z. B. 1,96 für ein 95 %-Konfidenzintervall).

Der Standardfehler der Schätzung wird in diesem Fall durch die Beziehung ausgedrückt:

.

Beispiel

In Vorbereitung auf den großen Ausverkauf führte das Geschäft die folgende Marktforschung durch. Die 300 besten Käufer wurden ausgewählt und nach dem Zufallsprinzip in zwei Gruppen mit jeweils 150 Mitgliedern aufgeteilt. Alle ausgewählten Käufer erhielten Einladungen zur Teilnahme am Verkauf, aber nur den Mitgliedern der ersten Gruppe wurde ein Coupon beigefügt, der das Recht auf einen Rabatt von 5 % gewährte. Während des Verkaufs wurden die Käufe aller 300 ausgewählten Käufer erfasst. Wie kann ein Manager die Ergebnisse interpretieren und ein Urteil über die Wirksamkeit von Couponing fällen? (Siehe COUPONS.XLS-Datei (Vorlage und Lösung)).

Lösung

In unserem speziellen Fall haben von 150 Kunden, die einen Rabattgutschein erhalten haben, 55 einen Kauf im Sonderangebot getätigt, und von 150, die keinen Gutschein erhalten haben, haben nur 35 einen Kauf getätigt (Abb. 103).
). Dann betragen die Werte der Stichprobenanteile 0,3667 bzw. 0,2333. Und der Stichprobenunterschied zwischen ihnen beträgt jeweils 0,1333. Unter der Annahme eines Konfidenzintervalls von 95 % finden wir aus der Normalverteilungstabelle z cr = 1,96. Die Berechnung des Standardfehlers der Stichprobendifferenz beträgt 0,0524. Schließlich erhalten wir, dass die Untergrenze des 95 %-Konfidenzintervalls 0,0307 bzw. die Obergrenze 0,2359 beträgt. Die erhaltenen Ergebnisse lassen sich so interpretieren, dass wir auf 100 Kunden, die einen Rabattgutschein erhalten haben, mit 3 bis 23 Neukunden rechnen können. Es sollte jedoch bedacht werden, dass diese Schlussfolgerung an sich noch keinen Rückschluss auf die Effizienz der Nutzung von Gutscheinen gibt (denn durch die Gewährung eines Rabatts verlieren wir Gewinn!). Lassen Sie uns dies anhand konkreter Daten demonstrieren. Angenommen, der durchschnittliche Kaufbetrag beträgt 400 Rubel, davon 50 Rubel. Es gibt einen Ladengewinn. Dann ist der erwartete Gewinn pro 100 Kunden, die keinen Gutschein erhalten haben, gleich:

50 0,2333 100 \u003d 1166,50 Rubel.

Ähnliche Berechnungen für 100 Käufer, die einen Gutschein erhalten haben, ergeben:

30 0,3667 100 \u003d 1100,10 Rubel.

Der Rückgang des durchschnittlichen Gewinns auf 30 erklärt sich aus der Tatsache, dass Käufer, die einen Coupon erhalten haben, mit dem Rabatt im Durchschnitt einen Kauf für 380 Rubel tätigen.

Die abschließende Schlussfolgerung zeigt daher, dass die Verwendung solcher Coupons in dieser besonderen Situation ineffizient ist.

Kommentar. Dieses Problem kann mit Standard-StatPro-Tools gelöst werden. Dazu reicht es aus, dieses Problem auf das Problem der Schätzung der Differenz zweier Durchschnittswerte mit der Methode zu reduzieren und dann anzuwenden StatPro/Statistische Inferenz/Zwei-Stichproben-Analyse um ein Konfidenzintervall für die Differenz zwischen zwei Mittelwerten zu erstellen.

Kontrolle des Konfidenzintervalls

Die Länge des Konfidenzintervalls hängt ab von folgenden Bedingungen:

    direkte Daten (Standardabweichung);

    Signifikanzniveau;

    Stichprobengröße.

Stichprobengröße zur Schätzung des Mittelwerts

Betrachten wir zunächst das Problem im allgemeinen Fall. Bezeichnen wir den Wert der halben Länge des uns gegebenen Konfidenzintervalls mit B (Abb. 104).
). Wir wissen, dass das Konfidenzintervall für den Mittelwert einer Zufallsvariablen X ausgedrückt wird als , Wo . Vorausgesetzt:

und wenn wir n ausdrücken, erhalten wir .

Leider kennen wir den genauen Wert der Varianz der Zufallsvariablen X nicht. Darüber hinaus kennen wir den Wert von t cr nicht, da er über die Anzahl der Freiheitsgrade von n abhängt. In dieser Situation können wir Folgendes tun. Anstelle der Varianz s verwenden wir eine Schätzung der Varianz für einige verfügbare Realisierungen der untersuchten Zufallsvariablen. Anstelle des t cr-Werts verwenden wir für die Normalverteilung den z cr-Wert. Dies ist durchaus akzeptabel, da die Dichtefunktionen für die Normal- und t-Verteilung sehr nahe beieinander liegen (außer im Fall kleiner n). Somit hat die gewünschte Formel die Form:

.

Da die Formel im Allgemeinen nicht ganzzahlige Ergebnisse liefert, wird die Rundung mit einem Überschuss des Ergebnisses als gewünschte Stichprobengröße angenommen.

Beispiel

Das Fastfood-Restaurant plant, sein Sortiment um eine neue Sandwichsorte zu erweitern. Um die Nachfrage danach abzuschätzen, plant der Manager, aus den Besuchern, die es bereits ausprobiert haben, nach dem Zufallsprinzip eine bestimmte Anzahl von Besuchern auszuwählen und sie zu bitten, ihre Einstellung zum neuen Produkt auf einer Skala von 1 bis 10 zu bewerten. Der Manager möchte um die erwartete Anzahl von Punkten abzuschätzen, die das neue Produkt erhalten wird. Produkt und zeichnen Sie das 95 %-Konfidenzintervall dieser Schätzung auf. Allerdings möchte er, dass die halbe Breite des Konfidenzintervalls 0,3 nicht überschreitet. Wie viele Besucher muss er befragen?

folgendermaßen:

Hier ots ist eine Schätzung des Bruchteils p und B ist eine gegebene Hälfte der Länge des Konfidenzintervalls. Mit dem Wert kann ein überhöhter Wert für n ermittelt werden ots= 0,5. In diesem Fall wird die Länge des Konfidenzintervalls für keinen wahren Wert von p den angegebenen Wert B überschreiten.

Beispiel

Lassen Sie den Manager aus dem vorherigen Beispiel planen, den Anteil der Kunden abzuschätzen, die einen neuen Produkttyp bevorzugen. Er möchte ein 90 %-Konfidenzintervall konstruieren, dessen Halbwertslänge kleiner oder gleich 0,05 ist. Wie viele Kunden sollten nach dem Zufallsprinzip ausgewählt werden?

Lösung

In unserem Fall beträgt der Wert von z cr = 1,645. Daher wird die benötigte Menge berechnet als .

Wenn der Manager Grund zu der Annahme hätte, dass der gewünschte Wert von p beispielsweise etwa 0,3 beträgt, dann würden wir durch Einsetzen dieses Werts in die obige Formel einen kleineren Wert der Zufallsstichprobe erhalten, nämlich 228.

Formel zur Bestimmung Zufallsstichprobengrößen im Falle einer Differenz zwischen zwei Mittelwerten geschrieben als:

.

Beispiel

Einige Computerunternehmen verfügen über ein Kundendienstzentrum. In letzter Zeit hat die Zahl der Kundenbeschwerden über die schlechte Servicequalität zugenommen. Im Servicecenter sind hauptsächlich zwei Arten von Mitarbeitern beschäftigt: solche mit wenig Erfahrung, die aber spezielle Schulungen absolviert haben, und solche mit umfangreicher praktischer Erfahrung, die aber keine speziellen Schulungen absolviert haben. Das Unternehmen möchte die Kundenbeschwerden der letzten sechs Monate analysieren und deren durchschnittliche Anzahl für jede der beiden Mitarbeitergruppen vergleichen. Es wird davon ausgegangen, dass die Zahlen in den Stichproben für beide Gruppen gleich sind. Wie viele Mitarbeiter müssen in die Stichprobe einbezogen werden, um ein 95 %-Intervall mit einer halben Länge von nicht mehr als 2 zu erhalten?

Lösung

Hier ist σ ots eine Schätzung der Standardabweichung beider Zufallsvariablen unter der Annahme, dass sie nahe beieinander liegen. Daher müssen wir in unserer Aufgabe diese Schätzung irgendwie erhalten. Dies kann beispielsweise wie folgt erfolgen. Wenn man sich die Kundenbeschwerdedaten der letzten sechs Monate ansieht, stellt ein Manager möglicherweise fest, dass es im Allgemeinen zwischen 6 und 36 Beschwerden pro Mitarbeiter gibt. Da er weiß, dass bei einer Normalverteilung praktisch alle Werte nicht mehr als drei Standardabweichungen vom Mittelwert aufweisen, kann er vernünftigerweise davon ausgehen, dass:

Daher ist σ ots = 5.

Wenn wir diesen Wert in die Formel einsetzen, erhalten wir .

Formel zur Bestimmung die Größe einer Zufallsstichprobe im Falle der Schätzung der Differenz zwischen den Anteilen sieht aus wie:

Beispiel

Einige Unternehmen verfügen über zwei Fabriken zur Herstellung ähnlicher Produkte. Der Manager eines Unternehmens möchte die Fehlerquoten beider Fabriken vergleichen. Den vorliegenden Informationen zufolge liegt die Ausschussquote in beiden Fabriken bei 3 bis 5 %. Es soll ein 99 %-Konfidenzintervall mit einer Halbwertslänge von nicht mehr als 0,005 (oder 0,5 %) bilden. Wie viele Produkte sollten aus jeder Fabrik ausgewählt werden?

Lösung

Hier sind p 1ot und p 2ot Schätzungen zweier unbekannter Ausschussanteile in der 1. und 2. Fabrik. Wenn wir p 1ots = p 2ots = 0,5 setzen, erhalten wir einen überschätzten Wert für n. Da wir in unserem Fall jedoch einige a priori Informationen über diese Anteile haben, nehmen wir die obere Schätzung dieser Anteile, nämlich 0,05. Wir bekommen

Wenn einige Populationsparameter aus Stichprobendaten geschätzt werden, ist es sinnvoll, nicht nur eine Punktschätzung des Parameters bereitzustellen, sondern auch ein Konfidenzintervall, das zeigt, wo der genaue Wert des geschätzten Parameters liegen könnte.

In diesem Kapitel haben wir auch quantitative Beziehungen kennengelernt, die es uns ermöglichen, solche Intervalle für verschiedene Parameter zu bilden; gelernt, wie man die Länge des Konfidenzintervalls steuern kann.

Wir weisen auch darauf hin, dass das Problem der Schätzung der Stichprobengröße (Experimentplanungsproblem) mit Standard-StatPro-Tools gelöst werden kann, nämlich StatPro/Statistische Inferenz/Auswahl der Stichprobengröße.

Eine der Methoden zur Lösung statistischer Probleme ist die Berechnung des Konfidenzintervalls. Sie wird als bevorzugte Alternative zur Punktschätzung verwendet, wenn die Stichprobengröße klein ist. Es ist zu beachten, dass die Berechnung des Konfidenzintervalls ziemlich kompliziert ist. Mit den Tools des Excel-Programms können Sie es jedoch etwas vereinfachen. Lassen Sie uns herausfinden, wie dies in der Praxis geschieht.

Diese Methode wird bei der Intervallschätzung verschiedener statistischer Größen verwendet. Die Hauptaufgabe dieser Berechnung besteht darin, die Unsicherheiten der Punktschätzung zu beseitigen.

In Excel gibt es zwei Hauptoptionen für die Berechnung mit dieser Methode: wenn die Varianz bekannt ist und wenn sie unbekannt ist. Im ersten Fall wird die Funktion für Berechnungen verwendet VERTRAUENSNORM, und im zweiten VERTRAUEN.STUDENT.

Methode 1: CONFIDENCE NORM-Funktion

Operator VERTRAUENSNORM, das sich auf die statistische Gruppe von Funktionen bezieht, erschien erstmals in Excel 2010. Frühere Versionen dieses Programms verwenden sein Gegenstück VERTRAUEN. Die Aufgabe dieses Operators besteht darin, ein Konfidenzintervall mit Normalverteilung für den Grundgesamtheitsmittelwert zu berechnen.

Seine Syntax ist wie folgt:

CONFIDENCE NORM(alpha, standard_dev, size)

"Alpha" ist ein Argument, das das Signifikanzniveau angibt, das zur Berechnung des Konfidenzniveaus verwendet wird. Das Konfidenzniveau entspricht dem folgenden Ausdruck:

(1-"Alpha")*100

"Standardabweichung" ist ein Argument, dessen Kern schon aus dem Namen hervorgeht. Dies ist die Standardabweichung der vorgeschlagenen Stichprobe.

"Größe" ist ein Argument, das die Größe der Stichprobe bestimmt.

Alle Argumente für diesen Operator sind erforderlich.

Funktion VERTRAUEN hat genau die gleichen Argumente und Möglichkeiten wie der vorherige. Seine Syntax ist:

VERTRAUEN(alpha, standard_dev, size)

Wie Sie sehen, bestehen die Unterschiede lediglich im Namen des Betreibers. Diese Funktion wurde aus Kompatibilitätsgründen in Excel 2010 und neueren Versionen in einer speziellen Kategorie beibehalten. "Kompatibilität". In Excel 2007 und früheren Versionen ist es in der Hauptgruppe der statistischen Operatoren enthalten.

Die Grenze des Konfidenzintervalls wird mithilfe der Formel der folgenden Form bestimmt:

X+(-)VERTRAUENSNORM

Wo X ist der Stichprobenmittelwert, der in der Mitte des ausgewählten Bereichs liegt.

Schauen wir uns nun anhand eines konkreten Beispiels an, wie das Konfidenzintervall berechnet wird. Es wurden 12 Tests durchgeführt, die zu unterschiedlichen Ergebnissen führten, die in der Tabelle aufgeführt sind. Das ist unsere Gesamtheit. Die Standardabweichung beträgt 8. Wir müssen das Konfidenzintervall auf dem Konfidenzniveau von 97 % berechnen.

  1. Wählen Sie die Zelle aus, in der das Ergebnis der Datenverarbeitung angezeigt wird. Klicken Sie auf die Schaltfläche „Funktion einfügen“.
  2. Erscheint Funktionsassistent. Zur Kategorie gehen „Statistisch“ und markieren Sie den Namen „VERTRAUEN.NORM“. Klicken Sie anschließend auf die Schaltfläche OK.
  3. Das Argumentfenster wird geöffnet. Seine Felder entsprechen natürlich den Namen der Argumente.
    Setzen Sie den Cursor auf das erste Feld - "Alpha". Hier sollten wir das Signifikanzniveau angeben. Wie wir uns erinnern, liegt unser Vertrauensgrad bei 97 %. Gleichzeitig haben wir gesagt, dass es wie folgt berechnet wird:

    (1-Vertrauensstufe)/100

    Das heißt, wenn wir den Wert ersetzen, erhalten wir:

    Durch einfache Berechnungen finden wir heraus, dass das Argument "Alpha" gleicht 0,03 . Geben Sie diesen Wert in das Feld ein.

    Wie Sie wissen, ist die Standardabweichung gleich 8 . Deshalb im Feld "Standardabweichung" Schreiben Sie einfach diese Nummer auf.

    Auf dem Feld "Größe" Sie müssen die Anzahl der Elemente der durchgeführten Tests eingeben. Soweit wir uns erinnern, sie 12 . Um die Formel jedoch zu automatisieren und nicht jedes Mal zu bearbeiten, wenn ein neuer Test durchgeführt wird, setzen wir diesen Wert nicht auf eine gewöhnliche Zahl, sondern mithilfe des Operators ÜBERPRÜFEN. Also setzen wir den Cursor in das Feld "Größe" und klicken Sie dann auf das Dreieck, das sich links neben der Bearbeitungsleiste befindet.

    Es erscheint eine Liste der zuletzt verwendeten Funktionen. Wenn der Betreiber ÜBERPRÜFEN Wenn Sie das Gerät kürzlich verwendet haben, sollte es auf dieser Liste stehen. In diesem Fall müssen Sie nur auf den Namen klicken. Andernfalls, wenn Sie es nicht finden, gehen Sie zur Sache "Mehr Funktionen...".

  4. Kommt uns schon bekannt vor Funktionsassistent. Zurück zur Gruppe „Statistisch“. Dort wählen wir den Namen aus "ÜBERPRÜFEN". Klicken Sie auf die Schaltfläche OK.
  5. Das Argumentfenster für den obigen Operator erscheint. Mit dieser Funktion wird die Anzahl der Zellen im angegebenen Bereich berechnet, die numerische Werte enthalten. Seine Syntax ist die folgende:

    COUNT(Wert1, Wert2,…)

    Argumentgruppe "Werte" ist ein Verweis auf den Bereich, in dem Sie die Anzahl der mit numerischen Daten gefüllten Zellen berechnen möchten. Insgesamt kann es bis zu 255 solcher Argumente geben, in unserem Fall benötigen wir jedoch nur eines.

    Setzen Sie den Cursor in das Feld „Wert1“ und wählen Sie mit gedrückter linker Maustaste den Bereich auf dem Blatt aus, der unsere Bevölkerung enthält. Dann wird seine Adresse im Feld angezeigt. Klicken Sie auf die Schaltfläche OK.

  6. Danach führt die Anwendung die Berechnung durch und zeigt das Ergebnis in der Zelle an, in der sie sich befindet. In unserem speziellen Fall sah die Formel so aus:

    VERTRAUENSNORM(0,03,8,COUNT(B2:B13))

    Das Gesamtergebnis der Berechnungen war 5,011609 .

  7. Aber das ist noch nicht alles. Wie wir uns erinnern, wird die Grenze des Konfidenzintervalls durch Addition und Subtraktion des durchschnittlichen Stichprobenwerts des Berechnungsergebnisses berechnet VERTRAUENSNORM. Auf diese Weise werden jeweils die rechte und linke Grenze des Konfidenzintervalls berechnet. Der Stichprobenmittelwert selbst kann mithilfe des Operators berechnet werden DURCHSCHNITT.

    Dieser Operator dient zur Berechnung des arithmetischen Mittels des ausgewählten Zahlenbereichs. Es hat die folgende recht einfache Syntax:

    DURCHSCHNITT(Nummer1, Nummer2,…)

    Streit "Nummer" kann entweder ein einzelner numerischer Wert oder ein Verweis auf Zellen oder sogar ganze Bereiche sein, die diese enthalten.

    Wählen Sie also die Zelle aus, in der die Berechnung des Durchschnittswerts angezeigt werden soll, und klicken Sie auf die Schaltfläche „Funktion einfügen“.

  8. öffnet Funktionsassistent. Zurück zur Kategorie „Statistisch“ und wählen Sie einen Namen aus der Liste aus "DURCHSCHNITT". Klicken Sie wie immer auf den Button OK.
  9. Das Argumentfenster wird geöffnet. Setzen Sie den Cursor in das Feld "Nummer 1" und markieren Sie mit gedrückter linker Maustaste den gesamten Wertebereich. Nachdem die Koordinaten im Feld angezeigt werden, klicken Sie auf die Schaltfläche OK.
  10. Danach DURCHSCHNITT gibt das Ergebnis der Berechnung an ein Blattelement aus.
  11. Wir berechnen die rechte Grenze des Konfidenzintervalls. Wählen Sie dazu eine separate Zelle aus und setzen Sie das Zeichen «=» und fügen Sie die Inhalte der Blattelemente hinzu, in denen sich die Ergebnisse der Funktionsberechnung befinden DURCHSCHNITT Und VERTRAUENSNORM. Um die Berechnung durchzuführen, drücken Sie die Taste Eingeben. In unserem Fall haben wir die folgende Formel erhalten:

    Berechnungsergebnis: 6,953276

  12. Auf die gleiche Weise berechnen wir den linken Rand des Konfidenzintervalls, nur dieses Mal aus dem Ergebnis der Berechnung DURCHSCHNITT Subtrahieren Sie das Ergebnis der Berechnung des Operators VERTRAUENSNORM. Es stellt sich heraus, dass die Formel für unser Beispiel wie folgt aussieht:

    Berechnungsergebnis: -3,06994

  13. Wir haben versucht, alle Schritte zur Berechnung des Konfidenzintervalls detailliert zu beschreiben, daher haben wir jede Formel ausführlich beschrieben. Sie können aber alle Aktionen in einer Formel kombinieren. Die Berechnung der rechten Grenze des Konfidenzintervalls kann wie folgt geschrieben werden:

    DURCHSCHNITT(B2:B13)+VERTRAUEN(0,03,8,ANZAHL(B2:B13))

  14. Eine ähnliche Berechnung des linken Randes würde so aussehen:

    AVERAGE(B2:B13)-CONFIDENCE.NORM(0.03,8,COUNT(B2:B13))

Methode 2: TRUST.STUDENT-Funktion

Darüber hinaus gibt es in Excel eine weitere Funktion, die mit der Berechnung des Konfidenzintervalls zusammenhängt – VERTRAUEN.STUDENT. Er erscheint erst seit Excel 2010. Dieser Operator führt die Berechnung des Populationskonfidenzintervalls mithilfe der Student-t-Verteilung durch. Es ist sehr praktisch, es zu verwenden, wenn die Varianz und dementsprechend die Standardabweichung unbekannt sind. Die Operatorsyntax lautet:

TRUST.STUDENT(alpha,standard_dev,size)

Wie Sie sehen, blieben die Namen der Betreiber in diesem Fall unverändert.

Sehen wir uns am Beispiel derselben Population, die wir in der vorherigen Methode betrachtet haben, an, wie die Grenzen des Konfidenzintervalls mit einer unbekannten Standardabweichung berechnet werden. Das Vertrauensniveau werden wir wie beim letzten Mal mit 97 % annehmen.

  1. Wählen Sie die Zelle aus, in der die Berechnung durchgeführt werden soll. Klicken Sie auf die Schaltfläche „Funktion einfügen“.
  2. Im geöffneten Funktionsassistent gehe zur Kategorie „Statistisch“. Wähle einen Namen „VERTRAUEN.STUDENT“. Klicken Sie auf die Schaltfläche OK.
  3. Das Argumentfenster für den angegebenen Operator wird geöffnet.

    Auf dem Feld "Alpha" Da das Konfidenzniveau 97 % beträgt, notieren wir die Zahl 0,03 . Beim zweiten Mal werden wir uns nicht mit den Prinzipien der Berechnung dieses Parameters befassen.

    Setzen Sie anschließend den Cursor in das Feld "Standardabweichung". Diesmal ist uns dieser Indikator unbekannt und muss berechnet werden. Dies geschieht über eine spezielle Funktion - STDEV.B. Um das Fenster dieses Operators aufzurufen, klicken Sie auf das Dreieck links neben der Bearbeitungsleiste. Sollten wir den gewünschten Namen in der sich öffnenden Liste nicht finden, dann gehen Sie zum Punkt "Mehr Funktionen...".

  4. läuft Funktionsassistent. Wechsel zur Kategorie „Statistisch“ und markiere den Namen „STDEV.B“. Klicken Sie dann auf den Button OK.
  5. Das Argumentfenster wird geöffnet. Bedieneraufgabe STDEV.B ist die Definition der Standardabweichung bei der Stichprobe. Seine Syntax sieht so aus:

    STABW.V(Zahl1,Zahl2,…)

    Es ist leicht, das Argument zu erraten "Nummer" ist die Adresse des Auswahlelements. Wenn die Auswahl in einem einzelnen Array platziert wird, können Sie mit nur einem Argument einen Link zu diesem Bereich angeben.

    Setzen Sie den Cursor in das Feld "Nummer 1" und wie immer mit gedrückter linker Maustaste das Set auswählen. Nachdem die Koordinaten im Feld vorliegen, beeilen Sie sich nicht, den Knopf zu drücken OK weil das Ergebnis falsch sein wird. Zuerst müssen wir zum Fenster mit den Operatorargumenten zurückkehren VERTRAUEN.STUDENT um das letzte Argument vorzubringen. Klicken Sie dazu in der Bearbeitungsleiste auf den entsprechenden Namen.

  6. Das Argumentfenster der bereits bekannten Funktion öffnet sich erneut. Setzen Sie den Cursor in das Feld "Größe". Klicken Sie erneut auf das uns bereits bekannte Dreieck, um zur Auswahl der Operatoren zu gelangen. Wie Sie verstehen, brauchen wir einen Namen "ÜBERPRÜFEN". Da wir diese Funktion in den Berechnungen der vorherigen Methode verwendet haben, ist sie in dieser Liste vorhanden, also klicken Sie einfach darauf. Wenn Sie es nicht finden, befolgen Sie den in der ersten Methode beschriebenen Algorithmus.
  7. Einstieg in das Argumentfenster ÜBERPRÜFEN, setzen Sie den Cursor in das Feld "Nummer 1" und wählen Sie mit gedrückter Maustaste die Sammlung aus. Klicken Sie dann auf den Button OK.
  8. Anschließend berechnet das Programm den Wert des Konfidenzintervalls und zeigt ihn an.
  9. Um die Grenzen zu bestimmen, müssen wir erneut den Stichprobenmittelwert berechnen. Aber vorausgesetzt, der Berechnungsalgorithmus verwendet die Formel DURCHSCHNITT das gleiche wie bei der vorherigen Methode, und auch wenn sich das Ergebnis nicht geändert hat, werden wir nicht ein zweites Mal im Detail darauf eingehen.
  10. Addieren der Ergebnisse der Berechnung DURCHSCHNITT Und VERTRAUEN.STUDENT erhalten wir die rechte Grenze des Konfidenzintervalls.
  11. Subtrahieren von den Berechnungsergebnissen des Operators DURCHSCHNITT Berechnungsergebnis VERTRAUEN.STUDENT, wir haben die linke Grenze des Konfidenzintervalls.
  12. Wenn die Berechnung in einer Formel geschrieben wird, sieht die Berechnung der rechten Grenze in unserem Fall so aus:

    DURCHSCHNITT(B2:B13)+VERTRAUEN DER SCHÜLER(0,03,STDV(B2:B13),ANZAHL(B2:B13))

  13. Dementsprechend sieht die Formel zur Berechnung des linken Randes so aus:

    DURCHSCHNITT(B2:B13) – VERTRAUEN DER SCHÜLER(0,03,STDV(B2:B13),ANZAHL(B2:B13))

Wie Sie sehen, ermöglichen die Tools des Excel-Programms eine deutliche Vereinfachung der Berechnung des Konfidenzintervalls und seiner Grenzen. Zu diesem Zweck werden separate Operatoren für Stichproben verwendet, deren Varianz bekannt und unbekannt ist.

Konstantin Krawchik erklärt anschaulich, was ein Konfidenzintervall in der medizinischen Forschung ist und wie man es nutzt

„Katern-Style“ veröffentlicht weiterhin einen Zyklus von Konstantin Kravchik zur medizinischen Statistik. In zwei früheren Artikeln ging der Autor auf die Erklärung von Konzepten wie und ein.

Konstantin Krawtschik

Mathematiker-Analytiker. Spezialist auf dem Gebiet der statistischen Forschung in Medizin und Geisteswissenschaften

Die Stadt Moskau

Sehr oft findet man in Artikeln über klinische Studien einen mysteriösen Ausdruck: „Konfidenzintervall“ (95 %-KI oder 95 %-KI – Konfidenzintervall). In einem Artikel könnte es beispielsweise heißen: „Der Student-T-Test wurde verwendet, um die Signifikanz von Unterschieden zu bewerten, wobei ein 95-%-Konfidenzintervall berechnet wurde.“

Welchen Wert hat das „95 %-Konfidenzintervall“ und warum wird es berechnet?

Was ist ein Konfidenzintervall? – Dies ist der Bereich, in dem die wahren Mittelwerte in der Grundgesamtheit liegen. Und was, es gibt „unwahre“ Durchschnittswerte? In gewissem Sinne ja, das tun sie. In erklärten wir, dass es unmöglich ist, den interessierenden Parameter in der gesamten Bevölkerung zu messen, sodass sich die Forscher mit einer begrenzten Stichprobe begnügen. In dieser Stichprobe (zum Beispiel nach Körpergewicht) gibt es einen Durchschnittswert (ein bestimmtes Gewicht), anhand dessen wir den Durchschnittswert in der gesamten Allgemeinbevölkerung beurteilen. Es ist jedoch unwahrscheinlich, dass das Durchschnittsgewicht der Stichprobe (insbesondere einer kleinen) mit dem Durchschnittsgewicht der Gesamtbevölkerung übereinstimmt. Daher ist es richtiger, den Bereich der Durchschnittswerte der Gesamtbevölkerung zu berechnen und zu verwenden.

Angenommen, das 95 %-Konfidenzintervall (95 %-KI) für Hämoglobin liegt zwischen 110 und 122 g/L. Das bedeutet, dass der wahre Mittelwert für Hämoglobin in der Allgemeinbevölkerung mit einer Wahrscheinlichkeit von 95 % im Bereich von 110 bis 122 g/l liegt. Mit anderen Worten: Wir kennen den durchschnittlichen Hämoglobinwert in der Allgemeinbevölkerung nicht, können aber mit einer Wahrscheinlichkeit von 95 % den Wertebereich für dieses Merkmal angeben.

Konfidenzintervalle sind insbesondere für den Mittelwertunterschied zwischen Gruppen oder die sogenannte Effektgröße relevant.

Angenommen, wir vergleichen die Wirksamkeit zweier Eisenpräparate: eines, das schon lange auf dem Markt ist, und eines, das gerade erst registriert wurde. Nach dem Therapieverlauf wurde die Hämoglobinkonzentration in den untersuchten Patientengruppen beurteilt und das Statistikprogramm für uns berechnet, dass der Unterschied zwischen den Durchschnittswerten der beiden Gruppen mit einer Wahrscheinlichkeit von 95 % im Bereich von liegt 1,72 bis 14,36 g/l (Tabelle 1).

Tab. 1. Kriterium für unabhängige Stichproben
(Gruppen werden nach Hämoglobinspiegel verglichen)

Dies ist wie folgt zu interpretieren: Bei einem Teil der Patienten der Allgemeinbevölkerung, die ein neues Medikament einnehmen, wird das Hämoglobin im Durchschnitt um 1,72–14,36 g/l höher sein als bei denen, die ein bereits bekanntes Medikament eingenommen haben.

Mit anderen Worten: In der Allgemeinbevölkerung liegt der Unterschied der Durchschnittswerte für Hämoglobin in Gruppen mit einer Wahrscheinlichkeit von 95 % innerhalb dieser Grenzen. Es liegt am Forscher, zu beurteilen, ob dies viel oder wenig ist. Der Sinn all dessen besteht darin, dass wir nicht mit einem Durchschnittswert, sondern mit einer Reihe von Werten arbeiten und daher den Unterschied eines Parameters zwischen Gruppen zuverlässiger einschätzen können.

In Statistikpaketen kann man nach Ermessen des Forschers die Grenzen des Konfidenzintervalls selbstständig eingrenzen oder erweitern. Indem wir die Wahrscheinlichkeiten des Konfidenzintervalls verringern, verengen wir den Bereich der Mittelwerte. Beispielsweise ist bei einem 90 %-KI der Bereich der Mittelwerte (oder Mittelwertunterschiede) enger als bei einem 95 %-KI.

Umgekehrt erweitert eine Erhöhung der Wahrscheinlichkeit auf 99 % den Wertebereich. Beim Vergleich von Gruppen kann die Untergrenze des KI die Nullmarke überschreiten. Wenn wir beispielsweise die Grenzen des Konfidenzintervalls auf 99  % erweitern, dann liegen die Grenzen des Intervalls im Bereich von –1 bis 16 g/L. Dies bedeutet, dass es in der Gesamtbevölkerung Gruppen gibt, deren Durchschnittsdifferenz für das untersuchte Merkmal 0 beträgt (M=0).

Konfidenzintervalle können zum Testen statistischer Hypothesen verwendet werden. Wenn das Konfidenzintervall den Nullwert überschreitet, ist die Nullhypothese wahr, die davon ausgeht, dass sich die Gruppen im untersuchten Parameter nicht unterscheiden. Ein Beispiel ist oben beschrieben, als wir die Grenzen auf 99 % erweiterten. Irgendwo in der Allgemeinbevölkerung fanden wir Gruppen, die sich in keiner Weise unterschieden.

95 %-Konfidenzintervall der Hämoglobindifferenz (g/l)


Die Abbildung zeigt das 95 %-Konfidenzintervall der mittleren Hämoglobindifferenz zwischen den beiden Gruppen als Linie. Die Linie passiert die Nullmarke, daher besteht eine Differenz zwischen den Mittelwerten gleich Null, was die Nullhypothese bestätigt, dass sich die Gruppen nicht unterscheiden. Der Unterschied zwischen den Gruppen liegt zwischen -2 und 5 g/l, was bedeutet, dass das Hämoglobin entweder um 2 g/l sinken oder um 5 g/l ansteigen kann.

Das Konfidenzintervall ist ein sehr wichtiger Indikator. Dadurch können Sie erkennen, ob die Unterschiede in den Gruppen wirklich auf den Unterschied in den Mittelwerten oder auf eine große Stichprobe zurückzuführen sind, denn bei einer großen Stichprobe sind die Chancen, Unterschiede zu finden, größer als bei einer kleinen Stichprobe.

In der Praxis könnte es so aussehen. Wir haben eine Stichprobe von 1000 Personen genommen, den Hämoglobinspiegel gemessen und festgestellt, dass das Konfidenzintervall für die Differenz der Mittelwerte zwischen 1,2 und 1,5 g/L liegt. Das Niveau der statistischen Signifikanz in diesem Fall p

Wir sehen, dass die Hämoglobinkonzentration anstieg, jedoch fast unmerklich, daher erschien die statistische Signifikanz gerade aufgrund der Probengröße.

Konfidenzintervalle können nicht nur für Durchschnittswerte, sondern auch für Anteile (und Risikoverhältnisse) berechnet werden. Uns interessiert beispielsweise das Konfidenzintervall der Anteile der Patienten, die unter Einnahme des entwickelten Arzneimittels eine Remission erreichten. Gehen Sie davon aus, dass das 95 %-KI für die Anteile, also für den Anteil solcher Patienten, im Bereich 0,60–0,80 liegt. Somit können wir sagen, dass unser Arzneimittel in 60 bis 80 % der Fälle eine therapeutische Wirkung hat.

Angenommen, wir haben eine große Anzahl von Artikeln mit einer Normalverteilung einiger Merkmale (z. B. ein volles Lagerhaus mit Gemüse derselben Sorte, dessen Größe und Gewicht variieren). Sie möchten die durchschnittlichen Eigenschaften der gesamten Warenpartie kennen, haben aber weder die Zeit noch die Lust, jedes Gemüse abzumessen und zu wiegen. Sie verstehen, dass dies nicht notwendig ist. Aber wie viele Teile müssten Sie für eine Stichprobenkontrolle mitnehmen? Bevor wir einige für diese Situation nützliche Formeln angeben, erinnern wir uns an einige Notationen. Wenn wir zunächst das gesamte Gemüselager vermessen würden (diese Menge von Elementen wird als Gesamtbevölkerung bezeichnet), würden wir mit aller uns zur Verfügung stehenden Genauigkeit den Durchschnittswert des Gewichts der gesamten Charge ermitteln. Nennen wir das Durchschnitt X-Durchschnittsgen. - Allgemeiner Durchschnitt. Wir wissen bereits, was vollständig bestimmt ist, wenn sein Mittelwert und seine Abweichung s bekannt sind. Zwar kennen wir bisher weder das X-Durchschnittsgen noch die Gene der Allgemeinbevölkerung. Wir können nur eine Probe nehmen, die benötigten Werte messen und für diese Probe sowohl den Durchschnittswert X avg. als auch die Standardabweichung S vyb berechnen. Es ist bekannt, dass sich die s der Grundgesamtheit fast nicht von den S-Stichproben unterscheiden, wenn unsere Stichprobenprüfung eine große Anzahl von Elementen enthält (normalerweise n mehr als 30) und diese wirklich zufällig entnommen werden Für eine Normalverteilung können wir die folgenden Formeln verwenden:

Mit einer Wahrscheinlichkeit von 95 %

Mit einer Wahrscheinlichkeit von 99 %

.

Im Allgemeinen mit Wahrscheinlichkeit Р(t)

Den Zusammenhang zwischen dem Wert von t und dem Wert der Wahrscheinlichkeit P(t), mit dem wir das Konfidenzintervall wissen wollen, können wir der folgenden Tabelle entnehmen:

P(t) 0,683 0,950 0,954 0,990 0,997
T 1,00 1,96 2,00 2,58 3,00

Damit haben wir ermittelt, in welchem ​​Bereich der Durchschnittswert für die Gesamtbevölkerung liegt (mit einer gegebenen Wahrscheinlichkeit).

Wenn die Stichprobe nicht groß genug ist, können wir nicht behaupten, dass die Grundgesamtheit s = S Stichproben hat. Darüber hinaus ist in diesem Fall die Nähe der Stichprobe zur Normalverteilung problematisch. In diesem Fall verwenden Sie in der Formel auch S s anstelle von s:

sondern der Wert von t für eine feste Wahrscheinlichkeit P(t) hängt von der Anzahl der Elemente in der Stichprobe n ab. Je größer n, desto näher liegt das resultierende Konfidenzintervall an dem durch Formel (1) angegebenen Wert. Die t-Werte stammen in diesem Fall aus einer anderen Tabelle (Student-t-Test), die wir unten bereitstellen:

T-Test-Werte des Schülers für die Wahrscheinlichkeit 0,95 und 0,99 

N P N P
0.95 0.99 0.95 0.99
2 12.71 63.66 18 2.11 2.90
3 4.30 9.93 19 2.10 2.88
4 3.18 5.84 20 2.093 2.861
5 2.78 4.60 25 2.064 2.797
6 2.57 4.03 30 2.045 2.756
7 2.45 3.71 35 2.032 2.720
8 2.37 3.50 40 2.022 2.708
9 2.31 3.36 45 2.016 2.692
10 2.26 3.25 50 2.009 2.679
11 2.23 3.17 60 2.001 2.662
12 2.20 3.11 70 1.996 2.649
13 2.18 3.06 80 1.991 2.640
14 2.16 3.01 90 1.987 2.633
15 2.15 2.98 100 1.984 2.627
16 2.13 2.95 120 1.980 2.617
17 2.12 2.92 >120 1.960 2.576

Beispiel 3 Aus den Mitarbeitern des Unternehmens wurden 30 Personen nach dem Zufallsprinzip ausgewählt. Der Stichprobe zufolge betrug das durchschnittliche Gehalt (pro Monat) 10.000 Rubel mit einer durchschnittlichen quadratischen Abweichung von 3.000 Rubel. Bestimmen Sie mit einer Wahrscheinlichkeit von 0,99 das durchschnittliche Gehalt im Unternehmen. Lösung: Aufgrund der Bedingung gilt n = 30, X vgl. =10000, S=3000, P=0,99. Um das Konfidenzintervall zu ermitteln, verwenden wir die Formel, die dem Student-Kriterium entspricht. Gemäß der Tabelle für n \u003d 30 und P \u003d 0,99 finden wir t \u003d 2,756, also

diese. gewünschtes Konfidenzintervall 27484< Х ср.ген < 32516.

Mit einer Wahrscheinlichkeit von 0,99 lässt sich also argumentieren, dass das Intervall (27484; 32516) das durchschnittliche Gehalt im Unternehmen enthält.
Wir hoffen, dass Sie diese Methode nutzen, ohne jedes Mal eine Tabellenkalkulation dabei zu haben. Berechnungen können automatisch in Excel durchgeführt werden. Klicken Sie in einer Excel-Datei auf die FX-Schaltfläche im oberen Menü. Wählen Sie dann unter den Funktionen den Typ „statistisch“ und aus der vorgeschlagenen Liste im Feld „STEUDRASP“ aus. Platzieren Sie dann an der Eingabeaufforderung den Cursor im Feld „Wahrscheinlichkeit“ und geben Sie den Wert der reziproken Wahrscheinlichkeit ein (d. h. in unserem Fall müssen Sie anstelle der Wahrscheinlichkeit von 0,95 die Wahrscheinlichkeit von 0,05 eingeben). Anscheinend ist die Tabelle so konzipiert, dass das Ergebnis die Frage beantwortet, wie wahrscheinlich es ist, dass wir uns irren. Geben Sie im Feld „Freiheitsgrad“ ebenfalls den Wert (n-1) für Ihre Stichprobe ein.