Speisekarte
Kostenlos
Anmeldung
heim  /  Herpes/ Allgemeine Bevölkerung und Probenahme für Dummies. Allgemeine und Stichprobenpopulationen. Das Konzept der Repräsentativität

Population und Probenahme für Dummies. Allgemeine und Stichprobenpopulationen. Das Konzept der Repräsentativität

Vorlesung 6. Elemente mathematische Statistik

Fragen zur Kontrolle des Wissens und zur Zusammenfassung der gehaltenen Vorlesung

1. Definieren Sie eine Zufallsvariable.

2.Schreiben Sie Formeln für den mathematischen Erwartungswert und die Varianz diskreter und kontinuierlicher Zufallsvariablen.

3. Definieren Sie den lokalen integralen Grenzwertsatz von Laplace

4. Schreiben Sie Formeln, die die Binomialverteilung, die hypergeometrische Verteilung, die Poisson-Verteilung, die Gleichverteilung und die Normalverteilung definieren.

Ziel: Die grundlegenden Konzepte der mathematischen Statistik studieren

1. Bevölkerung und Stichprobe

2. Statistische Verteilung der Stichprobe. Polygon. Balkendiagramm .

3. Schätzungen der Parameter der Allgemeinbevölkerung basierend auf ihrer Stichprobe

4. Gesamt- und Stichprobendurchschnitte. Methoden zu ihrer Berechnung.

5. Allgemeine und Stichprobenvarianzen.

6. Fragen zur Wissenskontrolle und Zusammenfassung der gehaltenen Vorlesung

Wir beginnen, die Elemente der mathematischen Statistik zu studieren, die wissenschaftlich fundierte Methoden zur Erhebung und Verarbeitung statistischer Daten entwickelt.

1. Gesamtbevölkerung und Stichprobe. Lassen Sie es notwendig sein, eine Menge homogener Objekte zu untersuchen (diese Menge heißt statistisches Aggregat) bezüglich eines qualitativen oder quantitativen Merkmals, das diese Objekte charakterisiert. Wenn es sich beispielsweise um eine Charge von Teilen handelt, kann der Standard des Teils als qualitatives Zeichen und die kontrollierte Größe des Teils als quantitatives Zeichen dienen.

Am besten führen Sie eine vollständige Untersuchung durch, d.h. Untersuchen Sie jedes Objekt. In den meisten Fällen ist dies jedoch aus verschiedenen Gründen nicht möglich. Kann eine vollständige Untersuchung verhindern große Nummer Objekte, ihre Unzugänglichkeit. Wenn wir beispielsweise die durchschnittliche Tiefe des Kraters kennen müssen, wenn eine Granate aus einer Versuchscharge explodiert, dann zerstören wir durch eine vollständige Untersuchung die gesamte Charge.

Ist eine vollständige Erhebung nicht möglich, wird ein Teil der Objekte aus der Gesamtpopulation zur Untersuchung ausgewählt.

Die statistische Grundgesamtheit, aus der ein Teil der Objekte ausgewählt wird, wird aufgerufen die allgemeine Bevölkerung. Eine Menge von Objekten, die zufällig aus einer Population ausgewählt werden, wird aufgerufen Probenahme.

Die Anzahl der Objekte in der Grundgesamtheit bzw. Stichprobe wird aufgerufen Volumen allgemeine Bevölkerung und Volumen Proben.

Beispiel 10.1. Die Früchte eines Baumes (200 Stück) werden auf das Vorhandensein eines sortenspezifischen Geschmacks untersucht. Hierzu werden 10 Stück ausgewählt. Hier ist 200 die Größe der Grundgesamtheit und 10 die Größe der Stichprobe.

Wenn aus einem Objekt eine Stichprobe ausgewählt, untersucht und an die Grundgesamtheit zurückgegeben wird, wird die Stichprobe aufgerufen wiederholt. Wenn die Stichprobenobjekte nicht mehr an die Grundgesamtheit zurückgegeben werden, wird die Stichprobe aufgerufen wiederholbar.



In der Praxis wird häufiger die nicht wiederkehrende Probenahme verwendet. Wenn die Stichprobengröße nur einen kleinen Bruchteil der Grundgesamtheit ausmacht, ist der Unterschied zwischen wiederholten und nicht replizierten Stichproben vernachlässigbar.

Die Eigenschaften der Objekte in der Stichprobe müssen die Eigenschaften der Objekte in der Grundgesamtheit korrekt widerspiegeln, oder, wie man sagt, die Stichprobe muss es sein Vertreter(Vertreter). Eine Stichprobe gilt als repräsentativ, wenn alle Objekte der Grundgesamtheit die gleiche Wahrscheinlichkeit haben, in die Stichprobe aufgenommen zu werden, d. h. die Auswahl erfolgt zufällig. Um beispielsweise die zukünftige Ernte abzuschätzen, können Sie eine Stichprobe aus der Gesamtpopulation noch nicht gereifter Früchte erstellen und deren Eigenschaften (Gewicht, Qualität usw.) untersuchen. Wenn die gesamte Probe von einem Baum entnommen wird, ist sie nicht repräsentativ. Eine repräsentative Stichprobe sollte aus zufällig ausgewählten Früchten zufällig ausgewählter Bäume bestehen.

2. Statistische Verteilung der Stichprobe. Polygon. Balkendiagramm. Lassen Sie eine Stichprobe aus der Gesamtbevölkerung ziehen und X 1 beobachtet N 1 mal, X 2 - Nr. 2 einmal, ..., x k - n k mal und N 1 +N 2 +…+ nk= P - Stichprobengröße. Beobachtete Werte X 1 , X 2 , …, x k angerufen Optionen, und die Variantenfolge, in aufsteigender Reihenfolge geschrieben, ist Variationsreihe. Anzahl der Beobachtungen N 1 , N 2 , …, nk angerufen Frequenzen, und ihre Beziehung zur Stichprobengröße , , …, - relative Häufigkeiten. Beachten Sie, dass die Summe der relativen Häufigkeiten gleich eins ist: .

Statistische Stichprobenverteilung Rufen Sie eine Liste von Optionen und ihren entsprechenden Häufigkeiten oder relativen Häufigkeiten auf. Die statistische Verteilung kann auch als Folge von Intervallen und ihren entsprechenden Häufigkeiten angegeben werden (kontinuierliche Verteilung). Die Summe der Häufigkeiten der Varianten, die in dieses Intervall fallen, wird als die dem Intervall entsprechende Häufigkeit angenommen. Um die statistische Verteilung grafisch darzustellen, verwenden Sie Polygone Und Histogramme.

Ein Polygon auf einer Achse konstruieren Oh Option zum Aufschieben von Werten X ich, auf der Achse OU - Frequenzwerte P i (relative Frequenzen).

Beispiel 10.2. In Abb. 10.1 zeigt das Polygon der folgenden Verteilung

Das Polygon wird üblicherweise bei wenigen Optionen verwendet. Bei einer großen Variantenzahl und bei einer kontinuierlichen Verteilung des Attributs werden häufig Histogramme erstellt. Dazu wird das Intervall, in dem alle beobachteten Werte des Attributs enthalten sind, in mehrere Teilintervalle der Länge unterteilt H und finde für jedes Teilintervall n ich, - die Summe der Häufigkeiten der darin enthaltenen Variante ich-Intervall. Dann werden auf diesen Intervallen, wie auf Basen, Rechtecke mit Höhen gebaut (oder, wo P - Stichprobengröße).

Quadrat ich Teilrechteck ist gleich , (oder ).

Folglich ist die Fläche des Histogramms gleich der Summe aller Häufigkeiten (oder relativen Häufigkeiten), d.h. Stichprobengröße (oder Einheit).

Beispiel 10.3. In Abb. Abbildung 10.2 zeigt ein Histogramm einer kontinuierlichen Volumenverteilung N= 100 in der folgenden Tabelle angegeben.

In der mathematischen Statistik gibt es zwei grundlegende Konzepte: Grundgesamtheit und Stichprobe.
Eine Menge ist eine nahezu abzählbare Menge einiger Objekte oder Elemente, die für den Forscher von Interesse sind.
Eine Eigenschaft einer Sammlung ist eine reale oder imaginäre Qualität, die einige ihrer Elemente gemeinsam haben. Die Eigenschaft kann zufällig oder nicht zufällig sein.
Ein Populationsparameter ist eine Eigenschaft, die als Konstante oder Variable quantifiziert werden kann.
Ein einfacher Satz ist gekennzeichnet durch:
ein separates Eigentum (zum Beispiel: alle Studenten in Russland);
ein separater Parameter in Form einer Konstante oder Variable (Alle Studentinnen);
ein System nicht überlappender (inkompatibler) Eigenschaften, zum Beispiel: Alle Lehrer und Schüler der Schulen in Wladiwostok.
Ein komplexer Satz ist gekennzeichnet durch:
ein System zumindest teilweise überlappender Eigenschaften (Studenten der psychologischen und mathematischen Fakultäten der Far Eastern State University, die die Schule mit einer Goldmedaille abgeschlossen haben);
ein System unabhängiger und abhängiger Parameter im Aggregat; in einer umfassenden Persönlichkeitsstudie.
Homogen oder homogen ist eine Menge, deren Eigenschaften jedem ihrer Elemente innewohnen;
Heterogen oder heterogen ist eine Population, deren Merkmale in separaten Teilmengen von Elementen konzentriert sind.
Ein wichtiger Parameter ist das Volumen der Population – die Anzahl der Elemente, aus denen sie besteht. Die Größe des Bandes hängt davon ab, wie die Population selbst definiert ist und welche Fragen uns konkret interessieren. Nehmen wir an, wir interessieren uns für den emotionalen Zustand eines Studenten im ersten Studienjahr während der Zeit, in der er während der Sitzung eine bestimmte Prüfung ablegt. Dann ist die Bevölkerung innerhalb einer halben Stunde erschöpft. Wenn wir uns für den emotionalen Zustand aller Erstsemesterstudenten interessieren, dann wird die Gesamtheit viel größer sein, und noch größer, wenn wir den emotionalen Zustand aller Erstsemesterstudenten an einer bestimmten Universität usw. nehmen. Es ist klar, dass große Populationen nur selektiv untersucht werden können.
Eine Stichprobe ist ein bestimmter Teil der Gesamtbevölkerung, der direkt untersucht wird.
Die Proben werden nach Repräsentativität, Größe, Auswahlmethode und Testdesign klassifiziert.
Repräsentativ – eine Stichprobe, die die Gesamtbevölkerung qualitativ und quantitativ angemessen widerspiegelt. Die Stichprobe muss die Grundgesamtheit angemessen widerspiegeln, andernfalls stimmen die Ergebnisse nicht mit den Zielen der Studie überein.
Die Repräsentativität hängt vom Volumen ab; je größer das Volumen, desto repräsentativer die Stichprobe. Je nach Auswahlmethode.
Zufällig – wenn die Elemente zufällig ausgewählt werden. Da die meisten Methoden der mathematischen Statistik auf dem Konzept der Zufallsstichprobe basieren, sollte die Stichprobe natürlich zufällig sein.
Nicht zufällige Stichprobe:
mechanische Selektion, wenn die gesamte Grundgesamtheit in so viele Teile aufgeteilt wird, wie in der Stichprobe geplante Einheiten vorhanden sind, und dann aus jedem Teil ein Element ausgewählt wird;
typische Auswahl – die Bevölkerung wird in homogene Teile aufgeteilt und aus jedem wird eine Zufallsstichprobe entnommen;
Serienauswahl – die Grundgesamtheit wird in eine große Anzahl unterschiedlich großer Serien aufgeteilt, dann wird eine Stichprobe einer bestimmten Serie erstellt;
kombinierte Auswahl – die betrachteten Auswahlarten werden in verschiedenen Phasen kombiniert.
Je nach Testdesign können Stichproben unabhängig und abhängig sein. Basierend auf der Stichprobengröße werden die Stichproben in kleine und große Stichproben unterteilt. Kleine Stichproben umfassen Stichproben, bei denen die Anzahl der Elemente n 200 beträgt und die durchschnittliche Stichprobe die Bedingung 30 erfüllt. Kleine Stichproben werden zur statistischen Kontrolle bekannter Eigenschaften bereits untersuchter Populationen verwendet.
Große Stichproben werden verwendet, um unbekannte Eigenschaften und Parameter einer Population zu ermitteln.

Mehr zum Thema 1.3. Grundgesamtheit und Stichprobe:

  1. 7.2 Merkmale der Stichprobe und Grundgesamtheit
  2. 1.6. Punkt- und Intervallschätzungen von Korrelationskoeffizienten einer normalverteilten Grundgesamtheit

Die Notwendigkeit, Stichprobenstudien durchzuführen, kann verschiedene Gründe haben:

    oft ist eine vollständige Untersuchung des untersuchten Phänomens zu teuer und zeitaufwändig;

    Manchmal ist die Möglichkeit, die in einer vollständigen Studie erhaltenen Informationen zu nutzen, ausgeschöpft, bevor der Prozess ihrer Vorbereitung abgeschlossen ist.

    In einigen Fällen kommt es bei der Qualitätsprüfung des Produkts zur Zerstörung des Untersuchungsobjekts.

Beispiel:

    Angenommen, die Bevölkerung besteht aus allen Schülern der Schule (600 Personen aus 20 Klassen, 30 Personen in jeder Klasse). Gegenstand der Untersuchung ist die Einstellung zum Rauchen.

Bevölkerung ist eine Menge von Objekten, über die Sie Informationen erhalten müssen.

Die Gesamtbevölkerung besteht aus allen Objekten, die Eigenschaften und Eigenschaften aufweisen, die den Forscher interessieren. Manchmal handelt es sich bei der Gesamtbevölkerung um die gesamte erwachsene Bevölkerung einer bestimmten Region (z. B. bei der Untersuchung der Einstellung potenzieller Wähler gegenüber einem Kandidaten), meist werden mehrere Kriterien angegeben, die die Untersuchungsgegenstände bestimmen. Zum Beispiel Frauen im Alter von 10 bis 89 Jahren, die mindestens einmal pro Woche Handcreme einer bestimmten Marke verwenden und über ein Einkommen von mindestens 5.000 Rubel pro Familienmitglied verfügen.

Probe ist eine kleine Menge von Objekten, die aus der Bevölkerung extrahiert werden.

Eine Stichprobenpopulation ist das Minimum, das für eine Untersuchung von Ergebnissen (Fällen, Probanden, Objekten, Ereignissen, Proben) erforderlich ist, die nach einem bestimmten Verfahren aus der Allgemeinbevölkerung ausgewählt werden.

Beispiele:

    Ermittlung der Reaktion der Kunden des Unternehmens auf Innovationen; alle Kunden des Unternehmens repräsentieren die allgemeine Bevölkerung. Die angerufenen Kunden bilden eine Stichprobe.

    Bei der Prüfung von Unternehmen mit einer großen Anzahl von Transaktionen muss man sich mit der Untersuchung einer ausgewählten Anzahl von Transaktionen begnügen. Alle Transaktionen des Unternehmens bilden die Grundgesamtheit, die ausgewählten die Stichprobe.

    Die Gesamtbevölkerung besteht aus allen Wehrpflichtigen eines bestimmten Jahrgangs.

    Alle Lampen, die in einem bestimmten Zeitraum in einem bestimmten Unternehmen hergestellt wurden, bilden eine Grundgesamtheit. Es werden diejenigen Lampen ausgewählt, die zur Steuerung ausgewählt sind.

Die Stichprobe kann als repräsentativ oder nicht repräsentativ angesehen werden. Bei der Untersuchung einer großen Gruppe von Personen ist die Stichprobe repräsentativ. Wenn es innerhalb dieser Gruppe Vertreter verschiedener Untergruppen gibt, können nur so korrekte Schlussfolgerungen gezogen werden. .

Unter Repräsentativität versteht man die Übereinstimmung von Stichprobenmerkmalen mit den Merkmalen der Grundgesamtheit oder der Gesamtbevölkerung. Die Repräsentativität bestimmt, inwieweit es möglich ist, die Ergebnisse einer Studie anhand einer bestimmten Stichprobe auf die gesamte Bevölkerung zu übertragen, aus der sie entnommen wurde.

Repräsentativität kann auch als die Eigenschaft einer Stichprobenpopulation definiert werden, die im Hinblick auf die Forschungsziele bedeutsamen Parameter der Gesamtbevölkerung zu repräsentieren.

Beispiel: Eine Stichprobe von 60 Oberstufenschülern repräsentiert die Bevölkerung viel weniger gut als eine Stichprobe derselben 60 Personen, die drei Schüler aus jeder Klasse umfasst. Der Hauptgrund dafür ist die ungleiche Altersverteilung in den Klassen. Folglich ist die Repräsentativität der Stichprobe im ersten Fall gering und im zweiten Fall hoch (unter sonst gleichen Bedingungen). .

Aufgabe 1. Erforschen Sie in einer Stadt mit 253.000 Wahlberechtigten die politischen Neigungen künftiger Wähler.

Lösung

    Die Stichprobe kann erstellt werden, indem jeder 15. Käufer, der eine große Umfrage hinterlässt, befragt wird Einkaufszentrum. Eine solche Stichprobe wird die Ansichten der Besucher von Einkaufszentren widerspiegeln, es ist jedoch unwahrscheinlich, dass sie die Ansichten aller Stadtbewohner widerspiegelt.

    Eine andere Methode zur Erstellung einer Stichprobe besteht darin, jeden 100. Einwohner der Stadt telefonisch zu befragen und dabei Nummern aus dem Telefonbuch zu entnehmen. Diese systematische Stichprobe wird Informationen über die Ansichten einer Gruppe von Menschen liefern, die ein Telefon haben, zu Hause sind und ans Telefon gehen. Aber es spiegelt nicht die Meinung aller Stadtbewohner wider.

    Eine andere Methode zur Erstellung einer Stichprobe könnte darin bestehen, Teilnehmer einer von mehreren organisierten Kundgebung zu befragen politische Parteien. Eine solche Stichprobe liefert Informationen über die aktive Beteiligung der Bewohner politisches Leben Städte.

Wir benötigen also Methoden zur Bildung einer Stichprobe, die die gesamte Bevölkerung repräsentiert, das heißt, die Stichprobe muss repräsentativ (repräsentativ) sein.

Aufgabe 2. Bestimmen Sie, ob die Stichprobe repräsentativ ist:

1) die Zahl der Autounfälle im Juni, falls es erforderlich ist, einen statistischen Bericht über Unfälle in der Stadt für das Jahr zu erstellen;

2) Stadtbewohner bei der Berechnung der Anzahl der Autos pro Kopf im Land;

3) Personen im Alter von 40 bis 50 Jahren bei der Bewertung einer Jugendfernsehsendung.

Lösung

1) Die Stichprobe ist nicht repräsentativ. Im Sommer gibt es weder Schnee noch Eis auf den Straßen, was eine der Hauptursachen für Unfälle darstellt.

2) Die Stichprobe ist nicht repräsentativ. Es ist klar, dass es in der Stadt viel mehr Autos gibt als auf dem Land. Dies muss berücksichtigt werden.

3) Die Stichprobe ist nicht repräsentativ. Es ist unwahrscheinlich, dass Menschen im Alter zwischen 40 und 50 Jahren Interesse an einer Sendung zeigen, die sich an ein junges Publikum richtet. Bei Verwendung einer solchen Stichprobe kann die Bewertung deutlich sinken, dies spiegelt jedoch nicht den tatsächlichen Stand der Dinge wider. Um eine Stichprobenpopulation zu bilden, verwenden sie verschiedene Wege Auswahl. Statistiken müssen so dargestellt werden, dass sie genutzt werden können.

Populations- und Probenparameter

N ist die Gesamtbevölkerung, die in die Schichten N 1, N 2 usw. unterteilt ist.

Schichten stellen hinsichtlich statistischer Merkmale homogene Objekte dar (z. B. wird die Bevölkerung nach Altersgruppen oder sozialer Schicht in Schichten eingeteilt; Unternehmen - nach Branche). In diesem Fall werden die Stichproben als geschichtet bezeichnet.

N – Stichprobengröße.

Die statistischen Schlussfolgerungen der Studie basieren auf der Verteilung der Zufallsvariablen X, während die beobachteten Werte x 1, x 2, x 3 als Realisierungen der Zufallsvariablen x bezeichnet werden.

Die Verteilung einer Zufallsvariablen X in der Gesamtbevölkerung ist theoretischer, idealer Natur und ihr Stichprobenanalogon ist eine empirische Verteilung

Für eine Stichprobe ist die Bestimmung der Verteilungsfunktion schwierig und manchmal sogar unmöglich. Daher werden die Parameter anhand empirischer Daten geschätzt und dann in einen analytischen Ausdruck eingesetzt, der die theoretische Verteilung beschreibt. In diesem Fall kann die Annahme über die Art der Verteilung entweder statistisch korrekt oder falsch sein.

Aber in jedem Fall charakterisiert die aus der Stichprobe rekonstruierte empirische Verteilung nur grob die wahre.

Der wichtigste Parameter von Verteilungen ist der mathematische ErwartungswertA und Varianz σ 2- Maß der Datenstreuung.

Standardabweichungσ - der Grad der Abweichung von Beobachtungsdaten oder -sätzen vom Durchschnittswert.

Aufgabe 3. Mikhail und seine Freunde beschlossen, die Größe ihrer Hunde (am Widerrist) zu messen. Finden: Durchschnittswert; Wachstumsabweichung.

Lösung

    Der mathematische Erwartungswert bzw. Durchschnittswert kann mit der Formel ermittelt werden:


    Berechnen wir nun die Abweichung der Körpergröße jedes Hundes vom Durchschnitt oder der mathematischen Erwartung, d. h. wir berechnen die Streuung.


Die Standardabweichung ist gerecht Quadratwurzel aus der Zerstreuung.

σ \ = 147,32

Also wissen Standardabweichung Wir wissen, was „normale Größe“ bedeutet und was einen sehr großen und einen sehr kleinen Hund ausmacht.

Antwort: 394, 21.704; 147,32.

Aufgabe 4. Die Beobachtung der Haltbarkeit von 50 elektrischen Lampen gleicher Leistung, die zufällig aus einer großen Charge von Lampen gleicher Leistung aus der Anlage entnommen wurden, in einem Kontrolllabor führte zu folgenden Daten über einen Verstoß gegen die festgelegte GarantieBrenndauer:

Abweichung in H

10 kleine Verteilung, die die tatsächliche Abweichung widerspiegelt Th Die Brenndauer der Glühbirnen ist von der Garantie ausgeschlossen.

Lösung.

Durchschnittliche Abweichung

Somit wird die gewünschte Normalverteilung charakterisiert durch mit den folgenden Werten Parameter: a = 0,4;σ 2 = 318; σ = 17,8.

Daher die Wahrscheinlichkeitsdichte:

Die dieser Dichte entsprechende Verteilungsfunktion sieht folgendermaßen aus:

Die Verteilung einer Zufallsvariablen enthält alle Informationen über ihre statistischen Eigenschaften. Wie viele Werte einer Zufallsvariablen müssen Sie kennen, um ihre Verteilung zu erstellen? Dazu müssen Sie es erkunden Durchschnittsbevölkerung.

Die Grundgesamtheit ist die Menge aller Werte, die eine gegebene Zufallsvariable annehmen kann.

Die Anzahl der Einheiten einer Population wird als deren Volumen bezeichnet N. Dieser Wert kann endlich oder unendlich sein. Wenn beispielsweise das Wachstum der Einwohner einer bestimmten Stadt untersucht wird, entspricht die Bevölkerungszahl der Einwohnerzahl der Stadt. Wenn überhaupt physikalisches Experiment, dann wird das Volumen der Gesamtbevölkerung unendlich sein, weil die Anzahl aller möglichen Werte eines physikalischen Parameters ist gleich unendlich.

Die Untersuchung einer Allgemeinbevölkerung ist nicht immer möglich oder ratsam. Dies ist unmöglich, wenn das Bevölkerungsvolumen unendlich ist. Aber auch bei endlichen Volumina ist eine vollständige Untersuchung nicht immer gerechtfertigt, da sie viel Zeit und Arbeit erfordert und eine absolute Genauigkeit der Ergebnisse in der Regel nicht erforderlich ist. Weniger genaue Ergebnisse, aber mit deutlich weniger Aufwand und Geld, können durch die Untersuchung nur eines Teils der Allgemeinbevölkerung erzielt werden. Solche Studien werden als Probenahme bezeichnet.

Statistische Studien, die nur an einem Teil der Bevölkerung durchgeführt werden, werden als Stichprobe bezeichnet, und der untersuchte Teil der Bevölkerung wird als Stichprobe bezeichnet.

Abbildung 7.2 zeigt symbolisch die Grundgesamtheit und Stichprobe als Menge und ihre Teilmenge.

Abbildung 7.2 Grundgesamtheit und Stichprobe

Wenn wir mit einer bestimmten Teilmenge einer bestimmten Population arbeiten, die oft nur einen unbedeutenden Teil davon ausmacht, erhalten wir Ergebnisse, deren Genauigkeit für praktische Zwecke durchaus zufriedenstellend ist. Die Untersuchung eines größeren Teils der Bevölkerung erhöht nur die Genauigkeit, ändert jedoch nichts an der Essenz der Ergebnisse, wenn die Stichprobe aus statistischer Sicht korrekt entnommen wird.

Damit die Stichprobe die Eigenschaften der Grundgesamtheit widerspiegelt und die Ergebnisse zuverlässig sind, muss dies der Fall sein Vertreter(Vertreter).

Für einige Allgemeinbevölkerungen ist jeder Teil davon aufgrund seiner Natur repräsentativ. Allerdings müssen in den meisten Fällen besondere Maßnahmen getroffen werden, um repräsentative Proben sicherzustellen.

Eins Eine der wichtigsten Errungenschaften der modernen mathematischen Statistik ist die Entwicklung der Theorie und Praxis der Zufallsstichprobenmethode, die die Repräsentativität der Datenauswahl gewährleistet.

Stichprobenstudien sind in ihrer Genauigkeit immer schlechter als Studien der Gesamtbevölkerung. Dies kann jedoch in Einklang gebracht werden, wenn die Größe des Fehlers bekannt ist. Offensichtlich ist der Fehler umso kleiner, je näher die Stichprobengröße an der Populationsgröße liegt. Daraus wird deutlich, dass Probleme der statistischen Inferenz besonders relevant werden, wenn mit kleinen Stichproben gearbeitet wird ( N ? 10-50).

Hierbei handelt es sich um eine Wissenschaft, die sich auf der Grundlage der Methoden der Wahrscheinlichkeitstheorie mit der Systematisierung und Verarbeitung statistischer Daten beschäftigt, um wissenschaftliche und praktische Schlussfolgerungen zu ziehen.

Statistische Daten bezieht sich auf Informationen über die Anzahl der Objekte, die bestimmte Eigenschaften aufweisen .

Eine Gruppe von Objekten, die nach einem qualitativen oder quantitativen Merkmal zusammengefasst sind, wird genannt statistische Gesamtheit . Die in einer Sammlung enthaltenen Objekte werden ihre Elemente genannt, und ihre Gesamtzahl ist ihre Volumen.

Durchschnittsbevölkerung ist die Menge aller denkbar möglichen Beobachtungen, die unter bestimmten realen Bedingungen gemacht werden könnten, oder genauer gesagt: Die allgemeine Grundgesamtheit ist die Zufallsvariable x und der zugehörige Wahrscheinlichkeitsraum (W, Á, P).

Die Verteilung einer Zufallsvariablen x heißt Bevölkerungsverteilung(Man spricht zum Beispiel von einer normalverteilten oder einfach normalen Bevölkerung).

Wenn beispielsweise mehrere unabhängige Messungen einer Zufallsvariablen durchgeführt werden X, dann ist die Gesamtbevölkerung theoretisch unendlich (d. h. die Gesamtbevölkerung ist ein abstraktes, konventionell mathematisches Konzept); Wenn die Anzahl der fehlerhaften Produkte in einer Charge von N Produkten überprüft wird, wird diese Charge als endliche allgemeine Grundgesamtheit des Volumens N betrachtet.

Im Falle der sozioökonomischen Forschung kann die Gesamtbevölkerung des Volumens N die Bevölkerung einer Stadt, Region oder eines Landes sein und die gemessenen Merkmale können Einkommen, Ausgaben oder die Höhe der Ersparnisse einer einzelnen Person sein. Wenn ein Merkmal qualitativer Natur ist (z. B. Geschlecht, Nationalität, sozialer Status, Beruf usw.), aber zu einer endlichen Menge von Optionen gehört, kann es auch als Zahl kodiert werden (wie dies häufig in Fragebögen geschieht). ).

Wenn die Anzahl der Objekte N groß genug ist, ist es schwierig und manchmal physikalisch unmöglich, eine umfassende Untersuchung durchzuführen (z. B. die Qualität aller Patronen zu überprüfen). Dann wird eine begrenzte Anzahl von Objekten zufällig aus der Gesamtbevölkerung ausgewählt und der Untersuchung unterzogen.

Stichprobenpopulation oder einfach Probenahme des Volumens n ist eine Folge x 1 , x 2 , ..., x n unabhängiger identisch verteilter Zufallsvariablen, deren Verteilung jeweils mit der Verteilung der Zufallsvariablen x übereinstimmt.

Zum Beispiel die Ergebnisse der ersten n Messungen einer Zufallsvariablen X Es ist üblich, es als Stichprobe der Größe n aus einer unendlichen Grundgesamtheit zu betrachten. Die erhaltenen Daten werden aufgerufen Beobachtungen einer Zufallsvariablen x, und man sagt auch, dass die Zufallsvariable x „die Werte“ x 1, x 2, …, x n annimmt.


Die Hauptaufgabe der mathematischen Statistik besteht darin, wissenschaftlich fundierte Aussagen über die Verteilung einer oder mehrerer unbekannter Zufallsvariablen oder deren Beziehung zueinander zu treffen. Die Methode, die darin besteht, dass anhand der Eigenschaften und Merkmale der Stichprobe Rückschlüsse auf die numerischen Merkmale und das Verteilungsgesetz einer Zufallsvariablen (allgemeine Grundgesamtheit) gezogen werden, wird genannt selektive Methode.

Damit die Eigenschaften einer durch die Stichprobenmethode erhaltenen Zufallsvariablen objektiv sind, muss die Stichprobe vorhanden sein Vertreter diese. repräsentierte die untersuchte Größe recht gut. Durch Gesetzeskraft große Zahlen Es kann argumentiert werden, dass die Stichprobe repräsentativ ist, wenn sie zufällig durchgeführt wird, d. h. Alle Objekte in der Grundgesamtheit haben die gleiche Wahrscheinlichkeit, in die Stichprobe aufgenommen zu werden. Dafür gibt es Verschiedene Arten Stichprobenauswahl.

1. Einfach Bei der Zufallsstichprobe handelt es sich um eine Auswahl, bei der Objekte einzeln aus der Gesamtpopulation ausgewählt werden.

2. Geschichtet (geschichtet) Auswahl besteht darin, dass die ursprüngliche Population des Volumens N in Teilmengen (Schichten) N 1, N 2,...,N k unterteilt wird, so dass N 1 + N 2 +...+ N k = N. Wenn Schichten sind ermittelt, aus denen jeweils eine einfache Zufallsstichprobe des Volumens n 1, n 2, ..., n k entnommen wird. Ein Sonderfall der geschichteten Auswahl ist die typische Auswahl, bei der Objekte nicht aus der gesamten Bevölkerung, sondern aus jedem typischen Teil davon ausgewählt werden.

Kombinierte Auswahl kombiniert mehrere Auswahlarten gleichzeitig und bildet verschiedene Phasen einer Stichprobenerhebung. Es gibt andere Probenahmemethoden.

Die Probe heißt wiederholt , wenn das ausgewählte Objekt an die Population zurückgegeben wird, bevor das nächste ausgewählt wird. Die Probe heißt wiederholbar , wenn das ausgewählte Objekt nicht an die Population zurückgegeben wird. Für eine endliche Population führt eine zufällige Auswahl ohne Rückkehr bei jedem Schritt zur Abhängigkeit einzelner Beobachtungen, und eine zufällige, gleich mögliche Auswahl mit Rückkehr führt zur Unabhängigkeit der Beobachtungen. In der Praxis haben wir es meist mit sich nicht wiederholenden Proben zu tun. Wenn die Populationsgröße N jedoch um ein Vielfaches größer als die Stichprobengröße n ist (z. B. hunderte oder tausende Male), kann die Abhängigkeit der Beobachtungen vernachlässigt werden.

Somit ist eine Zufallsstichprobe x 1, x 2, ..., x n das Ergebnis aufeinanderfolgender und unabhängiger Beobachtungen einer Zufallsvariablen ξ, die die Gesamtbevölkerung repräsentiert, und alle Elemente der Stichprobe haben die gleiche Verteilung wie die ursprüngliche Zufallsvariable X.

Wir nennen die Verteilungsfunktion F x (x) und andere numerische Eigenschaften der Zufallsvariablen x theoretisch, im Gegensatz zu Probeneigenschaften , die aus den Ergebnissen von Beobachtungen ermittelt werden.

Die Stichprobe x 1, x 2, ..., x k sei das Ergebnis unabhängiger Beobachtungen einer Zufallsvariablen x und x 1 wurde n 1-mal, x 2 - n 2-mal, ..., x k - n k-mal beobachtet , so dass n i = n - Stichprobengröße. Man nennt die Zahl n i, die angibt, wie oft der Wert x i in n Beobachtungen vorkommt Frequenz gegebener Wert und das Verhältnis n i /n = w ich - relative Frequenz. Offensichtlich die Zahlen w Ich bin rational und .

Eine statistische Grundgesamtheit, die in aufsteigender Reihenfolge eines Merkmals angeordnet ist, wird aufgerufen Variationsreihe . Seine Mitglieder werden mit x (1), x (2), ... x (n) bezeichnet und aufgerufen Optionen . Die Variationsreihe heißt diskret, wenn seine Mitglieder bestimmte isolierte Werte annehmen. Statistische Verteilung Stichprobenziehung einer diskreten Zufallsvariablen X wird als Liste von Optionen und ihren entsprechenden relativen Häufigkeiten bezeichnet w ich. Die resultierende Tabelle wird aufgerufen statistisch gesehen nah dran.

X (1) x(2) ... x k(k)
ω 1 ω 2 ... ωk

Das Größte und kleinster Wert Variationsreihen werden mit x min und x max bezeichnet und aufgerufen extreme Mitglieder der Variationsreihe.

Wenn eine kontinuierliche Zufallsvariable untersucht wird, besteht die Gruppierung darin, das Intervall der beobachteten Werte in k Teilintervalle gleicher Länge h zu unterteilen und die Anzahl der Beobachtungen zu zählen, die in diese Intervalle fallen. Die resultierenden Zahlen werden als Häufigkeiten genommen ni (für eine neue, bereits diskrete Zufallsvariable). Als neue Werte für die Option x i werden üblicherweise die Mittelwerte der Intervalle übernommen (oder die Intervalle selbst sind in der Tabelle angegeben). Gemäß der Sturges-Formel beträgt die empfohlene Anzahl an Partitionsintervallen k » 1 + log 2 N, und die Längen der Teilintervalle sind gleich h = (x max - x min)/k. Es wird angenommen, dass das gesamte Intervall die Form hat.

Grafisch können statistische Reihen in Form eines Polygons, eines Histogramms oder einer Grafik akkumulierter Häufigkeiten dargestellt werden.

Frequenzpolygon eine gestrichelte Linie genannt, deren Segmente die Punkte (x 1, n 1), (x 2, n 2), ..., (x k, n k) verbinden. Polygon relative Häufigkeiten eine gestrichelte Linie genannt, deren Segmente die Punkte (x 1, w 1), (x 2, w 2), …, (x k , w k). Bei diskreten Zufallsvariablen dienen Polygone üblicherweise zur Darstellung einer Stichprobe (Abb. 7.1.1).

Reis. 7.1

.1.

Histogramm der relativen Häufigkeit nennt man eine Stufenfigur, die aus Rechtecken besteht, deren Basis Teilintervalle der Länge h und der Höhe sind

gleich w ich h.

Bei kontinuierlichen Zufallsvariablen wird üblicherweise ein Histogramm zur Darstellung einer Stichprobe verwendet. Die Fläche des Histogramms ist gleich eins (Abb. 7.1.2). Wenn wir die Mittelpunkte im Histogramm der relativen Häufigkeiten verbinden Oberseiten Rechtecke, dann bildet die resultierende gestrichelte Linie ein Polygon relativer Häufigkeiten. Daher kann ein Histogramm als Diagramm betrachtet werden empirische (Proben-)Verteilungsdichte fn(x). Wenn die theoretische Verteilung eine endliche Dichte hat, dann ist die empirische Dichte eine gewisse Annäherung an die theoretische.

Diagramm der akkumulierten Frequenzen ist eine Figur, die ähnlich einem Histogramm aufgebaut ist, mit dem Unterschied, dass zur Berechnung der Höhen von Rechtecken keine einfachen, sondern kumulierte relative Häufigkeiten, diese. Mengen Diese Werte nehmen nicht ab und das Diagramm der akkumulierten Frequenzen hat die Form einer abgestuften „Treppe“ (von 0 bis 1).

Der Graph der akkumulierten Häufigkeiten wird in der Praxis zur Annäherung an die theoretische Verteilungsfunktion verwendet.

Aufgabe. Analysiert wird eine Stichprobe von 100 Kleinunternehmen in der Region. Der Zweck der Umfrage besteht darin, das Verhältnis von Fremd- und Eigenkapital (xi) in jedem i-ten Unternehmen zu messen. Die Ergebnisse sind in Tabelle 7.1.1 dargestellt.

Tisch Verhältnisse von Fremdkapital und Eigenkapital von Unternehmen.

5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31
5,46 5,61 5,11 5,41 5.31 5,57 5,33 5,11 5,54 5,43
5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49
5,36 5,40 5,45 5,49 5,68 5,51 5,50 5,68 5,21 5,38
5,58 5,47 5,46 5,19 5,60 5,63 5,48 5,27 5,22 5,37
5,33 5,49 5,50 5,54 5,40 5.58 5,42 5,29 5,05 5,79
5,79 5,65 5,70 5,71 5,85 5,44 5,47 5,48 5,47 5,55
5,67 5,71 5,73 5,05 5,35 5,72 5,49 5,61 5,57 5,69
5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,81
5,27 5,64 5,20 5,23 5,33 5,37 5,24 5,55 5,60 5,51

Erstellen Sie ein Histogramm und eine Grafik der akkumulierten Häufigkeiten.

Lösung. Lassen Sie uns eine gruppierte Reihe von Beobachtungen erstellen:

1. Bestimmen wir in der Stichprobe x min = 5,05 und x max = 5,85;

2. Teilen wir den gesamten Bereich in k gleiche Intervalle auf: k » 1 + log 2 100 = 7,62; k = 8, daher die Länge des Intervalls

Tabelle 7.1.2. Gruppierte Beobachtungsreihe

Intervallnummer Intervalle Mittelpunkte der Intervalle x i w ich fn(x)
5,05-5,15 5,1 0,05 0,05 0,5
5,15-5,25 5,2 0,08 0,13 0,8
5,25-5,35 5,3 0,12 0,25 1,2
5,35-5,45 5,4 0,20 0,45 2,0
5,45-5,55 5,5 0,26 0,71 2,6
5,55-5,65 5,6 0,15 0,86 1,5
5,65-5,75 5,7 0,10 0,96 1,0
5,75-5,85 5,8 0,04 1,00 0,4

In Abb. 7.1.3 und 7.1.4, erstellt gemäß den Daten in Tabelle 7.1.2, präsentieren ein Histogramm und eine Grafik der akkumulierten Häufigkeiten. Die Kurven entsprechen der an die Daten „angepassten“ Dichte- und Normalverteilungsfunktion.

Somit stellt die Stichprobenverteilung eine gewisse Annäherung an die Bevölkerungsverteilung dar.