Meni
Besplatno
Dom  /  Preparati za kožna oboljenja/ Sažetak: Metoda uzorkovanja u statistici. Uzorak (uzorak populacije)

Sažetak: Metoda uzorkovanja u statistici. Uzorak (uzorak populacije)

Statistička istraživanja su vrlo radno intenzivna i skupa, pa se pojavila ideja da se kontinuirano posmatranje zamijeni selektivnim.

Glavni cilj nekontinuiranog posmatranja je da se dobiju karakteristike statističke populacije koja se proučava za ispitani dio.

Selektivno posmatranje je metoda statističkog istraživanja u kojoj se opći pokazatelji stanovništva utvrđuju samo za jedan dio na osnovu odredbi slučajnog odabira.

Metodom uzorkovanja proučava se samo određeni dio populacije koja se proučava, a statistička populacija koja se proučava naziva se opšta populacija.

Uzorkovanom populacijom ili jednostavno uzorkom možemo nazvati dio jedinica odabranih iz opće populacije koja će biti podvrgnuta statističkom istraživanju.

Vrijednost metode uzorkovanja: kada minimalni broj jedinicama koje se proučavaju, statistička istraživanja će se odvijati u kraćim vremenskim periodima i uz najmanje novca i rada.

U općoj populaciji, udio jedinica koje imaju karakteristiku koja se proučava naziva se općim udjelom (označeno R), a prosječna vrijednost varijabilne osobine koja se proučava je opći prosjek (označeno X).

U populaciji uzorka, udio karakteristike koja se proučava naziva se proporcija uzorka, ili dio (označen sa w), prosječna vrijednost u uzorku je srednja vrijednost uzorka.

Ako se tokom ispitivanja pridržavaju svih pravila svog naučna organizacija, tada će metoda uzorkovanja dati prilično točne rezultate, pa je stoga ovu metodu preporučljivo koristiti za provjeru podataka iz kontinuiranog promatranja.

Ova metoda je postala široko rasprostranjena u državnoj i vanresornoj statistici, jer pri proučavanju minimalnog broja jedinica koje se proučavaju omogućava temeljno i precizno proučavanje.

Statistička populacija koja se proučava sastoji se od jedinica sa različitim karakteristikama. Sastav populacije uzorka može se razlikovati od sastava populacije; ova neslaganja između karakteristika uzorka i populacije predstavlja grešku uzorkovanja.

Greške koje su svojstvene posmatranju uzorka karakterišu veličinu neslaganja između podataka posmatranja uzorka i celokupne populacije. Greške koje nastaju tokom posmatranja uzorka nazivaju se greške reprezentativnosti i dele se na slučajne i sistematske.

Ako populacija uzorka ne reproducira precizno cijelu populaciju zbog nepotpune prirode promatranja, onda se to naziva slučajne greške, a njihove se veličine određuju s dovoljnom točnošću na osnovu zakona veliki brojevi i teorija vjerovatnoće.

Sistematske greške nastaju kao rezultat kršenja principa slučajnosti u odabiru jedinica populacije za posmatranje.

2. Vrste i šeme izbora

Veličina greške uzorkovanja i metode za njeno određivanje zavise od vrste i dizajna selekcije.

Postoje četiri vrste selekcije populacije posmatračkih jedinica:

1) slučajni;

2) mehanički;

3) tipičan;

4) serijski (ugniježđeni).

Slučajni odabir– najčešći metod odabira u slučajnom uzorku, naziva se i metodom žreba, u kojoj se za svaku jedinicu statističke populacije priprema listić sa serijskim brojem.

Zatim se nasumično bira potreban broj jedinica statističke populacije. Pod ovim uslovima, svaki od njih ima istu verovatnoću da bude uključen u uzorak, na primer, dobitak u izvlačenju, kada se od ukupnog broja izdatih listića nasumično bira određeni deo brojeva na kojima se dobijaju. U ovom slučaju, svim brojevima se pruža jednaka mogućnost da budu uključeni u uzorak.

Mehanička selekcija- ovo je metoda kada se cijela populacija podijeli u grupe homogenog volumena prema slučajnom kriteriju, tada se iz svake grupe uzima samo jedna jedinica.Sve jedinice statističke populacije koja se proučava su unaprijed raspoređene po određenom redoslijedu, ali ovisno o veličini uzorka, potreban broj jedinica se mehanički odabire u određenom intervalu.

Tipičan izbor – Ovo je metoda u kojoj se statistička populacija koja se proučava prema bitnoj, tipičnoj karakteristici dijeli na kvalitativno homogene grupe istog tipa, a zatim se iz svake od ovih grupa nasumično odabire određeni broj jedinica, proporcionalno specifičnoj težini. grupe u cjelokupnoj populaciji.

Tipična selekcija daje preciznije rezultate, jer uključuje predstavnike svih tipičnih grupa u uzorku.

Serijski (klaster) odabir. Cijele grupe (serije, gnijezda) odabrane nasumično ili mehanički su predmet selekcije. Za svaku takvu grupu ili seriju vrši se kontinuirano promatranje, a rezultati se prenose na cijelu populaciju.

Preciznost uzorka takođe zavisi od šeme uzorkovanja. Uzorkovanje se može vršiti prema šemi uzorkovanja koja se ponavlja ili se ne ponavlja.

Ponovna selekcija. Svaka odabrana jedinica ili serija se vraća cijeloj populaciji i može se ponovo unijeti u uzorak.Ovo je takozvana shema vraćene lopte.

Selekcija koja se ne ponavlja. Svaka ispitana jedinica se uklanja i ne vraća populaciji, tako da se ne ispituje ponovo. Ova šema se zove nevraćena lopta.

Neponovljivo uzorkovanje daje preciznije rezultate jer, sa istom veličinom uzorka, opservacija pokriva veći broj jedinica populacije koja se proučava.

Kombinovani izbor može proći kroz jednu ili više faza. Uzorak se naziva jednostepenim ako se proučavaju jednom odabrane jedinice populacije.

Uzorak se naziva višestepenim ako se selekcija populacije odvija u fazama, uzastopnim fazama, a svaka faza, faza selekcije ima svoju selekcijsku jedinicu.

Višefazno uzorkovanje - u svim fazama uzorkovanja zadržava se ista jedinica uzorkovanja, ali se provodi nekoliko faza, faza uzorkovanja, koje se razlikuju po širini programa istraživanja i veličini uzorka.

Karakteristike parametara opće populacije i populacije uzorka označene su sljedećim simbolima:

N– obim opšte populacije;

n- veličina uzorka;

X– opšti prosjek;

X– prosjek uzorka;

R– generalni udio;

w – udio uzorka;

2 – opšta disperzija (varijansa karakteristike u opštoj populaciji);

2 – varijansa uzorka iste karakteristike;

?- prosjek standardna devijacija u opštoj populaciji;

? – standardna devijacija u uzorku.

3. Greške uzorkovanja

Svaka jedinica u opservaciji uzorka mora imati jednaku priliku sa ostalima da bude odabrana - to je osnova pravilnog slučajnog uzorka.

Pravilno nasumično uzorkovanje je odabir jedinica iz cjelokupne populacije žrijebom ili drugim sličnim sredstvima.

Princip slučajnosti je da na uključivanje ili isključivanje stavke iz uzorka ne može uticati bilo koji drugi faktor osim slučajnosti.

Udio uzorka je omjer broja jedinica u populaciji uzorka i broja jedinica u općoj populaciji:


Pravilna nasumična selekcija u svom čistom obliku je originalna među svim drugim vrstama selekcije, sadrži i implementira osnovne principe selektivnog statističkog posmatranja.

Dvije glavne vrste općih indikatora koje se koriste u metodi uzorkovanja su prosječna vrijednost kvantitativne karakteristike i relativna vrijednost alternativne karakteristike.

Frakcija uzorka (w), ili posebnost, određena je omjerom broja jedinica koje posjeduju karakteristiku koja se proučava m, na ukupan broj jedinica u populaciji uzorka (n):


Da bi se okarakterisala pouzdanost indikatora uzorka, pravi se razlika između prosečne i maksimalne greške uzorkovanja.

Greška uzorkovanja, koja se također naziva greška reprezentativnosti, je razlika između odgovarajućeg uzorka i općih karakteristika:

?x =|x – x|;

?w =|x – p|.

Greška uzorkovanja podliježe samo opažanjima uzorka.

Srednja vrijednost uzorka i proporcija uzorka su slučajne varijable koje uzimaju različita značenja u zavisnosti od jedinica statističke populacije koja se proučava, a koje su uključene u uzorak. Shodno tome, greške uzorkovanja su također slučajne varijable i također mogu poprimiti različite vrijednosti. Stoga odredite prosjek od moguće greške– prosječna greška uzorkovanja.

Prosječna greška uzorkovanja određena je veličinom uzorka: što je veći broj, uz ostale jednake stvari, to je manja prosječna greška uzorkovanja. Pokrivajući sve veći broj jedinica opće populacije uzorkom, sve preciznije karakteriziramo cjelokupnu opštu populaciju.

Prosječna greška uzorkovanja zavisi od stepena varijacije karakteristike koja se proučava; zauzvrat, stepen varijacije karakteriše disperzija? 2 ili w(l – w)– za alternativni znak. Što je manja varijacija i disperzija osobina, manja je prosječna greška uzorkovanja, i obrnuto.

U slučaju slučajnog ponovljenog uzorkovanja, prosječne greške se teoretski izračunavaju pomoću sljedećih formula:

1) za prosječnu kvantitativnu karakteristiku:


Gdje? 2 – prosječna vrijednost disperzije kvantitativne karakteristike.

2) za dionicu (alternativni atribut):


Dakle, koja je varijansa neke osobine u populaciji? 2 nije tačno poznato, u praksi koriste vrijednost disperzije S 2 izračunatu za populaciju uzorka na osnovu zakona velikih brojeva, prema kojem populacija uzorka, uz dovoljno veliku veličinu uzorka, prilično precizno reproducira karakteristike opšte populacije.

Formule za prosječnu grešku uzorkovanja za nasumično ponovno uzorkovanje su sljedeće. Za prosječne veličine kvantitativna karakteristika: opšta varijansa se izražava kroz selektivnu varijansu sledećim odnosom:


gdje je S 2 vrijednost disperzije.

Mehaničko uzorkovanje– to je odabir jedinica u populaciju uzorka iz opšte populacije, koja se po neutralnom kriterijumu deli u jednake grupe; Provodi se na način da se iz svake takve grupe odabere samo jedna jedinica za uzorak.

Kod mehaničkog uzorkovanja, jedinice statističke populacije koja se proučava preliminarno se raspoređuju po određenom redosledu, nakon čega se u određenom intervalu mehanički bira zadati broj jedinica. U ovom slučaju, veličina intervala u populaciji jednaka je inverznoj vrijednosti proporcije uzorka.

Kad dosta velika populacija Mehanička selekcija je po tačnosti rezultata bliska samonasumičnoj, pa se za određivanje prosječne greške mehaničkog uzorkovanja koriste formule za samoslučajno nerepetitivno uzorkovanje.

Za odabir jedinica iz heterogene populacije koristi se takozvani tipični uzorak; koristi se kada se sve jedinice opće populacije mogu podijeliti u nekoliko kvalitativno homogenih, sličnih grupa prema karakteristikama o kojima ovise indikatori koji se proučavaju.

Zatim se iz svake tipične grupe vrši individualna selekcija jedinica u populaciju uzorka korištenjem čisto slučajnog ili mehaničkog uzorka.

Uzorkovanje uzorka se obično koristi kada se proučavaju složene statističke populacije.

Tipično uzorkovanje daje preciznije rezultate. Tipizacijom opće populacije osigurava se reprezentativnost takvog uzorka, zastupljenost svake tipološke grupe u njemu, što omogućava da se isključi utjecaj međugrupne disperzije na prosječnu grešku uzorkovanja. Stoga, pri određivanju prosječne greške tipičnog uzorka, prosjek varijansi unutar grupe djeluje kao indikator varijacije.

Serijsko uzorkovanje uključuje slučajni odabir iz opšte populacije jednakih grupa kako bi se sve jedinice u takvim grupama podvrgle posmatranju bez izuzetka.

Budući da se unutar grupa (serija) ispituju sve jedinice bez izuzetka, prosječna greška uzorkovanja (pri odabiru jednakih serija) ovisi samo o međugrupnoj (međuserijskoj) disperziji.

4. Metode za diseminaciju rezultata uzorka opštoj populaciji

Karakteristike populacije na osnovu rezultata uzorka krajnji je cilj posmatranja uzorka.

Metodom uzorkovanja se dobijaju karakteristike populacije prema određenim pokazateljima uzorka. U zavisnosti od svrhe studije, to se radi direktnim preračunavanjem indikatora uzorka za opštu populaciju ili izračunavanjem faktora korekcije.

Metoda direktnog preračunavanja je da se uz njega u uzorku udijele indikatori w ili prosjek X primjenjuju se na opću populaciju, uzimajući u obzir grešku uzorkovanja.

Metoda korektivnih faktora se koristi kada je svrha metode uzorkovanja da razjasni rezultate kontinuiranog računovodstva. Ova metoda se koristi za razjašnjavanje podataka iz godišnjih popisa stoke stanovništva.

U teoriji metode uzorkovanja razvijene su različite metode selekcije i vrste uzorkovanja kako bi se osigurala reprezentativnost. Ispod metod selekcije razumiju proceduru odabira jedinica iz populacije. Postoje dvije metode odabira: ponovljena i neponavljajuća. At ponovljeno Prilikom uzorkovanja, svaka nasumično odabrana jedinica, nakon anketiranja, vraća se u opštu populaciju i, uz naknadnu selekciju, može ponovo biti uključena u uzorak. Ova metoda odabira zasniva se na shemi „vraćene lopte”: vjerovatnoća uključivanja u uzorak za svaku jedinicu populacije se ne mijenja bez obzira na broj odabranih jedinica. At ponovljivo Prilikom uzorkovanja, svaka nasumično odabrana jedinica ne vraća se općoj populaciji nakon njenog ispitivanja. Ova metoda selekcije zasniva se na šemi „nevraćene lopte”: vjerovatnoća da će biti uključena u uzorak za svaku jedinicu opšte populacije raste kako selekcija napreduje.

Ovisno o metodologiji formiranja populacije uzorka, razlikuju se sljedeće glavne: vrste uzorkovanja:

zapravo nasumično;

mehanički;

tipično (stratificirano, zonirano);

serijski (ugniježđeni);

kombinovano;

višestepeni;

višefazni;

međusobno prožimajući.

Zapravo nasumično uzorkovanje formira se u strogom skladu sa naučnim principima i pravilima slučajnog odabira. Da dobijete zaista nasumičan uzorak stanovništva strogo podijeljena na jedinice uzorkovanja, a zatim se bira dovoljan broj jedinica slučajnim redoslijedom koji se ponavlja ili se ne ponavlja.

Slučajni redosled je kao izvlačenje žreba. U praksi se najčešće koristi kada se koriste posebne tablice slučajnih brojeva. Ako, na primjer, treba izabrati 40 jedinica iz populacije koja sadrži 1587 jedinica, tada se iz tabele bira 40 četvorocifrenih brojeva koji su manji od 1587.

U slučaju kada je sam slučajni uzorak organizovan kao ponovljeni uzorak, standardna greška se izračunava u skladu sa formulom (6.1). Kod metode uzorkovanja koja se ne ponavlja, formula za izračunavanje standardne greške će biti:


gdje je 1 – n/ N– udio jedinica u opštoj populaciji koje nisu bile uključene u uzorak. Pošto je ovaj udio uvijek manje od jedan, tada je greška pri nerepetitivnom odabiru, pod jednakim uvjetima, uvijek manja nego pri ponovljenom odabiru. Selekciju koja se ne ponavlja je lakše organizirati od ponovljene selekcije, a koristi se mnogo češće. Međutim, vrijednost standardne greške tokom nerepetitivnog uzorkovanja može se odrediti jednostavnijom formulom (5.1). Takva zamjena je moguća ako je udio jedinica u opštoj populaciji koje nisu bile uključene u uzorak velik i stoga je vrijednost bliska jedinici.

Formiranje uzorka u strogom skladu s pravilima slučajnog odabira je praktički vrlo teško, a ponekad i nemoguće, jer je prilikom korištenja tablica slučajnih brojeva potrebno numerisati sve jedinice opće populacije. Često je populacija toliko velika da je izuzetno teško i nepraktično izvesti takve preliminarne radove, pa se u praksi koriste druge vrste uzoraka, od kojih svaki nije striktno slučajan. Međutim, oni su organizovani na način da obezbede maksimalnu aproksimaciju uslova slučajnog odabira.

Kada je čist mehaničko uzorkovanje cjelokupna opća populacija jedinica prije svega mora biti predstavljena u obliku liste selekcijskih jedinica, sastavljenih nekim neutralnim redoslijedom u odnosu na osobinu koja se proučava, na primjer, po abecedi. Zatim se lista jedinica za odabir dijeli na onoliko jednakih dijelova koliko ima jedinica koje treba odabrati. Sljedeće unaprijed uspostavljeno pravilo, nevezano za varijaciju ispitivane karakteristike, iz svakog dijela liste bira se po jedna jedinica. Ova vrsta uzorkovanja možda neće uvijek omogućiti nasumično uzorkovanje, a rezultirajući uzorak može biti pristrasan. Ovo se objašnjava činjenicom da, prvo, poredak jedinica u općoj populaciji može imati element neslučajne prirode. Drugo, uzorkovanje iz svakog dijela populacije ako je referentna tačka netačno utvrđena također može dovesti do greške pristranosti. Međutim, u praksi je lakše organizovati mehanički uzorak nego slučajni, a kod provođenja uzorkovanja najčešće se koristi ova vrsta uzorkovanja. Standardna greška u mehaničkom uzorkovanju određena je formulom stvarnog slučajnog nerepetitivnog uzorkovanja (6.2).

Tipičan (zonirani, stratificirani) uzorak ima dva cilja:

osigurati zastupljenost u uzorku odgovarajućih tipičnih grupa opšte populacije prema karakteristikama od interesa za istraživača;

povećati tačnost rezultata ankete uzorka.

Sa tipičnim uzorkom, prije nego što počne njegovo formiranje, opća populacija jedinica se dijeli na tipične grupe. Istovremeno veoma važna tačka je pravi izbor znak grupisanja. Odabrane tipične grupe mogu sadržavati isti ili različit broj jedinica za odabir. U prvom slučaju, uzorkovana populacija se formira sa jednakim udjelom selekcije iz svake grupe, u drugom - s udjelom proporcionalnim njenom udjelu u opštoj populaciji. Ako se uzorak formira sa jednakim udjelom selekcije, on je u suštini ekvivalentan broju striktno slučajnih uzoraka iz manjih populacija, od kojih je svaka tipična grupa. Odabir iz svake grupe vrši se na slučajan (ponovljeni ili neponovljeni) ili mehanički način. Sa tipičnim uzorkom, kako sa jednakim tako i sa nejednakim udelom selekcije, moguće je eliminisati uticaj međugrupne varijacije karakteristike koja se proučava na tačnost njenih rezultata, jer je obavezna zastupljenost svake od tipičnih grupa u populaciji uzorka. je osigurano. Hoće li standardna greška uzorka ovisiti o iznosu ukupne varijanse? 2, i o vrijednosti prosjeka grupnih varijansi?i 2 . Budući da je prosjek grupnih varijansi uvijek manji od ukupne varijanse, pod uslovom da su sve ostale jednake, standardna greška tipičnog uzorka će biti manja od standardne greške samog slučajnog uzorka.

Prilikom određivanja standardne greške tipičnog uzorka koriste se sljedeće formule:

Prilikom ponavljanja metode odabira

S metodom odabira koja se ne ponavlja:

– prosjek grupnih varijansi u populaciji uzorka.

Serijsko (klastersko) uzorkovanje- ovo je tip formiranja populacije uzorka kada se ne jedinice koje se ispituju, već grupe jedinica (serija, gnijezda) biraju nasumično. Unutar odabrane serije (gnijezda) ispituju se sve jedinice. Serijsko uzorkovanje je praktički lakše organizirati i provesti nego uzorkovanje pojedinačnih jedinica. Međutim, ovakvim tipom uzorkovanja, kao prvo, nije osigurana zastupljenost svake serije i, drugo, ne eliminiše se uticaj međuserijalne varijacije proučavane karakteristike na rezultate istraživanja. U slučaju kada je ova varijacija značajna, to će dovesti do povećanja slučajne greške reprezentativnosti. Prilikom odabira vrste uzorka, istraživač mora uzeti u obzir ovu okolnost. Standardna greška serijskog uzorkovanja određena je formulama:

Metodom ponovljenog odabira -


gdje je međuserija varijansa populacije uzorka; r– broj odabranih serija;

Sa metodom selekcije koja se ne ponavlja -


Gdje R– broj serija u populaciji.

U praksi se koriste određene metode i vrste uzoraka u zavisnosti od svrhe i ciljeva uzorka istraživanja, kao i mogućnosti njihovog organizovanja i sprovođenja. Najčešće se koristi kombinacija metoda selekcije i tipova uzorkovanja. Takvi uzorci se nazivaju kombinovano. Kombinacija je moguća u različite kombinacije: mehaničko i serijsko uzorkovanje, tipično i mehaničko, serijsko i stvarno nasumično itd. Kombinovano uzorkovanje se koristi kako bi se osigurala najveća reprezentativnost uz najmanje radne i novčane troškove za organizaciju i provođenje istraživanja.

Kod kombinovanog uzorka, standardna greška uzorka se sastoji od grešaka u svakoj fazi i može se odrediti kao kvadratni koren od zbira kvadrata grešaka odgovarajućih uzoraka. Dakle, ako su tokom kombinovanog uzorka korišćeni mehanički i tipični uzorci u kombinaciji, tada se standardna greška može odrediti formulom


gdje?1 i? 2 su standardne greške mehaničkih i tipičnih uzoraka, respektivno.

Posebnost višestepena ekstrakcija sastoji se u tome da se populacija uzorka formira postepeno, prema fazama selekcije. U prvoj fazi, jedinice prve faze se biraju pomoću unaprijed određene metode i vrste selekcije. U drugoj fazi, iz svake jedinice prve faze koja je uključena u uzorak, biraju se jedinice druge faze itd. Broj faza može biti veći od dva. U posljednjoj fazi formira se populacija uzorka, čije jedinice su predmet istraživanja. Tako, na primjer, za uzorkovanje budžeta domaćinstava, u prvoj fazi se biraju teritorijalni subjekti zemlje, u drugoj - okrugi u odabranim regijama, u trećoj - u svakom opštinska formacija biraju se preduzeća ili organizacije i, konačno, u četvrtoj fazi se biraju porodice iz odabranih preduzeća.

Dakle, populacija uzorka se formira u posljednjoj fazi. Višestepeno uzorkovanje je fleksibilnije od drugih tipova, iako generalno daje manje precizne rezultate od jednostepenog uzorka iste veličine. Međutim, on ima jednu važnu prednost, a to je da je okvir uzorkovanja za višestepenu selekciju potrebno izgraditi u svakoj fazi samo za one jedinice koje su bile uključene u uzorak, a to je vrlo važno, jer često nema gotovih jedinica. napravljen okvir za uzorkovanje.

Standardna greška uzorkovanja u višestepenom uzorkovanju za grupe različitih veličina određena je formulom


gdje?1, ?2, ?3 , ... – standardne greške u različitim fazama;

n1, n2, n3 , .. . – broj uzoraka u odgovarajućim fazama selekcije.

Ako su grupe nejednake po volumenu, teoretski se ova formula ne može koristiti. Ali ako je ukupni udio odabira u svim fazama konstantan, tada u praksi izračunavanje pomoću ove formule neće dovesti do izobličenja vrijednosti greške.

Essence višefazno uzorkovanje sastoji se u tome da se na osnovu inicijalno formirane populacije uzorka formira poduzorak, iz ovog poduzorka formira se naredni poduzorak itd. Inicijalna populacija uzorka predstavlja prvu fazu, subuzorak iz nje predstavlja drugu, itd. preporučljivo je koristiti višefazno uzorkovanje u slučajevima kada:

za studiranje razni znakovi potrebna nejednaka veličina uzorka;

varijabilnost proučavanih karakteristika nije ista, a tražena tačnost je različita;

manje detaljne informacije moraju se prikupiti za sve jedinice u početnom okviru uzorka (prva faza), a detaljnije informacije se moraju prikupiti za jedinice u svakoj narednoj fazi.

Jedna od nesumnjivih prednosti višefaznog uzorkovanja je činjenica da se informacije dobijene u prvoj fazi mogu koristiti kao dodatne informacije u narednim fazama, informacije u drugoj fazi mogu se koristiti kao dodatne informacije u narednim fazama, itd. Ova upotreba informacija se povećava tačnost rezultata ankete uzorka.

Prilikom organiziranja višefaznog uzorkovanja možete koristiti kombinaciju različitih metoda i tipova selekcije (tipično uzorkovanje s mehaničkim uzorkovanjem, itd.). Višefazni odabir može se kombinirati s višestepenim odabirom. U svakoj fazi uzorkovanje može biti višefazno.

Standardna greška u višefaznom uzorkovanju izračunava se za svaku fazu posebno u skladu sa formulama metode selekcije i vrste uzorkovanja kojom je formirana njena populacija uzorka.

Interpenetrirajuća iskopavanja- dva ili više nezavisnih uzoraka iz iste populacije, prikupljenih na isti način i tip. Preporučljivo je pribjeći interpenetrirajućim uzorcima ako je potrebno dobiti preliminarne rezultate istraživanja uzoraka u kratkom vremenskom periodu. Unakrsno uzorkovanje je efikasno za procjenu rezultata ankete. Ako su rezultati isti u nezavisnim uzorcima, to ukazuje na pouzdanost podataka istraživanja uzorka. Unakrsno uzorkovanje se ponekad može koristiti za testiranje rada različitih istraživača tako što će svaki od njih ispitati različite uzorke.

Standardna greška za uzorke koji se međusobno prožimaju određena je istom formulom kao i tipični proporcionalni uzorak (5.3). Interpenetrirajući uzorci, u poređenju s drugim tipovima, zahtijevaju više rada i novca, pa istraživač mora to uzeti u obzir prilikom kreiranja uzorka.

Ograničite greške na na razne načine izbor i vrste uzorkovanja određuju se formulom? = t?, gdje? je odgovarajuća standardna greška.

Intervalna procjena vjerovatnoće događaja. Formule za izračunavanje veličine uzorka koristeći metodu čisto slučajnog uzorkovanja.

Da bismo odredili vjerovatnoće događaja koji nas zanimaju, koristimo metodu uzorkovanja: provodimo n nezavisni eksperimenti, u svakom od kojih se događaj A može dogoditi (ili se ne dogoditi) (vjerovatnost R pojava događaja A u svakom eksperimentu je konstantna). Zatim relativna učestalost p* pojavljivanja događaja A u nizu n testovi se uzimaju kao tačka procene za verovatnoću str pojava događaja A u odvojenom suđenju. U ovom slučaju se poziva vrijednost p* uzorak udjela pojave događaja A, i p - opšte akcije .

Zbog posledica centralne granične teoreme (Moivre-Laplaceov teorem), relativna frekvencija događaja sa velikom veličinom uzorka može se smatrati normalno distribuiranom sa parametrima M(p*)=p i

Stoga, za n>30, interval povjerenja za opći udio može se konstruirati pomoću formula:


gdje se u cr nalazi iz tabela Laplaceove funkcije, uzimajući u obzir datu vjerovatnoću pouzdanosti γ: 2F(u cr)=γ.

Sa malom veličinom uzorka n≤30, maksimalna greška ε se određuje iz Studentove distributivne tabele:
gdje je tcr =t(k; α) i broj stupnjeva slobode k=n-1 vjerovatnoća α=1-γ (dvostrano područje).

Formule su važeće ako je selekcija izvršena na slučajan, ponovljen način (opšta populacija je beskonačna), u suprotnom je potrebno izvršiti prilagodbu za neponavljanje selekcije (tabela).

Prosječna greška uzorkovanja za opći udio

PopulacijaBeskonačnoKonačni volumen N
Vrsta selekcijePonovljenoNeponovljiv
Prosječna greška uzorkovanja

Formule za izračunavanje veličine uzorka koristeći metodu čisto slučajnog uzorkovanja

Metoda odabiraFormule za određivanje veličine uzorka
za prosjekza dionicu
Ponovljeno
Neponovljiv
Ulomak jedinica w = . Preciznost ε = . Vjerovatnoća γ =

Opći problemi dionica

Na pitanje "Pokriva li interval pouzdanosti datu vrijednost p0?" - može se odgovoriti provjerom statističke hipoteze H 0:p=p 0 . Pretpostavlja se da se eksperimenti izvode prema Bernoullijevoj šemi testa (nezavisno, vjerovatnoća str pojava događaja A je konstantan). Prema zapremini uzorka n odrediti relativnu frekvenciju p* pojave događaja A: gdje m- broj pojavljivanja događaja A u nizu n testovi. Za testiranje hipoteze H 0 koriste se statistike koje, uz dovoljno veliku veličinu uzorka, imaju standardnu ​​normalnu distribuciju (Tablica 1).
Tabela 1 - Hipoteze o opštem udjelu

Hipoteza

H 0:p=p 0H 0:p 1 =p 2
PretpostavkeBernoulli testni krugBernoulli testni krug
Uzorak procjena
Statistika K
Distribucija statistike K Standardno normalno N(0,1)

Primjer br. 1. Koristeći nasumično ponovljeno uzorkovanje, menadžment firme je sproveo anketu uzorka na 900 zaposlenih. Među ispitanicima je bilo 270 žena. Konstruirajte interval povjerenja sa vjerovatnoćom od 0,95 koji pokriva pravi udio žena u cijelom timu kompanije.
Rješenje. Prema stanju, udio žena u uzorku je (relativna učestalost žena među svim ispitanicama). Pošto se selekcija ponavlja i veličina uzorka je velika (n=900), maksimalna greška uzorkovanja se određuje po formuli

Vrijednost u cr nalazi se iz tabele Laplaceove funkcije iz relacije 2F(u cr) = γ, tj. Laplaceova funkcija (Dodatak 1) uzima vrijednost 0,475 pri ucr =1,96. Dakle, marginalna greška i željeni interval pouzdanosti
(p – ε, p + ε) = (0,3 – 0,18; 0,3 + 0,18) = (0,12; 0,48)
Dakle, sa vjerovatnoćom od 0,95 možemo garantovati da je udio žena u cijelom timu kompanije u rasponu od 0,12 do 0,48.

Primjer br. 2. Vlasnik parkinga dan smatra „srećnim“ ako je parking popunjen više od 80%. Tokom godine obavljeno je 40 pregleda parkirališta, od kojih su 24 „uspješna”. Sa vjerovatnoćom od 0,98, pronađite interval povjerenja za procjenu pravog udjela „sretnih“ dana u godini.
Rješenje. Uzorak omjera „sretnih“ dana je
Koristeći tablicu Laplaceove funkcije, nalazimo vrijednost u cr za datu
verovatnoća poverenja
F(2,23) = 0,49, ucr = 2,33.
S obzirom na to da se odabir ne ponavlja (tj. dvije provjere nisu obavljene u istom danu), naći ćemo graničnu grešku:
gdje je n=40, N = 365 (dana). Odavde
i interval povjerenja za opći dio: (p – ε, p + ε) = (0,6 – 0,17; 0,6 + 0,17) = (0,43; 0,77)
Sa vjerovatnoćom od 0,98, možemo očekivati ​​da će udio „sretnih“ dana u godini biti u rasponu od 0,43 do 0,77.

Primjer br. 3. Nakon provjere 2500 proizvoda u seriji, ustanovili su da je 400 proizvoda najviše kvalitete, ali n–m nije. Koliko proizvoda treba provjeriti da bi se sa 95% pouzdanosti odredio udio najviše ocjene s tačnošću od 0,01?
Tražimo rješenje koristeći formulu za određivanje veličine uzorka za ponovni odabir.

F(t) = γ/2 = 0,95/2 = 0,475 i ova vrijednost prema Laplaceovoj tabeli odgovara t=1,96
Udio uzorka w = 0,16; greška uzorkovanja ε = 0,01

Primjer br. 4. Serija proizvoda je prihvaćena ako je vjerovatnoća da će proizvod biti u skladu sa standardom najmanje 0,97. Među nasumično odabranih 200 proizvoda testirane serije, za 193 je utvrđeno da zadovoljavaju standard. Da li je moguće prihvatiti seriju na nivou značajnosti α=0,02?
Rješenje. Formulirajmo glavne i alternativne hipoteze.
H 0:p=p 0 =0,97 - nepoznato opšte učešće str jednako navedenoj vrijednosti p 0 =0,97. U odnosu na uslov - vjerovatnoća da će dio iz pregledane serije odgovarati standardu jednaka je 0,97; one. Serija proizvoda se može prihvatiti.
H 1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Uočena statistička vrijednost K(tabela) izračunati za date vrijednosti p 0 =0,97, n=200, m=193


Kritičnu vrijednost nalazimo iz tablice Laplaceove funkcije iz jednakosti


Prema uslovu, α = 0,02, dakle F(Kcr) = 0,48 i Kcr = 2,05. Kritično područje je lijevo, tj. je interval (-∞;-K kp)= (-∞;-2,05). Uočena vrijednost K obs = -0,415 ne pripada kritičnom području, stoga na ovom nivou značajnosti nema razloga za odbacivanje glavne hipoteze. Možete prihvatiti seriju proizvoda.

Primjer br. 5. Dvije fabrike proizvode istu vrstu dijelova. Za procjenu njihovog kvaliteta uzeti su uzorci proizvoda ovih tvornica i dobijeni su sljedeći rezultati. Od 200 odabranih proizvoda iz prvog pogona 20 je bilo neispravnih, a od 300 proizvoda iz drugog pogona 15 je bilo neispravno.
Na nivou značajnosti od 0,025 saznajte da li postoji značajna razlika u kvaliteti delova koje proizvode ove fabrike.

Prema uslovu, α = 0,025, dakle F(Kcr) = 0,4875 i Kcr = 2,24. Kod dvostrane alternative, raspon prihvatljivih vrijednosti ima oblik (-2,24;2,24). Promatrana vrijednost K obs =2,15 spada u ovaj interval, tj. na ovom nivou značaja nema razloga da se odbaci glavna hipoteza. Fabrike proizvode proizvode istog kvaliteta.

Plan:

1. Problemi matematičke statistike.

2. Vrste uzoraka.

3. Metode odabira.

4. Statistička distribucija uzorka.

5. Empirijska funkcija distribucije.

6. Poligon i histogram.

7. Numeričke karakteristike varijacione serije.

8. Statističke procjene parametara distribucije.

9. Intervalne procjene parametara distribucije.

1. Problemi i metode matematičke statistike

Math statistics je grana matematike koja se bavi metodama prikupljanja, analize i obrade rezultata statističkih opservacijskih podataka u naučne i praktične svrhe.

Neka je potrebno proučavati skup homogenih objekata u odnosu na neku kvalitativnu ili kvantitativnu osobinu koja karakteriše te objekte. Na primjer, ako postoji serija dijelova, tada standard dijela može poslužiti kao kvalitativni znak, a kontrolirana veličina dijela može poslužiti kao kvantitativni znak.

Ponekad se radi kompletna studija, tj. svaki objekat se ispituje za traženu karakteristiku. U praksi se rijetko koristi kompletna anketa. Na primjer, ako populacija sadrži vrlo veliki broj objekata, onda je fizički nemoguće provesti sveobuhvatno istraživanje. Ako je snimanje objekta povezano s njegovim uništenjem ili zahtijeva velike materijalne troškove, onda provođenje kompletnog snimanja nema smisla. U takvim slučajevima, ograničen broj objekata se nasumično bira iz cjelokupne populacije (uzorak populacije) i podvrgava proučavanju.

Osnovni zadatak matematičke statistike je proučavanje cjelokupne populacije koristeći podatke uzorka, ovisno o cilju, tj. proučavanje probabilističkih svojstava populacije: zakon raspodjele, numeričke karakteristike, itd. za donošenje upravljačkih odluka u uslovima neizvjesnosti.

2. Vrste uzoraka

Populacija je skup objekata od kojih je napravljen uzorak.

Uzorak populacije (uzorak) je kolekcija nasumično odabranih objekata.

Obim stanovništva je broj objekata u ovoj kolekciji. Veličina populacije se označava sa N, selektivno – n.

primjer:

Ako se od 1000 dijelova odabere 100 dijelova za ispitivanje, onda je obim opšte populacije N = 1000 i veličina uzorka n = 100.

Postoje dva načina odabira uzorka: nakon što je objekt odabran i promatran, on može, ali ne mora biti vraćen populaciji. To. uzorci se dijele na ponovljene i neponovljene.

Ponovipozvao uzorak, u kojem se odabrani objekt (prije odabira sljedećeg) vraća u populaciju.

Neponovljivpozvao uzorak, u kojem se odabrani objekt ne vraća u populaciju.

U praksi se obično koristi ponovljeno nasumično uzorkovanje.

Da bismo na osnovu podataka uzorka mogli sa dovoljno pouzdanosti suditi o karakteristikama interesne populacije, neophodno je da objekti uzorka to ispravno predstavljaju. Uzorak mora ispravno predstavljati proporcije populacije. Uzorak bi trebao biti predstavnik (zastupnik).

Zbog zakona velikih brojeva, može se tvrditi da će uzorak biti reprezentativan ako se izvodi nasumično.

Ako je veličina populacije dovoljno velika, a uzorak čini samo mali dio ove populacije, onda se briše razlika između ponovljenih i neponavljajućih uzoraka; u graničnom slučaju, kada se uzme u obzir beskonačna populacija i uzorak ima konačnu veličinu, ova razlika nestaje.

primjer:

Američki časopis Literary Review, koristeći statističke metode, sproveo je studiju o prognozama u vezi sa ishodom predstojećih američkih predsjedničkih izbora 1936. godine. Kandidati za ovo mjesto bili su F.D. Roosevelt i A. M. Landon. Telefonski imenici su uzeti kao izvor za opću populaciju proučavanih Amerikanaca. Od toga je nasumično odabrano 4 miliona adresa, na koje su urednici magazina poslali razglednice sa molbom da izraze svoj stav prema kandidatima za predsjednika. Nakon obrade rezultata ankete, magazin je objavio sociološku prognozu da će Landon sa velikom razlikom pobijediti na predstojećim izborima. I... pogrešio sam: Ruzvelt je pobedio.
Ovaj primjer se može smatrati primjerom nereprezentativnog uzorka. Činjenica je da je u Sjedinjenim Državama u prvoj polovini dvadesetog vijeka samo onaj bogati dio stanovništva koji je podržavao Landonove stavove imao telefone.

3. Metode odabira

U praksi se koriste različite metode selekcije koje se mogu podijeliti u 2 tipa:

1. Selekcija ne zahtijeva podjelu populacije na dijelove (a) jednostavno nasumično neponavljanje; b) jednostavno nasumično ponavljanje).

2. Selekcija, u kojoj se stanovništvo dijeli na dijelove. (A) tipičan izbor; b) mehanički odabir; V) serial izbor).

Simple random oni to zovu izbor, u kojem se objekti izdvajaju jedan po jedan iz cijele populacije (nasumično).

Tipičnopozvao izbor, u kojoj se objekti ne biraju iz cijele populacije, već iz svakog od njenih „tipičnih“ dijelova. Na primjer, ako se dio proizvodi na više strojeva, onda se odabir ne vrši iz cijelog skupa dijelova proizvedenih na svim strojevima, već iz proizvoda svake mašine posebno. Ova selekcija se koristi kada osobina koja se ispituje značajno varira u različitim „tipičnim“ delovima opšte populacije.

Mehaničkipozvao izbor, u kojem se opća populacija “mehanički” dijeli na onoliko grupa koliko ima objekata koje treba uključiti u uzorak, a iz svake grupe se bira po jedan objekt. Na primjer, ako trebate odabrati 20% dijelova proizvedenih u mašini, tada se bira svaki 5. dio; ako trebate odabrati 5% dijelova - svaki 20. itd. Ponekad takav odabir možda neće osigurati reprezentativnost uzorka (ako se odabere svaki 20. mljeveni valjak, a rezač se zamijeni odmah nakon odabira, tada će biti odabrani svi valjci okrenuti tupim rezačima).

Serialpozvao izbor, u kojem se objekti biraju iz opće populacije ne jedan po jedan, već u „serijama“, koji su podvrgnuti kontinuiranom istraživanju. Na primjer, ako proizvode proizvodi velika grupa automatskih mašina, onda su proizvodi samo nekoliko mašina podvrgnuti sveobuhvatnom ispitivanju.

U praksi se često koristi kombinirana selekcija u kojoj se kombiniraju gore navedene metode.

4. Statistička distribucija uzorka

Neka se uzorak izdvoji iz opće populacije, a vrijednost x 1–posmatrano jednom, x 2 -n 2 puta,... x k - n k puta. n= n 1 +n 2 +...+n k – veličina uzorka. Uočene vrijednostisu pozvani opcije, a redoslijed opcija napisanih uzlaznim redoslijedom je varijantne serije. Broj zapažanjasu pozvani frekvencije (apsolutne frekvencije) i njihov odnos prema veličini uzorka- relativne frekvencije ili statističke vjerovatnoće.

Ako je broj varijanti velik ili je uzorak uzet iz kontinuirane populacije, tada se serija varijacija ne sastavlja iz pojedinačnih vrijednosti bodova, već iz intervala vrijednosti u populaciji. Takav varijacioni niz se zove interval. Dužina intervala mora biti jednaka.

Statistička distribucija uzorka naziva se lista opcija i njihovih odgovarajućih frekvencija ili relativnih frekvencija.

Statistička distribucija se također može specificirati kao niz intervala i njihovih odgovarajućih frekvencija (zbir frekvencija koje spadaju u ovaj interval vrijednosti)

Tabelarni niz varijacija frekvencija može se predstaviti u tabeli:

x i
x 1
x 2

x k
n i
n 1
n 2

n k

Slično, može se zamisliti tačkasti varijacijski niz relativnih frekvencija.

Štaviše:

primjer:

Ispostavilo se da je broj slova u određenom tekstu X jednak 1000. Prvo pronađeno slovo bilo je slovo “i”, drugo je bilo slovo “i”, treće slovo “a”, četvrto je bilo “ yu”. Zatim su došla slova “o”, “e”, “u”, “e”, “s”.

Zapišimo mjesta koja zauzimaju u abecedi, odnosno imamo: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Nakon što ove brojeve poredimo rastućim redom, dobijamo niz varijacija: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Učestalosti pojavljivanja slova u tekstu: “a” - 75, “e” - 87, “i” - 75, “o” - 110, “u” - 25, “s” - 8, “e” - 3 , “yu” "- 7, "ja" - 22.

Kreirajmo tačkastu varijantnu seriju frekvencija:

primjer:

Distribucija frekvencije specificiranog volumena uzorkovanja n = 20.

Napravite tačku varijacije serije relativnih frekvencija.

x i

2

6

12

n i

3

10

7

Rješenje:

Nađimo relativne frekvencije:


x i

2

6

12

w i

0,15

0,5

0,35

Prilikom konstruiranja intervalne distribucije postoje pravila za izbor broja intervala ili veličine svakog intervala. Ovdje je kriterij optimalni omjer: povećanjem broja intervala reprezentativnost se poboljšava, ali se povećava obim podataka i vrijeme za njihovu obradu. Razlika x max - x min između najveće i najmanje vrijednosti poziva se opcija obim uzorci.

Za brojanje intervala k Obično se koristi empirijska Sturgessova formula (što podrazumijeva zaokruživanje na najbliži prikladan cijeli broj): k = 1 + 3,322 log n.

U skladu s tim, veličina svakog intervala h može se izračunati pomoću formule:

5. Empirijska funkcija distribucije

Hajde da razmotrimo neki uzorak iz opšte populacije. Neka je poznata statistička distribucija frekvencija kvantitativne karakteristike X. Uvedemo oznaku: n x– broj opservacija u kojima je uočena karakteristična vrijednost manja od x; n – ukupan broj opservacija (veličina uzorka). Relativna učestalost događaja X<х равна nx/n. Ako se x promijeni, tada se mijenja i relativna frekvencija, tj. relativna frekvencijan x /n- postoji funkcija od x. Jer nalazi se empirijski, onda se naziva empirijski.

Empirijska funkcija distribucije (funkcija distribucije uzorkovanja) pozovite funkciju, koji za svaki x određuje relativnu frekvenciju događaja X<х.


gdje je broj opcija manji od x,

n - veličina uzorka.

Za razliku od empirijske funkcije distribucije uzorka, naziva se funkcija distribucije F(x) populacije teorijska funkcija raspodjele.

Razlika između empirijske i teorijske funkcije distribucije je u tome što teorijska funkcija F (x) određuje vjerovatnoću događaja X f*(x) teži po vjerovatnoći vjerovatnoći F (x) ovog događaja. To jest, za veliki n f*(x) i F(x) se malo razlikuju jedno od drugog.

To. Preporučljivo je koristiti empirijsku funkciju distribucije uzorka za aproksimaciju teorijske (integralne) funkcije distribucije opće populacije.

f*(x) ima sva svojstva F(x).

1. Vrijednosti f*(x) pripadaju intervalu.

2. F*(x) je neopadajuća funkcija.

3. Ako je najmanja opcija, onda je F*(x) = 0, za x < x 1 ; ako je x k najveća opcija, onda je F*(x) = 1, za x > x k.

One. f*(x) služi za procjenu F(x).

Ako je uzorak dat nizom varijacija, tada empirijska funkcija ima oblik:

Graf empirijske funkcije naziva se kumulat.

primjer:

Nacrtajte empirijsku funkciju iz date distribucije uzorkovanja.


Rješenje:

Veličina uzorka n = 12 + 18 +30 = 60. Najmanja opcija je 2, tj. na x < 2. Događaj X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2 u 2 < x < 6. Događaj X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Jer x=10 je onda najveća opcija F*(x) = 1 na x>10. Željena empirijska funkcija ima oblik:

Kumulira:


Kumulacija omogućava razumijevanje grafički predstavljenih informacija, na primjer, odgovorite na pitanja: „Odredite broj zapažanja u kojima je vrijednost atributa bila manja od 6 ili ne manja od 6. F*(6) =0,2 „Tada je broj opservacija u kojima je vrijednost uočene karakteristike manja od 6 0,2* n = 0,2*60 = 12. Broj posmatranja u kojima je vrijednost uočene karakteristike bila najmanje 6 jednaka je (1-0,2)* n = 0,8*60 = 48.

Ako je data intervalna varijantna serija, tada se za kompilaciju empirijske funkcije distribucije pronalaze sredine intervala i iz njih se dobija empirijske funkcije distribucije slično kao serija varijacija tačke.

6. Poligon i histogram

Radi jasnoće, napravljeni su različiti statistički grafovi raspodjele: polinom i histogram

Frekvencijski raspon - ovo je izlomljena linija, čiji segmenti spajaju tačke ( x 1 ; n 1 ), ( x 2 ; n 2 ),..., ( x k ; n k ), gdje su opcije i odgovarajuće frekvencije.

Poligon relativne frekvencije - ovo je izlomljena linija, čiji segmenti spajaju tačke ( x 1 ; w 1 ), ( x 2 ; w 2 ),..., ( x k ; w k ), gdje su x i opcije, w i relativne frekvencije koje odgovaraju njima.

primjer:

Konstruirajte polinom relativnih frekvencija iz date distribucije uzorkovanja:

Rješenje:

U slučaju kontinuirane karakteristike, preporučljivo je konstruirati histogram, za koji se interval u kojem se nalaze sve promatrane vrijednosti karakteristike podijeli na nekoliko parcijalnih intervala dužine h i za svaki parcijalni interval n i se nađe - zbir frekvencija varijanti koje spadaju u i-ti interval. (Na primjer, kada mjerimo visinu ili težinu osobe, imamo posla sa kontinuiranim atributom).

Histogram frekvencije- Ovo je stepenasta figura koja se sastoji od pravougaonika, čije su osnove parcijalni intervali dužine h, a visine su jednake omjeru (gustina frekvencije).

Square I-ti parcijalni pravougaonik jednak je zbiru frekvencija i-te varijante intervala, tj. Površina histograma frekvencije jednaka je zbiru svih frekvencija, tj. veličina uzorka.

primjer:

Dati su rezultati promjena napona (u voltima) u električnoj mreži. Napravite niz varijacija, konstruirajte poligon i histogram frekvencije ako su vrijednosti napona sljedeće: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 22 216, 220, 225, 212, 217, 220.

Rješenje:

Kreirajmo seriju varijacija. Imamo n = 20, x min =212, x max =232.

Primijenimo Sturgessovu formulu da izračunamo broj intervala.

Intervalni varijacioni niz frekvencija ima oblik:


Gustoća frekvencije

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Napravimo histogram frekvencije:

Konstruirajmo frekvencijski poligon tako što ćemo prvo pronaći sredine intervala:


Histogram relativne frekvencije naziva se stepenasta figura koja se sastoji od pravokutnika čije su osnove parcijalni intervali dužine h, a visine jednake omjeru w i/h (relativna gustina frekvencije).

Square I-ti parcijalni pravougaonik jednak je relativnoj frekvenciji varijanti koje spadaju u i-ti interval. One. površina histograma relativnih frekvencija jednaka je zbiru svih relativnih frekvencija, tj. jedinica.

7. Numeričke karakteristike varijacione serije

Razmotrimo glavne karakteristike opće populacije i populacije uzorka.

General Secondary naziva se aritmetička sredina karakterističnih vrijednosti opće populacije.

Za različite vrijednosti x 1, x 2, x 3, ..., x n. karakteristika opće populacije volumena N imamo:

Ako karakteristične vrijednosti imaju odgovarajuće frekvencije N 1 +N 2 +…+N k =N, tada


Uzorak srednji naziva se aritmetička sredina karakterističnih vrijednosti populacije uzorka.

Ako karakteristične vrijednosti imaju odgovarajuće frekvencije n 1 +n 2 +…+n k = n, tada


primjer:

Izračunajte srednju vrijednost uzorka za uzorak: x 1 = 51,12; x 2 = 51,07 x 3 = 52,95; x 4 = 52,93 x 5 = 51,1 x 6 = 52,98; x 7 = 52,29; x 8 = 51,23; x 9 = 51,07; x 10 = 51,04.

Rješenje:

Opšta varijansa naziva se aritmetička sredina kvadrata odstupanja vrijednosti karakteristike X opće populacije od opće sredine.

Za različite vrijednosti x 1 , x 2 , x 3 , ..., x N karakteristike opće populacije volumena N imamo:

Ako karakteristične vrijednosti imaju odgovarajuće frekvencije N 1 +N 2 +…+N k =N, tada

Opća standardna devijacija (standard) zove se kvadratni korijen opće varijanse

Varijanca uzorka naziva se aritmetička sredina kvadrata odstupanja uočenih vrijednosti karakteristike od srednje vrijednosti.

Za različite vrijednosti x 1 , x 2 , x 3 , ..., x n karakteristike populacije uzorka volumena n imamo:


Ako karakteristične vrijednosti imaju odgovarajuće frekvencije n 1 +n 2 +…+n k = n, tada


Standardna devijacija uzorka (standardna) naziva se kvadratni korijen varijanse uzorka.


primjer:

Populacija uzorka određena je tablicom distribucije. Pronađite varijansu uzorka.


Rješenje:

Teorema: Varijanca je jednaka razlici između srednjih kvadrata vrijednosti atributa i kvadrata ukupne srednje vrijednosti.

primjer:

Pronađite varijansu ove distribucije.



Rješenje:

8. Statističke procjene parametara distribucije

Neka se opća populacija proučava pomoću određenog uzorka. U ovom slučaju moguće je dobiti samo približnu vrijednost nepoznatog parametra Q, koji služi kao njegova procjena. Očigledno, procjene mogu varirati od uzorka do uzorka.

Statistička procjenaQ* Nepoznati parametar teorijske raspodjele naziva se funkcija f, ovisno o vrijednostima promatranog uzorka. Zadatak statističke procjene nepoznatih parametara iz uzorka je da se iz dostupnih podataka statističkog promatranja konstruiše funkcija koja bi dala najtačnije približne vrijednosti stvarnih, istraživaču nepoznatih, vrijednosti ovih parametara.

Statističke procjene se dijele na tačkaste i intervalne, ovisno o načinu njihovog prikaza (broj ili interval).

Bod je statistička procjena parametar Q teorijske raspodjele određen jednom vrijednošću parametra Q *=f (x 1, x 2, ..., x n), gdje jex 1 , x 2 , ..., x n- rezultati empirijskih posmatranja kvantitativne karakteristike X određenog uzorka.

Takve procjene parametara dobivene iz različitih uzoraka najčešće se razlikuju jedna od druge. Poziva se apsolutna razlika /Q *-Q / greška uzorkovanja (procjene).

Da bi statističke procjene dale pouzdane rezultate o parametrima koji se procjenjuju, one moraju biti nepristrasne, efikasne i konzistentne.

Tačka procjena, čije je matematičko očekivanje jednako (nije jednako) procijenjenom parametru naziva se neraseljen (raseljen). M(Q *)=Q .

razlika M( Q *)-Q se poziva pristrasnost ili sistematska greška. Za nepristrasne procjene, pristrasnost je 0.

Efektivno procjena Q *, koji za datu veličinu uzorka n ima najmanju moguću varijansu: D min(n = const). Efektivni estimator ima najmanju varijansu u poređenju sa drugim nepristrasnim i konzistentnim procenjivačima.

Bogatinazovi ovo statističkim procjena Q *, što za nteži po vjerovatnoći procijenjenom parametru Q , tj. sa povećanjem veličine uzorka n procjena teži po vjerovatnoći pravoj vrijednosti parametra Q.

Zahtjev konzistentnosti je u skladu sa zakonom velikih brojeva: što je više početnih informacija o objektu koji se proučava, to je tačniji rezultat. Ako je veličina uzorka mala, onda tačkasta procjena parametra može dovesti do ozbiljnih grešaka.

volim to uzorak (volumenn) može se smatrati uređenim skupomx 1 , x 2 , ..., x n nezavisne identično distribuirane slučajne varijable.

Uzorak znači za različite veličine uzoraka n iz iste populacije će biti različiti. Odnosno, prosjek uzorka se može posmatrati kao slučajna varijabla, što znači da možemo govoriti o distribuciji prosjeka uzorka i njegovim numeričkim karakteristikama.

Prosjek uzorka zadovoljava sve zahtjeve koji se postavljaju za statističke procjene, tj. daje nepristrasnu, efikasnu i dosljednu procjenu opšte srednje vrijednosti.

To se može dokazati. Dakle, varijansa uzorka je pristrasna procjena varijanse populacije, koja je potcjenjuje. Odnosno, uz malu veličinu uzorka to će proizvesti sistematsku grešku. Za nepristrasnu, dosljednu procjenu, dovoljno je uzeti vrijednost, što se naziva ispravljena varijansa. To je

U praksi, za procjenu opće varijanse, korigirana varijansa se koristi na n < 30. U drugim slučajevima ( n >30) odstupanje od jedva primetno. Dakle, za velike vrijednosti n greška pomaka se može zanemariti.

Takođe se može dokazati da je relativna frekvencijan i / n je nepristrasna i konzistentna procjena vjerovatnoće P (X =x i ). Empirijska funkcija distribucije F*(x ) je nepristrasna i konzistentna procjena teorijske funkcije raspodjele F(x)=P(X< x ).

primjer:

Pronađite nepristrasne procjene očekivane vrijednosti i varijanse iz tabele uzorka.

x i
n i

Rješenje:

Veličina uzorka n =20.

Nepristrasna procjena matematičkog očekivanja je srednja vrijednost uzorka.


Da bismo izračunali nepristrasnu procjenu varijanse, prvo pronalazimo varijansu uzorka:

Sada pronađimo nepristrasnu procjenu:

9. Intervalne procjene parametara distribucije

Interval je statistička procjena određena dvjema numeričkim vrijednostima - krajevima intervala koji se proučava.

Broj> 0, za koje | Q - Q *|< , karakterizira tačnost procjene intervala.

Trustedpozvao interval , što sa datom vjerovatnoćompokriva nepoznatu vrijednost parametra Q . Dopunjavanje intervala povjerenja skupu svih mogućih vrijednosti parametra Q pozvao kritično područje. Ako se kritično područje nalazi samo na jednoj strani intervala povjerenja, tada se naziva interval povjerenja jednostrano: lijevo, ako kritična regija postoji samo na lijevoj strani, i desnoruke ako samo na desnoj strani. U suprotnom, poziva se interval pouzdanosti bilateralni.

Pouzdanost ili nivo samopouzdanja, procjenjuje Q (koristeći Q *) je vjerovatnoća kojom je zadovoljena sljedeća nejednakost: | Q - Q *|< .

Najčešće se vjerovatnoća povjerenja unaprijed postavlja (0,95; 0,99; 0,999) i nameće joj se zahtjev da bude blizu jedan.

Vjerovatnoćapozvao vjerovatnoća greške ili nivo značajnosti.

Neka | Q - Q *|< , Onda. To znači da sa vjerovatnoćommože se tvrditi da je prava vrijednost parametra Q pripada intervalu. Što je odstupanje manje, to je tačnija procjena.

Granice (krajevi) intervala pouzdanosti se nazivaju granice povjerenja ili kritične granice.

Vrijednosti granica intervala povjerenja zavise od zakona distribucije parametra Q*.

Vrijednost odstupanjajednaka polovini širine intervala pouzdanosti naziva se tačnost procjene.

Metode za konstruisanje intervala pouzdanosti prvi je razvio američki statističar Yu. Neumann. Preciznost procjene, vjerovatnoća povjerenja i veličina uzorka n međusobno povezani. Stoga, znajući specifične vrijednosti dvije veličine, uvijek možete izračunati treću.

Pronalaženje intervala povjerenja za procjenu matematičkog očekivanja normalne distribucije ako je poznata standardna devijacija.

Neka se uzorak uzme iz opće populacije koja podliježe zakonu normalne distribucije. Neka je poznata opšta standardna devijacija, ali je matematičko očekivanje teorijske distribucije nepoznato a ().

Sljedeća formula je tačna:

One. prema datoj vrijednosti odstupanjamože se naći sa kojom verovatnoćom nepoznata opšta sredina pripada intervalu. I obrnuto. Iz formule je jasno da s povećanjem veličine uzorka i fiksne vrijednosti vjerovatnoće povjerenja, vrijednost- smanjuje se, tj. povećava se tačnost procjene. Sa povećanjem pouzdanosti (vjerovatnoće povjerenja), vrijednost-povećava, tj. smanjuje se tačnost procjene.

primjer:

Kao rezultat testova, dobijene su sljedeće vrijednosti -25, 34, -20, 10, 21. Poznato je da se pridržavaju zakona normalne distribucije sa standardnom devijacijom od 2. Pronađite procjenu a* za matematičko očekivanje a. Konstruirajte interval pouzdanosti od 90% za to.

Rješenje:

Nađimo nepristrasnu procjenu

Onda


Interval pouzdanosti za a je: 4 – 1,47< a< 4+ 1,47 или 2,53 < a < 5, 47

Pronalaženje intervala povjerenja za procjenu matematičkog očekivanja normalne distribucije ako je standardna devijacija nepoznata.

Neka bude poznato da opća populacija podliježe zakonu normalne distribucije, gdje su a i. Tačnost pokrivanja intervala pouzdanosti sa pouzdanošćuprava vrijednost parametra a, u ovom slučaju, izračunava se po formuli:

, gdje je n veličina uzorka, , - Studentov koeficijent (treba se naći iz datih vrijednosti n i iz tabele „Kritične tačke distribucije studenata“).

primjer:

Kao rezultat testova dobijene su sljedeće vrijednosti -35, -32, -26, -35, -30, -17. Poznato je da se pridržavaju zakona normalne distribucije. Naći interval pouzdanosti za matematičko očekivanje a populacije sa vjerovatnoćom povjerenja od 0,9.

Rješenje:

Nađimo nepristrasnu procjenu.

Naći ćemo.

Onda

Interval pouzdanosti će poprimiti oblik(-29,2 - 5,62; -29,2 + 5,62) ili (-34,82; -23,58).

Pronalaženje intervala povjerenja za varijansu i standardnu ​​devijaciju normalne distribucije

Neka se slučajni uzorak volumena uzme iz određene opće populacije vrijednosti raspoređenih prema normalnom zakonun < 30, za koji su izračunate varijanse uzorka: pristrasnoi ispravljeno s 2. Zatim, pronaći intervalne procjene sa datom pouzdanošćuza opštu varijansuDopšta standardna devijacijaKoriste se sljedeće formule.


ili,

Vrijednosti- pronađeno korišćenjem tabele vrednosti kritičnih tačakaPearsonove distribucije.

Interval pouzdanosti za varijansu se nalazi iz ovih nejednakosti kvadriranjem svih strana nejednakosti.

primjer:

Provjeren je kvalitet 15 vijaka. Pod pretpostavkom da je greška u njihovoj proizvodnji podložna zakonu normalne distribucije i standardnoj devijaciji uzorkajednak 5 mm, pouzdano odreditiinterval pouzdanosti za nepoznati parametar

Granice intervala predstavljamo u obliku dvostruke nejednakosti:

Krajevi dvostranog intervala pouzdanosti za varijansu mogu se odrediti bez izvođenja aritmetičkih operacija za dati nivo pouzdanosti i veličinu uzorka koristeći odgovarajuću tablicu (Granice intervala povjerenja za varijansu u zavisnosti od broja stupnjeva slobode i pouzdanosti) . Da bi se to uradilo, krajevi intervala dobijeni iz tabele pomnože se ispravljenom varijansom s 2.

primjer:

Rešimo prethodni problem na drugačiji način.

Rješenje:

Pronađimo ispravljenu varijansu:

Koristeći tabelu „Granice intervala pouzdanosti za disperziju u zavisnosti od broja stepeni slobode i pouzdanosti“, naći ćemo granice intervala poverenja za disperziju nak=14 i: donja granica 0,513 i gornja granica 2,354.

Pomnožimo rezultirajuće granice sas 2 i izdvojimo korijen (pošto nam je potreban interval povjerenja ne za varijansu, već za standardnu ​​devijaciju).

Kao što se može vidjeti iz primjera, veličina intervala povjerenja ovisi o načinu njegove konstrukcije i daje slične, ali nejednake rezultate.

Za uzorke dovoljno velike veličine (n>30) granice intervala pouzdanosti za opštu standardnu ​​devijaciju mogu se odrediti formulom: - određeni broj koji je tabelarno dat u odgovarajućoj referentnoj tabeli.

Ako 1- q<1, то формула имеет вид:

primjer:

Rešimo prethodni problem na treći način.

Rješenje:

Prethodno pronađenos= 5,17. q(0,95; 15) = 0,46 – pronađeno iz tabele.

onda:

Istraživanje obično počinje nekom pretpostavkom koja zahtijeva provjeru korištenjem činjenica. Ova pretpostavka - hipoteza - se formuliše u odnosu na povezanost pojava ili svojstava u određenom skupu objekata.

Da bi se takve pretpostavke testirale u odnosu na činjenice, potrebno je izmjeriti odgovarajuća svojstva njihovih nosilaca. Ali je nemoguće izmjeriti anksioznost kod svih žena i muškaraca, kao što je nemoguće izmjeriti agresivnost kod svih adolescenata. Stoga se pri provođenju istraživanja ograničava samo na relativno malu grupu predstavnika relevantnih populacija ljudi.

Populacija— to je čitav skup objekata u odnosu na koje se formuliše istraživačka hipoteza.

Na primjer, svi muškarci; ili sve žene; ili svi stanovnici grada. Opšte populacije u odnosu na koje će istraživač izvoditi zaključke na osnovu rezultata istraživanja mogu biti skromnije po broju, na primjer, svi prvaci date škole.

Dakle, opšta populacija je, iako ne beskonačan broj, ali po pravilu nedostupan za kontinuirano istraživanje, skup potencijalnih subjekata.

Uzorak ili uzorkovana populacija- ovo je grupa objekata ograničenog broja (u psihologiji - subjekti, ispitanici), posebno odabranih iz opće populacije za proučavanje njegovih svojstava. U skladu s tim, naziva se proučavanje svojstava opće populacije pomoću uzorka studija uzorkovanja. Gotovo sve psihološke studije su selektivne, a njihovi zaključci se protežu na opću populaciju.

Dakle, nakon što se formuliše hipoteza i identifikuju odgovarajuće populacije, istraživač se suočava sa problemom organizovanja uzorka. Uzorak treba da bude takav da je opravdana generalizacija zaključaka studije uzorka – generalizacija, proširenje istih na opštu populaciju. Glavni kriteriji za valjanost zaključaka istraživanjato su reprezentativnost uzorka i statistička pouzdanost (empirijskih) rezultata.

Reprezentativnost uzorka- drugim riječima, njegova reprezentativnost je sposobnost uzorka da u potpunosti predstavi fenomene koji se proučavaju - sa stanovišta njihove varijabilnosti u opštoj populaciji.

Naravno, samo opšta populacija može dati potpunu sliku fenomena koji se proučava, u svom opsegu i nijansama varijabilnosti. Stoga je reprezentativnost uvijek ograničena u mjeri u kojoj je uzorak ograničen. A upravo je reprezentativnost uzorka glavni kriterijum u određivanju granica generalizacije nalaza istraživanja. Međutim, postoje tehnike koje omogućavaju da se dobije reprezentativnost uzorka dovoljna za istraživača (Ove tehnike se proučavaju u okviru predmeta „Eksperimentalna psihologija“).


Prva i glavna tehnika je jednostavan slučajni (randomizirani) odabir. To uključuje osiguravanje uslova da svaki član populacije ima jednake šanse s ostalima da bude uključen u uzorak. Slučajni odabir osigurava da različiti predstavnici opšte populacije mogu biti uključeni u uzorak. U tom slučaju se poduzimaju posebne mjere kako bi se spriječilo pojavljivanje bilo kakvog uzorka tokom odabira. A to nam omogućava da se nadamo da će na kraju, u uzorku, svojstvo koje se proučava biti predstavljeno, ako ne u cijelosti, onda u svojoj maksimalnoj mogućoj raznolikosti.

Drugi način da se osigura reprezentativnost je stratifikovano nasumično uzorkovanje, ili selekcija zasnovana na svojstvima opšte populacije. Uključuje preliminarno određivanje onih kvaliteta koji mogu uticati na varijabilnost imovine koja se proučava (to može biti spol, nivo prihoda ili obrazovanje, itd.). Zatim se utvrđuje procentualni odnos broja grupa (strata) koji se razlikuju po ovim kvalitetima u opštoj populaciji i osigurava identičan procentualni odnos odgovarajućih grupa u uzorku. Zatim se ispitanici biraju u svaku podgrupu uzorka po principu jednostavnog slučajnog odabira.

statistički značaj, ili statističke značajnosti, rezultati studije se određuju korištenjem metoda statističkog zaključivanja.

Jesmo li osigurani od grešaka pri donošenju odluka, pri izvlačenju određenih zaključaka iz rezultata istraživanja? Naravno da ne. Uostalom, naše odluke se zasnivaju na rezultatima istraživanja populacije uzorka, kao i na nivou našeg psihološkog znanja. Nismo potpuno imuni na greške. U statistici se takve greške smatraju prihvatljivim ako se ne javljaju češće nego u jednom slučaju od 1000 (vjerovatnoća greške α = 0,001 ili povezana vjerovatnoća pouzdanosti ispravnog zaključka p = 0,999); u jednom slučaju od 100 (vjerovatnoća greške α = 0,01 ili pridružena vjerovatnoća pouzdanosti ispravnog zaključka p = 0,99) ili u pet slučajeva od 100 (vjerovatnoća greške α = 0,05 ili povezana vjerovatnoća pouzdanosti ispravnog zaključka p=0,95). Na posljednja dva nivoa se donose odluke u psihologiji.

Ponekad, kada govore o statističkoj značajnosti, koriste koncept „nivoa značajnosti“ (označen kao α). Numeričke vrijednosti p i α se međusobno nadopunjuju do 1.000 - kompletan skup događaja: ili smo napravili pravi zaključak, ili smo pogriješili. Ovi nivoi se ne računaju, oni su dati. Nivo značaja može se shvatiti kao neka vrsta „crvene“ linije, čiji presek će nam omogućiti da o ovom događaju govorimo kao o neslučajnom. U svakom dobrom naučnom izveštaju ili publikaciji, izvedeni zaključci treba da budu popraćeni naznakom p ili α vrednosti na kojima su zaključci doneti.

Metode statističkog zaključivanja detaljno su obrađene u predmetu Matematička statistika. Sada samo napominjemo da imaju određene zahtjeve za broj, odnosno veličina uzorka.

Nažalost, ne postoje stroge smjernice za prethodno određivanje potrebne veličine uzorka. Štaviše, odgovor na pitanje o potrebnom i dovoljnom broju istraživač obično dobije prekasno – tek nakon analize podataka već ispitanog uzorka. Međutim, mogu se formulirati najopćenitije preporuke:

1. Za razvoj dijagnostičke tehnike potrebna je najveća veličina uzorka - od 200 do 1000-2500 ljudi.

2. Ukoliko je potrebno uporediti 2 uzorka, njihov ukupan broj mora biti najmanje 50 osoba; broj uzoraka koji se porede treba da bude približno isti.

3. Ako se proučava odnos između bilo kojeg svojstva, tada bi veličina uzorka trebala biti najmanje 30-35 ljudi.

4. Što više varijabilnost svojstva koja se proučavaju, veličina uzorka bi trebala biti veća. Stoga se varijabilnost može smanjiti povećanjem homogenosti uzorka, na primjer, prema spolu, starosti, itd. Ovo, naravno, smanjuje sposobnost generalizacije zaključaka.

Zavisni i nezavisni uzorci. Uobičajena istraživačka situacija je kada se osobina od interesa za istraživača proučava na dva ili više uzoraka u svrhu daljeg poređenja. Ovi uzorci mogu biti u različitim omjerima, ovisno o postupku njihove organizacije. Nezavisni uzorci odlikuju se činjenicom da vjerovatnoća odabira bilo kojeg subjekta u jednom uzorku ne ovisi o odabiru bilo kojeg od ispitanika u drugom uzorku. protiv, zavisni uzorci odlikuju se činjenicom da se svaki ispitanik iz jednog uzorka po određenom kriteriju podudara sa subjektom iz drugog uzorka.

Općenito, zavisni uzorci podrazumijevaju parni odabir ispitanika u upoređene uzorke, a nezavisni uzorci podrazumijevaju nezavisnu selekciju ispitanika.

Treba napomenuti da su neprihvatljivi slučajevi “djelimično zavisnih” (ili “djelimično nezavisnih”) uzoraka: to nepredvidivo narušava njihovu reprezentativnost.

U zaključku, napominjemo da se mogu razlikovati dvije paradigme psihološkog istraživanja.

Takozvani R-metodologija uključuje proučavanje varijabilnosti određene osobine (psihološke) pod uticajem određenog uticaja, faktora ili drugog svojstva. Uzorak je skup subjekata.

Drugi pristup Q-metodologija, uključuje proučavanje varijabilnosti subjekta (pojedinca) pod uticajem različitih stimulansa (uslova, situacija, itd.). Odgovara situaciji kada uzorak je skup stimulusa.