Meni
Besplatno
Dom  /  Herpes/ Opća populacija i uzorkovanje za lutke. Opća i uzorkovana populacija. Koncept reprezentativnosti

Populacija i uzorkovanje za lutke. Opća i uzorkovana populacija. Koncept reprezentativnosti

Predavanje 6. Elementi matematičke statistike

Pitanja za kontrolu znanja i sumiranje održanog predavanja

1. Definirajte slučajnu varijablu.

2. Napišite formule za matematičko očekivanje i varijansu diskretnih i kontinuiranih slučajnih varijabli.

3. Definirajte Laplaceov lokalni integralni granični teorem

4. Napišite formule koje definiraju binomnu distribuciju, hipergeometrijsku raspodjelu, Poissonovu raspodjelu, uniformnu raspodjelu i normalnu distribuciju.

Cilj: Proučiti osnovne pojmove matematičke statistike

1. Populacija i uzorak

2. Statistička distribucija uzorka. Poligon. trakasti grafikon .

3. Procjene parametara opće populacije na osnovu njenog uzorka

4. Opći prosjek i prosjek uzoraka. Metode za njihov proračun.

5. Opće i uzorke varijance.

6. Pitanja za kontrolu znanja i sumiranje održanog predavanja

Počinjemo proučavati elemente matematičke statistike, koja razvija naučno utemeljene metode za prikupljanje statističkih podataka i njihovu obradu.

1. Opća populacija i uzorak. Neka je potrebno proučavati skup homogenih objekata (ovaj skup se zove statistički agregat) u pogledu neke kvalitativne ili kvantitativne osobine koja karakteriše ove objekte. Na primjer, ako postoji serija dijelova, tada standard dijela može poslužiti kao kvalitativni znak, a kontrolirana veličina dijela može poslužiti kao kvantitativni znak.

Najbolje je obaviti kompletan pregled, tj. ispitati svaki objekat. Međutim, u većini slučajeva, iz različitih razloga, to nije moguće učiniti. Može spriječiti kompletan pregled veliki broj objekti, njihova nepristupačnost. Ako, na primjer, trebamo znati prosječnu dubinu kratera kada eksplodira granata iz eksperimentalne serije, onda ćemo kompletnim ispitivanjem uništiti cijelu seriju.

Ako kompletno istraživanje nije moguće, tada se iz cijele populacije odabire dio objekata za proučavanje.

Poziva se statistička populacija iz koje se bira dio objekata opšta populacija. Poziva se skup objekata nasumično odabranih iz populacije uzorkovanje.

Broj objekata u populaciji i uzorku se naziva respektivno volumen opšta populacija i volumen uzorci.

Primjer 10.1. Plodovi jednog drveta (200 komada) se ispituju na prisustvo ukusa specifičnog za ovu sortu. U tu svrhu odabrano je 10 komada. Ovdje je 200 veličina populacije, a 10 veličina uzorka.

Ako se iz jednog objekta odabere uzorak, koji se ispituje i vraća populaciji, tada se uzorak poziva ponovljeno. Ako se objekti uzorka više ne vraćaju populaciji, tada se poziva uzorak ponovljivo.



U praksi se češće koristi uzorkovanje koji se ne ponavlja. Ako je veličina uzorka mali dio veličine populacije, onda je razlika između ponovljenih i nerepliciranih uzoraka zanemarljiva.

Svojstva objekata u uzorku moraju ispravno odražavati svojstva objekata u populaciji, ili, kako kažu, uzorak mora biti predstavnik(predstavnik). Uzorak se smatra reprezentativnim ako svi objekti u populaciji imaju istu vjerovatnoću da budu uključeni u uzorak, odnosno odabir se vrši nasumično. Na primjer, da biste procijenili buduću berbu, možete napraviti uzorak iz opšte populacije voća koje još nije sazrelo i ispitati njihove karakteristike (masa, kvalitet, itd.). Ako se cijeli uzorak uzme sa jednog stabla, neće biti reprezentativan. Reprezentativni uzorak treba da se sastoji od nasumično odabranih plodova sa nasumično odabranih stabala.

2. Statistička distribucija uzorka. Poligon. Trakasti grafikon. Neka se uzorak izvuče iz opšte populacije, i X 1 primijetio n 1 put, X 2 - n 2 jednom, ..., x k - n k puta i n 1 +n 2 +…+ n k= P - veličina uzorka. Uočene vrijednosti x 1 , x 2 , …, x k pozvao opcije, a varijantni niz, napisan uzlaznim redom, je varijantne serije. Broj zapažanja n 1 , n 2 , …, n k pozvao frekvencije, i njihov odnos prema veličini uzorka , , …, - relativne frekvencije. Imajte na umu da je zbir relativnih frekvencija jednak jedinici: .

Statistička distribucija uzorka pozvati listu opcija i njihove odgovarajuće frekvencije ili relativne frekvencije. Statistička distribucija se također može specificirati kao niz intervala i njihovih odgovarajućih frekvencija (kontinuirana distribucija). Zbir frekvencija varijanti koje spadaju u ovaj interval uzima se kao frekvencija koja odgovara intervalu. Za grafički prikaz statističke distribucije koristite poligoni I histogrami.

Za konstruiranje poligona na osi Oh opcija odgode vrijednosti X i, na osi OU - vrijednosti frekvencije P i (relativne frekvencije).

Primjer 10.2. Na sl. 10.1 prikazuje poligon sljedeće distribucije

Poligon se obično koristi u slučaju malog broja opcija. U slučaju velikog broja varijanti iu slučaju kontinuirane distribucije atributa, često se konstruišu histogrami. Da biste to učinili, interval u kojem se nalaze sve promatrane vrijednosti atributa podijeljen je na nekoliko parcijalnih intervala dužine h i pronađite za svaki parcijalni interval n i, - zbir frekvencija varijante uključene u i-interval. Zatim se na tim intervalima, kao i na osnovama, grade pravokutnici sa visinama (ili, gdje P - veličina uzorka).

Square i parcijalni pravougaonik je jednak , (ili ).

Shodno tome, površina histograma je jednaka zbiru svih frekvencija (ili relativnih frekvencija), tj. veličina uzorka (ili jedinica).

Primjer 10.3. Na sl. Slika 10.2 prikazuje histogram kontinuirane raspodjele volumena n= 100 dato u sljedećoj tabeli.

U matematičkoj statistici postoje dva osnovna koncepta: populacija i uzorak.
Skup je gotovo prebrojiv skup nekih objekata ili elemenata od interesa za istraživača;
Svojstvo kolekcije je stvarna ili imaginarna kvaliteta koju dijele neki njeni elementi. Svojstvo može biti nasumično ili nenasumično.
Parametar populacije je svojstvo koje se može kvantificirati kao konstanta ili varijabla.
Jednostavan set karakteriše:
zasebnu imovinu (na primjer: svi studenti u Rusiji);
poseban parametar u obliku konstante ili varijable (Sve studentice);
sistem nepreklapajućih (nekompatibilnih) svojstava, na primer: Svi nastavnici i učenici škola Vladivostoka.
Složeni set karakteriše:
sistem bar djelimično preklapajućih svojstava (studenti psiholoških i matematičkih fakulteta Dalekoistočnog državnog univerziteta koji su završili školu sa zlatnom medaljom);
sistem nezavisnih i zavisnih parametara u agregatu; u sveobuhvatnoj studiji ličnosti.
Homogen ili homogen je skup čije su sve karakteristike inherentne svakom njegovom elementu;
Heterogena ili heterogena je populacija čije su karakteristike koncentrisane u odvojenim podskupovima elemenata.
Važan parametar je obim populacije – broj elemenata koji je formiraju. Veličina volumena ovisi o tome kako je definirana sama populacija i koja pitanja nas konkretno zanimaju. Recimo da nas zanima emocionalno stanje studenta 1. godine u periodu polaganja određenog ispita tokom sesije. Tada se stanovništvo iscrpljuje u roku od pola sata. Ako nas zanima emocionalno stanje svih studenata 1. godine, onda će ukupnost biti mnogo veća, a još veća ako uzmemo emocionalno stanje svih studenata 1. godine na datom fakultetu itd. Jasno je da se velike populacije mogu proučavati samo selektivno.
Uzorak je određeni dio opće populacije, nešto što se direktno proučava.
Uzorci su klasifikovani prema reprezentativnosti, veličini, metodi odabira i dizajnu testa.
Reprezentativan – uzorak koji adekvatno odražava opštu populaciju u kvalitativnom i kvantitativnom smislu. Uzorak mora adekvatno odražavati populaciju, inače se rezultati neće poklapati sa ciljevima studije.
Reprezentativnost zavisi od volumena; što je veći volumen, to je uzorak reprezentativniji. Prema metodi selekcije.
Slučajno - ako su elementi odabrani nasumično. Budući da je većina metoda matematičke statistike zasnovana na konceptu slučajnog uzorkovanja, prirodno bi uzorkovanje trebalo biti nasumično.
Neslučajno uzorkovanje:
mehanička selekcija, kada se cijela populacija podijeli na onoliko dijelova koliko je planiranih jedinica u uzorku i tada se iz svakog dijela izabere po jedan element;
tipična selekcija - populacija je podijeljena na homogene dijelove, a iz svakog se uzima slučajni uzorak;
serijski odabir - populacija se dijeli na veliki broj serija različite veličine, zatim se pravi uzorak jedne određene serije;
kombinovana selekcija - vrste selekcije koje se razmatraju se kombinuju u različitim fazama.
Prema dizajnu ispitivanja, uzorci mogu biti nezavisni i zavisni. Na osnovu veličine uzorka, uzorci se dijele na male i velike. Mali uzorci obuhvataju uzorke u kojima je broj elemenata n 200, a prosječni uzorak zadovoljava uvjet 30. Mali uzorci se koriste za statističku kontrolu poznatih svojstava već proučavanih populacija.
Veliki uzorci se koriste za utvrđivanje nepoznatih svojstava i parametara populacije.

Više o temi 1.3. Populacija i uzorak:

  1. 7.2 Karakteristike uzorka i populacije
  2. 1.6. Tačkaste i intervalne procjene koeficijenata korelacije normalno raspoređene populacije

Potreba za provođenjem istraživanja uzoraka može biti uzrokovana različitim razlozima:

    često je kompletno proučavanje fenomena koji se proučava preskupo i dugotrajno;

    ponekad se mogućnost korištenja informacija primljenih u cjelovitoj studiji može iscrpiti prije nego što se završi proces njene pripreme;

    u nekim slučajevima, kao rezultat provjere kvalitete proizvoda, predmet koji se proučava je uništen.

primjer:

    Pretpostavimo da su populacija svi učenici škole (600 ljudi iz 20 razreda, po 30 ljudi u svakom razredu). Predmet proučavanja su stavovi prema pušenju.

Populacija je skup objekata o kojima trebate dobiti informacije.

Opću populaciju čine svi objekti koji imaju kvalitete i svojstva koja zanimaju istraživača. Ponekad je opća populacija cjelokupna odrasla populacija određene regije (na primjer, kada se proučava odnos potencijalnih birača prema kandidatu), najčešće se navodi nekoliko kriterija koji određuju objekte proučavanja. Na primjer, žene od 10 do 89 godina koje koriste kremu za ruke određene marke barem jednom sedmično i imaju prihod od najmanje 5 hiljada rubalja po članu porodice.

Uzorak je mali skup objekata izdvojenih iz populacije.

Populacija uzorka je minimum potreban za proučavanje rezultata (slučajeva, subjekata, objekata, događaja, uzoraka) odabranih određenim postupkom iz opće populacije.

primjeri:

    identifikovanje reakcije klijenata kompanije na inovacije, svi klijenti kompanije predstavljaju opštu populaciju. Oni koji su pozvani čine uzorak.

    Prilikom revizije firmi sa velikim brojem transakcija, treba se zadovoljiti proučavanjem odabranog broja transakcija. Sve transakcije kompanije čine opštu populaciju, a odabrane čine uzorak.

    opštu populaciju čine svi vojni obveznici određene godine.

    Sve lampe proizvedene u određenom vremenskom periodu u određenom preduzeću čine opštu populaciju. Biraju se one lampe koje su odabrane za kontrolu.

Uzorak se može smatrati reprezentativnim ili nereprezentativnim. Uzorak će biti reprezentativan pri ispitivanju veće grupe ljudi, ako unutar ove grupe ima predstavnika različitih podgrupa, to je jedini način da se izvuku ispravni zaključci. .

Reprezentativnost je korespondencija karakteristika uzorka sa karakteristikama populacije ili opće populacije u cjelini. Reprezentativnost određuje u kojoj mjeri je moguće generalizirati rezultate studije korištenjem određenog uzorka na cjelokupnu populaciju od koje je prikupljen.

Reprezentativnost se može definisati i kao svojstvo populacije uzorka da predstavlja parametre opšte populacije koji su značajni sa stanovišta ciljeva istraživanja.

primjer: Uzorak od 60 srednjoškolaca mnogo slabije predstavlja populaciju od uzorka od istih 60 ljudi koji uključuje po 3 učenika iz svakog razreda. Glavni razlog za to je nejednaka dobna raspodjela u razredima. Shodno tome, u prvom slučaju reprezentativnost uzorka je niska, au drugom slučaju je reprezentativnost visoka (sve ostale stvari jednake) .

Zadatak 1. U gradu od 253.000 birača s pravom glasa, istražite političke sklonosti budućih birača.

Rješenje

    Uzorak se može konstruisati intervjuisanjem svakog 15. kupca koji ostavlja veliki tržni centar. Takav uzorak će odražavati stavove posetilaca tržnog centra, ali je malo verovatno da će predstavljati stavove svih stanovnika grada.

    Druga metoda konstruisanja uzorka je provođenje telefonskog istraživanja svakog 100. stanovnika grada, uzimajući brojeve iz telefonskog imenika. Ovo sistematsko uzorkovanje će dati informacije o stavovima grupe ljudi koji imaju telefon, koji su kod kuće i javljaju se na telefon. Ali ne odražava mišljenje svih stanovnika grada.

    Drugi metod za konstruisanje uzorka mogao bi biti intervjuisanje učesnika na skupu koji organizuje nekoliko političke partije. Takav uzorak će pružiti informacije o stanovnicima koji aktivno učestvuju politički život gradova.

Dakle, potrebne su nam metode za formiranje uzorka koji bi predstavljao cjelokupnu populaciju, odnosno uzorak mora biti reprezentativan (reprezentativan).

Zadatak 2. Utvrdite da li je uzorak reprezentativan:

1) broj saobraćajnih nezgoda u junu, ako je potrebno sastaviti statistički izveštaj o saobraćajnim nezgodama u gradu za godinu;

2) gradsko stanovništvo pri izračunavanju broja automobila po glavi stanovnika u zemlji;

3) lica starosti od 40 do 50 godina pri određivanju rejtinga omladinskog televizijskog programa.

Rješenje

1) Uzorak nije reprezentativan. Ljeti na putevima nema snijega i poledice, a to je jedan od glavnih uzroka nesreća.

2) Uzorak nije reprezentativan. Jasno je da je u gradu mnogo više automobila nego u ruralnim sredinama. Ovo se mora uzeti u obzir.

3) Uzorak nije reprezentativan. Malo je vjerovatno da će ljudi između 40 i 50 godina pokazati interesovanje za program koji je namijenjen mladoj publici. Kada se koristi takav uzorak, rejting može značajno pasti, ali to neće odražavati stvarno stanje stvari. Za formiranje uzorka populacije koriste se razne načine izbor. Statistike moraju biti prikazane na način da se mogu koristiti.

Populacija i parametri uzorka

N je opća populacija, koja je podijeljena na slojeve N 1, N 2 i tako dalje.

Strata predstavljaju homogene objekte u smislu statističkih karakteristika (npr. stanovništvo je podijeljeno na slojeve prema starosnim grupama ili društvenim klasama; preduzeća - po djelatnostima). U ovom slučaju, uzorci se nazivaju stratificirani.

N - veličina uzorka.

Statistički zaključci studije zasnovani su na distribuciji slučajne varijable X, dok se uočene vrijednosti x 1, x 2, x 3 nazivaju realizacije slučajne varijable x.

Distribucija slučajne varijable X u općoj populaciji je teorijske, idealne prirode, a njen uzorni analog je empirijska distribucija

Za uzorak je funkciju distribucije teško, a ponekad i nemoguće odrediti, pa se parametri procjenjuju iz empirijskih podataka, a zatim se supstituiraju u analitički izraz koji opisuje teorijsku distribuciju. U ovom slučaju, pretpostavka o vrsti distribucije može biti ili statistički tačna ili pogrešna.

Ali u svakom slučaju, empirijska raspodjela rekonstruirana iz uzorka samo grubo karakterizira pravu.

Najvažniji parametri distribucija su matematičko očekivanjeA i varijansu σ 2- mjera disperzije podataka.

Standardna devijacijaσ - stepen odstupanja podataka ili skupova posmatranja od prosječne vrijednosti.

Zadatak 3. Mikhail i njegovi prijatelji odlučili su da izmjere visinu svojih pasa (u grebenu). Pronađite: prosječnu vrijednost; odstupanje rasta.

Rješenje

    Matematičko očekivanje ili prosječna vrijednost može se pronaći pomoću formule:


    Sada izračunajmo odstupanje visine svakog psa od prosječnog ili matematičkog očekivanja, odnosno izračunat ćemo disperziju.


Standardna devijacija je samo Kvadratni korijen od disperzije.

σ \ = 147,32

Dakle, znajući standardna devijacija znamo šta znači "normalna visina" i šta predstavlja veoma visok i veoma mali pas.

Odgovor: 394, 21,704; 147.32.

Zadatak 4. Posmatranjem u kontrolnoj laboratoriji roka trajanja 50 električnih lampi iste snage, nasumično uzetih iz velike serije sijalica iste snage proizvedenih u postrojenju, došlo se do sljedećih podataka o kršenju utvrđene garancijevrijeme gorenja:

Odstupanje u H

10 mala distribucija, koja odražava stvarno odstupanje th period gorenja sijalica iz garancije.

Rješenje.

Prosečno odstupanje

Dakle, željenu normalnu distribuciju karakteriše sa sljedećim vrijednostima parametri: a = 0,4;σ 2 = 318; σ = 17,8.

Otuda gustina vjerovatnoće:

Funkcija distribucije koja odgovara ovoj gustoći će izgledati ovako:

Distribucija slučajne varijable sadrži sve informacije o njenim statističkim svojstvima. Koliko vrijednosti slučajne varijable trebate znati da biste konstruirali njenu distribuciju? Da biste to učinili, morate ga istražiti opšta populacija.

Populacija je skup svih vrijednosti koje data slučajna varijabla može uzeti.

Broj jedinica u populaciji naziva se njen volumen N. Ova vrijednost može biti konačna ili beskonačna. Na primjer, ako se proučava rast stanovnika određenog grada, tada će veličina stanovništva biti jednaka broju stanovnika grada. Ako iko fizički eksperiment, tada će obim opšte populacije biti beskonačan, jer broj svih mogućih vrijednosti bilo kojeg fizičkog parametra jednak je beskonačnosti.

Proučavanje opće populacije nije uvijek moguće niti preporučljivo. To je nemoguće ako je obim populacije beskonačan. Ali čak i uz ograničene količine, kompletna studija nije uvijek opravdana, jer zahtijeva puno vremena i rada, a apsolutna točnost rezultata obično nije potrebna. Manje precizni rezultati, ali uz znatno manje truda i novca, mogu se dobiti proučavanjem samo dijela opće populacije. Takve studije se nazivaju uzorkovanje.

Statističke studije koje se provode samo na dijelu populacije nazivaju se uzorkovanje, a dio populacije koji se proučava naziva se uzorak.

Slika 7.2 simbolički prikazuje populaciju i uzorak kao skup i njegov podskup.

Slika 7.2 Populacija i uzorak

Radeći sa određenim podskupom date populacije, koja često čini njen beznačajan dio, dobijamo rezultate koji su u praktične svrhe sasvim zadovoljavajuće po tačnosti. Proučavanje većeg dijela populacije samo povećava tačnost, ali ne mijenja suštinu rezultata ako je uzorak pravilno uzet sa statističke tačke gledišta.

Da bi uzorak odražavao svojstva populacije i da bi rezultati bili pouzdani, mora biti predstavnik(predstavnik).

Za neke opće populacije, bilo koji njihov dio je reprezentativan zbog njihove prirode. Međutim, u većini slučajeva moraju se poduzeti posebne mjere kako bi se osigurali reprezentativni uzorci.

Jedan Jedno od glavnih dostignuća moderne matematičke statistike je razvoj teorije i prakse metode slučajnog uzorkovanja, čime se osigurava reprezentativnost selekcije podataka.

Studije uzoraka su uvijek inferiornije u preciznosti u odnosu na studije cijele populacije. Međutim, ovo se može pomiriti ako je poznata veličina greške. Očigledno, što je veličina uzorka bliža veličini populacije, to će greška biti manja. Iz ovoga je jasno da problemi statističkog zaključivanja postaju posebno relevantni kada se radi sa malim uzorcima ( N ? 10-50).

Ovo je nauka koja se na osnovu metoda teorije vjerovatnoće bavi sistematizacijom i obradom statističkih podataka radi dobijanja naučnih i praktičnih zaključaka.

Statistički podaci odnosi se na informacije o broju objekata koji imaju određene karakteristike .

Zove se grupa objekata ujedinjenih prema nekoj kvalitativnoj ili kvantitativnoj osobini statistička ukupnost . Objekti uključeni u kolekciju nazivaju se njenim elementima, a njihov ukupan broj je njen volumen.

Opća populacija je skup svih mogućih zapažanja koja bi se mogla izvršiti pod datim stvarnim skupom uslova ili strožije: opšta populacija je slučajna varijabla x i pripadajući prostor vjerovatnoće (W, Á, P).

Distribucija slučajne varijable x se zove distribucija stanovništva(govore, na primjer, o normalno raspoređenoj ili jednostavno normalnoj populaciji).

Na primjer, ako se izvrši nekoliko nezavisnih mjerenja slučajne varijable x, onda je opšta populacija teoretski beskonačna (tj. opšta populacija je apstraktan, konvencionalno matematički koncept); ako se provjeri broj neispravnih proizvoda u seriji od N proizvoda, tada se ova serija smatra konačnom općom populacijom volumena N.

U slučaju socio-ekonomskih istraživanja, opšta populacija volumena N može biti stanovništvo grada, regije ili zemlje, a mjerene karakteristike mogu biti prihodi, rashodi ili iznos štednje pojedinca. Ako je neki atribut kvalitativne prirode (na primjer, spol, nacionalnost, društveni status, zanimanje, itd.), ali pripada konačnom skupu opcija, onda se također može kodirati kao broj (kao što se često radi u upitnicima ).

Ako je broj objekata N dovoljno velik, onda je teško, a ponekad i fizički nemoguće provesti sveobuhvatno istraživanje (na primjer, provjeriti kvalitetu svih patrona). Zatim se iz cijele populacije nasumično bira ograničen broj objekata i podvrgava proučavanju.

Uzorak populacije ili jednostavno uzorkovanje volumena n je niz x 1 , x 2 , ..., x n nezavisnih identično raspoređenih slučajnih varijabli, od kojih se distribucija svake poklapa sa distribucijom slučajne varijable x.

Na primjer, rezultati prvih n mjerenja slučajne varijable x Uobičajeno je da se posmatra kao uzorak veličine n iz beskonačne populacije. Dobiveni podaci se nazivaju zapažanja slučajne varijable x, a kažu i da slučajna varijabla x “poprimi vrijednosti” x 1, x 2, …, x n.


Glavni zadatak matematičke statistike je da donese naučno utemeljene zaključke o distribuciji jedne ili više nepoznatih slučajnih varijabli ili njihovom međusobnom odnosu. Metoda koja se sastoji u tome da se na osnovu svojstava i karakteristika uzorka donose zaključci o numeričkim karakteristikama i zakonu raspodjele slučajne varijable (generalne populacije) naziva se selektivna metoda.

Da bi karakteristike slučajne varijable dobijene metodom uzorkovanja bile objektivne, potrebno je da uzorak bude predstavnik one. prilično dobro predstavljalo proučavanu veličinu. Po sili zakona veliki brojevi može se tvrditi da će uzorak biti reprezentativan ako se izvodi nasumično, tj. Svi objekti u populaciji imaju istu vjerovatnoću da budu uključeni u uzorak. Za ovo postoje različite vrste odabir uzorka.

1. Jednostavno nasumično uzorkovanje je odabir u kojem se objekti biraju jedan po jedan iz cijele populacije.

2. Stratificiran (stratificiran) selekcija je da se originalna populacija volumena N podijeli na podskupove (stratume) N 1, N 2,...,N k, tako da je N 1 + N 2 +...+ N k = N. Kada su slojevi Određeni, iz svakog od njih se izdvaja jednostavan slučajni uzorak zapremine n 1, n 2, ..., n k. Poseban slučaj stratificirane selekcije je tipična selekcija, u kojoj se objekti ne biraju iz cijele populacije, već iz svakog njenog tipičnog dijela.

Kombinovani izbor kombinuje nekoliko tipova selekcije odjednom, formirajući različite faze uzorka istraživanja. Postoje i druge metode uzorkovanja.

Uzorak se zove ponovljeno , ako se odabrani objekt vrati u populaciju prije odabira sljedećeg. Uzorak se zove ponovljivo , ako se odabrani objekt ne vrati u populaciju. Za konačnu populaciju, slučajni odabir bez povrata vodi na svakom koraku do zavisnosti pojedinačnih zapažanja, a slučajni jednako mogući odabir sa povratom vodi do nezavisnosti opažanja. U praksi se obično bavimo uzorcima koji se ne ponavljaju. Međutim, kada je veličina populacije N mnogo puta veća od veličine uzorka n (na primjer, stotine ili hiljade puta), ovisnost opservacija može se zanemariti.

Dakle, slučajni uzorak x 1, x 2, ..., x n je rezultat uzastopnog i nezavisnog posmatranja slučajne varijable ξ, koja predstavlja opštu populaciju, a svi elementi uzorka imaju istu distribuciju kao originalna slučajna varijabla x.

Funkciju distribucije ćemo nazvati F x (x) i druge numeričke karakteristike slučajne varijable x teorijski, Za razliku od karakteristike uzorka , koji se određuju na osnovu rezultata posmatranja.

Neka je uzorak x 1, x 2, ..., x k rezultat nezavisnih opažanja slučajne varijable x, a x 1 je opažen n 1 puta, x 2 - n 2 puta, ..., x k - n k puta , tako da je n i = n - veličina uzorka. Poziva se broj n i koji pokazuje koliko se puta vrijednost x i pojavila u n opservacija frekvencija zadata vrijednost, a odnos n i /n = w ja- relativna frekvencija. Očigledno brojevi w ja sam racionalan i .

Statistička populacija raspoređena u rastućem redoslijedu karakteristike naziva se varijantne serije . Njegovi članovi se označavaju x (1), x (2), ... x (n) i nazivaju se opcije . Varijacijska serija se zove diskretno, ako njegovi članovi uzimaju određene izolovane vrijednosti. Statistička distribucija uzorkovanje diskretne slučajne varijable x naziva se lista opcija i njihove odgovarajuće relativne frekvencije w i. Rezultirajuća tabela se poziva statistički blizu.

X (1) x(2) ... x k(k)
ω 1 ω 2 ... ωk

Najveći i najmanju vrijednost varijacioni nizovi su označeni sa x min i x max i nazivaju se ekstremni članovi serije varijacija.

Ako se proučava kontinuirana slučajna varijabla, tada se grupiranje sastoji od dijeljenja intervala promatranih vrijednosti na k parcijalnih intervala jednake dužine h i brojanja broja opažanja koja spadaju u te intervale. Rezultirajući brojevi se uzimaju kao frekvencije n i (za neku novu, već diskretnu slučajnu varijablu). Srednje vrijednosti intervala se obično uzimaju kao nove vrijednosti za opciju x i (ili su sami intervali naznačeni u tabeli). Prema Sturgesovoj formuli, preporučeni broj intervala particije je k » 1 + log 2 n, a dužine parcijalnih intervala jednake su h = (x max - x min)/k. Pretpostavlja se da cijeli interval ima oblik .

Grafički, statističke serije se mogu prikazati u obliku poligona, histograma ili grafa akumuliranih frekvencija.

Frekvencijski poligon naziva se izlomljena linija, čiji segmenti spajaju tačke (x 1, n 1), (x 2, n 2), ..., (x k, n k). Poligon relativne frekvencije naziva se izlomljena linija, čiji segmenti spajaju tačke (x 1, w 1), (x 2, w 2), …, (x k , w k). Poligoni obično služe za predstavljanje uzorka u slučaju diskretnih slučajnih varijabli (slika 7.1.1).

Rice. 7.1

.1.

Histogram relativne frekvencije naziva se stepenasta figura koja se sastoji od pravokutnika čija su osnova parcijalni intervali dužine h, a visina

jednaka w i/h.

Histogram se obično koristi za prikaz uzorka u slučaju kontinuiranih slučajnih varijabli. Površina histograma je jednaka jedan (slika 7.1.2). Ako povežemo sredine na histogramu relativnih frekvencija gornje strane pravougaonika, onda rezultirajuća izlomljena linija formira poligon relativnih frekvencija. Stoga se histogram može posmatrati kao graf empirijska (uzorkova) gustina distribucije fn(x). Ako teorijska distribucija ima konačnu gustoću, onda je empirijska gustina neka aproksimacija teorijske.

Grafikon akumuliranih frekvencija je figura konstruirana slično histogramu s tom razlikom što se za izračunavanje visina pravokutnika ne uzimaju jednostavni, već akumulirane relativne frekvencije, one. količine Ove vrijednosti se ne smanjuju, a graf akumuliranih frekvencija ima oblik stepenastog "stepeništa" (od 0 do 1).

Grafikon akumuliranih frekvencija se u praksi koristi za aproksimaciju teorijske funkcije raspodjele.

Zadatak. Analiziran je uzorak od 100 malih preduzeća u regionu. Svrha istraživanja je da se izmjeri odnos pozajmljenih i vlasničkih sredstava (x i) u svakom i-tom preduzeću. Rezultati su prikazani u tabeli 7.1.1.

Table Odnos dužničkog i vlasničkog kapitala preduzeća.

5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31
5,46 5,61 5,11 5,41 5.31 5,57 5,33 5,11 5,54 5,43
5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49
5,36 5,40 5,45 5,49 5,68 5,51 5,50 5,68 5,21 5,38
5,58 5,47 5,46 5,19 5,60 5,63 5,48 5,27 5,22 5,37
5,33 5,49 5,50 5,54 5,40 5.58 5,42 5,29 5,05 5,79
5,79 5,65 5,70 5,71 5,85 5,44 5,47 5,48 5,47 5,55
5,67 5,71 5,73 5,05 5,35 5,72 5,49 5,61 5,57 5,69
5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,81
5,27 5,64 5,20 5,23 5,33 5,37 5,24 5,55 5,60 5,51

Izraditi histogram i grafikon akumuliranih frekvencija.

Rješenje. Hajde da napravimo grupisanu seriju zapažanja:

1. Odredimo u uzorku x min = 5,05 i x max = 5,85;

2. Podijelimo cijeli raspon na k jednakih intervala: k » 1 + log 2 100 = 7,62; k = 8, dakle dužina intervala

Tabela 7.1.2. Grupirane serije zapažanja

Interval Number Intervali Sredina intervala x i w i fn(x)
5,05-5,15 5,1 0,05 0,05 0,5
5,15-5,25 5,2 0,08 0,13 0,8
5,25-5,35 5,3 0,12 0,25 1,2
5,35-5,45 5,4 0,20 0,45 2,0
5,45-5,55 5,5 0,26 0,71 2,6
5,55-5,65 5,6 0,15 0,86 1,5
5,65-5,75 5,7 0,10 0,96 1,0
5,75-5,85 5,8 0,04 1,00 0,4

Na sl. 7.1.3 i 7.1.4, izgrađene prema podacima u tabeli 7.1.2, predstavljaju histogram i grafikon akumuliranih frekvencija. Krivulje odgovaraju funkciji gustoće i normalne distribucije koja je "uklopljena" u podatke.

Dakle, distribucija uzorka je neka aproksimacija distribucije populacije.