Meni
Besplatno
Dom  /  Dermatitis/ Primjer regresijske analize u psihologiji. Metode matematičke statistike. Regresiona analiza

Primjer regresijske analize u psihologiji. Metode matematičke statistike. Regresiona analiza

Regresiona analiza je metoda uspostavljanja analitičkog izraza za stohastičku zavisnost između ispitivanih karakteristika. Jednačina regresije pokazuje kako se prosjek mijenja at prilikom promjene bilo kojeg od x i , i ima oblik:

Gdje y - zavisna varijabla (uvijek je ista);

X i - nezavisne varijable (faktori) (može ih biti nekoliko).

Ako postoji samo jedna nezavisna varijabla, ovo je jednostavna regresijska analiza. Ako ih ima nekoliko ( P 2), onda se takva analiza naziva multifaktorska.

Regresiona analiza rješava dva glavna problema:

    konstruisanje regresione jednačine, tj. pronalaženje vrste odnosa između indikatora rezultata i nezavisnih faktora x 1 , x 2 , …, x n .

    procjenu značaja rezultirajuće jednačine, tj. određivanje u kojoj meri odabrane faktorske karakteristike objašnjavaju varijaciju osobine u.

Regresiona analiza se koristi uglavnom za planiranje, kao i za razvoj regulatornog okvira.

Za razliku od korelacione analize, koja samo daje odgovor na pitanje da li postoji veza između analiziranih karakteristika, regresiona analiza daje i njen formalizovani izraz. Osim toga, ako korelaciona analiza proučava bilo kakav odnos između faktora, onda regresiona analiza proučava jednostranu zavisnost, tj. odnos koji pokazuje kako promjena karakteristika faktora utiče na efektivnu karakteristiku.

Regresiona analiza je jedna od najrazvijenijih metoda matematičke statistike. Strogo govoreći, za implementaciju regresione analize potrebno je ispuniti niz posebnih zahtjeva (posebno, x l ,x 2 ,...,x n ;y moraju biti nezavisne, normalno raspoređene slučajne varijable sa konstantnim varijacijama). IN pravi zivot striktno poštovanje zahtjeva regresione i korelacijske analize je vrlo rijetko, ali su obje ove metode vrlo česte u ekonomskim istraživanjima. Zavisnosti u ekonomiji mogu biti ne samo direktne, već i inverzne i nelinearne. Regresijski model se može izgraditi u prisustvu bilo koje zavisnosti, međutim, u multivarijantnoj analizi koriste se samo linearni modeli oblika:

Regresijska jednadžba se u pravilu konstruira metodom najmanjih kvadrata, čija je suština minimizirati zbroj kvadrata odstupanja stvarnih vrijednosti rezultirajuće karakteristike od njenih izračunatih vrijednosti, tj.:

Gdje T - broj zapažanja;

j =a+b 1 x 1 j +b 2 x 2 j + ... + b n X n j - izračunata vrijednost faktora rezultata.

Preporučuje se određivanje koeficijenata regresije pomoću analitičkih paketa za personalni računar ili posebnog finansijskog kalkulatora. U najjednostavnijem slučaju, koeficijenti regresije jednofaktorske linearne regresijske jednadžbe oblika y = a + bx može se pronaći pomoću formula:

Klaster analiza

Klaster analiza je jedna od metoda višedimenzionalne analize namijenjena grupisanju (klasterizaciji) populacije čije elemente karakteriziraju mnoge karakteristike. Vrijednosti svake karakteristike služe kao koordinate svake jedinice populacije koja se proučava u višedimenzionalnom prostoru obilježja. Svako opažanje, koje karakteriziraju vrijednosti nekoliko indikatora, može se predstaviti kao tačka u prostoru ovih indikatora, čije se vrijednosti smatraju koordinatama u višedimenzionalnom prostoru. Udaljenost između tačaka R I q With k koordinate su definirane kao:

Glavni kriterijum za grupisanje je da razlike između klastera treba da budu značajnije nego između posmatranja dodeljenih istom klasteru, tj. u višedimenzionalnom prostoru mora se poštovati sljedeća nejednakost:

Gdje r 1, 2 - udaljenost između klastera 1 i 2.

Kao i procedure regresione analize, postupak grupisanja je prilično radno intenzivan, preporučljivo ga je izvoditi na računaru.

Regresiona analiza-- metoda za modeliranje izmjerenih podataka i proučavanje njihovih svojstava. Podaci se sastoje od parova vrijednosti zavisne varijable (varijable odgovora) i nezavisne varijable (objašnjavajuća varijabla). Regresijski model je funkcija nezavisne varijable i parametara s dodanom slučajnom varijablom.

Korelaciona analiza i regresiona analiza su povezani odeljci matematičke statistike i namenjeni su proučavanju statističke zavisnosti određenog broja veličina koristeći podatke uzorka; od kojih su neke nasumične. Sa statističkom zavisnošću, veličine nisu funkcionalno povezane, već su definisane kao slučajne varijable zajedničkom distribucijom verovatnoće.

Proučavanje zavisnosti slučajnih varijabli dovodi do regresijskih modela i regresione analize na osnovu podataka uzorka. Teorija vjerovatnoće i matematička statistika predstavljaju samo alat za proučavanje statističke zavisnosti, ali nemaju za cilj uspostavljanje uzročne veze. Ideje i hipoteze o uzročno-posledičnoj vezi moraju biti donesene iz neke druge teorije koja omogućava smisleno objašnjenje fenomena koji se proučava.

Numerički podaci obično imaju eksplicitne (poznate) ili implicitne (skrivene) odnose jedni s drugima.

Pokazatelji koji se dobijaju direktnim metodama izračunavanja, odnosno izračunati pomoću prethodno poznatih formula, jasno su povezani. Na primjer, procenti izvršenja plana, nivoi, specifične težine, odstupanja u iznosu, odstupanja u procentima, stope rasta, stope rasta, indeksi itd.

Veze drugog tipa (implicitne) su unaprijed nepoznate. Međutim, potrebno je biti u stanju objasniti i predvidjeti (predvidjeti) složene pojave kako bi se njima upravljalo. Stoga stručnjaci uz pomoć zapažanja nastoje identificirati skrivene ovisnosti i izraziti ih u obliku formula, odnosno matematički modelirati pojave ili procese. Jedna takva prilika je korelaciono-regresiona analiza.

Matematički modeli se grade i koriste u tri opšte svrhe:

  • * za objašnjenje;
  • * za predviđanje;
  • * Za vožnju.

Koristeći metode korelacijske i regresione analize, analitičari mjere bliskost veza između indikatora pomoću koeficijenta korelacije. U ovom slučaju otkrivaju se veze koje su različite po jačini (jake, slabe, umjerene itd.) i različite po smjeru (direktno, obrnuto). Ako se veze pokažu značajnim, onda bi bilo preporučljivo pronaći njihov matematički izraz u obliku regresijskog modela i procijeniti statističku značajnost modela.

Regresiona analiza se naziva glavnim metodom moderne matematičke statistike za identifikaciju implicitnih i prikrivenih veza između podataka opservacije.

Iskaz problema regresione analize je formulisan na sledeći način.

Postoji skup rezultata opservacije. U ovom skupu jedna kolona odgovara indikatoru za koji je potrebno uspostaviti funkcionalni odnos sa parametrima objekta i okruženja koje predstavljaju preostale kolone. Obavezno: uspostaviti kvantitativni odnos između indikatora i faktora. U ovom slučaju, problem regresione analize se shvata kao zadatak identifikacije takve funkcionalne zavisnosti y = f (x2, x3, ..., xt), koja najbolje opisuje dostupne eksperimentalne podatke.

Pretpostavke:

broj opservacija je dovoljan da demonstrira statističke obrasce u pogledu faktora i njihovih odnosa;

obrađeni podaci sadrže neke greške (šum) zbog grešaka mjerenja i utjecaja neuračunatih slučajnih faktora;

matrica rezultata posmatranja je jedina informacija o objektu koji se proučava koja je dostupna prije početka istraživanja.

Funkcija f (x2, x3, ..., xt), koja opisuje zavisnost indikatora od parametara, naziva se regresijska jednačina (funkcija). Pojam "regresija" (regresija (lat.) - povlačenje, povratak na nešto) povezan je sa specifičnostima jednog od specifičnih problema riješenih u fazi formiranja metode.

Preporučljivo je rješenje problema regresione analize podijeliti u nekoliko faza:

prethodna obrada podataka;

odabir vrste regresijskih jednačina;

izračunavanje koeficijenata regresijske jednačine;

provjera adekvatnosti konstruirane funkcije rezultatima promatranja.

Prethodna obrada uključuje standardizaciju matrice podataka, izračunavanje koeficijenata korelacije, provjeru njihovog značaja i isključivanje beznačajnih parametara iz razmatranja.

Odabir tipa regresione jednadžbe Zadatak određivanja funkcionalnog odnosa koji najbolje opisuje podatke uključuje prevazilaženje niza fundamentalnih poteškoća. U opštem slučaju, za standardizovane podatke, funkcionalna zavisnost indikatora od parametara može se predstaviti kao

y = f (x1, x2, …, xm) + e

gdje je f prethodno nepoznata funkcija koju treba odrediti;

e - greška aproksimacije podataka.

Ova jednačina se obično naziva jednadžba regresije uzorka. Ova jednačina karakteriše odnos između varijacije indikatora i varijacija faktora. A mjera korelacije mjeri udio varijacije u indikatoru koji je povezan s varijacijama faktora. Drugim riječima, korelacija između indikatora i faktora ne može se tumačiti kao veza između njihovih nivoa, a regresiona analiza ne objašnjava ulogu faktora u kreiranju indikatora.

Druga karakteristika se odnosi na procjenu stepena uticaja svakog faktora na indikator. Jednačina regresije ne daje procjenu posebnog utjecaja svakog faktora na indikator, takva procjena je moguća samo u slučaju kada svi ostali faktori nisu povezani sa onim koji se proučava. Ako je faktor koji se proučava vezan za druge koji utiču na indikator, onda će rezultat biti mješovite karakteristike uticaj faktora. Ova karakteristika sadrži kako direktan uticaj faktora tako i indirektan uticaj koji se vrši kroz povezanost sa drugim faktorima i njihov uticaj na indikator.

Nije preporučljivo uključiti faktore koji su slabo povezani sa indikatorom, ali su usko povezani sa drugim faktorima, u jednačinu regresije. Faktori koji su međusobno funkcionalno povezani nisu uključeni u jednačinu (za njih je koeficijent korelacije 1). Uključivanje takvih faktora dovodi do degeneracije sistema jednačina za procjenu koeficijenata regresije i do nesigurnosti rješenja.

Funkcija f mora biti odabrana tako da je greška e na neki način minimalna. Da bi se izabrala funkcionalna veza, unaprijed se postavlja hipoteza o tome kojoj klasi funkcija f može pripadati, a zatim se bira „najbolja“ funkcija u ovoj klasi. Odabrana klasa funkcija mora imati neku „uglađenost“, tj. "male" promjene vrijednosti argumenata trebale bi uzrokovati "male" promjene u vrijednostima funkcija.

Poseban slučaj koji se široko koristi u praksi je polinomska jednačina prvog stepena ili jednačina linearne regresije

Za odabir vrste funkcionalne ovisnosti može se preporučiti sljedeći pristup:

tačke sa vrednostima indikatora su grafički prikazane u prostoru parametara. Sa velikim brojem parametara moguće je konstruisati tačke za svaku od njih, dobijajući dvodimenzionalne distribucije vrednosti;

na osnovu lokacije tačaka i na osnovu analize suštine odnosa između indikatora i parametara objekta, donosi se zaključak o približnom tipu regresije ili njenim mogućim opcijama;

Nakon izračunavanja parametara, ocjenjuje se kvalitet aproksimacije, tj. procijeniti stepen sličnosti između izračunatih i stvarnih vrijednosti;

ako su izračunate i stvarne vrijednosti bliske u cijelom području zadatka, onda se problem regresione analize može smatrati riješenim. U suprotnom, možete pokušati odabrati drugu vrstu polinoma ili neku drugu analitičku funkciju, kao što je periodična.

Izračunavanje koeficijenata regresijske jednačine

Nemoguće je jednoznačno riješiti sistem jednačina na osnovu dostupnih podataka, jer je broj nepoznatih uvijek veći od broja jednačina. Da bi se ovaj problem prevazišao, potrebne su dodatne pretpostavke. Zdrav razum sugerira: preporučljivo je odabrati koeficijente polinoma na takav način da se osigura minimalna greška u aproksimaciji podataka. Za procjenu aproksimacijskih grešaka mogu se koristiti različite mjere. Kao takva mjera se široko koristi srednja kvadratna greška. Na osnovu toga je razvijen posebna metoda procjena koeficijenata regresionih jednačina - metoda najmanjih kvadrata (OLS). Ova metoda vam omogućava da dobijete procjene maksimalne vjerovatnoće nepoznatih koeficijenata regresione jednadžbe pod opcijom normalne distribucije, ali se može koristiti za bilo koju drugu distribuciju faktora.

MNK se zasnivaju na sljedeće odredbe:

vrijednosti grešaka i faktora su nezavisne, a samim tim i nekorelirane, tj. pretpostavlja se da mehanizmi za generisanje smetnji nisu povezani sa mehanizmom za generisanje vrednosti faktora;

matematičko očekivanje greške e mora biti jednako nuli (konstantna komponenta je uključena u koeficijent a0), drugim riječima, greška je centrirana veličina;

procjena uzorka varijanse greške treba biti minimalna.

Ako je linearni model netačan ili su parametri izmjereni neprecizno, tada nam u ovom slučaju metoda najmanjih kvadrata omogućava da pronađemo takve vrijednosti koeficijenata pri kojima linearni model najbolje opisuje stvarni objekt u smislu odabrane standardne devijacije kriterijum.

Kvalitet rezultirajuće regresione jednadžbe ocjenjuje se stepenom bliskosti između rezultata promatranja indikatora i vrijednosti predviđenih regresijskom jednadžbom u date bodove prostor parametara. Ako su rezultati bliski, onda se problem regresione analize može smatrati riješenim. U suprotnom, trebali biste promijeniti jednadžbu regresije i ponoviti proračune da biste procijenili parametre.

Ako postoji više indikatora, problem regresione analize rješava se nezavisno za svaki od njih.

Analizirajući suštinu regresione jednačine, treba napomenuti sljedeće. Razmatrani pristup ne pruža odvojenu (nezavisnu) ocjenu koeficijenata - promjena vrijednosti jednog koeficijenta povlači promjenu vrijednosti drugih. Dobijeni koeficijenti ne treba smatrati doprinosom odgovarajućeg parametra vrijednosti indikatora. Jednačina regresije je samo dobar analitički opis dostupnih podataka, a ne zakon koji opisuje odnos između parametara i indikatora. Ova jednadžba se koristi za izračunavanje vrijednosti indikatora u datom rasponu promjena parametara. Ograničeno je pogodan za proračune izvan ovog opsega, tj. može se koristiti za rješavanje interpolacijskih problema i, u ograničenoj mjeri, za ekstrapolaciju.

Glavni razlog netačnosti prognoze nije toliko nesigurnost ekstrapolacije regresijske linije, već značajna varijacija indikatora zbog faktora koji nisu uzeti u obzir u modelu. Ograničenje sposobnosti predviđanja je uslov stabilnosti parametara koji se ne uzimaju u obzir u modelu i priroda uticaja faktora modela koji se uzimaju u obzir. Ako se naglo promeni spoljašnje okruženje, tada će sastavljena regresijska jednačina izgubiti svoje značenje.

Prognoza dobijena zamjenom očekivane vrijednosti parametra u regresionu jednačinu je tačka jedan. Vjerovatnoća da će se takva prognoza ostvariti je zanemarljiva. Preporučljivo je odrediti interval pouzdanosti prognoze. Za pojedinačne vrijednosti indikatora, interval treba uzeti u obzir greške u položaju regresijske linije i odstupanja pojedinačnih vrijednosti od ove linije.

U statističkom modeliranju, regresiona analiza je studija koja se koristi za procjenu odnosa između varijabli. Ova matematička metoda uključuje mnoge druge metode za modeliranje i analizu više varijabli gdje je fokus na odnosu između zavisne varijable i jedne ili više nezavisnih. Preciznije, regresiona analiza pomaže nam da shvatimo kako se tipična vrijednost zavisne varijable mijenja ako se jedna od nezavisnih varijabli promijeni dok druge nezavisne varijable ostaju fiksne.

U svim slučajevima, ciljna procjena je funkcija nezavisnih varijabli i naziva se regresijska funkcija. U regresijskoj analizi, također je od interesa karakterizirati promjenu zavisne varijable kao funkciju regresije, koja se može opisati korištenjem distribucije vjerovatnoće.

Problemi regresijske analize

Ova metoda statističkog istraživanja ima široku primenu za predviđanje, pri čemu njena upotreba ima značajnu prednost, ali ponekad može dovesti do iluzije ili lažnih odnosa, pa se preporučuje da se u navedenoj stvari pažljivo koristi, jer npr. korelacija ne znači uzročnost.

Razvijen je veliki broj metoda za regresionu analizu, kao što su linearna i obična regresija najmanjih kvadrata, koje su parametarske. Njihova suština je da je funkcija regresije definirana u terminima konačnog broja nepoznatih parametara koji se procjenjuju iz podataka. Neparametrijska regresija omogućava da njena funkcija leži unutar određenog skupa funkcija, koje mogu biti beskonačno dimenzionalne.

Kao statistička metoda istraživanja, regresiona analiza u praksi zavisi od oblika procesa generisanja podataka i od toga kako se on odnosi na regresijski pristup. Pošto je pravi oblik generisanja procesa podataka obično nepoznat broj, regresiona analiza podataka često zavisi u određenoj meri od pretpostavki o procesu. Ove pretpostavke se ponekad mogu provjeriti ako ima dovoljno podataka. Regresijski modeli su često korisni čak i kada su pretpostavke umjereno narušene, iako možda neće raditi na vrhunskoj efikasnosti.

U užem smislu, regresija se može odnositi posebno na procjenu varijabli kontinuiranog odgovora, za razliku od diskretnih varijabli odgovora koje se koriste u klasifikaciji. Slučaj kontinuirane izlazne varijable se također naziva metrička regresija kako bi se razlikovao od povezanih problema.

Priča

Najraniji oblik regresije je dobro poznata metoda najmanjih kvadrata. Objavili su ga Legendre 1805. i Gauss 1809. Legendre i Gauss su primijenili metodu na problem određivanja orbita tijela oko Sunca (uglavnom kometa, ali kasnije i novootkrivenih sporednih planeta) iz astronomskih posmatranja. Gauss objavio dalji razvoj teorija najmanjih kvadrata 1821., uključujući verziju Gauss-Markovljeve teoreme.

Termin "regresija" skovao je Francis Galton u 19. vijeku da opiše biološki fenomen. Ideja je bila da visina potomaka u odnosu na visinu njihovih predaka ima tendenciju regresije prema dolje prema normalnoj sredini. Za Galtona je regresija imala samo ovo biološko značenje, ali su kasnije njegov rad nastavili Udney Yoley i Karl Pearson i doveli ga u opštiji statistički kontekst. U radu Yulea i Pearsona, zajednička distribucija odgovora i eksplanatornih varijabli pretpostavlja se da je Gausova. Ovu pretpostavku je Fischer odbacio u radovima iz 1922. i 1925. godine. Fisher je sugerirao da je uvjetna distribucija varijable odgovora Gaussova, ali zajednička distribucija ne mora biti. U tom pogledu, Fišerov predlog je bliži Gaussovoj formulaciji iz 1821. Prije 1970. ponekad je trebalo i do 24 sata da se dobije rezultat regresione analize.

Metode regresijske analize i dalje su područje aktivnog istraživanja. Poslednjih decenija razvijene su nove metode za robusnu regresiju; regresije koje uključuju korelirane odgovore; metode regresije koje prihvataju različite vrste podataka koji nedostaju; neparametrijska regresija; Bayesove metode regresije; regresije u kojima se prediktorske varijable mjere sa greškom; regresija s više prediktora nego zapažanja i uzročno-posljedično zaključivanje s regresijom.

Regresijski modeli

Modeli regresijske analize uključuju sljedeće varijable:

  • Nepoznati parametri, označeni kao beta, koji mogu biti skalar ili vektor.
  • Nezavisne varijable, X.
  • Zavisne varijable, Y.

Različite oblasti nauke u kojima se koristi regresiona analiza koriste različite termine umesto zavisnih i nezavisnih varijabli, ali u svim slučajevima regresioni model povezuje Y sa funkcijom X i β.

Aproksimacija se obično piše kao E(Y | X) = F(X, β). Da bi se izvršila regresijska analiza, mora se odrediti tip funkcije f. Manje uobičajeno, zasniva se na znanju o odnosu između Y i X, koje se ne oslanja na podatke. Ako takvo znanje nije dostupno, tada se bira fleksibilan ili pogodan oblik F.

Zavisna varijabla Y

Pretpostavimo sada da vektor nepoznatih parametara β ima dužinu k. Da bi izvršio regresijsku analizu, korisnik mora dati informacije o zavisnoj varijabli Y:

  • Ako se posmatra N tačaka podataka oblika (Y, X), gdje je N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ako se posmatra tačno N = K i funkcija F je linearna, onda se jednačina Y = F(X, β) može rešiti tačno, a ne približno. Ovo se svodi na rješavanje skupa N-jednačina sa N-nepoznatima (elementi β) koji imaju jedinstveno rješenje sve dok je X linearno nezavisan. Ako je F nelinearan, možda neće biti rješenja ili može postojati mnogo rješenja.
  • Najčešća situacija je kada se posmatra N > tačaka podataka. U ovom slučaju, postoji dovoljno informacija u podacima za procjenu jedinstvene vrijednosti za β koja najbolje odgovara podacima i regresionog modela gdje se primjena na podatke može posmatrati kao preodređeni sistem u β.

U potonjem slučaju, regresiona analiza pruža alate za:

  • Pronalaženje rješenja za nepoznate parametre β, koje će, na primjer, minimizirati udaljenost između izmjerene i predviđene vrijednosti Y.
  • Pod određenim statističkim pretpostavkama, regresiona analiza koristi višak informacija kako bi pružila statističke informacije o nepoznatim parametrima β i predviđenim vrijednostima zavisne varijable Y.

Potreban broj nezavisnih mjerenja

Razmotrimo regresijski model koji ima tri nepoznata parametra: β 0 , β 1 i β 2 . Pretpostavimo da eksperimentator izvrši 10 merenja na istoj vrednosti vektora nezavisne varijable X. U ovom slučaju, regresiona analiza ne proizvodi jedinstven skup vrednosti. Najbolje što možete učiniti je procijeniti prosjek i standardna devijacija zavisna varijabla Y. Slično, mjerenje dva različita značenja X, možete dobiti dovoljno podataka za regresiju sa dvije nepoznate, ali ne i sa tri ili više nepoznatih.

Ako su mjerenja eksperimentatora izvršena na tri različite vrijednosti vektora nezavisne varijable X, tada će regresiona analiza pružiti jedinstveni skup procjena za tri nepoznata parametra u β.

U slučaju opšte linearne regresije, gornja izjava je ekvivalentna zahtjevu da je matrica X T X inverzibilna.

Statističke pretpostavke

Kada je broj mjerenja N veći od broja nepoznatih parametara k i mjernih grešaka ε i , tada se, po pravilu, višak informacija sadržanih u mjerenjima tada širi i koristi za statistička predviđanja u vezi sa nepoznatim parametrima. Ovaj višak informacija naziva se stepen slobode regresije.

Fundamentalne pretpostavke

Klasične pretpostavke za regresijsku analizu uključuju:

  • Uzorkovanje je reprezentativno za predviđanje inferencije.
  • Termin greške je slučajna varijabla sa srednjom vrijednosti nula, koja je uslovljena varijablama koje objašnjavaju.
  • Nezavisne varijable se mjere bez grešaka.
  • Kao nezavisne varijable (prediktori), one su linearno nezavisne, odnosno nije moguće izraziti nijedan prediktor kao linearnu kombinaciju ostalih.
  • Greške su nekorelirane, odnosno matrica kovarijanse greške dijagonala i svaki element koji nije nula je varijansa greške.
  • Varijanca greške je konstantna kroz posmatranja (homoskedastičnost). Ako ne, onda se mogu koristiti ponderisani najmanji kvadrati ili druge metode.

Ove dovoljne uslove za procjenu najmanjih kvadrata poseduju potrebna svojstva, posebno ove pretpostavke znače da će procene parametara biti objektivne, konzistentne i efikasne, posebno kada se uzmu u obzir u klasi linearnih estimatora. Važno je napomenuti da dokazi rijetko ispunjavaju uslove. Odnosno, metoda se koristi čak i ako pretpostavke nisu tačne. Varijacije od pretpostavki se ponekad mogu koristiti kao mjera koliko je model koristan. Mnoge od ovih pretpostavki mogu se ublažiti naprednijim metodama. Izvještaji o statističkoj analizi obično uključuju analizu testova na uzorku podataka i metodologiju za korisnost modela.

Osim toga, varijable se u nekim slučajevima odnose na vrijednosti izmjerene na lokacijama. Mogu postojati prostorni trendovi i prostorne autokorelacije u varijablama koje krše statističke pretpostavke. Geografska ponderisana regresija je jedina metoda koja se bavi takvim podacima.

Karakteristika linearne regresije je da je zavisna varijabla, koja je Yi, linearna kombinacija parametara. Na primjer, jednostavna linearna regresija koristi jednu nezavisnu varijablu, x i , i dva parametra, β 0 i β 1 , za modeliranje n tačaka.

U višestrukoj linearnoj regresiji postoji više nezavisnih varijabli ili njihovih funkcija.

Kada se iz populacije uzme slučajni uzorak, njegovi parametri omogućavaju da se dobije model linearne regresije uzorka.

U ovom aspektu, najpopularnija je metoda najmanjih kvadrata. Koristi se za dobivanje procjena parametara koje minimiziraju sumu kvadrata reziduala. Ova vrsta minimizacije (koja je tipična za linearnu regresiju) ove funkcije dovodi do skupa normalnih jednačina i skupa linearne jednačine sa parametrima koji se rješavaju kako bi se dobile procjene parametara.

Pod daljom pretpostavkom da se greška populacije generalno širi, istraživač može koristiti ove standardne procjene greške da kreira intervale povjerenja i provodi testove hipoteza o njenim parametrima.

Nelinearna regresijska analiza

Primjer u kojem funkcija nije linearna u odnosu na parametre ukazuje na to da zbir kvadrata treba minimizirati korištenjem iterativne procedure. Ovo uvodi mnoge komplikacije koje definiraju razlike između linearnih i nelinearnih metoda najmanjih kvadrata. Shodno tome, rezultati regresione analize kada se koristi nelinearna metoda su ponekad nepredvidivi.

Proračun snage i veličine uzorka

Generalno, ne postoje konzistentne metode u odnosu na broj posmatranja u odnosu na broj nezavisnih varijabli u modelu. Prvo pravilo su predložili Dobra i Hardin i izgleda kao N = t^n, gdje je N veličina uzorka, n broj nezavisnih varijabli, a t broj opservacija potrebnih za postizanje željene tačnosti ako bi model imao samo jedna nezavisna varijabla. Na primjer, istraživač gradi model linearne regresije koristeći skup podataka koji sadrži 1000 pacijenata (N). Ako istraživač odluči da je potrebno pet opservacija za precizno definiranje linije (m), tada je maksimalni broj nezavisnih varijabli koje model može podržati je 4.

Druge metode

Iako se parametri regresijskog modela obično procjenjuju korištenjem metode najmanjih kvadrata, postoje i druge metode koje se koriste mnogo rjeđe. Na primjer, ovo su sljedeće metode:

  • Bayesove metode (na primjer, Bayesova linearna regresija).
  • Procentualna regresija, koja se koristi za situacije u kojima se smanjenje procentualnih grešaka smatra prikladnijim.
  • Najmanja apsolutna odstupanja, koja su robusnija u prisustvu odstupanja koja dovode do kvantilne regresije.
  • Potrebna je neparametrijska regresija velika količina zapažanja i proračuna.
  • Metrika učenja na daljinu koja se uči da pronađe smislenu metriku udaljenosti u datom ulaznom prostoru.

Softver

Svi glavni statistički softverski paketi vrše analizu regresije najmanjih kvadrata. Jednostavna linearna regresija i analiza višestruke regresije mogu se koristiti u nekim aplikacijama za proračunske tablice, kao iu nekim kalkulatorima. Iako mnogi statistički softverski paketi mogu izvesti različite vrste neparametarske i robusne regresije, ove metode su manje standardizirane; različiti softverski paketi implementiraju različite metode. Specijalizovana regresija softver je razvijen za upotrebu u oblastima kao što su analiza pregleda i neuroimaging.

Koncept regresije. Zavisnost između varijabli x I y mogu se opisati na različite načine. Konkretno, bilo koji oblik veze može se izraziti opštom jednačinom, gdje y tretira se kao zavisna varijabla, ili funkcije od druge - nezavisne varijable x, tzv argument. Korespondencija između argumenta i funkcije može se odrediti pomoću tabele, formule, grafikona, itd. Poziva se promjena funkcije ovisno o promjeni jednog ili više argumenata regresija. Sva sredstva koja se koriste za opisivanje korelacija čine sadržaj regresiona analiza.

Za izražavanje regresije, korelacionih jednačina ili jednačina regresije koriste se empirijski i teorijski izračunati regresijski nizovi, njihovi grafovi, nazvani regresijskim linijama, kao i koeficijenti linearne i nelinearne regresije.

Regresijski indikatori izražavaju korelacijski odnos bilateralno, uzimajući u obzir promjene u prosječnim vrijednostima karakteristike Y pri promeni vrednosti x i sign X, i, obrnuto, pokazuju promjenu prosječnih vrijednosti karakteristike X prema promijenjenim vrijednostima y i sign Y. Izuzetak su vremenske serije, ili vremenske serije, koje pokazuju promjene karakteristika tokom vremena. Regresija takvih serija je jednostrana.

Postoji mnogo različitih oblika i vrsta korelacija. Zadatak se svodi na identifikaciju oblika veze u svakom konkretnom slučaju i izražavanje sa odgovarajućom korelacionom jednadžbom, što nam omogućava da predvidimo moguće promjene jedan znak Y na osnovu poznatih promjena u drugom X, vezano za prvi korelacijski.

12.1 Linearna regresija

Jednačina regresije. Rezultati opservacija izvršenih na određenom biološkom objektu na osnovu koreliranih karakteristika x I y, može biti predstavljen tačkama na ravni konstruisanjem sistema pravougaone koordinate. Rezultat je neka vrsta dijagrama raspršenosti koji omogućava prosuđivanje oblika i bliskosti odnosa između različitih karakteristika. Vrlo često ovaj odnos izgleda kao prava linija ili se može aproksimirati pravom linijom.

Linearni odnos između varijabli x I y je opisan općom jednačinom, gdje je a b c d,... – parametri jednadžbe koji određuju odnose između argumenata x 1 , x 2 , x 3 , …, x m i funkcije.

U praksi se ne uzimaju u obzir svi mogući argumenti, već samo neki argumenti, u najjednostavnijem slučaju samo jedan:

U jednadžbi linearne regresije (1) a je slobodni termin i parametar b određuje nagib linije regresije u odnosu na pravougaone koordinatne ose. U analitičkoj geometriji ovaj parametar se naziva nagib, au biometriji – koeficijent regresije. Vizuelni prikaz ovog parametra i položaja linija regresije Y By X I X By Y u pravougaonom koordinatnom sistemu daje sl. 1.

Rice. 1 Regresijske linije od Y prema X i X prema Y u sistemu

pravougaone koordinate

Regresijske linije, kao što je prikazano na slici 1, sijeku se u tački O (,), što odgovara srednjim aritmetičkim vrijednostima karakteristika koje su međusobno povezane Y I X. Prilikom konstruiranja regresijskih grafova, vrijednosti nezavisne varijable X se crtaju duž apscisne ose, a vrijednosti zavisne varijable, odnosno funkcije Y, crtaju se duž ordinatne ose. Prava AB koja prolazi kroz tačku O (, ) odgovara potpunoj (funkcionalnoj) vezi između varijabli Y I X, kada je koeficijent korelacije . Što je jača veza između Y I X, što su regresijske linije bliže AB, i obrnuto, što je slabija veza između ovih veličina, regresijske linije su udaljenije od AB. Ako ne postoji veza između karakteristika, linije regresije su pod pravim uglom jedna u odnosu na drugu i .

Pošto regresijski indikatori izražavaju korelacioni odnos bilateralno, regresionu jednačinu (1) treba napisati na sledeći način:

Prva formula određuje prosječne vrijednosti kada se karakteristika promijeni X po jedinici mjere, za drugu - prosječne vrijednosti pri promjeni za jednu jedinicu mjere atributa Y.

Koeficijent regresije. Koeficijent regresije pokazuje koliko je u prosjeku vrijednost jedne karakteristike y mijenja se kada se mjera druge, u korelaciji sa, mijenja za jedan Y sign X. Ovaj indikator je određen formulom

Evo vrijednosti s pomnoženo veličinom intervala časova λ , ako su pronađeni iz varijacionih serija ili korelacionih tabela.

Koeficijent regresije se može izračunati bez izračunavanja prosjeka kvadratna odstupanja s y I s x prema formuli

Ako je koeficijent korelacije nepoznat, koeficijent regresije se određuje na sljedeći način:

Odnos regresije i koeficijenata korelacije. Upoređujući formule (11.1) (tema 11) i (12.5), vidimo: njihov brojilac ima istu vrijednost, što ukazuje na povezanost ovih pokazatelja. Ovaj odnos se izražava jednakošću

Dakle, koeficijent korelacije jednak je geometrijskoj sredini koeficijenata b yx I b xy. Formula (6) dozvoljava, prvo, na osnovu poznatih vrijednosti koeficijenata regresije b yx I b xy odrediti koeficijent regresije R xy, i drugo, provjeriti ispravnost izračunavanja ovog pokazatelja korelacije R xy između različitih karakteristika X I Y.

Kao i koeficijent korelacije, koeficijent regresije karakteriše samo linearni odnos i prati ga znak plus za pozitivan odnos i znak minus za negativan odnos.

Određivanje parametara linearne regresije. Poznato je da je zbir kvadrata odstupanja varijanta x i od prosjeka je najmanja vrijednost, tj. Ova teorema čini osnovu metode najmanjih kvadrata. Što se tiče linearne regresije [vidi formula (1)] zahtjev ove teoreme je zadovoljen određenim sistemom jednačina tzv. normalno:

Zajedničko rješenje ovih jednačina s obzirom na parametre a I b dovodi do sljedećih rezultata:

;

;

, odakle i.

S obzirom na dvosmjernu prirodu odnosa između varijabli Y I X, formula za određivanje parametra A treba izraziti ovako:

i . (7)

Parametar b, ili koeficijent regresije, određuje se sljedećim formulama:

Konstrukcija empirijskih regresijskih serija. U prisustvu veliki broj zapažanja, regresiona analiza počinje izgradnjom empirijskih regresijskih serija. Empirijski regresijski niz formira se izračunavanjem vrijednosti jedne promjenjive karakteristike X prosječne vrijednosti drugog, u korelaciji sa X sign Y. Drugim riječima, konstrukcija empirijskih regresijskih serija svodi se na pronalaženje grupnih prosjeka iz odgovarajućih vrijednosti karakteristika Y i X.

Empirijski regresijski niz je dvostruki niz brojeva koji se može predstaviti tačkama na ravni, a zatim se povezivanjem ovih tačaka pravim segmentima može dobiti empirijska regresijska linija. Empirijski regresijski nizovi, posebno njihovi grafovi, tzv regresijske linije, daju jasnu predstavu o obliku i bliskosti korelacije između različitih karakteristika.

Usklađivanje empirijskih regresijskih serija. Grafovi empirijskih regresijskih serija po pravilu nisu glatki, već isprekidani. Ovo se objašnjava činjenicom da, uz glavne razloge koji određuju opći obrazac varijabilnosti koreliranih karakteristika, na njihovu veličinu utječe i utjecaj brojnih sekundarnih razloga koji uzrokuju nasumične fluktuacije u čvornim točkama regresije. Da bi se identifikovala glavna tendencija (trend) konjugirane varijacije koreliranih karakteristika, potrebno je zamijeniti isprekidane linije glatkim, glatko tekućim linijama regresije. Zove se proces zamjene isprekidanih linija glatkim usklađivanje empirijskih serija I regresijske linije.

Metoda grafičkog poravnanja. Ovo je najjednostavniji metod koji ne zahtijeva računski rad. Njegova suština se svodi na sljedeće. Empirijski regresijski niz je prikazan kao graf u pravougaonom koordinatnom sistemu. Zatim se vizualno ocrtavaju središnje točke regresije, duž kojih se crta puna linija pomoću ravnala ili uzorka. Nedostatak ove metode je očigledan: ne isključuje utjecaj individualnih osobina istraživača na rezultate poravnanja empirijskih regresijskih linija. Stoga, u slučajevima kada je potrebna veća tačnost pri zamjeni izlomljenih regresijskih linija glatkim, koriste se druge metode poravnanja empirijskih serija.

Metoda pokretnog prosjeka. Suština ove metode svodi se na sekvencijalno izračunavanje aritmetičkih prosjeka iz dva ili tri susjedna člana empirijskog niza. Ova metoda je posebno pogodna u slučajevima kada je empirijski niz predstavljen velikim brojem pojmova, tako da gubitak dva od njih - ekstremnih, koji je neizbježan kod ovog načina poravnanja, neće primjetno utjecati na njegovu strukturu.

Metoda najmanjeg kvadrata. Ovu metodu je početkom 19. vijeka predložio A.M. Legendre i, nezavisno od njega, K. Gauss. Omogućava vam da najpreciznije uskladite empirijske serije. Ova metoda, kao što je gore prikazano, temelji se na pretpostavci da je zbir kvadrata odstupanja opcija x i od njihovog prosjeka postoji minimalna vrijednost, odnosno otuda naziv metode, koja se koristi ne samo u ekologiji, već iu tehnologiji. Metoda najmanjih kvadrata je objektivna i univerzalna; koristi se u velikom broju slučajeva pri pronalaženju empirijskih jednačina za regresijske serije i određivanju njihovih parametara.

Zahtjev metode najmanjih kvadrata je da se teorijske točke linije regresije moraju dobiti na takav način da se zbroj kvadrata odstupanja od ovih tačaka za empirijska opažanja y i bio minimalan, tj.

Izračunavanjem minimuma ovog izraza u skladu sa principima matematičke analize i njegovom transformacijom na određeni način, može se dobiti sistem tzv. normalne jednačine, u kojem su nepoznate vrijednosti traženi parametri regresijske jednadžbe, a poznati koeficijenti su određeni empirijskim vrijednostima karakteristika, obično sumama njihovih vrijednosti i njihovih unakrsnih proizvoda.

Višestruka linearna regresija. Odnos između nekoliko varijabli obično se izražava višestrukom regresijskom jednadžbom, što može biti linearno I nelinearni. U svom najjednostavnijem obliku, višestruka regresija se izražava kao jednačina s dvije nezavisne varijable ( x, z):

Gdje a– slobodni član jednačine; b I c– parametri jednačine. Za pronalaženje parametara jednačine (10) (pomoću metode najmanjih kvadrata) koristi se sljedeći sistem normalnih jednačina:

Dinamične serije. Poravnanje redova. Promjene karakteristika tokom vremena formiraju tzv vremenske serije ili dinamicke serije. Karakteristična karakteristika takvih serija je da je nezavisna varijabla X ovdje uvijek faktor vremena, a zavisna varijabla Y je promjenjiva karakteristika. Ovisno o regresijskoj seriji, odnos između varijabli X i Y je jednostran, jer vremenski faktor ne zavisi od varijabilnosti karakteristika. Uprkos ovim karakteristikama, dinamičke serije se mogu uporediti sa regresijskim serijama i obraditi koristeći iste metode.

Kao i regresijski nizovi, empirijske serije dinamike imaju uticaj ne samo glavnih, već i brojnih sekundarnih (slučajnih) faktora koji prikrivaju glavni trend varijabilnosti karakteristika, koji se jezikom statistike naziva trend.

Analiza vremenskih serija počinje identifikovanjem oblika trenda. Da biste to učinili, vremenska serija je prikazana kao linijski graf u pravokutnom koordinatnom sistemu. U ovom slučaju, vremenske tačke (godine, mjeseci i druge jedinice vremena) su iscrtane duž apscisne ose, a vrijednosti zavisne varijable Y duž ordinatne ose. Ako je dostupno linearna zavisnost između varijabli X i Y (linearni trend), za poravnavanje dinamičkog niza korištenjem metode najmanjih kvadrata, najprikladnija je jednadžba regresije u obliku odstupanja članova niza zavisne varijable Y od aritmetičke sredine serije nezavisne varijable X:

Ovdje je parametar linearne regresije.

Numeričke karakteristike dinamičkih serija. Glavne generalizirajuće numeričke karakteristike dinamičkih serija uključuju geometrijska sredina i aritmetička sredina blizu toga. Oni karakteriziraju prosječnu stopu kojom se vrijednost zavisne varijable mijenja u određenim vremenskim periodima:

Procjena varijabilnosti članova dinamičkog niza je standardna devijacija. Prilikom odabira jednadžbi regresije za opisivanje vremenskih serija uzima se u obzir oblik trenda, koji može biti linearan (ili svedeni na linearan) i nelinearan. Ispravnost izbora regresijske jednadžbe obično se ocjenjuje po sličnosti empirijski promatranih i izračunatih vrijednosti zavisne varijable. Tačnije rješenje ovog problema je regresiona analiza metode varijanse (tema 12, stav 4).

Korelacija vremenskih serija.Često je potrebno uporediti dinamiku paralelnih vremenskih serija koje su međusobno povezane određenim opštim uslovima, na primer, da bi se utvrdila veza između poljoprivredne proizvodnje i rasta stočnog fonda u određenom vremenskom periodu. U takvim slučajevima, karakteristika odnosa između varijabli X i Y je koeficijent korelacije R xy (u prisustvu linearnog trenda).

Poznato je da je trend vremenskih serija, po pravilu, zamagljen fluktuacijama u nizu zavisne varijable Y. To dovodi do dvostrukog problema: mjerenje zavisnosti između upoređenih serija, bez isključivanja trenda, i mjerenje ovisnost između susjednih članova iste serije, isključujući trend. U prvom slučaju indikator bliskosti veze između upoređenih vremenskih serija je koeficijent korelacije(ako je odnos linearan), u drugom – koeficijent autokorelacije. Ovi indikatori imaju različita značenja, iako se računaju pomoću istih formula (vidi temu 11).

Lako je vidjeti da na vrijednost koeficijenta autokorelacije utiče varijabilnost članova serije zavisne varijable: što članovi serije manje odstupaju od trenda, to je veći koeficijent autokorelacije i obrnuto.

Metoda regresijske analize koristi se za određivanje tehničkih i ekonomskih parametara proizvoda koji pripadaju određenoj parametarskoj seriji kako bi se izgradili i uskladili vrijednosni odnosi. Ova metoda se koristi za analizu i opravdavanje odnosa nivoa i cijena proizvoda koje karakterizira prisustvo jednog ili više tehničkih i ekonomskih parametara koji odražavaju glavna potrošačka svojstva. Regresiona analiza nam omogućava da pronađemo empirijsku formulu koja opisuje ovisnost cijene o tehničkim i ekonomskim parametrima proizvoda:

P=f(X1X2,...,Xn),

gdje je P vrijednost jedinične cijene proizvoda, rub.; (X1, X2, ... Xn) - tehnički i ekonomski parametri proizvoda.

Metoda regresione analize - najnaprednija od korišćenih normativno-parametarskih metoda - efikasna je kada se izvode proračuni zasnovani na upotrebi savremenih informacione tehnologije i sistemi. Njegova primjena uključuje sljedeće glavne korake:

  • određivanje klasifikacijskih parametarskih grupa proizvoda;
  • izbor parametara koji najviše utiču na cenu proizvoda;
  • izbor i opravdanje oblika povezanosti promjena cijena pri promjeni parametara;
  • konstrukcija sistema normalnih jednačina i proračun regresionih koeficijenata.

Glavna kvalifikaciona grupa proizvoda čija je cijena podložna izjednačavanju je parametarska serija, u okviru koje se proizvodi mogu grupirati u različite izvedbe u zavisnosti od njihove primjene, uslova rada i zahtjeva itd. Prilikom formiranja parametarskih serija koriste se metode automatske klasifikacije. mogu se koristiti, što omogućava razlikovanje homogenih grupa od ukupne mase proizvoda. Odabir tehničkih i ekonomskih parametara vrši se na osnovu sljedećih osnovnih zahtjeva:

  • odabrani parametri uključuju parametre evidentirane u standardima i tehničkim specifikacijama; pored tehničkih parametara (snaga, nosivost, brzina itd.), koriste se indikatori serijalizacije proizvoda, koeficijenti složenosti, unifikacije itd.;
  • skup odabranih parametara trebao bi dovoljno u potpunosti karakterizirati dizajn, tehnološka i operativna svojstva proizvoda uključenih u seriju i imati prilično blisku korelaciju s cijenom;
  • parametri ne bi trebali biti međusobno zavisni.

Za odabir tehničkih i ekonomskih parametara koji značajno utječu na cijenu izračunava se matrica koeficijenata korelacije parova. Na osnovu veličine koeficijenata korelacije između parametara može se suditi o bliskosti njihove povezanosti. Istovremeno, korelacija blizu nule pokazuje neznatan uticaj parametra na cenu. Konačan odabir tehničko-ekonomskih parametara vrši se u procesu regresione analize korak po korak uz korištenje računarske tehnologije i odgovarajućih standardnih programa.

U praksi određivanja cijena koristi se sljedeći skup funkcija:

linearno

P = ao + alXl + ... + antXn,

linearne snage

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

inverzni logaritam

P = a0 + a1: U X1 + ... + an: U Xn,

moć

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

indikativno

P = e^(a1+a1X1+...+anXn)

hiperbolično

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

gdje je P izjednačavanje cijena; X1 X2,..., Xn - vrijednost tehničkih i ekonomskih parametara proizvoda serije; a0, a1 ..., an - izračunati koeficijenti regresione jednačine.

IN praktičan rad za određivanje cijena, ovisno o obliku povezanosti cijena i tehničko-ekonomskih parametara, mogu se koristiti i druge regresijske jednačine. Tip funkcije veze između cijene i skupa tehničko-ekonomskih parametara može se unaprijed postaviti ili odabrati automatski tokom kompjuterske obrade. Bliskost korelacije između cijene i skupa parametara ocjenjuje se vrijednošću koeficijenta višestruke korelacije. Njegova blizina jednom ukazuje na blisku vezu. Pomoću jednadžbe regresije dobijaju se izjednačene (izračunate) vrijednosti cijena za proizvode date parametarske serije. Za procjenu rezultata izjednačavanja izračunavaju se relativne vrijednosti odstupanja izračunatih vrijednosti cijena od stvarnih:

Tsr = Rf - Rr: R x 100

gdje je Rf, Rr - stvarne i obračunate cijene.

Vrijednost CR ne bi trebala prelaziti 8-10%. U slučaju značajnih odstupanja izračunatih vrijednosti od stvarnih, potrebno je istražiti:

  • ispravnost formiranja parametarskog niza, jer može sadržavati proizvode koji se po svojim parametrima oštro razlikuju od ostalih proizvoda u seriji. Moraju biti isključeni;
  • ispravan odabir tehničkih i ekonomskih parametara. Moguć je skup parametara koji je u slaboj korelaciji sa cijenom. U tom slučaju potrebno je nastaviti pretraživanje i odabir parametara.

Postupak i metodologija za sprovođenje regresione analize, pronalaženje nepoznatih parametara jednačine i ekonomska procjena dobijenih rezultata sprovode se u skladu sa zahtjevima matematičke statistike.