Korelacije

Ne vjeruj u ono što statistika kaže sve dok nisi pažljivo razmotrio što ona želi da sakrije. – William W. Watt

Povezanost ili uzajamni odnos između pojava čije se promjene opisuju matematičkim relacijama, odnosno metodom statističke analize, naziva se korelacijom. Dok bi vjerojatnost povezanosti određivali Hi-kvadratom, stupanj povezanosti dvaju varijabli odredit ćemo korelacijama. Koeficijentom korelacije možemo opisati smjer i jakost linearne veze dvaju varijabli, ali ne možemo zaključivati o uzročno posljedičnom odnosu promatranih varijabli.

Ideju o koeficijentu korelacije pokrenuo je Galton (Francis Galton 1822-1911.) koji je proučavao naslijeđe na osnovi teorije evolucije, Galon je vjerovao kako nasljednosti mogu biti znanstveno utemeljene jedino uvođenjem novih statističkih koncepata kao što su regresija i korelacija. Galton osobno uspijeva otkriti regresiju prema srednjim vrijednostima, a Karl Pearson (1857-1936.) je riješio problem nasljeđivanja pomoću obrasca što nosi njegovo ime.

RAZLIKE IZMEĐU REGRESIJSKE I KORELACIJSKE ANALIZE

Kako neki autori tvrde, ne postoji određena granica između regresijske i korelacijske analize, te se oni često upotrebljavaju kao sinonimi.

Postoji ipak stanovita razlika, uglavnom u pristupu. U korelacijskoj je analizi naglasak na mjerenju stupnja povezanosti između varijabli, dok je u regresijskoj analizi naglasak na izražavanju veze prikladnom izrazu, odnosno modelu.

Valja spomenuti da se pojmom regresija obuhvaća znanstvena problematika kojom se matematičkim relacijama opisuje smjer, odnosno dinamički oblik promjena masovne pojave. Pojmom korelacije obuhvaća se i jačina povezanosti između pojava, također, izrečena matematičkim relacijama.

U konkretnom smislu korelacijskom analizom najčešće se istražuju odnosi, na primjer:
-broj novoizgrađenih stanova u odnosu na rast narodnog dohotka

-neto ili bruto investicijska ulaganja u odnosu na broj novootvorenih radnih mjesta u pojedinim oblastima, granam i djelatnostima

-cijene i troškovi života u odnosu na potrošnju

-društveni proizvod u odnosu na rast fiksnih fondova

Primjena korelacijske analize je veoma široka, te se ove metode mogu koristiti i u području gdjegod se može raspolagati kvantificiranim veličinama koje međusobno slijede određenu povezanost. Prilikom brojčane veličine mogu biti različite i sam po sebi nisu bitne, jer veličina koeficijenta korelacije zavisi  od smjera promjena, odnosno od sukladnosti podataka kod pojava koje se uspoređuju u istim vremenskim jedinicama.

UZROČNO-POSLJEDIČNA VEZA

strip

Kao što smo u samom uvodu već naglasili koeficijentom korelacije možemo opisati smjer i jakost linarne veze dvaju varijabli, ali ne možemo zaključivati o uzročno posljedičnom odnosu promatranih varijabli. Što to znači?

Najjednostavnije rečeno, moramo biti svjesni kako izračun koeficijenta korelacije nas može zavarati u mnogim slučajevima. Čak i ukoliko zadovoljimo sve uvjete za računanje koeficijenta korelacije, postoji mogućnost da je u cijelu priču uključena i treća varijabla koja bolje objašnjava uzročno-posljedični odnos. Da bi dobili potpunu potvrdu uzročno-posljedične veze trebali bi provesti pokus u kontroliranim uvjetima. Nakon provedenog pokusa ponovno određujemo korelaciju i dobijemo novi rezultat. Ukoliko korelacija nakon našega pokusa ne postoji, možemo zaključiti kako je provedeni pokus veoma nestabilan pošto ne možemo dobiti identične rezultate.

Na hrvatskoj Wikipediji opisan je klasičan primjer kada na osnovu korelacije ne možemo zaključiti o uzročno posljedičnim vezama:

Jedan od klasičnih, u literaturi često spominjanih primjera, je pojava uočena u Kopenhagenu nekoliko godina poslije završetka Drugog svjetskog rata. Zamijećena je korelacija između povećanja broja novorođene djece i broja roda koje su se gnijezdile u gradu. Ako bi se korelacija bez razmišljanja protumačila kao uzročno-posljedični odnos, moglo bi se zaključiti da rode donose djecu. Pravi uzrok leži u tome što se po završetku rata velik dio stanovništva sa sela preselio u grad, što je uzrokovalo povećanje broja stanovnika u gradu, a samim tim i povećanje broja novorođene djece. Istovremeno, za nove stanovnike grada izgradile su se nove kuće, tako da su i rode dobile veći broj dimnjaka za svoja gnijezda. Tu je dakle, postojala skrivena varijabla – broj stanovnika, koju je prilikom donošenje zaključka o uzročno-posljedičnoj vezi trebalo uzeti u obzir.“

Ukoliko su vam se svidjele ove bizarne korelacije, dodatnu zabavu možete potražiti na ovom linku.

VARIJABLE

Varijable koje se analiziraju korelacijskom analizom dijele se na dvije kategorije:

-nezavisna varijabla (x)

-zavisna varijabla (y)

Nezavisna varijabla je varijabla za koju se pretpostavlja da uzrokuje promjenu u drugoj varijabli (u zavisnoj varijabli). Moguće su manipulacije na nezavisnoj varijabli. Kod zavisne varijable varijacije objašnjavamo s pomoću drugih varijabla , te ju ne možemo kontrolirati. Ona je predmet istraživanja znanstvenika, a istraživanja se poduzimaju kako bi se utvrdila ovisnost njezinih vrijednosti o promjenama nezavisne varijable.

Poznavanje varijabli dati će nam informacije o tomu da li možemo koristiti korelacije u zadanom zadatku. Najčešća podjela vrsta varijabli sastoji se od:

Nominalnih ljestvica (npr. spol – muški,ženski; religijsko opredjeljenje – katolik, musliman, židov; mjesto prebivališta, krvna grupa)-u nominalnim razinama mjerenja modaliteti obilježja ne mogu se uspoređivati redoslijedom i neka kategorija ne može biti bolja od druge.

Ordinalna ljestvica (npr. primanja zaposlenika – ispodprosječna, prosječna, iznadprosječna; ocjena-odlična, dobar, nedovoljan; obrazovanje, konfekcijska veličina, kvaliteta nekog proizvoda) – pridružujemo bojeve, oznake ili simbole elementima statističkoga skupa prema stupnju nekoga svojstva (npr. ocjena poznavanja gradiva, stupanj razvijenosti zemlje). Za razliku od nominalnih podataka ordinalne vrijednosti moguće je poredati prema određenom intenzitetu svojstava uz mogućnost određivanja je li promatrana jedinica veća ili manja od druge promatrane jedinice.

Intervalna ljestvica (npr. temperaturna ljestvica zbog relativne nule, meridijani i paralele, nadmorska visina, vodostaj rijeke, IQ) – pridružuje brojeve mjernim svojstvima elemenata statističkih skupova pri čemu jednake razlike brojeva na mjernoj ljestvici predstavljaju jednake razlike mjernog svojstva. Omjeri u intervalnoj ljestvici nemaju smisla.

Omjerne ljestvica (osobni prihodi, visina, težina, vrijeme, starost) – odlikuju jednake razlike brojeva koje predstavljaju jednake razlike mjernog svojstva. Nazivaju se odnosne jer početna točka mjerenja daje značenje odnosu vrijednosti između podataka. Za razliku od intervale ljestvice, ovdje omjeri imaju smisla, te postoji apsolutna nula.

vrste-varijabli

Uvjet pokazivanja korelacija: numerički

U većini slučajeva prilikom računanja korelacija imati ćemo numeričke varijable, odnosno intervalne i omjerne ljestvice, no u pojedinim slučajevima prilikom računanja korelacije ranga uz jednu numeričku varijablu u pravilu bi mogli imati ordinalne ljestvice (ili redoslijedne). Više o tomu slučaju biti će riječi u nastavku.

DIJAGRAM RASIPANJA/RASPRŠENJA  (SCATTER DIJAGRAM)

Dijagram rasipanja prvenstveno koristimo kako bi na jednostavan vizualan način uočili povezanosti između dvije varijable. Specifičan oblik pojedinih grafikona daje nam jasne indikacije o kakvoj vrsti povezanosti se radi.

Prilikom određivanja varijabli za izradu dijagrama rasipanja moramo voditi računa o tomu koja je varijabla nezavisna(x), a koja zavisna(y). U koordinatni sustav ucrtavaju se parovi točaka vrijednosti varijabli, a ucrtane točke još se nazivaju oblak točaka.

Neki od specifičnih grafikona prema kojima možemo okvirno predvidjeti rezultat povezanosti navedeni su u nastavku.

potpuna-korelacijapozitivna-nepotpunanepostojeća-korelacijanepotpuna-negativnapotupna-negativna

Oznake za određivanje korelacije:

r-koeficijent korelacije (izražavamo ga sa 2 decimalna mjesta)

p-statistička značajnost koeficijenta korelacije (izražavamo ga sa 3 decimalna mjesta)

r²-koeficijent determinacije

 

Kao što vidimo iz gore prikazanih grafova, koeficijent povezanosti „r“ (dolazi od eng. ‘relations’m što znači odnos) iskazuje se u rasponu između -1 i +1, a pri tomu vrijedi (izvor: Colton, 1974. – vrijedi i za Pearsonov i Spearmanov test):

r = 0 do ± 0,25: nema povezanosti,

r = ± 0,26 do ± 0,50: slaba povezanost,

r = ± 0,51 do ± 0,75: umjerena do dobra povezanost,

r = ± 0,76 do ± 1: vrlo dobra do izvrsna povezanost,

r = ± 1: matematička povezanost

*Ove vrijednosti neznatno variraju u ovisnosti od autora, tako da negdje nalazimo raspone od 0,2 do 0,5 i 0,5 do 0,8. Razlog zbog kojega na ± 1 piše matematička povezanost leži u činjenici kako korelacije r = ±1 nisu svojstvene biološkim sustavima i najčešće se samo odnose na teoretske modele.

Već smo napisali da se s razinom “p“ označava statistička značajnost koeficijenta korelacije. To konkretno znači da razinu p uspoređujemo s razinom signifikantnosti od 0,05. Ukoliko ustanovimo da je p manji od 0,05 kažemo da je koeficijent korelacije značajan i da se smije tumačiti. Ukoliko je vrijednost p manja od 0,05 zaključujemo da koeficijent korelacije nije značajan i tada se bez obzira na njegovu vrijednost ne smije tumačit.

Korelacija se tumači s obzirom na vrijednost koeficijenta korelacije, a ne njegovu statističku značajnost. Dakle, možemo reći da r označava procijenjenu, dok p označava teorijsku vrijednost koeficijenta korelacije.

Koeficijentom determinacije r² izražavamo jačinu linearne povezanosti, a ona se izračunava tako da kvadriramo koeficijent korelacije. Možemo ga izračunati samo za Pearsonovu korelaciju. U konkretnom primjeru to bi značilo da ukoliko je r=0,71, naš r² =0,71 × 0,71 = 0,50. Drugim riječima možemo reći da zajednička vrijednost izmišljene varijable „X“ i „Y“ iznosi 50%.

PEARSONOV KOEFICIJENT KORELACIJE (parametrijski test)

-mjeri se smjer i intenzitet povezanosti dviju promatranih varijabli
Uvjeti za izračunavanje:

-jedna od promatranih varijabli ima normalnu raspodjelu (podatci simetrični)

-veći uzorak (N > 35)

-povezanost je linearna (točkasti grafikon)

-podatci na intervalnoj ili omjernoj ljestvici

SPEARMANOV KOEFICIJENT KORELACIJE (neparametrijski test)

-Koeficijent korelacije dobio je ime po britanskom statističaru Charlesu Spearmanu (1863.-1945.), koristi se za ispitivanje stupnja povezanosti varijable zapisanih u obliku modaliteta ordinalne (rang) varijable. Podatke ordinalne varijable moguće je poredati po određenom intenzitetu svojstva te se promatraju jedino razlike u rangu, a ne originalne razlike u pojedinim vrijednostima.

Kada izračunavamo?

-jedan skup podataka (ili oba) slijede ordinalnu ljestvicu

– raspodjela podataka značajno odstupa od normalne raspodjele

-mali uzorak (N<35)

– linearnost nije uvjet (za razliku od Pearsonovog testa)

PRIMJER

Kako bismo zaokružili i zatvorili korelacije riješimo ovaj jednostavan zadatak za kraj. Zadatak je riješen u programu StatSoft Statistica, ali korelacije se mogu jednostavno riješiti i u MS Excelu ili nekom drugom specijaliziranom programu (dobra besplatna alternativa je program „R“ koji možete skinuti sa njihove službene web stranice).

Lokalna prodavaonica sladoleda prati ukupno prodaju u odnosu na temperaturu toga dana. U tablici su navedeni rezultati 12 dana praćenja:

Temperatura

Prodaja sladoleda

14,2 215
16,4 325
11,9 185
15,2 332
18,5 406
22,1 522
19,4 412
25,1 614
23,4 544
18,1 421
22,6 445
17,2 408

Rezultati:

primjer-sladoled-temperatura

Iščitamo rezultate:

r=0,9575

p=0,000

r²=0,9168=91,68%
Iz dobivenih rezultata možemo vidjeti kako više temperature vode ka višoj prodaji sladoleda, ali povezanost nije savršena.

Ovaj primjer i još 9 drugih koje vi trebate riješiti možete pronaći ovdje.

ZAKLJUČIMO

552-hr-1

 

LITERATURA

Jasna Horvat, Josipa Mijoč – Osnove statistike, Naklada Ljevak, Zagreb, svibanj 2012.

Josip Žužul, Marija Branica – Statistika,Informator, Zagreb, 1998.

(1)Korelacije – predavanje http://mi.medri.hr/assets/P6_Korelacija.pdf (11.7.13.)

(2)Korelacija http://hr.wikipedia.org/wiki/Korelacija (11.7.13.)

(3)Scatter Plots http://www.mathsisfun.com/data/scatter-xy-plots.html (11.7.13.)

(4)Značenje i primjena svojstva koeficijenta korelacije u laboratorijskim sustavimahttp://www.medri.uniri.hr/katedre/Medicinska%20informatika/mld/racunalna%20obrada/ROLP_stat2.pdf (11.7.13.)

 

 

Hrvoje Krpan

Neznanje je pogonsko gorivo znanosti

You may also like...