Ce este corelația în statistică. Coeficientul de corelație este o caracteristică a modelului de corelație. Cum se interpretează valoarea coeficientului de corelație Pearson
![Ce este corelația în statistică. Coeficientul de corelație este o caracteristică a modelului de corelație. Cum se interpretează valoarea coeficientului de corelație Pearson](https://i2.wp.com/psyfactor.org/lib/i/Image45.gif)
" Statistici
Statistica si prelucrarea datelor in psihologie
(continuare)
Analiza corelației
Când studiezi corelațiiîncercați să stabiliți dacă există vreo relație între doi indicatori din același eșantion (de exemplu, între înălțimea și greutatea copiilor sau între nivelul IQși performanța școlară) sau între două eșantioane diferite (de exemplu, la compararea perechilor de gemeni), și dacă această relație există, dacă o creștere a unui indicator este însoțită de o creștere (corelație pozitivă) sau o scădere (corelație negativă) a alte.
Cu alte cuvinte, analiza corelației ajută la stabilirea dacă este posibil să se prezică valorile posibile ale unui indicator, cunoscând valoarea altuia.
Până acum, când analizăm rezultatele experienței noastre în studierea efectelor marijuanei, am ignorat în mod deliberat un astfel de indicator precum timpul de reacție. Între timp, ar fi interesant de verificat dacă există o relație între eficiența reacțiilor și viteza lor. Acest lucru ar permite, de exemplu, să argumentăm că cu cât o persoană este mai lentă, cu atât acțiunile sale vor fi mai precise și mai eficiente și invers.
În acest scop, pot fi utilizate două metode diferite: metoda parametrică de calcul al coeficientului Bravais-Pearson (r) și calculul coeficientului de corelație a rangului Spearman (r s), care se aplică datelor ordinale, i.e. este neparametric. Cu toate acestea, să înțelegem mai întâi ce este un coeficient de corelație.
Coeficient de corelație
Coeficientul de corelație este o valoare care poate varia de la +1 la -1. În cazul unei corelații complete pozitive, acest coeficient este egal cu plus 1, iar în cazul unei corelații complete negative, este minus 1. Pe grafic, aceasta corespunde unei drepte care trece prin punctele de intersecție ale valorile fiecărei perechi de date:
Dacă aceste puncte nu se aliniază într-o linie dreaptă, ci formează un „nor”, valoarea absolută a coeficientului de corelație devine mai mică de unu și se apropie de zero pe măsură ce norul se rotunjește:
Dacă coeficientul de corelație este 0, ambele variabile sunt complet independente una de cealaltă.
În științe umaniste, o corelație este considerată puternică dacă coeficientul ei este mai mare de 0,60; dacă depășește 0,90, atunci corelația este considerată foarte puternică. Cu toate acestea, pentru a putea trage concluzii despre relațiile dintre variabile, dimensiunea eșantionului este de mare importanță: cu cât eșantionul este mai mare, cu atât valoarea coeficientului de corelație obținut este mai fiabilă. Există tabele cu valori critice ale coeficienților de corelație Bravais-Pearson și Spearman pentru un număr diferit de grade de libertate (este egal cu numărul de perechi minus 2, adică n- 2). Numai în cazul în care coeficienții de corelație sunt mai mari decât aceste valori critice pot fi considerați de încredere. Deci, pentru ca coeficientul de corelație de 0,70 să fie fiabil, cel puțin 8 perechi de date ar trebui luate în analiză ( h =n-2=6) când se calculează r (vezi Tabelul 4 din Anexă) și 7 perechi de date (h = n-2= 5) la calcularea r s (Tabelul 5 din Anexă).
Aș dori să subliniez încă o dată că esența acestor doi coeficienți este oarecum diferită. Coeficientul negativ r indică faptul că eficiența este cel mai adesea cu atât mai mare, cu atât timpul de reacție este mai rapid, în timp ce la calcularea coeficientului r s a fost necesar să se verifice dacă subiecții mai rapizi reacționează întotdeauna mai precis, iar subiecții mai lenți mai puțin precis.
Coeficientul de corelație Bravais-Pearson (r) - Acesta este un indicator parametric, pentru calculul căruia se compară abaterile medii și standard ale rezultatelor a două măsurători. În acest caz, se folosește o formulă (poate arăta diferit pentru diferiți autori)
unde Σ X Y- suma produselor datelor din fiecare pereche;
n este numărul de perechi;
X - medie pentru variabila dată X;
Y -
medie pentru date variabile Y
S x- abaterea standard pentru distribuție X;
Sy- abaterea standard pentru distribuție la
Coeficientul de corelare a rangului Spearman ( rs ) - acesta este un indicator neparametric, cu ajutorul căruia încearcă să dezvăluie relația dintre rangurile cantităților corespunzătoare în două serii de măsurători.
Acest coeficient este mai ușor de calculat, dar rezultatele sunt mai puțin precise decât folosind r. Acest lucru se datorează faptului că la calcularea coeficientului Spearman se folosește ordinea datelor, și nu caracteristicile cantitative și intervalele dintre clase ale acestora.
Faptul este că atunci când se utilizează coeficientul de corelație al rangurilor Spearman (r s), se verifică doar dacă ierarhizarea datelor pentru orice eșantion va fi aceeași ca într-o serie de alte date pentru acest eșantion, perechi legate de primul (de exemplu , indiferent dacă vor fi la fel „clasați” de studenți atât la psihologie, cât și la matematică, sau chiar cu doi profesori de psihologie diferiți?). Dacă coeficientul este aproape de +1, atunci aceasta înseamnă că ambele serii practic coincid, iar dacă acest coeficient este aproape de -1, putem vorbi despre o relație inversă completă.
Coeficient rs calculate după formula
Unde d este diferența dintre rândurile valorilor caracteristicilor conjugate (indiferent de semnul acesteia) și este numărul de perechi.
De obicei, acest test non-parametric este folosit în cazurile în care trebuie să trageți niște concluzii nu atât de mult intervaleîntre date, cât despre ele grade,și, de asemenea, atunci când curbele de distribuție sunt prea denaturate și nu permit utilizarea unor criterii parametrice precum coeficientul r (în aceste cazuri poate fi necesară transformarea datelor cantitative în date ordinale).
rezumat
Deci, am luat în considerare diverse metode statistice parametrice și neparametrice utilizate în psihologie. Recenzia noastră a fost foarte superficială, iar sarcina sa principală a fost de a face cititorul să înțeleagă că statisticile nu sunt atât de înfricoșătoare pe cât par și necesită în mare parte bun simț. Vă reamintim că datele de „experiență” cu care ne-am ocupat aici sunt fictive și nu pot servi drept bază pentru nicio concluzie. Cu toate acestea, un astfel de experiment ar merita făcut. Deoarece pentru acest experiment a fost aleasă o tehnică pur clasică, aceeași analiză statistică ar putea fi utilizată în multe experimente diferite. În orice caz, ni se pare că am conturat câteva direcții principale care pot fi utile celor care nu știu de unde să înceapă analiza statistică a rezultatelor.
Literatură
- Godefroy J. Ce este psihologia. - M., 1992.
- Chatillon G., 1977. Statistique en Sciences humaines, Trois-Rivieres, Ed. SMG.
- Gilbert N. 1978. Statistics, Montreal, Ed. H.R.W.
- Moroney M.J., 1970. Comprendre la statistique, Verviers, Gerard et Cie.
- Siegel S., 1956. Non-parametric Statistic, New York, MacGraw-Hill Book Co.
Aplicație pentru foi de calcul
Note. 1) Pentru eșantioane mari sau niveluri de semnificație mai mici de 0,05, consultați tabelele din manualele de statistică.
2) Tabelele de valori pentru alte criterii neparametrice pot fi găsite în ghiduri speciale (vezi bibliografia).
Tabelul 1. Valorile criteriilor t Student | |
h | 0,05 |
1 | 6,31 |
2 | 2,92 |
3 | 2,35 |
4 | 2,13 |
5 | 2,02 |
6 | 1,94 |
7 | 1,90 |
8 | 1,86 |
9 | 1,83 |
10 | 1,81 |
11 | 1,80 |
12 | 1,78 |
13 | 1,77 |
14 | 1,76 |
15 | 1,75 |
16 | 1,75 |
17 | 1,74 |
18 | 1,73 |
19 | 1,73 |
20 | 1,73 |
21 | 1,72 |
22 | 1,72 |
23 | 1,71 |
24 | 1,71 |
25 | 1,71 |
26 | 1,71 |
27 | 1,70 |
28 | 1,70 |
29 | 1,70 |
30 | 1,70 |
40 | 1,68 |
¥ | 1,65 |
Tabelul 2. Valorile criteriului χ 2 | |
h | 0,05 |
1 | 3,84 |
2 | 5,99 |
3 | 7,81 |
4 | 9,49 |
5 | 11,1 |
6 | 12,6 |
7 | 14,1 |
8 | 15,5 |
9 | 16,9 |
10 | 18,3 |
Tabelul 3. Valori Z de încredere | |
R | Z |
0,05 | 1,64 |
0,01 | 2,33 |
Tabelul 4. Valori fiabile (critice) ale r | ||
h =(N-2) | p= 0,05 (5%) | |
3 | 0,88 | |
4 | 0,81 | |
5 | 0,75 | |
6 | 0,71 | |
7 | 0,67 | |
8 | 0,63 | |
9 | 0,60 | |
10 | 0,58 | |
11 | 0.55 | |
12 | 0,53 | |
13 | 0,51 | |
14 | 0,50 | |
15 | 0,48 | |
16 | 0,47 | |
17 | 0,46 | |
18 | 0,44 | |
19 | 0,43 | |
20 | 0,42 |
Tabelul 5. Valori fiabile (critice) ale r s | |
h =(N-2) | p = 0,05 |
2 | 1,000 |
3 | 0,900 |
4 | 0,829 |
5 | 0,714 |
6 | 0,643 |
7 | 0,600 |
8 | 0,564 |
10 | 0,506 |
12 | 0,456 |
14 | 0,425 |
16 | 0,399 |
18 | 0,377 |
20 | 0,359 |
22 | 0,343 |
24 | 0,329 |
26 | 0,317 |
28 | 0,306 |
Coeficient de corelație este o valoare care poate varia de la +1 la -1. În cazul unei corelații pozitive complete, acest coeficient este egal cu plus 1 (se spune că odată cu creșterea valorii unei variabile, valoarea unei alte variabile crește), iar cu o corelație negativă completă - minus 1 (indicați feedback-ul) , adică atunci când valorile unei variabile cresc, valorile celeilalte scad).
Ex 1:
Graficul dependenței de timiditate și depresie. După cum puteți vedea, punctele (subiecții) nu sunt situate aleatoriu, ci se aliniază în jurul unei linii și, privind această linie, putem spune că cu cât timiditatea este mai mare la o persoană, cu atât mai depresive, adică aceste fenomene. sunt interconectate.
Ex 2: Grafic pentru timiditate și sociabilitate. Vedem că pe măsură ce timiditatea crește, sociabilitatea scade. Coeficientul lor de corelare este -0,43. Astfel, un coeficient de corelație mai mare de la 0 la 1 indică o relație direct proporțională (cu cât mai mult ... cu atât mai mult ...), iar un coeficient de la -1 la 0 indică o relație invers proporțională (cu cât mai mult ... cu atât mai puțin . ..)
Dacă coeficientul de corelație este 0, ambele variabile sunt complet independente una de cealaltă.
corelație- aceasta este o relație în care impactul factorilor individuali apare doar ca tendință (în medie) cu observarea în masă a datelor reale. Exemple de dependență de corelație pot fi dependența dintre mărimea activelor băncii și valoarea profitului băncii, creșterea productivității muncii și vechimea în muncă a angajaților.
Se folosesc două sisteme de clasificare a corelațiilor în funcție de puterea lor: general și particular.
Clasificarea generală a corelațiilor: 1) puternică, sau apropiată cu un coeficient de corelație de r> 0,70; 2) medie la 0,500,70, și nu doar o corelație de un nivel ridicat de semnificație.Următorul tabel listează denumirile coeficienților de corelație pentru diferite tipuri de scale.
Scară dihotomică (1/0) | Scala de rang (ordinal). | ||
Scară dihotomică (1/0) | Coeficientul de asociere al lui Pearson, coeficientul de conjugare cu patru celule al lui Pearson. | Corelație biserială | |
Scala de rang (ordinal). | Corelația rang-biseriala. | Coeficientul de corelare a rangului lui Spearman sau Kendall. | |
Interval și scară absolută | Corelație biserială | Valorile scalei intervalului sunt convertite în ranguri și se folosește coeficientul de rang | Coeficientul de corelație Pearson (coeficientul de corelație liniară) |
La r=0 nu există o corelație liniară. În acest caz, mediile de grup ale variabilelor coincid cu mediile lor generale, iar liniile de regresie sunt paralele cu axele de coordonate.
Egalitatea r=0 vorbește doar despre absența unei dependențe de corelație liniară (variabile necorelate), dar nu în general despre absența unei corelații, și cu atât mai mult, a unei dependențe statistice.
Uneori concluzia că nu există o corelație este mai importantă decât prezența unei corelații puternice. O corelație zero a două variabile poate indica că nu există nicio influență a unei variabile asupra celeilalte, cu condiția să avem încredere în rezultatele măsurătorilor.
În SPSS: 11.3.2 Coeficienți de corelație
Până acum am aflat doar faptul însuși al existenței unei relații statistice între două trăsături. În continuare, vom încerca să aflăm ce concluzii se pot trage despre puterea sau slăbiciunea acestei dependențe, precum și despre forma și direcția ei. Criteriile de cuantificare a relației dintre variabile se numesc coeficienți de corelație sau măsuri de conectivitate. Două variabile sunt corelate pozitiv dacă există o relație directă, unidirecțională între ele. Într-o relație unidirecțională, valorile mici ale unei variabile corespund unor valori mici ale celeilalte variabile, valorile mari corespund celor mari. Două variabile sunt corelate negativ dacă există o relație inversă între ele. Cu o relație multidirecțională, valorile mici ale unei variabile corespund unor valori mari ale celeilalte variabile și invers. Valorile coeficienților de corelație sunt întotdeauna în intervalul de la -1 la +1.
Coeficientul lui Spearman este folosit ca coeficient de corelație între variabilele aparținând scării ordinale, iar coeficientul de corelație al lui Pearson (momentul produselor) este utilizat pentru variabilele aparținând scării intervalului. În acest caz, trebuie menționat că fiecare variabilă dihotomică, adică o variabilă aparținând scării nominale și având două categorii, poate fi considerată ordinală.
În primul rând, vom verifica dacă există o corelație între variabilele sex și psihic din fișierul studium.sav. În acest sens, luăm în considerare faptul că variabila dihotomică sex poate fi considerată o variabilă ordinală. Urmează următoarele instrucțiuni:
Selectați din meniul de comandă Analizați (Analiză) Statistici descriptive (Statistici descriptive) Tabele încrucișate... (Tabelele de urgență)
· Mutați variabila sex într-o listă de rânduri și variabila psihic într-o listă de coloane.
· Faceți clic pe butonul Statistici.... În caseta de dialog Crosstabs: Statistics, bifați caseta Corelations. Confirmați alegerea cu butonul Continuare.
· În dialogul Tabele încrucișate, opriți afișarea tabelelor bifând caseta de selectare Suprimare tabele. Faceți clic pe butonul OK.
Se vor calcula coeficienții de corelație Spearman și Pearson, iar semnificația lor va fi testată:
/ SPSS 10
Sarcina numărul 10 Analiza corelației
Conceptul de corelare
Corelația sau coeficientul de corelație este un indicator statistic probabilistică relaţiile dintre două variabile măsurate pe scale cantitative. Spre deosebire de conexiunea funcțională, în care fiecare valoare a unei variabile îi corespunde strict definite valoarea unei alte variabile, conexiune probabilistică caracterizată prin faptul că fiecărei valori a unei variabile îi corespunde set de valori O altă variabilă, Un exemplu de relație probabilistică este relația dintre înălțimea și greutatea oamenilor. Este clar că oamenii de greutăți diferite pot avea aceeași înălțime și invers.
Corelația este o valoare între -1 și + 1 și se notează cu litera r. Mai mult, dacă valoarea este mai aproape de 1, atunci aceasta înseamnă prezența unei conexiuni puternice, iar dacă este mai aproape de 0, atunci una slabă. Valoarea corelației mai mică de 0,2 este considerată o corelație slabă, mai mare de 0,5 - mare. Dacă coeficientul de corelație este negativ, înseamnă că există o relație inversă: cu cât valoarea unei variabile este mai mare, cu atât valoarea celeilalte este mai mică.
În funcție de valorile acceptate ale coeficientului r, se pot distinge diferite tipuri de corelații:
Corelație pozitivă puternică este determinată de valoarea r=1. Termenul „strict” înseamnă că valoarea unei variabile este determinată în mod unic de valorile altei variabile, iar termenul „ pozitiv" - că, pe măsură ce valoarea unei variabile crește, crește și valoarea celeilalte variabile.
Corelația strictă este o abstractizare matematică și aproape niciodată nu apare în cercetarea reală.
corelație pozitivă corespunde valorilor 0
Lipsa corelației este determinată de valoarea r=0. Un coeficient de corelație de zero indică faptul că valorile variabilelor nu sunt legate între ele în niciun fel.
Lipsa corelației H o : 0 r X y =0 formulată ca o reflecție nul ipoteze în analiza corelaţiei.
corelație negativă: -1
Corelație negativă puternică determinată de valoarea r= -1. Ea, ca o corelație pozitivă strictă, este o abstractizare și nu își găsește expresie în cercetarea practică.
tabelul 1
Tipuri de corelație și definițiile acestora
Metoda de calcul al coeficientului de corelație depinde de tipul de scară pe care sunt măsurate valorile variabilei.
Coeficient de corelație rPearson este cea principală și poate fi utilizată pentru variabile cu scale de interval nominale și parțial ordonate, distribuția valorilor peste care corespunde normalului (corelarea momentelor produsului). Coeficientul de corelație Pearson oferă rezultate destul de precise și în cazurile de distribuții anormale.
Pentru distribuțiile care nu sunt normale, este de preferat să folosiți coeficienții de corelație a rangului Spearman și Kendall. Ele sunt clasate deoarece programul pre-clasifică variabilele corelate.
Programul SPSS calculează corelația r-Spearman după cum urmează: mai întâi, variabilele sunt convertite în ranguri, iar apoi formula Pearson este aplicată rangurilor.
Corelația propusă de M. Kendall se bazează pe ideea că direcția conexiunii poate fi judecată prin compararea subiecților în perechi. Dacă pentru o pereche de subiecți schimbarea în X coincide în direcția cu schimbarea în Y coincide, atunci aceasta indică o relație pozitivă. Dacă nu se potrivește, atunci despre o relație negativă. Acest coeficient este utilizat în principal de către psihologii care lucrează cu eșantioane mici. Deoarece sociologii lucrează cu matrice mari de date, este dificil să sortăm perechi, să identifice diferența de frecvențe relative și inversiuni ale tuturor perechilor de subiecți din eșantion. Cel mai comun este coeficientul. Pearson.
Deoarece coeficientul de corelație rPearson este cel principal și poate fi utilizat (cu o anumită eroare în funcție de tipul de scară și de nivelul de anomalie în distribuție) pentru toate variabilele măsurate pe scale cantitative, vom lua în considerare exemple de utilizare a acestuia și vom compara rezultate obținute cu rezultatele măsurătorilor folosind alți coeficienți de corelație.
Formula de calcul al coeficientului r- Pearson:
r xy = ∑ (Xi-Xav)∙(Yi-Yav) / (N-1)∙σ x ∙σ y ∙
Unde: Xi, Yi- Valorile a două variabile;
Xav, Yav - valori medii a două variabile;
σ x , σ y sunt abateri standard,
N este numărul de observații.
Corelații de perechi
De exemplu, am dori să aflăm cum se corelează răspunsurile dintre diferitele tipuri de valori tradiționale în ideile elevilor despre locul ideal de muncă (variabile: a9.1, a9.3, a9.5, a9.7) , și apoi despre raportul valorilor liberale (a9 .2, a9.4, a9.6, a9.8). Aceste variabile sunt măsurate pe scale ordonate pe 5 termeni.
Folosim procedura: „Analiză”, „Corelații”, „Pereche”. Implicit, coeficientul Pearson este setat în caseta de dialog. Folosim coeficientul Pearson
Variabilele testate sunt transferate în fereastra de selecție: a9.1, a9.3, a9.5, a9.7
Apăsând OK, obținem calculul:
Corelații
a9.1.t. Cât de important este să ai timp suficient pentru viața de familie și personală? |
corelația Pearson |
||||
Valoare (pe 2 fețe) |
|||||
a9.3.t. Cât de important este să nu-ți fie frică de a-ți pierde locul de muncă? |
corelația Pearson |
||||
Valoare (pe 2 fețe) |
|||||
a9.5.t. Cât de important este să ai un astfel de șef care să te consulte atunci când iei cutare sau cutare decizie? |
corelația Pearson |
||||
Valoare (pe 2 fețe) |
|||||
a9.7.t. Cât de important este să lucrezi într-o echipă bine coordonată, să te simți parte din ea? |
corelația Pearson |
||||
Valoare (pe 2 fețe) |
|||||
** Corelația este semnificativă la nivelul 0,01 (cu două fețe).
Tabelul valorilor cantitative ale matricei de corelație construite
Corelații parțiale:
Mai întâi, să construim o corelație pe perechi între aceste două variabile:
Corelații |
|||
c8. Simțiți-vă aproape de cei care locuiesc lângă voi, vecini |
corelația Pearson |
||
Valoare (pe 2 fețe) |
|||
c12. Simțiți-vă aproape de familia lor |
corelația Pearson |
||
Valoare (pe 2 fețe) |
|||
**. Corelația este semnificativă la nivelul 0,01 (2 fețe). |
Apoi folosim procedeul de construire a unei corelații parțiale: „Analiză”, „Corelații”, „Parțială”.
Să presupunem că valoarea „Este important să determinați și să schimbați în mod independent ordinea muncii dvs.” în raport cu variabilele indicate va fi factorul decisiv, sub influența căruia relația identificată anterior va dispărea sau se va dovedi a fi puțin semnificativă. .
Corelații |
||||
Variabile excluse |
c8. Simțiți-vă aproape de cei care locuiesc lângă voi, vecini |
c12. Simțiți-vă aproape de familia lor |
||
c16. Simte-te aproape de oamenii care au aceeași avere ca tine |
c8. Simțiți-vă aproape de cei care locuiesc lângă voi, vecini |
Corelație |
||
Semnificație (cu două fețe) |
||||
c12. Simțiți-vă aproape de familia lor |
Corelație |
|||
Semnificație (cu două fețe) |
||||
După cum se poate observa din tabel, sub influența variabilei de control, relația a scăzut ușor: de la 0,120 la 0,102. rămâne suficient de mare și permite să se infirme ipoteza nulă cu eroare zero.
Coeficient de corelație
Cel mai precis mod de a determina etanșeitatea și natura corelației este găsirea coeficientului de corelație. Coeficientul de corelație este un număr determinat de formula:
unde r xy este coeficientul de corelație;
x i -valorile primei caracteristici;
i -valorile celei de-a doua caracteristici;
Media aritmetică a valorilor primei caracteristici
Media aritmetică a valorilor celei de-a doua caracteristici
Pentru a folosi formula (32), construim un tabel care va furniza succesiunea necesară în pregătirea numerelor pentru a găsi numărătorul și numitorul coeficientului de corelație.
După cum se poate observa din formula (32), succesiunea acțiunilor este următoarea: găsim mediile aritmetice ale ambelor semne x și y, găsim diferența dintre valorile semnului și media acestuia (х i - ) și y i - ), atunci găsim produsul lor (х i - ) ( y i - ) – suma acestora din urmă dă numărătorul coeficientului de corelație. Pentru a-și găsi numitorul, trebuie să pătrați diferențele (x i -) și (y i -), să găsiți sumele lor și să extrageți rădăcina pătrată din produsul lor.
Deci, de exemplu 31, găsirea coeficientului de corelație în conformitate cu formula (32) poate fi reprezentată după cum urmează (Tabelul 50).
Numărul rezultat al coeficientului de corelație face posibilă stabilirea prezenței, proximității și naturii relației.
1. Dacă coeficientul de corelație este zero, nu există nicio relație între caracteristici.
2. Dacă coeficientul de corelație este egal cu unu, relația dintre trăsături este atât de mare încât se transformă într-una funcțională.
3. Valoarea absolută a coeficientului de corelație nu depășește intervalul de la zero la unu:
Acest lucru face posibilă concentrarea asupra strângerii conexiunii: cu cât coeficientul este mai aproape de zero, cu atât conexiunea este mai slabă și cu cât este mai aproape de unitate, cu atât conexiunea este mai strânsă.
4. Semnul coeficientului de corelare „plus” înseamnă corelare directă, semnul „minus” înseamnă invers.
Masa 50
x i | i | (х i - ) | (y i - ) | (x i - )(y i - ) | (х i - )2 | (y i - )2 |
14,00 | 12,10 | -1,70 | -2,30 | +3,91 | 2,89 | 5,29 |
14,20 | 13,80 | -1,50 | -0,60 | +0,90 | 2,25 | 0,36 |
14,90 | 14,20 | -0,80 | -0,20 | +0,16 | 0,64 | 0,04 |
15,40 | 13,00 | -0,30 | -1,40 | +0,42 | 0,09 | 1,96 |
16,00 | 14,60 | +0,30 | +0,20 | +0,06 | 0,09 | 0,04 |
17,20 | 15,90 | +1,50 | +2,25 | 2,25 | ||
18,10 | 17,40 | +2,40 | +2,00 | +4,80 | 5,76 | 4,00 |
109,80 | 101,00 | 12,50 | 13,97 | 13,94 |
Astfel, coeficientul de corelație calculat în Exemplul 31 este r xy = +0,9. ne permite să tragem următoarele concluzii: există o corelație între mărimea forței musculare a mâinii drepte și stângi la școlarii studiați (coeficientul r xy \u003d + 0,9 este diferit de zero), relația este foarte strânsă (coeficientul r xy \u003d + 0,9). este apropiată de unitate), corelația este directă (coeficientul r xy = +0,9 este pozitiv), adică cu o creștere a forței musculare a uneia dintre mâini, puterea celeilalte mâini crește.
Atunci când se calculează coeficientul de corelație și se utilizează proprietățile acestuia, trebuie să se țină seama de faptul că concluziile dau rezultate corecte atunci când caracteristicile sunt distribuite în mod normal și când se ia în considerare relația dintre un număr mare de valori ale ambelor caracteristici.
În exemplul considerat 31, au fost analizate doar 7 valori ale ambelor caracteristici, ceea ce, desigur, nu este suficient pentru astfel de studii. Reamintim aici din nou că exemplele, din această carte în general și din acest capitol în special, sunt de natura metodelor ilustrative și nu sunt o prezentare detaliată a unor experimente științifice. Ca urmare, sunt luate în considerare un număr mic de valori ale caracteristicilor, măsurătorile sunt rotunjite - toate acestea se fac pentru a nu ascunde ideea metodei cu calcule greoaie.
O atenție deosebită trebuie acordată esenței relației luate în considerare. Coeficientul de corelație nu poate conduce la rezultate corecte ale studiului dacă analiza relației dintre trăsături se realizează în mod formal. Să revenim la exemplul 31. Ambele semne luate în considerare au fost valorile forței musculare a mâinii drepte și stângi. Să ne imaginăm că prin caracteristica x i din exemplul 31 (14,0; 14,2; 14,9... ...18,1) înțelegem lungimea peștelui prins aleatoriu în centimetri și prin caracteristica y i (12,1 ; 13,8; 14,2 ... ... 17.4) - greutatea instrumentelor din laborator în kilograme. Formal, folosind aparatul de calcule pentru a afla coeficientul de corelatie si in acest caz si obtinand r xy =+0>9, ar fi trebuit sa concluzionam ca exista o relatie stransa de natura directa intre lungimea pestelui si greutatea instrumentele. Absurditatea unei astfel de concluzii este evidentă.
Pentru a evita o abordare formală a utilizării coeficientului de corelație, ar trebui să se folosească orice altă metodă - matematică, logică, experimentală, teoretică - pentru a identifica posibilitatea unei corelații între semne, adică pentru a detecta unitatea organică a semnelor. Abia atunci se poate începe să se folosească analiza corelației și să se stabilească amploarea și natura relației.
În statistica matematică există și conceptul corelație multiplă- Relații între trei sau mai multe caracteristici. În aceste cazuri, se utilizează un coeficient de corelație multiplă, constând din coeficienții de corelație perechi descriși mai sus.
De exemplu, coeficientul de corelație a trei semne - x і , y і , z і - este:
unde R xyz -coeficient de corelație multiplu care exprimă modul în care caracteristica x i depinde de caracteristicile y i și z i ;
r xy -coeficientul de corelație între caracteristicile x i și y i ;
r xz - coeficientul de corelație între caracteristicile Xi și Zi;
r yz - coeficient de corelație între caracteristicile y i , z i
Analiza corelației este:
Analiza corelațieiCorelație- relația statistică a două sau mai multe variabile aleatoare (sau variabile care pot fi considerate ca atare cu un grad acceptabil de acuratețe). În același timp, modificările uneia sau mai multor dintre aceste cantități conduc la o modificare sistematică a celeilalte sau a altor cantități. Coeficientul de corelație servește ca măsură matematică a corelației a două variabile aleatoare.
Corelația poate fi pozitivă și negativă (de asemenea, este posibil să nu existe o relație statistică - de exemplu, pentru variabile aleatoare independente). corelație negativă - corelația, în care o creștere a unei variabile este asociată cu o scădere a unei alte variabile, în timp ce coeficientul de corelație este negativ. corelație pozitivă - o corelație în care o creștere a unei variabile este asociată cu o creștere a unei alte variabile, în timp ce coeficientul de corelație este pozitiv.
autocorelare - relație statistică între variabile aleatoare din aceeași serie, dar luate cu o schimbare, de exemplu, pentru un proces aleator - cu o schimbare în timp.
Metoda de prelucrare a datelor statistice, care constă în studierea coeficienților (corelațiilor) dintre variabile, se numește analiza corelației.
Coeficient de corelație
Coeficient de corelație sau coeficient de corelație de perecheîn teoria probabilității și statistică, acesta este un indicator al naturii modificării a două variabile aleatoare. Coeficientul de corelație este notat cu litera latină R și poate lua valori între -1 și +1. Dacă valoarea modulo este mai aproape de 1, atunci aceasta înseamnă prezența unei conexiuni puternice (cu un coeficient de corelație egal cu unu, se vorbește despre o conexiune funcțională), iar dacă este mai aproape de 0, atunci una slabă.
Coeficientul de corelație Pearson
Pentru mărimile metrice se folosește coeficientul de corelație Pearson, a cărui formulă exactă a fost introdusă de Francis Galton:
Lăsa X,Y- două variabile aleatoare definite pe același spațiu de probabilitate. Atunci coeficientul lor de corelare este dat de formula:
![](https://i0.wp.com/i.zna4enie.ru/1/znachenie-kojefficienta-korreljacii_10.png)
![](https://i1.wp.com/i.zna4enie.ru/1/znachenie-kojefficienta-korreljacii_10.png)
unde cov este covarianța și D este varianța sau echivalent,
,unde simbolul denotă așteptarea matematică.
Pentru a reprezenta grafic o astfel de relație, puteți utiliza un sistem de coordonate dreptunghiular cu axe care corespund ambelor variabile. Fiecare pereche de valori este marcată cu un simbol specific. Un astfel de complot se numește „scatterplot”.
Metoda de calcul a coeficientului de corelație depinde de tipul de scară la care se referă variabilele. Deci, pentru măsurarea variabilelor cu intervale și scale cantitative, este necesar să se utilizeze coeficientul de corelație Pearson (corelația momentelor produsului). Dacă cel puțin una dintre cele două variabile are o scară ordinală sau nu este distribuită normal, trebuie utilizată corelația de rang a lui Spearman sau τ (tau) a lui Kendal. În cazul în care una dintre cele două variabile este dihotomică, se utilizează o corelație punctuală cu două serii, iar dacă ambele variabile sunt dihotomice, se utilizează o corelație cu patru câmpuri. Calculul coeficientului de corelație dintre două variabile nedihotomice are sens numai dacă relația dintre ele este liniară (unidirecțională).
Coeficientul de corelație Kendell
Folosit pentru a măsura dezordinea reciprocă.
Coeficientul de corelație al lui Spearman
Proprietățile coeficientului de corelație
- Inegalitatea Cauchy - Bunyakovsky:
![](https://i1.wp.com/i.zna4enie.ru/a/znachenie-kojefficienta-korreljacii_14.png)
![](https://i1.wp.com/i.zna4enie.ru/a/znachenie-kojefficienta-korreljacii_14.png)
Analiza corelației
Analiza corelației- metoda de prelucrare a datelor statistice, care consta in studierea coeficientilor ( corelații) între variabile. În acest caz, coeficienții de corelație dintre o pereche sau mai multe perechi de caracteristici sunt comparați pentru a stabili relații statistice între ele.
Ţintă analiza corelației- furnizați câteva informații despre o variabilă cu ajutorul altei variabile. În cazurile în care este posibilă atingerea scopului, spunem că variabilele corela. În forma sa cea mai generală, adoptarea ipotezei prezenței unei corelații înseamnă că o modificare a valorii variabilei A va avea loc concomitent cu o modificare proporțională a valorii lui B: dacă ambele variabile cresc, atunci corelația este pozitivă dacă o variabilă crește și cealaltă scade, corelația este negativă.
Corelația reflectă doar dependența liniară a cantităților, dar nu reflectă conectivitatea lor funcțională. De exemplu, dacă calculăm coeficientul de corelație dintre valori A = sin(X) și B = cos(X), atunci va fi aproape de zero, adică nu există nicio dependență între cantități. Între timp, mărimile A și B sunt în mod evident legate funcțional conform legii sin 2(X) + cos 2(X) = 1.
Limitele analizei corelațiilor
![](https://i1.wp.com/i.zna4enie.ru/d/znachenie-kojefficienta-korreljacii_22.png)
![](https://i0.wp.com/i.zna4enie.ru/d/znachenie-kojefficienta-korreljacii_22.png)
- Aplicarea este posibilă dacă există un număr suficient de cazuri de studiat: pentru un anumit tip de coeficient de corelație, acesta variază de la 25 la 100 de perechi de observații.
- A doua limitare rezultă din ipoteza analizei corelației, care include dependența liniară a variabilelor. În multe cazuri, când se știe în mod fiabil că dependența există, analiza corelației poate să nu dea rezultate pur și simplu pentru că dependența este neliniară (exprimată, de exemplu, ca o parabolă).
- Prin el însuși, faptul corelației nu oferă motive pentru a afirma care dintre variabile precede sau provoacă modificări sau că variabilele sunt în general legate între ele cauzal, de exemplu, datorită acțiunii unui al treilea factor.
Zona de aplicare
Această metodă de prelucrare a datelor statistice este foarte populară în științe economice și sociale (în special, în psihologie și sociologie), deși sfera de aplicare a coeficienților de corelare este extins: controlul calității produselor industriale, metalurgie, chimie agricolă, hidrobiologie, biometrie, si altii.
Popularitatea metodei se datorează a două puncte: coeficienții de corelație sunt relativ ușor de calculat, aplicarea lor nu necesită pregătire matematică specială. Combinată cu ușurința de interpretare, ușurința de aplicare a coeficientului a condus la utilizarea pe scară largă a acestuia în domeniul analizei datelor statistice.
corelație falsă
Simplitatea adesea tentantă a unui studiu de corelare încurajează cercetătorul să tragă concluzii intuitive false despre prezența unei relații cauzale între perechi de trăsături, în timp ce coeficienții de corelație stabilesc doar relații statistice.
În metodologia cantitativă modernă a științelor sociale, de fapt, s-a renunțat la încercările de a stabili relații cauzale între variabilele observate prin metode empirice. Prin urmare, atunci când cercetătorii din științe sociale vorbesc despre stabilirea unor relații între variabilele pe care le studiază, este implicată fie o presupunere teoretică generală, fie o dependență statistică.
Vezi si
- Funcția de autocorelare
- Funcția de corelație încrucișată
- covarianta
- Coeficient de determinare
- Analiza de regresie
Fundația Wikimedia. 2010.
Diferite caracteristici pot fi legate.
Există 2 tipuri de conexiuni între ele:
- funcţional;
- corelație.
Corelație tradus în rusă - nimic mai mult decât o conexiune.
În cazul unei corelații, există o corespondență a mai multor valori ale unui atribut cu mai multe valori ale altui atribut. Ca exemple, putem lua în considerare corelațiile stabilite între:
- lungimea labelor, gâtului, ciocului la păsări precum stârci, macarale, berze;
- indicatori ai temperaturii corpului și ale ritmului cardiac.
Pentru majoritatea proceselor biomedicale, prezența acestui tip de conexiune a fost dovedită statistic.
Metodele statistice fac posibilă stabilirea faptului existenței interdependenței caracteristicilor. Utilizarea unor calcule speciale pentru aceasta duce la stabilirea coeficienților de corelație (măsuri de conectivitate).
Astfel de calcule se numesc analiza corelației. Se efectuează pentru a confirma dependența a 2 variabile (variabile aleatoare) una față de alta, care este exprimată prin coeficientul de corelație.
Folosirea metodei corelației ne permite să rezolvăm mai multe probleme:
- identificați relația dintre parametrii analizați;
- cunoaşterea prezenţei unei corelaţii permite rezolvarea problemelor de prognoză. Astfel, există o posibilitate reală de a prezice comportamentul unui parametru pe baza analizei comportamentului altui parametru corelat;
- clasificare bazată pe selecția caracteristicilor independente unele de altele.
Pentru variabile:
- raportat la scara ordinală se calculează coeficientul Spearman;
- raportat la scara intervalului – coeficientul Pearson.
Aceștia sunt parametrii cei mai des utilizați, dar există și alții.
Valoarea coeficientului poate fi exprimată atât pozitiv, cât și negativ.
În primul caz, cu o creștere a valorii unei variabile, se observă o creștere a celei de-a doua. Cu un coeficient negativ, modelul este inversat.
Pentru ce este coeficientul de corelare?
Variabilele aleatoare conectate între ele pot avea o natură complet diferită a acestei conexiuni. Nu va fi neapărat funcțional, în cazul în care există o relație directă între cantități. Cel mai adesea, ambele cantități sunt afectate de un întreg set de diverși factori, în cazurile în care sunt comune ambelor cantități, se observă formarea de modele înrudite.
Aceasta înseamnă că faptul dovedit statistic al existenței unei relații între cantități nu este o confirmare că cauza modificărilor observate a fost stabilită. De regulă, cercetătorul concluzionează că există două consecințe interdependente.
Proprietățile coeficientului de corelație
Această statistică are următoarele proprietăți:
- valoarea coeficientului variază de la -1 la +1. Cu cât este mai aproape de valorile extreme, cu atât relația pozitivă sau negativă dintre parametrii liniari este mai puternică. În cazul unei valori zero, vorbim despre absența corelației între caracteristici;
- o valoare pozitivă a coeficientului indică faptul că în cazul unei creșteri a valorii unui atribut se observă o creștere a celui de-al doilea (corelație pozitivă);
- valoare negativă - în cazul creșterii valorii unui atribut se observă o scădere a celui de-al doilea (corelație negativă);
- apropierea valorii indicatorului până la punctele extreme (fie -1, fie +1) indică prezența unei relații liniare foarte puternice;
- indicatorii de trăsătură se pot modifica cu o valoare constantă a coeficientului;
- coeficientul de corelație este o mărime adimensională;
- prezenţa unei corelaţii nu este o confirmare obligatorie a unei relaţii cauzale.
Valorile coeficientului de corelare
Puterea corelației poate fi caracterizată prin recurgerea la scara Cheldok, în care unei caracteristici calitative îi corespunde o anumită valoare numerică.
În cazul corelației pozitive la valoare:
- 0-0,3 - corelația este foarte slabă;
- 0,3-0,5 - slab;
- 0,5-0,7 - rezistență medie;
- 0,7-0,9 - mare;
- 0,9-1 - putere de corelare foarte mare.
Scala poate fi folosită și pentru corelarea negativă. În acest caz, caracteristicile calitative sunt înlocuite cu altele opuse.
Puteți utiliza scala Cheldok simplificată, în care se disting doar 3 gradații ale puterii corelației:
- foarte puternic - indicatori ± 0,7 - ± 1;
- medie - indicatori ± 0,3 - ± 0,699;
- foarte slab - indicatori 0 - ± 0,299.
Acest indicator statistic permite nu numai testarea ipotezei existenței unei relații liniare între caracteristici, ci și stabilirea puterii acesteia.
Tipuri de coeficient de corelație
Coeficienții de corelație pot fi clasificați după semn și valoare:
- pozitiv;
- nul;
- negativ.
În funcție de valorile analizate, se calculează coeficientul:
- Pearson;
- Spearman;
- Kendala;
- semne Fechner;
- concordanță sau corelație de rang multiplu.
Coeficientul de corelație Pearson este utilizat pentru a stabili legături directe între valorile absolute ale variabilelor. În acest caz, distribuțiile ambelor serii de variabile ar trebui să se apropie de normal. Variabilele comparate ar trebui să difere prin același număr de caracteristici diferite. Scara care reprezintă variabilele trebuie să fie fie o scară de interval, fie o scară de raport.
- stabilirea precisă a forței de corelație;
- compararea caracteristicilor cantitative.
Există puține dezavantaje ale utilizării coeficientului de corelație liniară al lui Pearson:
- metoda este instabilă în cazul valorilor aberante ale valorilor numerice;
- folosind această metodă, este posibil să se determine puterea corelației numai pentru o relație liniară; pentru alte tipuri de relații reciproce de variabile, ar trebui utilizate metode de analiză de regresie.
Corelația rangului este determinată de metoda Spearman, care face posibilă studierea statistică a relației dintre fenomene. Datorită acestui coeficient, se calculează gradul real de paralelism al celor două serii de trăsături exprimate cantitativ și se estimează și apropierea relației identificate.
- nu necesită o definiție exactă a valorii rezistenței de corelație;
- indicatorii comparați au valori atât cantitative, cât și atributive;
- compararea rândurilor de caracteristici cu variante deschise de valori.
Metoda lui Spearman se referă la metode de analiză neparametrică, deci nu este nevoie să verificați normalitatea distribuției caracteristicilor. În plus, vă permite să comparați indicatorii exprimați în diferite scale. De exemplu, compararea valorilor numărului de globule roșii dintr-un anumit volum de sânge (scara continuă) și evaluarea de către expert, exprimată în puncte (scara ordinală).
Eficiența metodei este afectată negativ de o diferență mare între valorile valorilor comparate. Metoda este, de asemenea, ineficientă în cazurile în care valoarea măsurată este caracterizată de o distribuție neuniformă a valorilor.
Calculul pas cu pas al coeficientului de corelare în Excel
Calculul coeficientului de corelare presupune executarea secventiala a unui numar de operatii matematice.
Formula de mai sus pentru calcularea coeficientului Pearson arată cât de laborios este acest proces dacă se face manual.
Utilizarea capabilităților Excell accelerează uneori procesul de găsire a coeficientului.
Este suficient să urmați un algoritm simplu de acțiuni:
- introducerea informațiilor de bază - o coloană de valori x și o coloană de valori y;
- în instrumente, fila Formule este selectată și deschisă;
- în fila care se deschide, selectați „Insert fx function”;
- în caseta de dialog care se deschide, este selectată funcția statistică „Correl”, care vă permite să calculați coeficientul de corelație între 2 tablouri de date;
- datele sunt introduse în fereastra care se deschide: matrice 1 - intervalul de valori al coloanei x (datele trebuie selectate), matricea 2 - intervalul de valori al coloanei y;
- este apăsată tasta „OK”, rezultatul calculării coeficientului apare în linia „valoare”;
- concluzie privind prezența unei corelații între cele 2 seturi de date și puterea acesteia.
Un model de corelație (CM) este un program de calcul care oferă o ecuație matematică în care indicatorul rezultat este cuantificat în funcție de unul sau mai mulți indicatori.
yx \u003d ao + a1x1
unde: y - indicator de performanță, în funcție de factorul x;
x - semnul factorului;
a1 - parametrul KM, care arată cât de mult se va modifica indicatorul efectiv y atunci când factorul x se modifică cu unul, dacă în același timp toți ceilalți factori care îl afectează pe y rămân neschimbați;
ao - parametrul KM, care arată influența tuturor celorlalți factori asupra indicatorului efectiv y, cu excepția semnului factor x
La alegerea indicatorilor efectivi și factori ai modelului, este necesar să se țină seama de faptul că indicatorul efectiv din lanțul relațiilor cauză-efect se află la un nivel superior indicatorilor factori.
Caracteristicile modelului de corelare
După calcularea parametrilor modelului de corelație se calculează coeficientul de corelație.
p - coeficientul de corelație al perechii, -1 ≤ p ≤ 1, arată puterea și direcția influenței indicatorului factor asupra celui efectiv. Cu cât este mai aproape de 1, cu atât relația este mai puternică, cu atât mai aproape de 0, cu atât relația este mai slabă. Dacă coeficientul de corelație este pozitiv, atunci relația este directă; dacă este negativă, este inversă.
Formula coeficientului de corelare: pxy \u003d (xy-x * 1 / y) / eh * eu
ex=xx2-(x)2; eu=y2-(y)2
Dacă CM este multifactorial liniar, având forma:
yx \u003d ao + a1x1 + a2x2 + ... + axp
apoi se calculează un coeficient de corelație multiplă pentru acesta.
0 ≤ Р ≤ 1 și arată puterea influenței tuturor indicatorilor factori luați împreună asupra celui efectiv.
P \u003d 1- ((uh-uy) 2 / (yi - usr) 2)
Unde: uh - indicator efectiv - valoare calculată;
ui - valoarea reală;
usr - valoare reală, medie.
Valoarea calculată yx este obținută ca rezultat al înlocuirii în modelul de corelație în loc de x1, x2 etc. valorile lor reale.
Pentru modelele neliniare cu un singur factor și multifactor, se calculează raportul de corelație:
1 ≤ m ≤ 1;
Se crede că relația dintre indicatorii efectivi și factorii incluși în model este slabă dacă valoarea coeficientului de apropiere a conexiunii (m) este între 0-0,3; dacă 0,3-0,7 - etanșeitatea conexiunii este medie; peste 0,7-1 - conexiunea este puternică.
Deoarece coeficientul de corelație (pereche) p, coeficientul de corelație (multiplu) P, raportul de corelație m sunt valori probabilistice, atunci se calculează pentru ele coeficienții de semnificație (determinați din tabele). Dacă acești coeficienți sunt mai mari decât valoarea lor tabelară, atunci coeficienții de apropiere a conexiunii sunt motive semnificative. Dacă coeficienții de semnificație ai etanșeității conexiunii sunt mai mici decât valorile tabelare sau dacă coeficientul de conexiune în sine este mai mic de 0,7, atunci nu toți indicatorii factorilor care afectează semnificativ rezultatul sunt incluși în model.
Coeficientul de determinare demonstrează clar procentul de indicatori factori incluși în model care determină formarea rezultatului.
Dacă coeficientul de determinare este mai mare de 50, atunci modelul descrie în mod adecvat procesul studiat, dacă este mai mic de 50, atunci este necesar să revenim la prima etapă de construcție și să revizuim selecția indicatorilor factori pentru includerea în model.
Coeficientul lui Fisher sau criteriul lui Fisher caracterizează eficacitatea modelului în ansamblu. Dacă valoarea calculată a coeficientului depășește valoarea tabelului, atunci modelul construit este potrivit pentru analiză, precum și indicatorii de planificare, calcule pentru viitor. Valoare tabelară aproximativă \u003d 1,5. Dacă valoarea calculată este mai mică decât valoarea tabelului, este necesar să construiți mai întâi modelul, inclusiv factorii care afectează semnificativ rezultatul. Pe lângă eficacitatea modelului în ansamblu, fiecare coeficient de regresie afectează materialitatea. Dacă valoarea calculată a acestui coeficient a depășit valoarea tabelară, atunci coeficientul de regresie va fi semnificativ, dacă este mai mic, atunci indicatorul factor pentru care se calculează acest coeficient este eliminat din eșantion, calculele reiau, dar fără acest factor. .
Coeficientul de corelație este gradul de asociere între două variabile. Calculul său oferă o idee dacă există o relație între două seturi de date. Spre deosebire de regresie, corelația nu permite prezicerea valorilor. Totuși, calculul coeficientului este un pas important în analiza statistică preliminară. De exemplu, am constatat că coeficientul de corelație dintre nivelul investițiilor străine directe și creșterea PIB este ridicat. Acest lucru ne dă o idee că, pentru a asigura prosperitatea, este necesar să se creeze un climat favorabil specific antreprenorilor străini. Concluzie nu atât de evidentă la prima vedere!
Corelație și cauzalitate
Poate că nu există o singură zonă de statistică care să fie atât de ferm stabilită în viața noastră. Coeficientul de corelație este utilizat în toate domeniile de cunoaștere publică. Principalul său pericol constă în faptul că de multe ori valorile sale mari sunt speculate pentru a convinge oamenii și a-i face să creadă în unele concluzii. Cu toate acestea, de fapt, o corelație puternică nu indică deloc o relație cauzală între cantități.
Coeficient de corelație: formula Pearson și Spearman
Există mai mulți indicatori principali care caracterizează relația dintre două variabile. Din punct de vedere istoric, primul este coeficientul de corelație liniară al lui Pearson. Se trece la scoala. A fost dezvoltat de K. Pearson și J. Yule pe baza lucrării pr. Galton. Acest coeficient vă permite să vedeți relația dintre numerele raționale care se schimbă rațional. Este întotdeauna mai mare decât -1 și mai mic decât 1. Un număr negativ indică o relație invers proporțională. Dacă coeficientul este zero, atunci nu există nicio relație între variabile. Egal cu un număr pozitiv - există o relație direct proporțională între cantitățile studiate. Coeficientul de corelare a rangului lui Spearman face posibilă simplificarea calculelor prin construirea unei ierarhii de valori variabile.
Relații între variabile
Corelația ajută la răspunsul la două întrebări. În primul rând, dacă relația dintre variabile este pozitivă sau negativă. În al doilea rând, cât de puternică este dependența. Analiza corelației este un instrument puternic cu ajutorul căruia puteți obține aceste informații importante. Este ușor de observat că veniturile și cheltuielile gospodăriei cresc și scad proporțional. O astfel de relație este considerată pozitivă. Dimpotrivă, atunci când prețul unui produs crește, cererea pentru acesta scade. O astfel de relație se numește negativă. Valorile coeficientului de corelație sunt între -1 și 1. Zero înseamnă că nu există nicio relație între valorile studiate. Cu cât indicatorul este mai aproape de valorile extreme, cu atât relația (negativă sau pozitivă) este mai puternică. Absența dependenței este evidențiată de un coeficient de la -0,1 la 0,1. Trebuie înțeles că o astfel de valoare indică doar absența unei relații liniare.
Caracteristicile aplicației
Utilizarea ambilor indicatori este supusă anumitor ipoteze. În primul rând, prezența unei relații puternice nu determină faptul că o valoare o determină pe cealaltă. S-ar putea să existe o a treia cantitate care să definească fiecare dintre ele. În al doilea rând, un coeficient de corelație Pearson ridicat nu indică o relație cauzală între variabilele studiate. În al treilea rând, arată o relație exclusiv liniară. Corelația poate fi utilizată pentru a evalua date cantitative semnificative (de exemplu, presiunea barometrică, temperatura aerului), mai degrabă decât categorii precum sexul sau culoarea preferată.
Coeficient de corelație multiplă
Pearson și Spearman au investigat relația dintre două variabile. Dar ce să faci dacă sunt trei sau chiar mai mulți. Aici intervine coeficientul de corelație multiplă. De exemplu, produsul național brut este afectat nu numai de investițiile străine directe, ci și de politicile monetare și fiscale ale statului, precum și de nivelul exporturilor. Rata de creștere și volumul PIB sunt rezultatul interacțiunii mai multor factori. Cu toate acestea, trebuie înțeles că modelul de corelație multiplă se bazează pe o serie de simplificări și ipoteze. În primul rând, multicoliniaritatea între cantități este exclusă. În al doilea rând, se presupune că relația dintre variabila dependentă și variabilele care o afectează este liniară.
Domenii de utilizare ale analizei de corelație și regresie
Această metodă de găsire a relației dintre cantități este utilizată pe scară largă în statistică. Cel mai adesea se recurge la aceasta în trei cazuri principale:
- Pentru testarea relațiilor cauzale dintre valorile a două variabile. Drept urmare, cercetătorul speră să găsească o relație liniară și să obțină o formulă care să descrie aceste relații între cantități. Unitățile lor de măsură pot fi diferite.
- Pentru a verifica existența unei relații între valori. În acest caz, nimeni nu stabilește care variabilă este dependentă. Se poate dovedi că valoarea ambelor cantități determină un alt factor.
- Pentru a deduce o ecuație. În acest caz, puteți pur și simplu să înlocuiți numere în el și să aflați valorile variabilei necunoscute.
Un bărbat în căutarea unei relații cauzale
Conștiința este aranjată în așa fel încât trebuie neapărat să explicăm evenimentele care au loc în jur. O persoană caută mereu o legătură între imaginea lumii în care trăiește și informațiile pe care le primește. Adesea, creierul creează ordine din haos. El poate vedea cu ușurință o relație cauzală acolo unde nu există. Oamenii de știință trebuie să învețe în mod special să depășească această tendință. Capacitatea de a evalua relațiile dintre date este obiectiv esențială într-o carieră academică.
Prejudecăți media
Luați în considerare modul în care prezența unei corelații poate fi interpretată greșit. Un grup de studenți britanici care se comportau rău au fost întrebați dacă părinții lor fumau. Apoi testul a fost publicat în ziar. Rezultatul a arătat o corelație puternică între fumatul părinților și delincvența copiilor lor. Profesorul care a realizat acest studiu a sugerat chiar să se pună un avertisment în acest sens pe pachetele de țigări. Cu toate acestea, există o serie de probleme cu această concluzie. În primul rând, corelația nu indică care dintre cantități este independentă. Prin urmare, este foarte posibil să presupunem că obiceiul pernicios al părinților este cauzat de neascultarea copiilor. În al doilea rând, este imposibil să spunem cu certitudine că ambele probleme nu au apărut din cauza unui al treilea factor. De exemplu, familiile cu venituri mici. De remarcat aspectul emoțional al concluziilor inițiale ale profesorului care a realizat studiul. Era un oponent înflăcărat al fumatului. Prin urmare, nu este de mirare că a interpretat rezultatele studiului său în acest fel.
concluzii
Interpretarea greșită a corelației ca relație cauzală între două variabile poate duce la erori de cercetare jenante. Problema este că se află chiar în miezul conștiinței umane. Multe trucuri de marketing se bazează pe această caracteristică. Înțelegerea diferenței dintre cauzalitate și corelație vă permite să analizați rațional informațiile atât în viața de zi cu zi, cât și în cariera dumneavoastră profesională.