correlatie

Wat is correlatie:

Correlatie betekent een gelijkenis of relatie tussen twee dingen, mensen of ideeën . Het is een gelijkenis of gelijkwaardigheid die bestaat tussen twee verschillende hypothesen, situaties of objecten.

Op het gebied van statistiek en wiskunde verwijst correlatie naar een maat tussen twee of meer verwante variabelen.

De term correlatie is een vrouwelijk zelfstandig naamwoord dat afkomstig is van het Latijnse correlatiōne.

De woordcorrelatie kan worden vervangen door synoniemen, zoals: relatie, vergelijking, nexus, correspondentie, analogie en verbinding.

Correlatiecoëfficiënt

In statistieken meet de Pearson-correlatiecoëfficiënt (r), die ook de productmoment-correlatiecoëfficiënt wordt genoemd, de relatie tussen twee variabelen binnen dezelfde metriekschaal.

De functie van de correlatiecoëfficiënt is het bepalen van de intensiteit van de relatie die bestaat tussen bekende sets gegevens of informatie.

De waarde van de correlatiecoëfficiënt kan variëren tussen -1 en 1 en het verkregen resultaat bepaalt of de correlatie negatief of positief is.

Om de coëfficiënt te interpreteren is het noodzakelijk om te weten dat 1 betekent dat de correlatie tussen de variabelen perfect positief is en -1 betekent dat het perfect negatief is . Als de coëfficiënt gelijk is aan 0 betekent dit dat de variabelen niet van elkaar afhankelijk zijn.

In de statistieken is er ook de Spearman-correlatiecoëfficiënt, die deze naam draagt ​​ter ere van de statisticus Charles Spearman. De functie van deze coëfficiënt is het meten van de intensiteit van de relatie tussen twee variabelen, ongeacht of deze lineair zijn of niet.

De Spearman-correlatie dient om te evalueren of de intensiteit van de relatie tussen de twee geanalyseerde variabelen kan worden gemeten door een monotone functie (wiskundige functie die de oorspronkelijke orderrelatie behoudt of omkeert).

Berekening van de Pearson-correlatiecoëfficiënt

Methode 1) Berekening van de Pearson-correlatiecoëfficiënt met behulp van covariantie en standaardafwijking.

waarin

S XY is covariantie;

S x en S y vertegenwoordigen de standaarddeviatie, respectievelijk, van de variabelen x en y.

In dit geval omvat de berekening eerst het vinden van de covariantie tussen de variabelen en de standaarddeviatie van elk van deze variabelen. Vervolgens wordt covariantie gedeeld door de vermenigvuldiging van standaarddeviaties.

Vaak biedt de verklaring al de standaarddeviaties van de variabelen of de covariantie tussen beide, gewoon door de formule toe te passen.

Methode 2) Berekening van de Pearson-correlatiecoëfficiënt met onbewerkte gegevens (zonder covariantie of standaardafwijking).

Met deze methode is de meest directe formule als volgt:

Als we aannemen dat we gegevens hebben met n = 6 waarnemingen van twee variabelen: glucoseniveau (y) en leeftijd (x), volgt de berekening de volgende stappen:

Stap 1) Construeer de tabel met de bestaande gegevens: i, x, y en voeg lege kolommen toe voor xy, x² en y²:

Stap 2: Vermenigvuldig x en y om de kolom "xy" te vullen. In regel 1 hebben we bijvoorbeeld: x1y1 = 43 × 99 = 4257.

Stap 3: Verhoog de waarden van kolom x en noteer de resultaten in kolom x². In de eerste regel hebben we bijvoorbeeld x 1 2 = 43 × 43 = 1849.

Stap 4: Doe hetzelfde als in stap 3, gebruik nu de kolom y en noteer het kwadraat van uw waarden in de kolom y². In de eerste regel hebben we bijvoorbeeld: y 1 2 = 99 × 99 = 9801.

Stap 5: Verkrijg de som van alle kolomnummers en plaats het resultaat in de kolomvoettekst. De som van de kolom Age X is bijvoorbeeld gelijk aan 43 + 21 + 25 + 42 + 57 + 59 = 247.

Stap 6: Gebruik de bovenstaande formule om de correlatiecoëfficiënt te verkrijgen:

Dus we hebben:

Spearman's correlatiecoëfficiënt

De berekening van Spearman's correlatiecoëfficiënt is enigszins anders. Hiervoor moeten we onze gegevens in de volgende tabel ordenen:

1. Na twee paar gegevens te hebben gecommuniceerd, moeten we ze in de tabel introduceren. Bijvoorbeeld:

2. In kolom "Rangorde A" zullen we de waarnemingen die zich in "Datum A" op een groeiende manier classificeren, waarbij "1" de laagste waarde in de kolom is, en (totaal aantal waarnemingen), de hoogste waarde in kolom "Datum A ". In ons voorbeeld is het:

3. We doen hetzelfde om de kolom "Rangorde B" te krijgen, nu met behulp van de waarnemingen in kolom "Gegevens B":

4. In kolom "d" plaatsen we het verschil tussen de twee ranglijsten (A - B). Hier doet het signaal er niet toe.

5. Verhoog elk van de waarden in kolom "d" en registreer in kolom d²:

6. Voeg alle gegevens uit kolom "d²" toe. Deze waarde is Σd². In ons voorbeeld Σd² = 0 + 1 + 0 + 1 = 2

7. Nu gebruiken we de formule van Spearman:

In ons geval is n gelijk aan 4, omdat we kijken naar het aantal rijen met gegevens (wat overeenkomt met het aantal waarnemingen).

8. Ten slotte vervangen we de gegevens in de vorige formule:

Lineaire regressie

Lineaire regressie is een formule die wordt gebruikt om de mogelijke waarde van een variabele (y) te schatten wanneer de waarden van andere variabelen (x) bekend zijn. De waarde van "x" is de onafhankelijke of verklarende variabele en "y" is de afhankelijke variabele of respons.

Lineaire regressie wordt gebruikt om te verifiëren hoe de waarde van "y" kan variëren als een functie van variabele "x". De regel met de waarden van de variantiecontrole wordt de lineaire regressielijn genoemd.

Als de verklarende variabele "x" één waarde heeft, wordt de regressie eenvoudige lineaire regressie genoemd .