Regression vs Correlation
I statistik er det vigtigt at bestemme forholdet mellem to stokastiske variable. Det giver mulighed for at lave forudsigelser om en variabel i forhold til andre. Regressionsanalyse og korrelation anvendes i vejrudsigter, finansmarkedsadfærd, etablering af fysiske relationer ved eksperimenter og i meget mere virkelige scenarier.
Hvad er regression?
Regression er en statistisk metode, der bruges til at tegne sammenhængen mellem to variable. Når data indsamles, kan der ofte være variabler, som er afhængige af andre. Den nøjagtige sammenhæng mellem disse variable kan kun fastslås ved hjælp af regressionsmetoderne. Bestemmelse af denne sammenhæng hjælper med at forstå og forudsige adfærden af en variabel til den anden.
Den mest almindelige anvendelse af regressionsanalysen er at estimere værdien af den afhængige variabel for en given værdi eller række af værdier for de uafhængige variable. For eksempel kan vi ved hjælp af regression etablere sammenhængen mellem vareprisen og forbruget, baseret på data indsamlet fra en tilfældig stikprøve. Regressionsanalyse producerer regressionsfunktionen af et datasæt, som er en matematisk model, der bedst passer til de tilgængelige data. Dette kan nemt repræsenteres af et scatter plot. Grafisk svarer regression til at finde den bedste tilpasningskurve for det givne datasæt. Kurvens funktion er regressionsfunktionen. Ved hjælp af den matematiske model kan efterspørgslen efter en vare forudsiges for en given pris.
Regressionsanalysen er derfor meget brugt til forudsigelse og prognose. Det bruges også til at etablere relationer i eksperimentelle data inden for fysik, kemi og mange naturvidenskabelige og tekniske discipliner. Hvis forholdet eller regressionsfunktionen er en lineær funktion, er processen kendt som en lineær regression. I spredningsplottet kan det repræsenteres som en ret linje. Hvis funktionen ikke er en lineær kombination af parametrene, er regressionen ikke-lineær.
Hvad er korrelation?
Korrelation er et mål for styrken af forholdet mellem to variable. Korrelationskoefficienten kvantificerer graden af ændring i en variabel baseret på ændringen i den anden variabel. I statistik er korrelation forbundet med begrebet afhængighed, som er den statistiske sammenhæng mellem to variable.
Pearsons korrelationskoefficient eller bare korrelationskoefficienten r er en værdi mellem -1 og 1 (-1≤r≤+1). Det er den mest almindeligt anvendte korrelationskoefficient og kun gyldig for et lineært forhold mellem variablerne. Hvis r=0, eksisterer der ingen sammenhæng, og hvis r≥0, er sammenhængen direkte proportional; dvs. værdien af en variabel stiger med stigningen af den anden. Hvis r≤0, er forholdet omvendt proportional; dvs. én variabel falder, efterhånden som den anden stiger.
På grund af linearitetsbetingelsen kan korrelationskoefficienten r også bruges til at fastslå tilstedeværelsen af en lineær sammenhæng mellem variablerne.
Hvad er forskellen mellem regression og korrelation?
Regression giver formen af sammenhængen mellem to stokastiske variable, og korrelationen giver styrkegraden af sammenhængen.
Regressionsanalyse producerer en regressionsfunktion, som hjælper med at ekstrapolere og forudsige resultater, mens korrelation muligvis kun giver information om, hvilken retning den kan ændre sig.
De mere nøjagtige lineære regressionsmodeller er givet af analysen, hvis korrelationskoefficienten er højere. (|r|≥0,8)