Tänk dig att du plottar studietimmar mot provresultat för trettio elever. Punkterna bildar inget perfekt mönster, men du ser ändå en tendens: fler studietimmar, högre poäng. Regressionsanalys handlar om att kvantifiera den tendensen — att hitta den linje som bäst beskriver sambandet, och att mäta hur starkt sambandet faktiskt är.
Den linjen kallas regressionslinjen och tas fram med minsta kvadratmetoden: datorn hittar den linje som minimerar de kvadrerade avstånden från varje punkt till linjen. Du ritar den inte med linjal och ögonmått — du låter ett digitalt verktyg göra det. Korrelationskoefficienten r, som alltid ligger mellan −1 och 1, berättar sedan hur tätt punkterna ligger runt linjen. Nära 1 eller −1 är ett starkt linjärt samband; nära 0 är sambandet svagt eller obefintligt. Kvadraten r², förklaringsgraden, berättar hur stor andel av variationen i y som förklaras av x.
Det viktigaste att hålla isär är att korrelation inte är kausalitet. Att glassförsäljning korrelerar med drunkningsolyckor beror på en tredje variabel — varmt väder — inte på att glass orsakar drunkningar. Regressionsanalys kan hitta samband i data, men den kan aldrig på egen hand bevisa att något orsakar något annat.
Ur kursplanen: Begreppen regressionsanalys och korrelationskoefficient. Digitala metoder för regressionsanalys.
Det här lär du dig
- ✓Tolka ett spridningsdiagram och bedöma om ett linjärt samband finns
- ✓Förklara vad regressionslinjen representerar och hur den beräknas
- ✓Läsa av och tolka korrelationskoefficienten r och förklaringsgraden r²
- ✓Genomföra regressionsanalys med digitalt verktyg
- ✓Förklara skillnaden mellan korrelation och kausalitet med konkreta exempel
Vanliga utmaningar
Förväxlar korrelation med kausalitet
Att två variabler rör sig tillsammans säger ingenting om vad som orsakar vad — det kan finnas en tredje variabel som driver båda. Hitta ett tydligt motexempel, t.ex. att antalet storckar i ett land korrelerar med födelsetalen, och återvänd till det varje gång frågan dyker upp.
Blandar ihop r och r²
r går från −1 till 1 och visar riktning och styrka på sambandet. r² går från 0 till 1 och visar hur stor andel av variationen som förklaras av regressionslinjen. Negativ r är möjlig; negativ r² är det inte. Skriv upp det separat och lär dig dem var för sig.
Ritar regressionslinjen för hand fel
En regressionslinje går inte genom så många punkter som möjligt — den minimerar de kvadrerade avstånden till alla punkter. Dra den aldrig med linjal. Låt alltid räknaren eller GeoGebra beräkna den och kontrollera sedan att linjen ser rimlig ut.
Matte i vardagen
TikTok analyserar sambandet mellan en videos längd och antalet visningar för miljontals klipp.
Med regressionsanalys och korrelationskoefficienten kan algoritmteamet avgöra om sambandet är starkt nog att använda som styrsignal, eller om det egentligen är en tredje variabel — innehållskategori, tid på dygnet — som förklarar variationen.
En fitness-app förutsäger din framtida viktutveckling baserat på de senaste veckors mätningar.
Regressionslinjen genom tidigare vikter ger en prognos framåt. Ju starkare r², desto mer tillförlitlig är förutsägelsen — men appen kan aldrig hävda att träningsvanorna orsakar viktnedgången, bara att de korrelerar.
Tips
- 💡Jämför ett spridningsdiagram med r ≈ 0,95 och ett med r ≈ 0,3 sida vid sida. Det tar tre minuter och ger en omedelbar visuell känsla för vad korrelationskoefficienten faktiskt mäter.
- 💡Träna distinktionen korrelation/kausalitet med klassiska exempelpar: glass och drunkningar, storckar och födslar. Hitta alltid den tredje variabeln som förklarar sambandet.
- 💡Gör en regressionsanalys i GeoGebra eller ett kalkylblad med data du faktiskt bryr dig om — träningsresultat, spelpoäng, klassresultat. Metoden fastnar bättre med verklig data.
Exempeluppgifter
- Vad betyder ett r-värde på noll?
- Två variabler har ett perfekt linjärt samband där den ena minskar när den andra ökar. Vad är värdet på $r$?
- Tabellen nedan visar sambandet mellan poäng i matematikdelen av SAT-testet och betygsmedelvärden (GPA) från gymnasiet. Använd metoden med median-median-linjen för att bestämma ekvationen för den linje som bäst passar datan. x (SAT-poäng i matematik) y (GPA) 624 90 544 86 363 70 373 71 350 65 741 98 262 60 587 87 327 62 364 67 261 50
Testa dina kunskaper
Gör en gratis diagnos och se exakt var du behöver träna mer inom begreppen regressionsanalys och.