Regressie in Excel is een manier om het statistische proces van het vergelijken van verschillende sets informatie te automatiseren om te zien hoe veranderingen in onafhankelijke variabelen veranderingen in afhankelijke variabelen beïnvloeden. Als je ooit een verband tussen twee dingen hebt willen vinden, is het gebruik van regressieanalyse in Excel een van de beste manieren om dat te doen.
Instructies in dit artikel zijn van toepassing op Excel 2019, Excel 2016, Excel 2013, Excel 2010.
Wat is de betekenis van regressie?
Regressie is een statistische modelleringsbenadering die analisten gebruiken om relaties tussen meerdere variabelen te bepalen.
Regressieanalyse begint met een enkele variabele die u probeert te analyseren en onafhankelijke variabelen die u test om te zien of ze die ene variabele beïnvloeden. De analyse kijkt naar veranderingen in de onafhankelijke variabelen en probeert die veranderingen te correleren met resulterende veranderingen in de enkele (afhankelijke) variabele.
Dit klinkt misschien als geavanceerde statistieken, maar Excel maakt deze complexe analyse voor iedereen beschikbaar.
Lineaire regressie uitvoeren in Excel
De eenvoudigste vorm van regressieanalyse is lineaire regressie. Eenvoudige lineaire regressie kijkt naar de relatie tussen slechts twee variabelen.
De volgende spreadsheet toont bijvoorbeeld gegevens met het aantal calorieën dat een persoon elke dag at en hun gewicht op die dag.
Aangezien deze spreadsheet twee gegevenskolommen bevat en de ene variabele mogelijk invloed heeft op de andere, kunt u met Excel een regressieanalyse uitvoeren op deze gegevens.
Analytics ToolPak-add-on inschakelen
Voordat u de functie voor regressieanalyse van Excel kunt gebruiken, moet u de invoegtoepassing Analysis ToolPak inschakelen in het scherm Excel-opties.
-
Selecteer in Excel het File menu en kies Options.
-
Selecteer Add-ins in het linkernavigatiemenu. Zorg er vervolgens voor dat Excel Add-ins is geselecteerd in het veld Manage.
-
Selecteer ten slotte de Go-knop.
-
In het pop-upvenster Add-ins. Schakel Analysis ToolPack in door op het vakje ervoor te klikken om een vinkje toe te voegen en selecteer OK.
Nu Analysis ToolPak is ingeschakeld, bent u klaar om regressieanalyse in Excel uit te voeren.
Eenvoudige lineaire regressie uitvoeren in Excel
Als u de spreadsheet voor gewicht en calorieën als voorbeeld gebruikt, kunt u als volgt een lineaire regressieanalyse in Excel uitvoeren.
-
Selecteer het Data menu. Selecteer vervolgens in de groep Analysis Data Analysis.
-
In het Data Analysis venster, selecteer Regression uit de lijst en klik op OK.
-
Het Invoer Y-bereik is het cellenbereik dat de afhankelijke variabele bevat. In dit voorbeeld is dat het gewicht. De Input X Range is het cellenbereik dat de onafhankelijke variabele bevat. In dit voorbeeld is dat de caloriekolom.
-
Selecteer Labels voor de koptekstcellen en selecteer vervolgens Nieuw werkblad om de resultaten naar een nieuw werkblad te sturen. Selecteer OK om Excel de analyse te laten uitvoeren en de resultaten naar een nieuw blad te sturen.
-
Bekijk het nieuwe werkblad. De analyse-uitvoer heeft een aantal waarden die u moet begrijpen om de resultaten te interpreteren.
Elk van deze nummers heeft de volgende betekenis:
- Multiple R: de correlatiecoëfficiënt. 1 duidt op een sterke correlatie tussen de twee variabelen, terwijl -1 betekent dat er een sterk negatief verband is. 0 betekent dat er geen correlatie is.
- R Square: De Bepalingscoëfficiënt, die aangeeft hoeveel punten tussen de twee variabelen op de regressielijn vallen. Statistisch gezien is dit de som van de gekwadrateerde afwijkingen van het gemiddelde.
- Aangepast R-kwadraat: een statistische waarde genaamd R-kwadraat die is aangepast voor het aantal onafhankelijke variabelen dat u hebt gekozen.
- Standaardfout: Hoe nauwkeurig de resultaten van de regressieanalyse zijn. Als deze fout klein is, zijn uw regressieresultaten nauwkeuriger.
- Observaties: Het aantal waarnemingen in uw regressiemodel.
De resterende waarden in de regressie-uitvoer geven u details over kleinere componenten in de regressieanalyse.
- df: Statistische waarde bekend als vrijheidsgraden gerelateerd aan de bronnen van variantie.
- SS: Som van kwadraten. De verhouding van de resterende kwadratensom versus de totale SS zou kleiner moeten zijn als de meeste van uw gegevens op de regressielijn passen.
- MS: Gemiddeld kwadraat van de regressiegegevens.
- F: De F-statistiek (F-test) voor nulhypothese. Dit geeft de betekenis van het regressiemodel.
- Betekenis F: statistische waarde bekend als P-waarde van F.
Tenzij je statistiek begrijpt en regressiemodellen berekent, hebben de waarden onderaan de samenvatting niet veel betekenis. De Meerdere R- en R-vierkanten zijn echter de twee belangrijkste.
Zoals je kunt zien, hebben calorieën in dit voorbeeld een sterke correlatie met het totale gewicht.
Meervoudige lineaire regressieanalyse in Excel
Om dezelfde lineaire regressie uit te voeren, maar met meerdere onafhankelijke variabelen, selecteert u het volledige bereik (meerdere kolommen en rijen) voor de Invoer X Bereik.
Als je meerdere onafhankelijke variabelen selecteert, is de kans kleiner dat je een even sterke correlatie zult vinden omdat er zoveel variabelen zijn.
Een regressieanalyse in Excel kan u echter helpen correlaties te vinden met een of meer van die variabelen waarvan u zich misschien niet realiseert dat ze bestaan, gewoon door de gegevens handmatig te bekijken.