Hoe een T-test te doen in Excel

Inhoudsopgave:

Hoe een T-test te doen in Excel
Hoe een T-test te doen in Excel
Anonim

Een T-test is een manier om te bepalen of er statistisch significante verschillen zijn tussen datasets, met behulp van de t-verdeling van een student. De T-Test in Excel is een T-test met twee steekproeven die de gemiddelden van twee steekproeven vergelijkt. Dit artikel legt uit wat statistische significantie betekent en laat zien hoe je een T-Test in Excel doet.

Instructies in dit artikel zijn van toepassing op Excel 2019, 2016, 2013, 2010, 2007; Excel voor Microsoft 365 en Excel Online.

Image
Image

Wat is statistische significantie?

Stel je voor dat je wilt weten welke van de twee dobbelstenen een betere score zal geven. Je gooit de eerste dobbelsteen en krijgt een 2; je gooit de tweede dobbelsteen en krijgt een 6. Betekent dit dat de tweede dobbelsteen meestal hogere scores geeft? Als u antwoordde: "Natuurlijk niet", dan heeft u al enig begrip van statistische significantie. Je begrijpt dat het verschil te wijten was aan de willekeurige verandering in de score, elke keer dat er met een dobbelsteen wordt gegooid. Omdat het monster erg klein was (slechts één rol), liet het niets significants zien.

Stel je nu voor dat je elke dobbelsteen 6 keer gooit:

  • De eerste dobbelsteen gooit 3, 6, 6, 4, 3, 3; Gemiddelde=4.17
  • De tweede dobbelsteen gooit 5, 6, 2, 5, 2, 4; Gemiddelde=4.00

Bewijst dit nu dat de eerste dobbelsteen hogere scores geeft dan de tweede? Waarschijnlijk niet. Een kleine steekproef met een relatief klein verschil tussen de gemiddelden maakt het waarschijnlijk dat het verschil nog steeds te wijten is aan willekeurige variaties. Naarmate we het aantal dobbelstenen verhogen, wordt het moeilijk om een gezond verstand antwoord te geven op de vraag - is het verschil tussen de scores het resultaat van willekeurige variatie of is de kans groter dat de een hogere scores geeft dan de andere?

Betekenis is de kans dat een waargenomen verschil tussen steekproeven het gevolg is van willekeurige variaties. Significantie wordt vaak het alfaniveau genoemd of gewoon 'α'. Het betrouwbaarheidsniveau, of gewoon 'c', is de kans dat het verschil tussen de steekproeven niet te wijten is aan willekeurige variatie; met andere woorden, dat er een verschil is tussen de onderliggende populaties. Daarom: c=1 – α

We kunnen 'α' instellen op elk niveau dat we willen, om er zeker van te zijn dat we het belang hebben bewezen. Heel vaak wordt α=5% gebruikt (95% betrouwbaarheid), maar als we echt zeker willen zijn dat eventuele verschillen niet worden veroorzaakt door willekeurige variatie, kunnen we een hoger betrouwbaarheidsniveau toepassen, met α=1% of zelfs α=0.1 %.

Er worden verschillende statistische tests gebruikt om de significantie in verschillende situaties te berekenen. T-tests worden gebruikt om te bepalen of de gemiddelden van twee populaties verschillend zijn en F-tests worden gebruikt om te bepalen of de varianties verschillend zijn.

Waarom testen op statistische significantie?

Bij het vergelijken van verschillende dingen, moeten we significantietests gebruiken om te bepalen of de ene beter is dan de andere. Dit geldt voor veel velden, bijvoorbeeld:

  • In het bedrijfsleven moeten mensen verschillende producten en marketingmethoden vergelijken.
  • In de sport moeten mensen verschillende uitrustingen, technieken en concurrenten met elkaar vergelijken.
  • In de techniek moeten mensen verschillende ontwerpen en parameterinstellingen met elkaar vergelijken.

Als je wilt testen of iets beter presteert dan iets anders, op welk gebied dan ook, moet je testen op statistische significantie.

Wat is de T-verdeling van een student?

De t-verdeling van een student is vergelijkbaar met een normale (of Gauss-) verdeling. Dit zijn beide klokvormige verdelingen met de meeste resultaten dicht bij het gemiddelde, maar sommige zeldzame gebeurtenissen liggen vrij ver van het gemiddelde in beide richtingen, de staarten van de verdeling genoemd.

De exacte vorm van de Student's t-verdeling hangt af van de steekproefomvang. Voor steekproeven van meer dan 30 lijkt het erg op de normale verdeling. Naarmate de steekproefomvang kleiner wordt, worden de staarten groter, wat de toegenomen onzekerheid vertegenwoordigt die voortkomt uit het maken van gevolgtrekkingen op basis van een kleine steekproef.

Een T-Test doen in Excel

Voordat u een T-Test kunt toepassen om te bepalen of er een statistisch significant verschil is tussen de gemiddelden van twee steekproeven, moet u eerst een F-Test uitvoeren. Dit komt omdat er verschillende berekeningen worden uitgevoerd voor de T-Test, afhankelijk van of er een significant verschil is tussen de varianties.

Je hebt de Analysis Toolpak-invoegtoepassing nodig om deze analyse uit te voeren.

De Analysis Toolpak-invoegtoepassing controleren en laden

Volg deze stappen om het Analyse Toolpak te controleren en te activeren:

  1. Selecteer de FILE tab >select Options.
  2. Selecteer in het dialoogvenster Opties Add-Ins op de tabbladen aan de linkerkant.
  3. Selecteer onder in het venster het vervolgkeuzemenu Beheren en selecteer vervolgens Excel-invoegtoepassingen. Selecteer Ga.

    Image
    Image
  4. Zorg ervoor dat het selectievakje naast Analysis Toolpak is aangevinkt en selecteer vervolgens OK.
  5. De Analyse Toolpak is nu actief en u bent klaar om F-Tests en T-Tests toe te passen.

Een F-Test en een T-Test uitvoeren in Excel

  1. Voer twee datasets in een spreadsheet in. In dit geval beschouwen we de verkoop van twee producten gedurende een week. De gemiddelde dagelijkse verkoopwaarde voor elk product wordt ook berekend, samen met de standaarddeviatie.

    Image
    Image
  2. Selecteer het Data tabblad > Gegevensanalyse

    Image
    Image
  3. Selecteer F-Test Two-Sample for Variances uit de lijst en selecteer vervolgens OK.

    Image
    Image

    De F-Test is zeer gevoelig voor niet-normaliteit. Het kan daarom veiliger zijn om een Welch-test te gebruiken, maar dit is moeilijker in Excel.

  4. Selecteer het bereik van variabele 1 en bereik van variabele 2; stel de Alpha in (0,05 geeft 95% betrouwbaarheid); selecteer een cel voor de linkerbovenhoek van de uitvoer, aangezien dit 3 kolommen en 10 rijen zal vullen. Selecteer OK.

    Image
    Image

    Voor het bereik voor variabele 1 moet de steekproef met de grootste standaarddeviatie (of variantie) worden geselecteerd.

  5. Bekijk de F-Test-resultaten om te bepalen of er een significant verschil is tussen de varianties. De resultaten geven drie belangrijke waarden:

    • F: De verhouding tussen de varianties.
    • P(F<=f) eenzijdig: De kans dat variabele 1 eigenlijk geen grotere variantie heeft dan variabele 2. Als deze groter is dan alfa, wat is over het algemeen 0,05, dan is er geen significant verschil tussen de varianties.
    • F Kritieke eenzijdige: De waarde van F die nodig zou zijn om P(F<=f)=α te geven. Als deze waarde groter is dan F, geeft dit ook aan dat er geen significant verschil is tussen de varianties.

    P(F<=f) kan ook worden berekend met behulp van de FDIST-functie met F en de vrijheidsgraden voor elk monster als invoer. Vrijheidsgraden is simpelweg het aantal waarnemingen in een steekproef minus één.

  6. Nu je weet of er een verschil is tussen de varianties, kun je de juiste T-Test selecteren. Selecteer het tabblad Data > Data Analysis en selecteer vervolgens ofwel t-Test: Two-Sample Assuming Equal Variancesof t-Test: twee steekproeven, uitgaande van ongelijke varianties

    Image
    Image
  7. Ongeacht welke optie je in de vorige stap hebt gekozen, je krijgt hetzelfde dialoogvenster te zien om de details van de analyse in te voeren. Selecteer om te beginnen de bereiken die de samples bevatten voor Variabele 1 bereik en Variabele 2 bereik.

    Image
    Image
  8. Ervan uitgaande dat u wilt testen op geen verschil tussen de gemiddelden, stelt u het Hypothese Mean Difference in op nul.
  9. Stel het significantieniveau Alpha in (0,05 geeft 95% betrouwbaarheid) en selecteer een cel voor de linkerbovenhoek van de uitvoer, aangezien dit 3 kolommen en 14 rijen zal vullen. Selecteer OK.
  10. Bekijk de resultaten om te beslissen of er een significant verschil is tussen de gemiddelden.

    Net als bij de F-Test, als de p-waarde, in dit geval P(T<=t), groter is dan alfa, is er geen significant verschil. In dit geval worden er echter twee p-waarden gegeven, één voor een eenzijdige toets en de andere voor een tweezijdige toets. Gebruik in dit geval de tweezijdige waarde, aangezien elke variabele met een groter gemiddelde een significant verschil zou zijn.

Aanbevolen: