Van het construeren van een betrouwbaarheidsinterval voor een punt voorspeller tot het testen van hypothesen, statistiek kan een complexe discipline zijn om te beginnen te ontrafelen. Deze gids zal je helpen om het brede gebied van gegevensanalyse te begrijpen door je door de basisprincipes van de oorsprong en samenstelling te leiden.

De beste beschikbare leraren Statistiek
Werner
5
5 (13 beoordelingen)
Werner
€35
/u
Gift icon
1e les gratis!
Mehdi
4,7
4,7 (11 beoordelingen)
Mehdi
€35
/u
Gift icon
1e les gratis!
Fien
4,9
4,9 (14 beoordelingen)
Fien
€40
/u
Gift icon
1e les gratis!
Simon
4,8
4,8 (14 beoordelingen)
Simon
€45
/u
Gift icon
1e les gratis!
Florijn
4,9
4,9 (12 beoordelingen)
Florijn
€50
/u
Gift icon
1e les gratis!
Seppe
4,9
4,9 (6 beoordelingen)
Seppe
€35
/u
Gift icon
1e les gratis!
Jan
4,9
4,9 (9 beoordelingen)
Jan
€35
/u
Gift icon
1e les gratis!
Zelal
5
5 (13 beoordelingen)
Zelal
€25
/u
Gift icon
1e les gratis!
Werner
5
5 (13 beoordelingen)
Werner
€35
/u
Gift icon
1e les gratis!
Mehdi
4,7
4,7 (11 beoordelingen)
Mehdi
€35
/u
Gift icon
1e les gratis!
Fien
4,9
4,9 (14 beoordelingen)
Fien
€40
/u
Gift icon
1e les gratis!
Simon
4,8
4,8 (14 beoordelingen)
Simon
€45
/u
Gift icon
1e les gratis!
Florijn
4,9
4,9 (12 beoordelingen)
Florijn
€50
/u
Gift icon
1e les gratis!
Seppe
4,9
4,9 (6 beoordelingen)
Seppe
€35
/u
Gift icon
1e les gratis!
Jan
4,9
4,9 (9 beoordelingen)
Jan
€35
/u
Gift icon
1e les gratis!
Zelal
5
5 (13 beoordelingen)
Zelal
€25
/u
Gift icon
1e les gratis!
Daar gaan we

De Basis van Statistieke Vaardigheden

Om een begin te maken met het beantwoorden van deze vraag, moet men zich afvragen: wat is de waarde van gegevens? Hoewel juist deze vraag iets is wat moderne beleidsmakers met uiterste zorgvuldigheid moeten onderzoeken, is het onderzoeken van de waarde van data niet uitsluitend een modern fenomeen. We kennen allemaal de beelden van data-analyse uit de jaren '90, de Matrix is een uitstekend voorbeeld.

Man werkt aan statistiek op zijn computer
Steeds meer bedrijven werken uitgebreid met statistiek ? Bron: Unsplash

Vandaag de dag zijn statistische gegevens en de statistische software om ze te analyseren beschikbaar voor iedereen met toegang tot internet. Van de algoritmen die je datingprofiel het best matchen met een ander profiel tot de manier waarop winkels bepalen welke artikelen ze in de uitverkoop doen - gegevens zijn alomtegenwoordig in ons moderne leven.

Statistische analyse bestaat echter al eeuwen. Vroege statistici maakten optimaal gebruik van de statistische methoden die zij tot hun beschikking hadden om categorische en kwantitatieve gegevens te verzamelen, te sorteren en te registreren.

Hoewel de taak van de statisticus niet de inferentiële instrumenten van de Bayesiaanse statistiek omvatte, zijn de basisprincipes door de eeuwen heen dezelfde gebleven: gegevens verzamelen, analyseren en interpreteren om beter geïnformeerde beslissingen te kunnen nemen. Terwijl we ons tegenwoordig bezighouden met concepten in methodologie en analyse zoals steekproefgrootte, ruwe gegevens of effectgrootte, is het verzamelen van demografische en economische gegevens door de geschiedenis heen vooral geïnteresseerd geweest in het onderzoeken van de bewegingen van de economie, de bevolking en de landbouw.

Hoewel er meer complete versies van de historische evolutie van de statistiek bestaan, kan de basis van de statistiek worden onderverdeeld in drie basisfasen.

De eerste betrof het verzamelen van tellings- en waarnemingsgegevens om de sanitaire en economische omstandigheden te verbeteren. De tweede, die na de Tweede Wereldoorlog intensief werd toegepast, was het registreren van demografische en economische gegevens in overheidsdatabanken. De derde strekt zich uit tot de dag van vandaag, omvat de revoluties in de statistische gevolgtrekkingen die door de technologische vooruitgang tot stand zijn gebracht.

Bibliotheek met boeken over statistiek
In de bieb kun je er veel over leren ? Bron: Unsplash

Op gebieden als de biostatistiek heeft de verbetering van de methoden voor gegevensanalyse de levensstandaard over de hele wereld veranderd. Vandaag is de statistiek diep verweven met het gebied van de gegevenswetenschap. Statistische modellen zijn uitgegroeid tot modellen die worden gebruikt in AI of machinaal leren, die vaak helpen om conclusies te trekken uit niet-numerieke gegevens. Taken zoals het voorspellen of automatische randomisering kunnen tegenwoordig veel sneller worden uitgevoerd dankzij de uitvinding van statistische en analytische software. Enkele van de meest voorkomende talen of programma's die je waarschijnlijk zult tegenkomen op het gebied van statistiek en data science zijn R, Stata, SPSS, Python, C, en SQL.

Dit is wat Beschrijvende Statistiek inhoudt

Of je nu een histogram hebt gemaakt voor een wetenschappelijk project of regelmatig datavisualisatietools gebruikt op het werk, je hebt deelgenomen aan een van de belangrijkste takken in het vakgebied van de statistiek: de beschrijvende statistiek.

Deze eerste tak is opgesplitst in twee hoofdtakken en houdt zich bezig met gegevens na de gegevensverzameling en streeft ernaar statistische technieken te gebruiken om de samenstelling van de gegevensverzameling te begrijpen. Beschrijvende statistieken vormen vaak het eerste deel van elke studieopzet en geven vitale inzichten in de kwalitatieve of kwantitatieve gegevens die worden onderzocht. Of de gegevens nu ordinaal, categorisch of numeriek zijn, er zijn twee categorieën waartoe beschrijvende statistieken kunnen behoren: metingen van centrale tendens of van variabiliteit.

Maatstaven van centrale tendens worden gebruikt wanneer iemand wil begrijpen hoe het gemiddelde eruitziet voor een of meer meeteenheden. Deze metingen omvatten aspecten zoals het steekproefgemiddelde, de mediaan en de modus. Deze drie lijken op elkaar, maar zijn in verschillende omstandigheden geschikt, afhankelijk van de vraag of de gegevens een groot aantal uitschieters bevatten of niet. Zelfs de meest ervaren datawetenschappers zijn niet in staat iets te interpreteren over hun datasets voordat ze voorlopige beschrijvende, statistische analyses hebben uitgevoerd.

Maatstaven van variabiliteit daarentegen omvatten kenmerken zoals standaardafwijking, covariantie of de varianties. Deze worden gebruikt wanneer iemand de spreiding van de gegevens wil kennen, die aangeeft hoe ver de gegevens rond het centrum, of het gemiddelde, zijn verspreid. Dit kan uiterst nuttig zijn om te begrijpen welk percentage van uw gegevens onder een bepaald bereik valt. Toegepast op financiële statistieken kan de standaardafwijking ook worden gezien als de volatiliteit van een bepaalde gegevensreeks.

Beschrijvende statistieken zijn meestal alleen bedoeld voor univariate analyse, dat wil zeggen het analyseren van één variabele. Hoewel dit een manier is om de samenstelling van zaken als inkomen of verkoop te begrijpen, kan het ook nuttig zijn bij het vergelijken van de samenstelling van meerdere variabelen.

Als een klein bedrijf bijvoorbeeld wil profiteren van de verkoopgegevens die het heeft voor een bepaald evenement, kan het beschrijvende statistieken gebruiken om te bepalen welk percentage van zijn klanten ouder of jonger is dan een bepaalde leeftijd. Beschrijvende statistieken vormen de overgrote meerderheid van de statistieken die door particulieren, bedrijven en overheden worden gebruikt.

Statistieken over een bedrijf op een computerscherm
Wat zijn dit voor grafieken? ? Bron: Unsplash

Hoewel het voorspellen van toekomstige gebeurtenissen uiterst belangrijk is, hebben veel mensen alleen maatregelen van centrale tendens en variabiliteit nodig om zinvolle informatie voor hun besluitvorming te verkrijgen. Enkele van de krachtigste maatstaven en opgenomen in beschrijvende statistieken zijn:

  • Correlatiecoëfficiënt
  • Eenvoudige visualisatie van gegevens
  • Verdelingen (binomiaal, normaal, Laplace, enz.)

Wat zijn Inferential Statistics?

De volgende tak van de discipline combineert waarschijnlijkheid en statistiek om niet alleen te begrijpen wat er in de gegevens zit, maar om die gegevens ook te gebruiken om voorspellingen te doen. Dit type statistische analyse, inferentiële statistiek genoemd, is typisch gebaseerd op de waarschijnlijkheidsrekening en een waarschijnlijkheidsverdeling om een multivariate, of meervariabele, analyse uit te voeren. De statistische theorie in deze tak, ook wel mathematische statistiek genoemd, kan ook belangrijke verbanden binnen de gegevens blootleggen zonder gebruik te maken van waarschijnlijkheidsverdelingen met niet-parametrische modellen.

De soorten modellen die bij de meeste inferentiële, statistische gegevensanalyse worden gebruikt, zijn meestal parametrische modellen zoals algemene lineaire regressiemodellen of variantieanalyses (ANOVA). Ongeacht of het om een parametrische of niet-parametrische test gaat, moet de wiskundige of statisticus echter aan twee criteria voldoen: hij moet een reeks variabelen hebben die hij wil testen en zijn gegevens moeten aan bepaalde veronderstellingen voldoen.

Het eerste criterium is eenvoudig en betreft een proces dat wij allen begrijpen, waarbij één of meer afhankelijke variabelen worden gekozen om te trachten één of meer onafhankelijke variabelen te voorspellen.

Met het tweede criterium hebben de meeste statistici problemen, omdat de meeste gegevensreeksen niet strikt voldoen aan de meeste veronderstellingen die voor het gebruik van bepaalde modellen vereist zijn, zoals het volgen van een normale verdeling door de gegevens. De Gauss-Markov-aannames voor klassieke lineaire modellen zijn het meest bekend en zijn de sleutel tot het begrijpen van inferentiële statistiek.

Computerscherm met data
Statistiek begrijpen is niet altijd makkelijk ? Bron: Unsplash

Inferentiële statistiek onderscheidt zich ook van beschrijvende statistiek omdat het gaat om het toetsen van een nulhypothese aan een alternatieve hypothese. Met behulp van de beschikbare modellen en statistische software zoals R of SPSS kunt u schatters en voorspellingen van het gemiddelde afleiden, samen met hun betrouwbaarheidsintervallen. Als je net begint met het leren van statistiek, zijn enkele van de meest voorkomende parametrische modellen

  • Algemene lineaire modellen
  • Logistische regressie modellen

Aan de andere kant zijn enkele van de meer gebruikelijke niet-parametrische modellen onder meer

  • Clusteranalyse
  • Factoranalyse
  • Discriminerende analyse

Samen met deze modellen is ANOVA een gebruikelijke manier waarop statistici bepalen welk model nauwkeuriger kan zijn door de varianties van twee of meer modellen te vergelijken.

De Beste Middelen en Bronnen om Statistiek te Leren

Van het begrijpen van welke statistische methodologie je moet gebruiken bij categorische data-analyse tot het begrijpen hoe het concept van een willekeurige variabele de kleinste kwadraten en regressie-analyse beïnvloedt - hier zijn wat statistische tips en bronnen die je kunt volgen als je enige vorm van statistische hulp nodig hebt.

Academisch

Heb je hulp nodig bij het interpreteren van de statistische significantie van je afhankelijke variabele of wil je weten welke parametrische test je moet gebruiken voor je observationele gegevens? Een bezoek aan Stack Exchange, een statistiek forum, zal je waarschijnlijk het antwoord op je vraag geven. Als je graag bijles wilt krijgen in statistiek, kijk dan eens bij Superprof's community van talloze wiskundeleraren in Vlaanderen. Van chi-kwadraat tests tot het trekken van conclusies uit datasets, een wiskundeleraar kan je wegwijs maken in het vak.

Programmeren

Stackoverflow is een ander geweldig online forum dat je kan helpen met alles wat met coderen te maken heeft, van het opnemen van alleen bepaalde uitschieters in je experimentele opzet tot het uitvoeren van een regressieanalyse, ze zullen je helpen bij het oplossen van je coderingsproblemen.

Vond je dit artikel leuk? Laat een beoordeling achter!

5,00 (1 beoordeling(en))
Laden...

Joep Sistermanns

Enthousiaste en gedreven persoonlijkheid met oog voor detail waarbij ik dit zo goed mogelijk in mijn teksten implementeert. Ik probeer steeds een uniek invalshoek te vinden om ieder woord optimaal naar de lezer over te brengen. Passie voor talloze onderwerpen en stellig een grote liefhebber voor het fietsen!