Laten we eerlijk zijn, hoewel data science werd uitgeroepen tot de "meest sexy baan van de 21e eeuw", huiveren de meeste mensen nog steeds het woord “statistiek”. De reden waarom deze discipline in de loop der jaren zo wordt gevreesd heeft te maken met haar nauwe relatie met wiskunde.

Of je nu denkt dat je, hoe erg je het ook probeert, geen statistische analyse kunt leren of er gewoon meer over wilt weten, deze gids helpt je op weg door de belangrijkste inleidende concepten uiteen te zetten.

Centraal in de statistiek staan de vijf essentiële concepten van de statistiek, die de basis vormen voor de gegevensanalyse. De eerste vier kunnen worden behandeld zonder veel in detail te treden:

  • Gemiddelde: de gemiddelde waarde, berekend als de som van alle waarnemingen over het aantal waarnemingen
  • Mediaan: het middelpunt van de dataset, berekend door alle waarnemingen te rangschikken van minst naar hoogst en de waarde direct in het midden te nemen
  • Variantie: de algemene spreiding van de gegevens, berekend als het gemiddelde van de gekwadrateerde verschillen van het gemiddelde
  • Standaardafwijking: ook een maat voor de spreiding, berekend door de vierkantswortel uit de variantie te nemen

Net als getuigen in een detectiveroman, vertellen deze vier begrippen je het verhaal van een bepaalde set gegevens, omdat het beschrijvende statistieken zijn. Als je bijvoorbeeld om je heen kijkt naar de mensen in een restaurant, kan het heel moeilijk zijn om daar iets inhoudelijks over te zeggen, omdat je het moet doen met wat je ziet qua uiterlijk.

Stel echter dat je informatie krijgt over hun leeftijd, maandinkomen, opleidingsniveau, geslacht en muzieksmaak. De eerste twee concepten, het gemiddelde en de mediaan, zijn beide maatstaven van centrale tendens die je kunnen vertellen of je publiek vooral bestaat uit twintigers die hun studie afronden of uit rijke, oudere mensen die beleggen.

Het verschil tussen het gebruik van deze concepten hangt af van de verdeling van de variabele die je meet of, in dit voorbeeld, de mate van variabiliteit binnen de menigte. Hoe meer de menigte op elkaar lijkt, des te nauwkeuriger het gemiddelde je verhaal zal vertellen.

De variantie en de standaardafwijking zijn beide maatstaven voor de variabiliteit en kunnen je vertellen hoe verschillend elke waarneming in je gegevens is van het gemiddelde met betrekking tot een specifieke variabele.

Als je bijvoorbeeld wilt zien hoe gelijkwaardig de menigte is in termen van leeftijd, zou je kunnen beginnen met het berekenen van de gemiddelde leeftijd en, door de leeftijd van elk individu daarvan af te trekken, een getal vinden dat je vertelt hoe ver de mensen van het gemiddelde verwijderd zijn. De standaardafwijking daarentegen geeft aan hoe ver of dichtbij de gegevens rond het gemiddelde liggen, uitgaande van een normale verdeling.

De standaardafwijking is precies hetzelfde als de variantie in termen van wat het zegt over de spreiding van je gegevens - in feite wordt de standaardafwijking berekend door de vierkantswortel te nemen van de variantie. Het verschil zit hem in het feit dat de standaardafwijking de beschrijvende maat is die het gemakkelijkst te rapporteren is omdat hij in dezelfde eenheden staat als de oorspronkelijke gegevens, terwijl dat bij de variantie niet het geval is.

Weet je nog niet veel van wat parameters zijn? Of wat een nulhypothese is? Over een concept, een steekproef of waarden? Lees dan verder! Over methoden en technieken, en hoe je een systeem vol data opzet! Op deze pagina beantwoorden we je vragen.

Je kunt testen wat je tot nu toe in je cursus statistiek hebt geleerd door een aantal statistische oefenopgaven online uit te proberen!

Bijles statistiek op Superprof

Meisje doet onderzoek.
Statistiek is een belangrijk onderdeel van onderzoek | Bron: Pexels
De beste leraren Statistiek beschikbaar
Marie
Marie
15€
/u
Gift icon
1e les gratis!
Arthur
Arthur
20€
/u
Gift icon
1e les gratis!
Yuri
Yuri
15€
/u
Gift icon
1e les gratis!
Amir hosein
Amir hosein
17€
/u
Gift icon
1e les gratis!
Jana
5
5 (2 reviews)
Jana
15€
/u
Gift icon
1e les gratis!
Cédric
Cédric
15€
/u
Gift icon
1e les gratis!
Sarah
5
5 (2 reviews)
Sarah
18€
/u
Gift icon
1e les gratis!
Charlotte
Charlotte
18€
/u
Gift icon
1e les gratis!
Marie
Marie
15€
/u
Gift icon
1e les gratis!
Arthur
Arthur
20€
/u
Gift icon
1e les gratis!
Yuri
Yuri
15€
/u
Gift icon
1e les gratis!
Amir hosein
Amir hosein
17€
/u
Gift icon
1e les gratis!
Jana
5
5 (2 reviews)
Jana
15€
/u
Gift icon
1e les gratis!
Cédric
Cédric
15€
/u
Gift icon
1e les gratis!
Sarah
5
5 (2 reviews)
Sarah
18€
/u
Gift icon
1e les gratis!
Charlotte
Charlotte
18€
/u
Gift icon
1e les gratis!
Let's go

Wat is Waarschijnlijkheid?

Nu je de vier basisbegrippen onder de knie hebt, is het tijd om de vijfde en belangrijkste bouwsteen van de statistiek te bespreken: de waarschijnlijkheidstheorie. Dit is normaal het punt waarop mensen de haren uit hun hoofd trekken, terwijl waarschijnlijkheidstheorie alleen wordt gebruikt om de belangrijkste grafiek te begrijpen, die je zult leren als je net met statistiek begint:

Deze grafiek stelt een normale kansverdeling voor, waarbij de gegevens symmetrisch rond het gemiddelde zijn gerangschikt. Met andere woorden, waarschijnlijkheid wordt gebruikt om het centrale limiettheorema of CLT te begrijpen.

De CLT wordt gedefinieerd als het idee dat wanneer een oneindig aantal opeenvolgende willekeurige steekproeven wordt gedaan, de steekproefverdeling van die gemiddelden zullen het geheel op een normale verdeling doen lijken.

Met andere woorden, hoe de populatieverdeling er ook uitziet, het gemiddelde en de standaardafwijking zullen normaal worden naarmate er meer steekproeven worden getrokken, zoals in de grafiek hierboven. Begrip van kansberekening is belangrijk, want het zorgt ervoor dat zaken als de steekproefverdeling berekend kunnen worden.

Een papier met grafieken.
Hoe verwerk jij je gegevens? | Bron: Pexels

Hoe Kies je een Statistische Test?

Als je eenmaal vertrouwd bent met alle basisbegrippen van de statistiek, kan het moeilijk zijn om de volgende stap te zetten - namelijk beslissen welke test je moet gebruiken voor jouw specifieke data. Hoewel er een breed aanbod aan statistische tests en benaderingen beschikbaar is, kunnen ze worden samengevat in vier verschillende categorieën:

  • Associatie
  • Vergelijking
  • Voorspelling
  • Gegevens die geen normale verdeling volgen, of niet-parametrisch

Om te beslissen welke tests moeten worden uitgevoerd, is het allereerst van belang onderscheid te maken tussen de soorten gegevens die je hebt op basis van de variabelen die je analyseert. Variabelen kunnen schaalvariabelen of categorische variabelen zijn.

Schaalvariabelen zijn kwantitatief en vallen in twee categorieën uiteen;

  • Continu: kunnen elke waarde aannemen, zoals lengte
  • Discreet: zijn gehele getallen, zoals het aantal kinderen

Categorische variabelen zijn kwalitatief en vallen ook in twee categorieën:

  • Ordinaal: heeft een duidelijke volgorde, zoals een schaal waarop geluk van 1 tot 10 wordt beoordeeld
  • Nominaal: heeft geen betekenisvolle volgorde, zoals geslacht

Ontdek hier de online cursus statistiek.

Een scherm met grafieken
Zelfs deze simpele grafieken zijn statistiek! | Bron: Pexels

Wanneer Associatietesten Gebruiken

Dit soort tests zijn bedoeld om de relatie tussen twee variabelen te onderzoeken. Je komt hiermee het dichtst bij het kijken naar causaliteit tussen twee variabelen, bijvoorbeeld als je wilt nagaan of er een verband bestaat tussen burgerlijke staat en opleidingsniveau.

De beste leraren Statistiek beschikbaar
Marie
Marie
15€
/u
Gift icon
1e les gratis!
Arthur
Arthur
20€
/u
Gift icon
1e les gratis!
Yuri
Yuri
15€
/u
Gift icon
1e les gratis!
Amir hosein
Amir hosein
17€
/u
Gift icon
1e les gratis!
Jana
5
5 (2 reviews)
Jana
15€
/u
Gift icon
1e les gratis!
Cédric
Cédric
15€
/u
Gift icon
1e les gratis!
Sarah
5
5 (2 reviews)
Sarah
18€
/u
Gift icon
1e les gratis!
Charlotte
Charlotte
18€
/u
Gift icon
1e les gratis!
Marie
Marie
15€
/u
Gift icon
1e les gratis!
Arthur
Arthur
20€
/u
Gift icon
1e les gratis!
Yuri
Yuri
15€
/u
Gift icon
1e les gratis!
Amir hosein
Amir hosein
17€
/u
Gift icon
1e les gratis!
Jana
5
5 (2 reviews)
Jana
15€
/u
Gift icon
1e les gratis!
Cédric
Cédric
15€
/u
Gift icon
1e les gratis!
Sarah
5
5 (2 reviews)
Sarah
18€
/u
Gift icon
1e les gratis!
Charlotte
Charlotte
18€
/u
Gift icon
1e les gratis!
Let's go

Vergelijkingstests Tussen Gemiddelden

Vergelijkingstests kijken naar de verschillen tussen verschillende variabelen door te kijken naar het verschil tussen hun gemiddelden. Je wilt bijvoorbeeld zien of de plaats waar men naar school gaat invloed heeft op de resultaten van hun eindexamens.

Voorspellingstests met Behulp van Lineaire Regressie

Voorspellingstests worden gebruikt om na te gaan of een verandering in een of meer variabelen een verandering in een andere variabele tot gevolg heeft. Zo kun je bijvoorbeeld, met gegevens over geslacht, dieet en inkomen, onderzoeken of een verandering hierin leidt tot een verandering in lengte.

Tests voor Niet-Parametrische Gegevens

Deze tests moeten worden uitgevoerd wanneer de gegevens niet voldoen aan de veronderstellingen voor de andere tests. Bijvoorbeeld, wanneer de gegevens geen normale verdeling geven en sterk scheefgetrokken zijn.

Tabellen op papier.
Werken met statistiek is werken met tabellen | Bron: Pexels

Hoe Statistische Tests uit te Voeren

Er zijn verschillende aannames over de gegevens die je gebruikt die verbonden zijn met elke besproken statistische test. Om de tests te laten werken, voorspellend en nauwkeurig te laten zijn, moeten deze aannames kloppen. Omdat de veronderstellingen voor verschillende soorten tests kunnen verschillen, is het absoluut noodzakelijk ze te controleren voordat je begint met het modelleren van je gegevens.

De meest gebruikte programma's voor statistische analyse zijn:

  • Excel
  • Stata
  • SAS
  • SPSS
  • Python
  • R

Als je testen uitvoert op parametrische gegevens, zijn er vier belangrijke veronderstellingen die je gegevens moeten doorstaan. Elke test heeft zijn eigen set van veronderstellingen die vooraf gecontroleerd moeten worden.

Of je nu in het management van een bedrijf werkt en een steekproef wil doen onder werknemers om een systeem te testen, of als je zoekt naar economische voordelige technieken om je werknemers meer kennis te bieden, om zo tot meer kwaliteit en niveau binnen dat bedrijf te komen: met data kan je die allemaal beter regelen. Als je weet hoe waarden werken, hoe je met een simpele methode onder een bepaalde populatie een steekproef doet, kan je gratis kennis opdoen. Data is waardevol!

Als je wat extra hulp zoekt bij deze inleidende onderwerpen, zijn er veel online bronnen die je kunt gebruiken om je vaardigheden op te bouwen. Bijleswebsites zoals Superprof, of online cursussen van R-bloggers kunnen je helpen om aan de slag te gaan met statistiek.

Met een extra, mogelijk zelf gratis, les kan je alle vragen beantwoord krijgen die je zoekt en de kennis opdoen om je bedrijf naar een hoger niveau met meer kwaliteit te tillen. De technieken zijn er al, je hoeft alleen een boek over het management van data open te slaan, en per pagina de vragen oplossen. Je zult zien dat je alles over de beste data methode gaat begrijpen!

Je kunt vandaag nog beginnen met een cursus data science.

Leraar gegevensanalyse nodig?

>

Het platform dat privé leraren en leerlingen met elkaar verbindt

1ste les gratis

Vond je dit artikel leuk? Laat een beoordeling achter!

5,00 (1 beoordeling(en))
Laden...

Joep