Home /
Blog /
4 bekende big data-uitspraken: waar of niet waar?

4 bekende big data-uitspraken: waar of niet waar?

woensdag 11 maart 2015

big data


           

Vijf jaar geleden deed Google een opmerkelijke ontdekking. Door de correlatie tussen zoekopdrachten te bekijken, kon Google Flu Trends de verspreiding van griep in de Verenigde Staten in kaart brengen. De algoritmes van Google konden dit sneller dan het Center for Disease Control and Prevention. Zonder medische gegevens, hypotheses of modellen. Ik bespreek in dit artikel vier bekende big data-uitspraken. Is het succes van big data overrated?

 

1. Resultaten uit analyse van datasets zijn nog nooit zo accuraat geweest

Ook het in de Verenigde Staten gesitueerde warenhuis Target heeft een succesverhaal met big data. Er was eens een dag waarop een man een Target inliep om te klagen bij de manager. Zijn dochter kreeg kortingsbonnen voor babykleren en zwangerschapskleding toegestuurd. Terwijl zijn dochter toch echt niet zwanger was. De manager belde de man een paar dagen later zelfs op, om telefonisch zijn excuses aan te bieden. Maar de excuses van de manager bleken overbodig, de dochter was echt zwanger. Target was door het koopgedrag van de dochter te vergelijken met koopgedrag van zwangere vrouwen in het algemeen, eerder op de hoogte van de zwangerschap dan de vader.

Kaiser Fung, big data analist, zegt dat we bij dit verhaal moeten letten op false positives. Fung zegt over het succesverhaal van Target dat we een aantal factoren niet weten. “We weten niet hoe de mailinglist eruit ziet. We weten niet hoeveel vrouwen, die niet zwanger zijn, kortingsbonnen ontvangen voor zwangerschap-gerelateerde producten. Misschien bestaan de boekjes met kortingsbonnen van Target wel uit een gemengd aanbod.” De resultaten uit data-analyses zijn, met de komst van big data, accurater. Dat daardoor meer winst kan worden behaald is ook waar. Maar de precisie van big data is overrated als we false positives negeren.

 

2. Big data maakt onderzoek naar causaliteit overbodig, we kunnen de aandacht verleggen naar correlatie.

Big data heeft als voordeel dat we onze aandacht kunnen richten op correlatie. Het onderzoek naar correlatie is een veel goedkopere en snellere manier om iets te onderzoeken dan causaliteit, de vraag naar wat nu precies wat veroorzaakt. Causaliteit blijft echter een belangrijke factor bij de analyse van datasets. Zo bleek Google Flu Trends een veel teoverdreven voorspelling van de verspreiding van de griep te hebben gedaan. Het probleem was dat Google’s engineers niet bezig waren om te onderzoeken wat nu precies wat veroorzaakt. Zij waren alleen bezig met het vinden van statistische patronen in de data. Het falen van Google Flu Trends kan misschien worden verklaard door het nieuws in december 2012: dat werd toen vooral beheerst door ‘angstaanjagende’ verhalen over de griep.

Een andere mogelijkheid is dat Google’s algoritmes de data-analyse beïnvloeden. Zo is het mogelijk dat wanneer mensen medische symptomen invoeren, de algoritmes steeds vaker griep diagnoses als zoekresultaten genereren. Wanneer de nadruk wordt gelegd op correlatie, is het probleem dat je niet weet wat er achter de correlatie schuilt. Viktor Mayer- Schönberger en Kenneth Cukier, auteurs van het boek Big data, zeggen daarover: “Causality won’t be discarded, but it is being knocked off its pedestal as the primary fountain of meaning.”

 

3. Big data-sets zijn compleet, we hoeven geen rekening meer te houden met statistiek.

Het hebben van alle benodigde data, wordt door data-analisten uitgedrukt als ‘N=All’. Schönberger, naast auteur ook professor aan het Oxford Internet Instituut, legt uit dat je in dat geval geen gebruik meer hoeft te maken van samples van een populatie. Omdat je daadwerkelijk alle informatie hebt dat de gehele populatie representeert. Met als gevolg dat je geen rekening hoeft te houden met statistische valkuilen.



In theorie kun je elke tweet vastleggen en daarmee een uitspraak doen over de publieke opinie. Kijken we echter naar hetPew Research Internet Project van 2013 in de Verenigde Staten, dan zien we dat Twitter-gebruikers vooral jonge mensen, wonend in een stad zijn. Niet echt representatief voor de gehele populatie.

Street Bump
Kijk ook eens naar Street Bump, een mobiele app die in Boston wordt gebruikt. Street Bump voorziet in ‘N=All’, omdat op papier elke telefoon in staat is om een slecht wegdek te registreren. Aan de ene kant kun je zeggen dat de data die voortvloeit uit Street Bump, de gemeente real-time informatie verschaft. Informatie op basis waarvan problemen kunnen worden opgelost en lange termijn investeringen worden gedaan. Aan de andere kant kun je zeggen dat de app jonge smartphone gebruikers voortrekt.

Sample Error & Sample Bias
Dan zijn er nog de factoren toeval en kans. Die factoren worden, in tegenstelling tot wat veel mensen beweren, door grote datasets niet uitgesloten. Zo kennen we de Sample Error: het risico dat door toeval een willekeurig gekozen sample van opinies de echte waarnemingen van de populatie niet representeert. Sample error heeft een gevaarlijk broertje genaamdSample Bias. Van een sampling bias is sprake als de sample niet willekeurig is gekozen. Het vinden van een unbiased sample is ontzettend lastig. Street Bump is een mooi voorbeeld van een niet willekeurig gekozen sample.

 

4. Wetenschappelijke of statistische modellen zijn niet nodig, want bij grote data-sets spreken de getallen voor zichzelf.

In 2005 publiceerde John Ioannidis, epidemioloog, een belangrijk wetenschappelijk onderzoek: ‘Why Most Published Research Findings Are False‘. Dit onderzoek bracht het multiple-comparisons problem aan het licht: dat ontstaat als een onderzoeker meerdere patronen bestudeert.

Het multiple-comparisons problem
Stel, er wordt onderzoek gedaan naar het effect van vitamines op basisschoolkinderen. Voor het onderzoek krijgen sommige kinderen vitamines anderen krijgen placebo’s. Wat is nu het effect dat je aan het bestuderen bent? Onderzoekers kunnen kijken of het gebruik van vitamines invloed heeft op de groei, het gewicht, tanderosie, gedrag in een klas of de rapportcijfers.

Dan zijn er nog combinaties die je kunt analyseren. Welk effect hebben vitamines op armere kinderen ten opzichte van rijkere kinderen, of jongens versus meisjes? Ioannidis zegt dat wanneer je verschillende correlaties test, door toeval ontstane resultaten de ‘echte’ resultaten ondersneeuwen. “Dit probleem is nog veel groter in big data sets”, aldus Ioannidis. De gedachte dat met genoeg data de getallen voor zichzelf spreken, is naïef. Vooral in datasets waar er meerdere patronen mogelijk zijn en meerdere verbanden zouden kunnen worden gelegd.

1

 

Het lijkt erop dat de succesverhalen overtrokken zijn

Het lijkt erop dat de bovenstaande uitspraken over big data geen stand houden en dat big data- succesverhalen overtrokken zijn. David Spiegelhalter, professor aan de Cambridge University, zegt dat we niet moeten vergeten dat big data een nieuwe bron is. Die nieuwe bron staat niet altijd garant voor nieuwe antwoorden. Het lastige aan de resultaten voortvloeiend uit data-analyses blijft inzicht. Big data behoudt die zelfde knelpunten.

 

 

 

DE NIEUWSTE ARTIKELEN IN JE INBOX ONTVANGEN?

  

MEEST GELEZEN:

Zou jij deze vragen durven te stellen bij een sollicitatiegesprek?

 



13 vreemdste vragen gesteld tijdens een sollicitatiegesprek



De 25 grappigste antwoorden tijdens een sollicitatiegesprek





5 sollicitatiegesprekadviezen die je hoe dan ook wilt lezen



 > Artikelen die je misschien ook interessant vindt

De 7 nieuwste big data miljardairs

Hoe Silicon Valley de klant weer koning maakt

Het Nederlandse ICT-onderwijs is achterhaald!

 

 

 
 
Terug naar overzicht
 
 
Terug naar overzicht

Heb je nog vragen?

Je kunt ons bellen
Telefoon:
020 - 5300500
... of we bellen jou
of je mailt ons