Achtergrond: Big data voorspelt verkiezingen

Gisterenavond gaf ik mijn kijk op Big Data en de Amerikaanse verkiezingen tijdens de uitzending van Jan-Willem Roodbeen’s ‘Roodshow Late Night’ op NPO Radio 2. Aanleiding de voorspelling van Donald Trump’s winst aan de hand van sentiment op social media door het Zuid-Afrikaanse bedrijf BrandsEye. Onderstaand de link naar het fragment.

Naast ‘normale traditionele’ peilingen zullen andere indicatoren die via digitale kanalen ontstaan ook moeten worden meegenomen bij de voorspelling van een verkiezingsuitslag. Deze indicatoren maken deel uit van nieuwe voorspellingsmodellen.

In onze uitgave ‘vanAnaloognaarDigitaal.nu‘ van 2013 stelde ik samen met Ger Hofstee dat Big Data geen toekomstmuziek zou zijn. Onderstaand enkele passages uit het hoofdstuk ‘Big data is geen toekomstmuziek’ ter verduidelijking.

Wat is Big Data?

Simpel gesteld betekent Big Data gewoon ‘meer data’ en heeft het een grotere variëteit aan gegevens dan met een conventionele database kan worden behandeld. De term Big Data verwijst vaak ook naar de vele toepassingen en technieken die zijn ontstaan om waardevolle informatie te verkrijgen uit de enorme stortvloed aan data. Het is niet alleen de opslag van informatie, het is de mogelijkheid om deze te analyseren voor verbetering van de klantrelatie, inzicht in de relatie, of beide.

Veel van deze nieuwe technieken verlagen de kosten van ‘data mining’, het gericht zoeken naar (statistische) verbanden. De beschikbaarheid van ‘cloud-diensten’ hebben de kosten om succesvol aan de slag te gaan met Big Data drastisch verlaagd. Daarnaast is de analyse ook gedemocratiseerd, omdat vele datasets en ‘machine learning’-software vaak gratis beschikbaar zijn.

Toch heerst er verwarring

Er heerst nog verwarring als het gaat om de definitie van Big Data. Een veel voorkomende en terugkerende benadering is het kijken naar het model van de drie V’s. Een korte uitleg:

  • de V van Volume: Miljarden computers, smartphone-gebruikers en objecten zijn nu actief verbonden via het internet en hebben interactie met elkaar, ze genereren meer dan een exabyte (afgekort EB) wat overeenkomt met 1.000 petabytes of 1.000.000.000.000.000.000 bytes (1018B) aan gegevens per dag.
  • de V van Variëteit: Veel van de gegevens zijn ‘ongestructureerd’. Dat betekent dat ze vaak niet passen in een standaard relationele database. Ongestructureerde data zijn bijvoorbeeld: een review op Amazon, een commentaar op een blog, een video op YouTube, een podcast, een tweet, een post, een like enzovoort.
  • en de V van Velociteit: Een smartphone-gebruiker is voortdurend in beweging, de locatiegegevens veranderen snel, en is daarmee van waarde voor bijvoorbeeld een aanbieder van diensten of producten. Of neem nu de snelheid van het enorme aantal tweets dat per dag voorbijkomt. Deze snelle updates van gegevens zorgen voor nieuwe uitdagingen binnen informatiesystemen.

Levensvatbaarheid en waarde

Volgens Neil Biehn (vice president en leader of the science and research group bij PROS) – die een paar jaar geleden schreef op het blog van Wired over de 3V’s – missen er nog twee V’s in het 3V-model. Hij stelt dat je eerst de levensvatbaarheid (viability) van gegevens moet beoordelen. Met zoveel soorten gegevens en variabelen dien je voor de bouw van een effectief (voorspellend) datamodel de kosten te overwegen. De relevantie van bepaalde variabelen, de vierde V, zou kunnen worden toegevoegd aan het 3V-model.

Zodra de levensvatbaarheid van de data is bevestigd, kan er vervolgens een model worden gebouwd dat geavanceerdere ‘queries’ beantwoordt. En een contra-intuïtief inzicht levert, dus een unieker inzicht creëert. Volgens Biehn ben je dan pas in staat voorspellende acties en gedragingen te definiëren en begin je de vijfde V van Big Data: Value (waarde) aan te boren.

Interpretatie en modelaanpassing

Na de Amerikaanse verkiezingen werd duidelijk dat Big Data kan falen. Dit is een gevolg van menselijke fouten. Interpretatie en modelaanpassing zijn de sleutelwoorden. Immers een voorspellingsmodel is zo goed als de maker van het voorspellingsmodel en de mensen die het model interpreteren. Dat bleek ook bij de drie Amerikaanse voorspellers Lichtmann, Sabato en Silver die de afgelopen jaren altijd goed zaten met hun verschillende modellen. Twee van de drie voorspelden Hillary Clinton als overduidelijke winnaar van de Amerikaanse verkiezingen. Zij zaten er naast.

Big Data is niet het antwoord op de accuratie van een voorspelling. Het is het gebruik van de juiste indicatoren en parameters. Daarnaast is een voorpellingsmodel niet rigide, dat is continue aan verandering onderhevig. Traditionele peilingen zijn voorbeelden van vrij rigide modellen. Vaak zijn ze gebasseerd op ‘oude’ indicatoren.

De traditionele modellen zullen moeten worden aangevuld met andere nieuwe indicatoren. Dit bleek toen het datakamp van Donald Trump bij de eerste peilingen door een modelaanpassing doorhad dat de zakenman wel eens een goede kans zou hebben de verkiezingen te winnen. Ondanks dat de datacrunchers nog niet helemaal duidelijk hun vinger op hun model hebben kunnen leggen waren ze overtuigd dat ze op het goede spoor zaten. At the end they were right.

→ Lees hier het complete hoofdstuk

* Foto van Wikimedia Commons Servers


(advertentie)

One Comment

Plaats jouw reactie