Big Data

div-059-20130706-fruitautomaat-3

We leven in een tijd waarin het onderwerp “Big Data” opeens een regelmatig terugkerend thema is geworden. Zeker met alle ophef over de activiteiten van NSA op dit moment is dat het geval.
Dankzij internet en de lage prijs van dataopslag zijn steeds meer gegevens beschikbaar. Die gegevens kunnen worden gecombineerd. En op basis van analyse, vooral statistisch, zijn die gegevens een bron van oneindige informatie. Althans, zo beloven de profeten ons.

Of dit juist is, dat is meer de vraag. Hierna een aantal kanttekeningen

Oorzaak-gevolg
Door Big Data statistisch te analyseren kan je patronen herkennen. Er kunnen gegevens A zijn die zich altijd tegelijkertijd met gegevens B voordoen.
Als je echt heel veel (big) data hebt dan is de kans groot dat je patronen tegenkomt waarvan het samengaan feitelijk geen enkele samenhang heeft.Twee soorten gegevens treden dan tegelijkertijd op, het samengaan is statistisch significant. Zelfs als er sprake is van puur “toeval”. Hoe groter de hoeveelheden gegevens, hoe groter de kans dat je gegevens ziet samengaan, eenvoudig omdat ook dat weleens moet voorkomen.
Als er wel een relatie tussen de gegevens A en B is, dan kan dat ook nog op verschillende manieren worden geduid. Het kan dat:
• A leidt tot B;
• B leidt tot A;
• Een onbekende C leidt tot beiden.

Die duiding is niet direct uit de data te herleiden.

Focus en negeren
Bij het analyseren van Big Data worden alle gegevens meegenomen. Dat kan, maar is het ook nuttig? In ons dagelijks functioneren krijgen we voortdurend ongelooflijk veel prikkels. Ook dat is een vorm van Big Data. Slechts een heel klein deel van al die prikkels gebruiken wij. Dat hebben we “geleerd”. Moest je alle data verwerken, dan kwam je nooit meer tot een bevinding of besluit. Er zijn teveel prikkels om ze allemaal grondig te analyseren. En: het gaat maar door. Er komen voortdurend nieuwe prikkels bij. Negeren kan dus erg nuttig zijn.

Teveel focus daarentegen kan leiden tot blindheid voor fenomenen die toch relevant kunnen zijn. Voor wie daarmee nog niet bekend is, is het filmpje illustratief waar ik eerder naar verwees bij de boekbespreking van “De onzichtbare gorilla”.

The Monkey Business Illusion (variant op het eerder gelinkte filmpje).

Kortom, wie zich teveel focust mist de echte clue.

Gezond omgaan met grote hoeveelheden gegevens vraagt om een open blik en om filtering zodat alleen het relevante overblijft.

Black swans
Als je veel gegevens hebt verzameld, dan zijn dat (helaas) gegevens over datgene wat zich al heeft voorgedaan. De voorspellende waarde daarvan is gering. Waarom? Omdat hetgeen zich nog niet heeft voorgedaan ontbreekt. Ook al heb je heel veel data, de echte black swans mis je altijd, anders zijn ze immers geen black swan meer. In Big Data ontbreken de uitschieters. En juist die uitschieters kunnen verstrekkende gevolgen hebben. Een voorbeeld. In de statistiek van de waterstanden van een rivier zijn alle waterstanden die tot dan toe zijn gemeten opgenomen. Dat sluit niet uit dat de rivier nog eens veel hoger zou kunnen stijgen, of juist veel lager zou kunnen dalen.
Het wordt tegenwoordig wel vaker gezegd. Er zijn wereldwijd miljoenen economen, maar niemand heeft de economische malaise van 2008 en daarna voorzien.

De voorspellende waarde van Big Data is daarom überhaupt gering.
Nassim Nicholas Taleb, schrijft in Antifragile:
I once testified in Congress against a project to fund a crisis forecasting project. The people involved were blind to the paradox that we have never had more data than we have now, yet have less predictability than ever. More data—such as paying attention to the eye colors of the people around when crossing the street—can make you miss the big truck. When you cross the street, you remove data, anything but the essential threat.

Serendipiteit
Het idee is dat Big Data een goudmijn zouden vormen omdat er heel veel nieuws uit is te halen. Gezien het voorgaande is dat twijfelachtig. Daarnaast weten we dat heel veel grote en kleine uitvindingen niet gedaan zijn door gerichte analyse en onderzoek, maar eerder een gevolg zijn van gefröbel. Het zijn toevallige bijverschijnselen van het handelen van de ontdekkers. Op Wikipedia wordt onder het lemma “serendipiteit” een aardig rijtje opgesomd:
http://nl.wikipedia.org/wiki/Serendipiteit

Ontdekkingen zijn vaak op toeval (serendipiteit) gebaseerd. Je vindt wat je niet zocht.

Slot
Dus: blijft op uw hoede!

Citaat uit: Antifragile, Taleb, Random House, 2012

Boekbespreking Antifragile.

Tags: , ,

Comments are closed.