De tre klassiske V’er i big data.
Hvad er volume, variety og velocity?
Problemet med at slutte fra et begrænset antal observationer til en generel sandhed.
Hvad er induktionsproblemet?
Google Flu Trends brugte dette til at forudsige influenzaudbrud.
Hvad er Google-søgetermer?
Når en algoritmes output systematisk gavner eller skader bestemte grupper uden god begrundelse.
Hvad er algoritmisk bias?
Teknologien i fodbold, der afgør om bolden har krydset mållinjen.
Hvad er goal line technology?
Mængden af data i et big data-system
Hvad er volume?
Poppers eksempel, der viser, at mange hvide svaner ikke beviser, at alle svaner er hvide.
Hvad er den sorte svane?
Google Flu Trends kunne i starten forudsige influenzasmitte cirka så meget hurtigere end CDC.
Hvad er 14 dage?
Når et træningsdatasæt ikke repræsenterer alle grupper eller situationer ligeligt.
Hvad er ubalance i træningsdata?
De tre dele i Harrison et al.s framework for big data-systemer.
Hvad er instrumentation, interconnections og intelligence?
Forskelligheden i datatyper, fx tekst, video, sensordata og tal.
Hvad er variety?
Chris Andersons provokerende idé om, at store datamængder kan gøre teori mindre nødvendig.
Hvad er “the end of theory”?
En forklaring på, at Google Flu Trends tog fejl, var at mange søgetermer handlede om denne årstid.
Hvad er vinter/vintersæsonen?
Voice-recognition software kan fungere bedre for mænd, hvis algoritmen primært er trænet på dette.
Hvad er mandestemmer?
Kameraer, GPS, accelerometre og pulsmålere er eksempler på denne del af big data-systemet.
Hvad er instrumentation / dataindsamling?
Hastigheden hvormed data produceres, indsamles eller analyseres.
Hvad er velocity?
Big data-paradigmet fokuserer ofte på dette frem for kausale forklaringer.
Hvad er korrelation frem for kausalitet?
En algoritme kan tage fejl, hvis mennesker begynder at opføre sig anderledes end i den data, algoritmen er trænet på.
Hvad er ændret brugeradfærd/datadrift over tid?
Når race, postnummer eller geografisk område bruges som erstatning for mere relevante sociale forhold.
Hvad er proxy-variable?
I fodbold kræves store datamængder, fordi dette afgørende event sker sjældent i en kamp.
Hvad er mål?
De to ekstra V’er, som ofte tilføjes til big data ud over volume, variety og velocity.
Hvad er veracity og value?
Big data er ikke helt teorifri, fordi data stadig skabes, udvælges, organiseres og fortolkes gennem bestemte rammer.
Hvad er ekstern teoriladethed?
At “high school basketball” kunne korrelere med influenza viser dette klassiske problem i big data.
Hvad er confounding?
Når en algoritmes biased output bruges som ny træningsdata og dermed forstærker problemet.
Hvad er feedback-loop / bias-loop?
Bias i kampforudsigelser, hvor de sidste 15 minutter kan forudsige kampens udfald næsten lige så godt som hele kampen.
Hvad er elapsing-time bias / match partial outcome bias?