Big data – grundbegreber
Teori, induktion og “the end of theory”
Google Flu Trends og fejlkilder
Algoritmisk bias
Big data i professionel sport
100

De tre klassiske V’er i big data.

Hvad er volume, variety og velocity?

100

Problemet med at slutte fra et begrænset antal observationer til en generel sandhed.

Hvad er induktionsproblemet?

100

Google Flu Trends brugte dette til at forudsige influenzaudbrud.

Hvad er Google-søgetermer?

100

Når en algoritmes output systematisk gavner eller skader bestemte grupper uden god begrundelse.

Hvad er algoritmisk bias?

100

Teknologien i fodbold, der afgør om bolden har krydset mållinjen.

Hvad er goal line technology?

200

Mængden af data i et big data-system

Hvad er volume?

200

Poppers eksempel, der viser, at mange hvide svaner ikke beviser, at alle svaner er hvide.

Hvad er den sorte svane?

200

Google Flu Trends kunne i starten forudsige influenzasmitte cirka så meget hurtigere end CDC.

Hvad er 14 dage?

200

Når et træningsdatasæt ikke repræsenterer alle grupper eller situationer ligeligt.

Hvad er ubalance i træningsdata?

200

De tre dele i Harrison et al.s framework for big data-systemer.

Hvad er instrumentation, interconnections og intelligence?

300

Forskelligheden i datatyper, fx tekst, video, sensordata og tal.

Hvad er variety?

300

Chris Andersons provokerende idé om, at store datamængder kan gøre teori mindre nødvendig.

Hvad er “the end of theory”?

300

En forklaring på, at Google Flu Trends tog fejl, var at mange søgetermer handlede om denne årstid.

Hvad er vinter/vintersæsonen?

300

Voice-recognition software kan fungere bedre for mænd, hvis algoritmen primært er trænet på dette.

Hvad er mandestemmer?

300

Kameraer, GPS, accelerometre og pulsmålere er eksempler på denne del af big data-systemet.

Hvad er instrumentation / dataindsamling?

400

Hastigheden hvormed data produceres, indsamles eller analyseres.

Hvad er velocity?

400

Big data-paradigmet fokuserer ofte på dette frem for kausale forklaringer.

Hvad er korrelation frem for kausalitet?

400

En algoritme kan tage fejl, hvis mennesker begynder at opføre sig anderledes end i den data, algoritmen er trænet på.

Hvad er ændret brugeradfærd/datadrift over tid?

400

Når race, postnummer eller geografisk område bruges som erstatning for mere relevante sociale forhold.

Hvad er proxy-variable?

400

I fodbold kræves store datamængder, fordi dette afgørende event sker sjældent i en kamp.

Hvad er mål?

500

De to ekstra V’er, som ofte tilføjes til big data ud over volume, variety og velocity.

Hvad er veracity og value?

  • Veracity: The reliability, quality, and accuracy of the data.
  • Value: The ultimate business purpose—turning raw information into profitable or strategic insights
500

Big data er ikke helt teorifri, fordi data stadig skabes, udvælges, organiseres og fortolkes gennem bestemte rammer.

Hvad er ekstern teoriladethed?

500

At “high school basketball” kunne korrelere med influenza viser dette klassiske problem i big data.

Hvad er confounding?

500

Når en algoritmes biased output bruges som ny træningsdata og dermed forstærker problemet.

Hvad er feedback-loop / bias-loop?

500

Bias i kampforudsigelser, hvor de sidste 15 minutter kan forudsige kampens udfald næsten lige så godt som hele kampen.

Hvad er elapsing-time bias / match partial outcome bias?