Pretirana obljuba tako imenovanih nepristranskih podatkovnih rudnikov


Nobelov nagrajenec Richard Feynman je prosil svoje študente iz Caltecha, da izračunajo verjetnost, da bo, če bo hodil izven učilnice, prvi avto na parkirišču imel posebno registrsko tablico, pravi 6ZNA74. Ob predpostavki, da sta vsako število in črka enako verjetni in določeni neodvisno, so študenti ocenili, da je verjetnost manjša od 1 na 17 milijonov. Ko so študenti končali svoje izračune, je Feynman razkril, da je pravilna verjetnost 1: Videl je to registrsko tablico na poti v razred. Nekaj ​​zelo malo verjetno ni, če se je že zgodilo.

Feynmanova past – prenašanje podatkov za vzorce brez kakršne koli predsodke o tem, kaj iščete – je Ahilova peta študij, ki temeljijo na podatkovnem rudarstvu. Iskanje neobičajnega ali presenetljivega po tem, ko se je že zgodilo, ni niti nenavadno niti presenetljivo. Vzorci so zagotovo najdeni in so verjetno zavajajoči, absurdni ali slabši.

V svoji najbolje prodajani knjigi iz leta 2001 Dobro do VelikeJim Collins je primerjal 11 podjetij, ki so v zadnjih 40 letih presegla celotni borzni trg, do 11 podjetij, ki jih ni. Ugotovil je pet razlikovalnih lastnosti, ki so jih imela uspešna podjetja. "Tega projekta nismo začeli s teorijo, ki bi jo preizkusili ali dokazali," se je hvalil Collins. "Želeli smo zgraditi teorijo, ki izhaja neposredno iz dokazov."

Stopil je v Feynmanovo past. Ko se ozremo v čas v katerokoli skupino podjetij, najboljšo ali najslabšo, lahko vedno najdemo nekaj skupnih značilnosti, zato jih sploh ne najdemo. Po objavi. T Dobro do Velikeuspešnost Collinsovih veličastnih 11 delnic je bila izrazito povprečna: pet staležev je doseglo boljše rezultate od celotnega borznega trga, šest pa jih je storilo še slabše.

Leta 2011 je Google ustvaril program umetne inteligence, imenovan Google gripa, ki je uporabil iskalne poizvedbe za predvidevanje izbruhov gripe. Googlov program za podatkovno rudarjenje je preučil 50 milijonov iskalnih poizvedb in ugotovil, da je 45 najbolj tesno povezanih s pojavnostjo gripe. To je še en primer pasti za rudarjenje podatkov: veljavna študija bi vnaprej določila ključne besede. Po izdaji poročila je Google gripa v naslednjih 108 tednih v povprečju za 100 odstotkov precenila število primerov gripe v naslednjih 100 tednih. Google gripa ne predvideva več napovedi gripe.

Internet trženje mislil, da bi lahko povečala svoje prihodke s spremembo svoje tradicionalne modre barve spletne strani na drugo barvo. Po nekaj tednih testiranja je podjetje ugotovilo statistično pomemben rezultat: očitno Anglija ljubi teal. Če pogledamo več alternativnih barv za sto držav, so zagotovile, da bodo za nekatere države povečale prihodek za neko barvo, vendar pred časom niso imele pojma, ali bodo teal prodali več v Angliji. Kot se je izkazalo, ko je bila barva spletne strani v Angliji spremenjena v barvo, so se prihodki zmanjšali.

Standardni nevroznanstveni eksperiment vključuje prostovoljca v MRI aparatu prikazovanje različnih slik in postavljanje vprašanj o slikah. Meritve so hrupne, zbirajo magnetne signale iz okolja in variacije gostote maščob v različnih delih možganov. Včasih pogrešajo možgansko aktivnost; včasih predlagajo dejavnost, kjer je ni.

Dartmouthov diplomant je uporabil stroj MRI za preučevanje možganske aktivnosti lososa, saj so bile prikazane fotografije in zastavljena vprašanja. Najbolj zanimiva stvar pri študiji ni bila preučevanje lososa, ampak da je losos mrtev. Ja, mrtvi losos, kupljen na lokalnem trgu, je bil vstavljen v stroj MRI in odkrili so nekatere vzorce. Neizogibno so obstajali vzorci – in vedno so bili brez pomena.

V letu 2018 je profesor ekonomije Yale in podiplomski študent izračunal korelacije med dnevnimi spremembami cen Bitcoinov in več sto drugimi finančnimi spremenljivkami. Ugotovili so, da so cene Bitcoinov pozitivno korelirale z donosom delnic v potrošniškem in zdravstvenem sektorju ter da so bile negativno povezane z donosom delnic v izdelkih in rudarstvu kovin. "Ne podajamo pojasnil," je dejal profesor, "samo dokumentiramo to vedenje." Z drugimi besedami, morda so tudi pregledali korelacije cen Bitcoinov z več sto seznami telefonskih številk in poročali o najvišjih korelacijah.

Direktor laboratorija Cornell University za hrano in blagovno znamko je avtor (ali soavtor) več kot 200 recenziranih člankov in napisal dve priljubljeni knjigi, ki sta bili prevedeni v več kot 25 jezikov.

V blogu leta 2016 z naslovom »Študent, ki ni nikoli rekel ne«, je pisal o doktorskem študentu, ki je dobil podatke, zbrane v italijanskem bifeju, ki ga lahko pojeste.

Pojavila se je elektronska korespondenca, v kateri je profesor svetoval podiplomskemu študentu, da loči gostitelje na „moške, ženske, obiskovalce kosil, obiskovalce večerje, ljudi, ki sedijo sami, ljudje jedo s skupinami 2, ljudje jedo v skupinah 2+, ljudje, ki naročajo alkohol. , ljudje, ki naročajo brezalkoholne pijače, ljudi, ki sedijo blizu bifeja, ljudje, ki sedijo daleč stran, in tako naprej… ”Potem je lahko pogledala različne načine, na katere bi se te podskupine lahko razlikovale:“ # kosi pice, # izleti, raven napolnjenosti iz plošče, ali so dobili sladico, so naročili pijačo in tako naprej… ”

Sklenil je, da bi morala "trdo delati, iztisniti kri iz te skale." Ko nikoli ni rekel ne, je študent prejel štiri dokumente (zdaj znane kot "pizza papirji"), ki so bili objavljeni skupaj s Cornellovim profesorjem kot soavtorjem. Najbolj znan papir je poročal, da moški jedo 93 odstotkov več pice, ko jejo z ženskami. Ni se dobro končalo. Septembra 2018 je Cornellov fakultetni odbor zaključil, da je v svoji raziskavi "storil akademsko napačno ravnanje". Naslednji junij je odstopil.

Dobre raziskave se začnejo z jasno predstavo o tem, kaj išče in pričakuje. Rudarjenje podatkov samo išče vzorce in neizogibno najde nekaj.

Problem je danes postal endemičen, saj so močni računalniki tako dobri pri ropanju velikih podatkov. Rudarji podatkov so našli korelacije med besedami v storitvi Twitter ali Googlovimi iskalnimi poizvedbami ter kriminalnimi dejavnostmi, srčnimi napadi, cenami delnic, rezultati volitev, cenami Bitcoinov in nogometnimi tekmami. Morda misliš, da te primere pripravljam. Nisem.

Obstajajo še močnejše korelacije s čisto naključnimi številkami. Big Data Hubris je prepričan, da morajo biti korelacije, ki jih kopijo podatki, smiselne. Iskanje nenavadnega vzorca v Big Data ni bolj prepričljivo (ali uporabno) kot iskanje nenavadne registrske tablice zunaj Feynmanove učilnice.

WIRED Mnenje objavlja prispevke zunanjih sodelavcev in predstavlja široko paleto stališč. Preberite več mnenj tukaj. Pošljite op-ed na mnenje@wired.com


Več Great WIRED Stories