År 2017 förklarade The Economist att data, snarare än olja, hade blivit världens mest värdefulla resurs. Och det har upprepats sedan dess. Organisationer i alla branscher har gjort och fortsätter att göra stora investeringar i data och analys. Men precis som olja har data och analys sin mörka sida.
Enligt amerikanska CIO:s rapport State of the CIO 2023 säger 34 procent av cio:erna att data och affärsanalys kommer att driva de största it-investeringarna i deras organisation i år. Och 26 procent av dem säger att maskininlärning/artificiell intelligens kommer att driva de största it-investeringarna.
Insikter från analyser och åtgärder som drivs av algoritmer för maskininlärning kan ge organisationer en konkurrensfördel, men misstag kan bli dyra när det gäller rykte, intäkter eller till och med liv.
Det är viktigt att förstå sina data och vad de säger, men det är också viktigt att förstå sina verktyg, känna till sina data och hålla organisationens värderingar i minnet. Här är en handfull uppmärksammade analys- och AI-missar från det senaste decenniet som illustrerar vad som kan gå fel.
Hallucinerar om rättsfall
De framsteg som gjordes 2023 med stora språkmodeller‚ LLM, har väckt ett stort intresse för den transformativa potentialen hos generativ AI i nästan alla branscher. Open AI:s Chat GPT har stått i centrum för det ökade intresset och ger en föraning om hur generativ AI kan förändra arbetets karaktär i nästan alla branscher.
Men tekniken har fortfarande en bit kvar innan den på ett tillförlitligt sätt kan ta över de flesta affärsprocesser och det fick advokaten Steven A Schwartz erfara när han år 2023 hamnade i bråk med den amerikanske distriktsdomaren P Kevin Castel efter att ha använt Chat GPT för att söka efter prejudikat i en stämning mot det colombianska flygbolaget Avianca.
Steven A Schwartz, advokat hos Levidow, Levidow & Oberman, använde Open AI:s generativa AI-chattbot för att hitta tidigare fall som stöd för ett fall som en anställd på Avianca, Roberto Mata, hade lämnat in för skador som han ådrog sig 2019.
Problemet? Åtminstone sex av de fall som presenterades i inlagan existerade inte.
I ett dokument som lämnades in i maj noterade domare Castel att de fall som lämnats in innehöll falska namn och diarienummer, tillsammans med falska interna citat och hänvisningar.
I en skriftlig utsaga berättade Steven A Schwartz för domstolen att det var första gången han hade använt Chat GPT som en juridisk forskningskälla och att han var ”omedveten om möjligheten att dess innehåll kunde vara falskt”.
Han medgav att han inte hade bekräftat de källor som AI-chattboten tillhandahöll. Han sa också att han ”beklagar djupt att ha använt generativ artificiell intelligens för att komplettera den juridiska efterforskning som utförts och kommer aldrig att göra det i framtiden utan absolut verifiering av dess äkthet.”
I juni 2023 väntas domstolen utdöma eventuella sanktioner mot Steven A Schwartz.
AI identifierar allt utom covid-19
Sedan covid-19-pandemin började har många organisationer försökt tillämpa algoritmer för maskininlärning för att hjälpa sjukhusen att diagnostisera och prioritera patienter snabbare. Men enligt Turing Institute i Storbritannien, ett nationellt centrum för datavetenskap och AI, gjorde de prediktiva verktygen liten eller ingen skillnad.
MIT Technology Review har skrivit om ett antal misslyckanden, varav de flesta beror på fel i hur verktygen tränades eller testades. Användningen av felmärkta data eller data från okända källor var en vanlig bov i dramat.
Derek Driggs, forskare inom maskininlärning vid University of Cambridge, publicerade tillsammans med sina kollegor en artikel i Nature Machine Intelligence som undersökte användningen av djupinlärningsmodeller för att diagnostisera viruset. I artikeln konstateras att tekniken inte är lämplig för klinisk användning.
Driggs grupp fann till exempel att deras egen modell var bristfällig eftersom den tränades på en datamängd som innehöll skanningar både av patienter som låg ner medan de skannades och patienter som stod upp.
De patienter som låg ner var mycket mer benägna att vara allvarligt sjuka, så algoritmen lärde sig att identifiera covid-risk baserat på personens position i skanningen.
Ett liknande exempel är en algoritm som tränats med en datauppsättning som innehöll skanningar av bröstkorgar från friska barn. Algoritmen lärde sig att identifiera barn, inte högriskpatienter.
Algoritmerna ”flippade” fel
I november 2021 meddelade det amerikanska fastighetsföretaget Zillow att man skulle avveckla sin verksamhet inom Zillow Offers och minska antalet anställda med 25 procent – 2 000 anställda – under de kommande kvartalen.
Problem i den enhet som sysslade med ”flipping” – att snabbt köpa intäktsgenererande fastigheter och sälja dem vidare – var ett resultat av felfrekvensen i maskininlärningsalgoritmen som den använde för att förutsäga bostadspriser.
Zillow Offers var ett program genom vilket företaget gav kontanterbjudanden på fastigheter baserat på en ”Zestimate” av fastgihetsvärden som härrörde från en maskininlärningsalgoritm.
Tanken var att renovera fastigheterna och sälja dem snabbt. Men en talesperson för Zillow berättade för CNN att algoritmen hade en felprocent på i medel 1,9 procent, och att felprocenten kunde vara mycket högre, så mycket som 6,9 procent, för bostäder utanför marknaden.
CNN rapporterade att Zillow köpte 27 000 bostäder genom Zillow Offers sedan lanseringen i april 2018 men sålde bara 17 000 fram till slutet av september 2021. Oväntade händelser som covid 19-pandemin och en brist på arbetskraft för hemrenovering bidrog till algoritmens problem.
Zillow sa att algoritmen hade lett till att den oavsiktligt köpte bostäder till högre priser än dess nuvarande uppskattningar av framtida försäljningspriser, vilket resulterade i en nedskrivning av lager på 304 miljoner dollar under Q3 2021.
I ett konferenssamtal med investerare efter tillkännagivandet sa Zillows medgrundare och vd Rich Barton att det kan vara möjligt att justera algoritmen, men i slutändan var det för riskabelt.
Sabbade covid-rapportering
I oktober 2020 avslöjade Public Health England, det brittiska regeringsorgan som ansvarar för att räkna nya covid-19-infektioner, att nästan 16 000 coronavirusfall inte rapporterades mellan den 25 september och den 2 oktober. Orsaken? Databegränsningar i Microsoft Excel.
PHE använder en automatiserad process för att överföra positiva laboratorieresultat för covid-19 som en CSV-fil till Excel-mallar som används för att rapportera instrumentpaneler och för kontaktspårning.
Tyvärr kan Excel-kalkylblad ha högst 1 048 576 rader och 16 384 kolumner per kalkylblad. Dessutom listade PHE fallen i kolumner i stället för rader. När antalet ärenden översteg gränsen på 16 384 kolumner klippte Excel bort de 15 841 posterna längst ner.
”Felet” hindrade inte personer som testade sig från att få sina resultat, men det försvårade kontaktspårningen och gjorde det svårare för den brittiska sjukvården, NHS, att identifiera och meddela personer som var i nära kontakt med infekterade patienter.
I ett uttalande den 4 oktober sa Michael Brodie, tillförordnad chef för PHE, att NHS Test and Trace och PHE löste problemet snabbt och överförde alla utestående fall omedelbart till NHS kontaktspårningssystem Test and Trace. PHE har infört en ”snabb åtgärd” som delar upp stora filer och har genomfört en fullständig genomgång av alla system för att förhindra liknande incidenter i framtiden.
Missade att flagga svarta patienter
Under 2019 publicerades en studie i Science som visade att en algoritm som används av sjukhus och försäkringsbolag i USA för att identifiera patienter i behov av ”high risk care management”-program var mycket mindre benägen att peka ut svarta patienter.
Högriskvårdprogram innebär att kroniskt sjuka patienter får tillgång till utbildad vårdpersonal och primärvårdsövervakning i syfte att förhindra allvarliga komplikationer. Men algoritmen var mycket mer benägen att rekommendera vita patienter för dessa program än svarta patienter.
Studien visade att algoritmen använde sjukvårdskostnader som en approximation för att fastställa en individs vårdbehov. Men enligt Scientific American var sjukvårdskostnaderna för sjukare svarta patienter i nivå med kostnaderna för friskare vita människor, vilket innebar att de fick lägre riskpoäng även när deras behov var större.
Studiens forskare föreslog att några faktorer kan ha bidragit. För det första är det mer sannolikt att färgade personer har lägre inkomster, vilket även om de är försäkrade kan göra dem mindre benägna att få tillgång till sjukvård. Implicit bias kan också leda till att färgade personer får vård av lägre kvalitet.
Även om studien inte namngav algoritmen eller utvecklaren, berättade forskarna för Scientific American att de arbetade med utvecklaren för att ta itu med situationen.
Spydde ur sig rasistiska tweets
I mars 2016 fick Microsoft erfara att användningen av Twitter-interaktioner som träningsdata för maskininlärningsalgoritmer kan få förfärande resultat.
Microsoft släppte Tay, en AI-chattbot, på den sociala medieplattformen. Företaget beskrev det som ett experiment i ”konversationsförståelse”. Tanken var att chattbotten skulle anta rollen som en tonårstjej och interagera med personer via Twitter med hjälp av en kombination av maskininlärning och naturlig språkbehandling.
Microsoft försåg den med anonymiserade offentliga data och en del material som skrivits av komiker, och lät den sedan lära sig och utvecklas utifrån sina interaktioner på det sociala nätverket.
Under 16 timmar hade chattbotten publicerat över 95 000 tweets, och dessa tweets blev snabbt öppet rasistiska, kvinnofientliga och antisemitiska. Microsoft stängde snabbt av tjänsten för justeringar och drog slutligen ur kontakten.
”Vi är djupt ledsna för de oavsiktligt stötande och sårande tweetsen från Tay, som inte representerar vilka vi är eller vad vi står för, eller hur vi utformade Tay”, skrev Peter Lee, chef för Microsoft Research & Incubations, i ett inlägg på Microsofts officiella blogg efter händelsen.
Peter Lee noterade att Tays föregångare Xiaoice, som Microsoft lanserade i Kina 2014, framgångsrikt hade samtalat med mer än 40 miljoner människor under de två år som föregick Tays lansering.
Vad Microsoft inte räknade med var att en grupp Twitter-användare omedelbart skulle börja twittra rasistiska och kvinnofientliga kommentarer till Tay. Botten lärde sig snabbt av det materialet och införlivade det i sina egna tweets.
”Även om vi hade förberett oss för många typer av missbruk av systemet, hade vi gjort en kritisk förbiseende för denna specifika attack. Som ett resultat twittrade Tay väldigt olämpliga och förkastliga ord och bilder”, skrev Peter Lee.
Rekommenderade bara män
Precis som många andra stora företag är Amazon på jakt efter verktyg som kan hjälpa HR-funktionen att sålla fram de bästa kandidaterna bland ansökningarna. År 2014 började Amazon arbeta med AI-driven mjukvara för rekrytering.
Det fanns bara ett problem: systemet föredrog i stor utsträckning manliga kandidater. År 2018 gick Reuters ut med nyheten att Amazon hade skrotat projektet.
Amazons system gav kandidaterna stjärnbetyg från 1 till 5. Men de maskininlärningsmodeller som låg till grund för systemet tränades på 10 års cv:n som skickats in till Amazon – de flesta av dem från män. Som ett resultat av dessa träningsdata började systemet straffa fraser i cv:t som innehöll ordet ”women’s” och också nedgradera kandidater från kvinnliga högskolor.
Samtidigt gick Amazon ut och meddelade att verktyget aldrig användes av Amazons rekryterare för att utvärdera kandidater.
Företaget försökte ändra verktyget så att det skulle bli neutralt, men i slutändan beslutade man att man inte kunde garantera att det inte skulle lära sig något annat diskriminerande sätt att sortera kandidater och avslutade projektet.
Analys kränkte personlig integritet
Under 2012 visade ett analysprojekt från detaljhandelsjätten Target hur mycket företag kan lära sig om kunder utifrån deras data. Enligt New York Times började Targets marknadsavdelning 2002 undra hur de skulle kunna avgöra om kunderna var gravida.
Den frågeställningen ledde till ett prediktivt analysprojekt som skulle leda till att återförsäljaren oavsiktligt avslöjade för en tonårsflickas familj att hon var gravid. Det skulle i sin tur leda till att alla möjliga artiklar och marknadsföringsbloggar citerade händelsen som en del av sina råd för att undvika att upplevas som obehaglig – ”the creepy factor”.
Targets marknadsavdelning ville identifiera gravida personer eftersom det finns vissa perioder i livet – framför allt graviditet – då människor är mest benägna att radikalt ändra sina köpvanor. Om Target kunde nå ut till kunder under den perioden skulle man till exempel kunna odla nya beteenden hos dessa kunder och få dem att vända sig till Target för matvaror, kläder eller andra varor.
Precis som alla andra stora detaljhandlare hade Target samlat in data om sina kunder via kundkoder, kreditkort, enkäter och mycket mer. Dessa data kombinerades med demografiska data och data från tredje part som köptes in.
Med hjälp av alla dessa data kunde Targets analysteam fastställa att det fanns cirka 25 produkter som man sålde som kunde analyseras tillsammans för att generera en ”graviditetsprediktion”. Marknadsavdelningen kunde sedan rikta sig till kunder med höga poäng med kuponger och marknadsföringsmeddelanden.
Ytterligare forskning skulle visa att det kunde kännas läskigt för vissa av dessa kunder att studera kundernas reproduktiva status. Enligt Times backade företaget inte från sin riktade marknadsföring, men började blanda in annonser för saker som de visste att gravida kvinnor inte skulle köpa – bland annat annonser för gräsklippare bredvid annonser för blöjor – för att få annonsmixen att kännas slumpmässig för kunden.