Maskinlæring og data science – for både store og små

Publish date:

Da jeg fikk mulighet til å jobbe med maskinlæring for en kunde i helsesektoren, begynte jeg å forstå nøyaktig hvordan Amazon hadde tvunnet meg rundt lillefingeren siden jeg skaffet meg en konto for å handle litt spenningslitteratur i 2010. Ikke uventet åpnet jeg med dette slusene for en jevn tilstrømming av eposter, fulle av forslag […]

Da jeg fikk mulighet til å jobbe med maskinlæring for en kunde i helsesektoren, begynte jeg å forstå nøyaktig hvordan Amazon hadde tvunnet meg rundt lillefingeren siden jeg skaffet meg en konto for å handle litt spenningslitteratur i 2010.

Ikke uventet åpnet jeg med dette slusene for en jevn tilstrømming av eposter, fulle av forslag til andre bøker som Amazon mente jeg bare måtte ha. Denne mailstrømmen har jeg senere vedlikeholdt ved hjelp av flittig klikking og handling, rett og slett fordi Amazon har så forbasket rett. Jeg må faktisk ha disse bøkene.

På akkurat samme måte sørger Netflix for at du ikke klarer å gjøre annet enn å binge-watche hele den nyeste sesongen av House of Cards når du først er i gang. Netflix, gjennom smart bruk av enorme datamengder, maskinlæring og avanserte analyseteknikker, vet nemlig bedre enn noen andre nøyaktig hva du har lyst til å se og hvordan de skal få deg til å se det.

Denne formen for kundeinnsikt er tilgjengelig som aldri før, for alle og enhver som har tilstrekkelig med data og ønsker å ta dem i bruk for å kjenne kundene bedre enn kundene kjenner seg selv. De samme konseptene brukes i dag innenfor en rekke forskjellige felter, for eksempel optimalisering av aksjeporteføljer, bilde- og språkgjenkjenning, avdekking av svindel, strukturering av ustrukturerte data, stemningsanalyse av trafikk på sosiale medier, databasert kundesegmentering og markedsføring, prediktivt vedlikehold, automatisk webdesign og anbefaling av menyvalg på restauranter.

Listen vokser stadig med flere anvendelsesområder, og nesten hver dag dukker det opp et nytt, innovativt brukstilfelle av maskinlæring. Dette er en kake alle bedrifter som vil ta informasjonsdrevne beslutninger både kan og bør ta et stykke av, om så bare for å smake på den.

I’ll be back

Maskinlæring er ikke noe nytt, og algoritmer som lærer av datasett og bygger statistiske modeller for å utforske data, predikere utfall og komme med anbefalinger har eksistert lenge. På 70-tallet og starten av 80-tallet var mange dataingeniører, informatikere og statistikere opptatt av kunstig intelligens, og fremveksten av maskinlæring er i stor grad knyttet til dette, enda de eldste modellene og algoritmene er mye eldre.

Feltet blomstret imidlertid først på 90-tallet, noe som utvilsomt henger sammen med at de fleste fagfolkene på dette tidspunktet hadde fått med seg de to første Terminator-filmene og – i frykt for å lage Skynet ved et uhell – heller begynte å bruke maskinlæring til å håndtere mer praktiske problemstillinger som for eksempel prediksjon og klyngeanalyse.

Ikke ulikt Arnold Schwarzenegger opplever nå maskinlæring en ny renessanse, som i stor grad er drevet av den økte tilgangen på datakraft og skybaserte tjenester. Dette innebærer også at det nå er mulig for både store og små bedrifter å drive lavterskel eksperimentering med avansert modellering og analyse på både store og små data.

Dermed blir veien fra en visjon om datadrevne beslutninger til en operasjonalisert modell i et hvilket som helst analyseverktøy mye kortere enn før. I tillegg kan algoritmene som disse modellene består av fortsette å lære mens de benyttes i virksomheten, og de vil derfor kunne bli mer og mer nøyaktige og ta høyde for endrede forutsetninger over tid hvis de brukes på riktig måte.

Data science – et stort økosystem

Mange er sikkert også kjent med begrepet data mining og tenker at dette høres bemerkelsesverdig likt ut. Hvis du spør to forskjellige fagpersoner om hva maskinlæring er og hva data mining er, kan du fort få to forskjellige svar som overlapper i samtlige retninger.

I senere tid har vi derfor begynt å bruke begrepet data science som navn på en uavhengig disiplin som rører sammen konsepter fra blant annet maskinlæring, data mining, mønstergjenkjenning, datavarehus, grafdatabaser, visualisering og prediksjon, tilsetter et stort økosystem med tilhørende verktøy og plattformer og kaller det «extraction of knowledge from data».


Kilde: Computerworld. http://www.computerworld.com/article/2899647/the-data-science-ecosystem.html

Jeg foretrekker å se på det som en mer jordnær og praktisk tilnærming til Big Data, hvor man faktisk snakker konkret om hva man skal gjøre med disse store dataene. Det fjerner rett og slett mye av buzzingen som alltid høres i rommet og overdøver resten av det du har å si fra det øyeblikket du uttaler ordene «big» og «data» i den rekkefølgen. Maskinlæring er kun en liten del av data science, men det en fin tilnærming for å ta ting ned på landjorda når forretningsnytten først er etablert.

Dette er kanskje også det største skillet mellom data science og tradisjonell business intelligence. Data science-paraplyen samler et utvalg konsepter, metodikker og verktøy under seg som faktisk gjør mantraet «think big, act small» til en realistisk fremgangsmåte. Informasjonsdrevne beslutninger tuftet på sofistikert analyse blir aldri en realitet med mindre vi begynner et sted, og med denne fremgangsmåten ivaretar vi mulig gevinst og potensial samtidig som vi minimerer risiko.

Akuttinnleggelser, vær og klima – en proof of concept

En data scientist kan starte med å stille gode og konkrete spørsmål. Hvilket problem forsøker vi egentlig å løse? Er dette et klassifiseringsproblem eller et regresjonsproblem? Lar dette seg best modellere ved hjelp av beslutningstrær eller nevrale nettverk? Kanskje det heller er en jobb for et anbefalingssystem, eller er det mønstergjenkjenning, sekvensmodellering og assosiasjonsregler som er tingen?
 
Og sist, men på ingen måte minst; har vi egentlig alle dataene vi trenger, er de i god nok stand, og hvordan kan vi preparere dem for å utnytte informasjonen maksimalt?
 
Da jeg og min kollega Harald Svandal Bø jobbet med en proof of concept for en kunde sammen med Microsoft, brukte vi maskinlæring for å analysere og modellere sammenhenger mellom akuttinnleggelser på sykehus og eksterne faktorer knyttet til vær, klima og luftkvalitet. 

Oppgaven var i utgangspunktet å finne ut om det kunne være noe i disse sammenhengene, en hypotese som allerede støttes av både medisinsk litteratur og sunn fornuft. Ettersom Microsoft har gjort maskinlæring lett tilgjengelig som en tjeneste i deres skybaserte Azure-miljø, var det derfor naturlig at vi tok det et steg videre og undersøkte om vi kunne modellere disse sammenhengene.


Kilde: CloudTimes. http://cloudtimes.org/2014/06/18/microsoft-launches-machine-learning-azure-ml-to-predict-the-future-with-big-data/

Med gode resultater ville dette på sikt kunne benyttes til prediksjon av antall pasienter på sykehus. Det kan igjen være verdifull beslutningsstøtte når vaktlistene skal settes opp, noe som til syvende og sist vil bidra til å gi pasienter bedre og mer tidsriktig pleie. Dette dekker bare en liten del av mulighetsrommet for slike løsninger, og det finnes en mengde tilsvarende potensielle bruksområder for maskinlæring innenfor helsevesenet.

Underveis i prosessen måtte vi stille oss selv mange av spørsmålene jeg nevnte tidligere, og som sagt forsto jeg endelig nøyaktig hvordan Amazon har bedre oversikt over hva jeg liker enn jeg har selv.

Vaskede, preparerte data med god kvalitet lyver stort sett ikke, og hvis sammenhengene du er ute etter eksisterer i disse dataene, vil tilstrekkelig sofistikerte maskinlæringsalgoritmer nesten alltid klare å finne dem.

I need your clothes, your boots, and your motorcycle

Det er klart at det ikke alltid er nødvendig med maskinlagde assosiasjonsregler og sofistikert handlekurvanalyse à la Amazon og Netflix for å avsløre at kombinasjonen fullt MC-utstyr, et par støvler og en motorsykkel vil tilfredsstille enhver Terminator.

Det kan imidlertid finnes sammenhenger i dataene dine som er langt mindre åpenbare, langt mer komplekse, og mye mer tidkrevende å avdekke for hånd. Hvis du da har klart å representere et nesten fullstendig utvalg av datapunkter som er tilstrekkelig relevante for problemet du forsøker å løse i datasettet ditt, kan du produsere modeller med skremmende presise resultater på reelle data som kan være gull verdt i forretningssammenheng.

I vår proof of concept klarte vi å fange opp en stor del av variasjonen i antall pasienter basert på sykehusdata, kalenderdata, værdata og luftkvalitetsdata. Med dette viste vi at det definitivt er mulig å bruke slike data til å modellere og predikere hvor mange pasienter med sykdommer i for eksempel åndedrettsorgan (lungebetennelse, astma, kols) eller i hud og underhud man kan regne med å få besøk av på akuttavdelingen.

Selvfølgelig er det langt flere faktorer enn vær og luftkvalitet som påvirker dette tallet, og en maskinlæringsmodell vil aldri kunne bli bedre enn datagrunnlaget den har å jobbe med.


Gjennomsnittlig samvariasjon mellom værfaktorer og antall pasienter med sykdom i åndedrettsorgan for aldersgruppen 0-9.

Likevel er det ikke slik at en modell trenger å være så veldig nøyaktig for å gi verdifull informasjon. Hvis alternativet er å kaste mynt og kron, vil anbefalinger fra en modell som predikerer riktig i 51 % av tilfellene – pluss den prosentsatsen du verdsetter magefølelsen til – kvalifisere til å kalles «actionable insights.»

Ved planlegging av kostbar direktemarkedsføring vil en prediktiv modell som kan øke responsraten eller konverteringsraten med bare noen få promille være enhver markedsførers drøm. Og jeg har ikke engang nevnt det verdifulle bidraget som slike metoder kan gi til risikostyring.

Hasta la vista, baby

Mange snakker om å drive butikk på data og ta beslutninger basert på god informasjon og velfunderte antakelser, men veien fra å komme med en hypotese eller en idé og til å operasjonalisere en prediktiv modell som kan fungere som beslutningsstøtte kan virke lang og vanskelig.

Den gode nyheten – eller den dårlige nyheten, alt ettersom – er at den største utfordringen er akkurat den samme som alltid: datakvalitet. Dataprofilering og smart datapreparering vil stort sett være 80 % av jobben i et data science-prosjekt. Når dette er på plass, kan man lene seg tilbake, drikke kaffe og la maskinen kverne på tallene. Etter litt finjusteringer har man fått opp en API eller en datastrøm som man kan koble seg på med alt fra QlikView og Tableau til gode, gamle Excel.

Nå som maskinlæringstjenester er tilgjengelige i skyen er store on-premise-installasjoner og dyr programvare ikke lenger en nødvendighet. God kjennskap til verktøy som R og Python er selvfølgelig en stor fordel, men selv ikke dette er obligatorisk.

Det som først og fremst trengs er visjon, vilje og mennesker som vet hvordan man gjennomfører et data science-prosjekt. Dette innebærer forståelse for hvordan man konkret angriper slike problemstillinger, og ikke minst for hvordan man kommuniserer og jobber på tvers av forretning, kilder til domeneekspertise, og fagdisipliner som analyse og statistikk.


Kilde: Edureka!. http://www.edureka.co/blog/who-is-a-data-scientist/

Som konsulentselskap med en stor fot innenfor IT- og BI-rådgivning er det viktig at Capgemini står klare til å innta denne rollen hos våre kunder. Ikke bare fordi «data scientist» angivelig er den mest sexy stillingstittelen du kan ha i det 21. århundre, men fordi vi med denne innfallsvinkelen har all verdens mulighet til å løfte idéer og hypoteser opp fra tegnebrettet og inn i POC-er, pilotprosjekter og fullskala implementeringer som faktisk skaper handling og forretningsverdi.

Maskinlæring er tilgjengelig som aldri før både for store og små, og burde være en naturlig del av analysemiljøet og strategien til enhver bedrift som vil bruke sine data til å få bedre innsikt i kunder, konkurrenter og omgivelser, effektivisere driften, gjøre kvalifiserte antakelser om fremtiden og ta bedre beslutninger.

Related Posts

Monolith to microservices, an integration journey

Mike Dawe
Date icon June 17, 2019

Monolithic application suites have dominated enterprise IT landscapes for the last 20 years. ...

Is the IoT hype finally over and what does scale have to do with it?

Dr Milos Milojevic
Date icon June 17, 2019

Many companies have adopted IoT on a large scale and are well beyond the initial piloting and...

5G expectations are skyrocketing. Network operators can help manage that excitement

Michelle Mindala-Freeman
Date icon June 17, 2019

5G is a disruptive technology. Its launch cannot be approached with existing business...

cookies.

By continuing to navigate on this website, you accept the use of cookies.

For more information and to change the setting of cookies on your computer, please read our Privacy Policy.

Close

Close cookie information