Machine learning er ikke bare én metode

Machine learning er ikke bare én metode

Skrevet af Lene Nørtoft

 

Interview med Stig Skjøde Hald, Analytiker hos Dataminds A/S

For de, der endnu ikke har stiftet bekendtskab med begrebet machine learning, hvordan kan du forklare det med almindelige ord?

Den mest generelle approach ligger i ordene machine learning. At du har de to ord, at det er en maskine, der lærer, så man fjerner manuelt arbejde fra den person, der laver analysen. Machine learning dækker over en gruppe af metoder. Det er ikke bare én teknik.

Hvad er fordelen ved det, og hvorfor er det blevet det nye buzz word?

Grunden til, at det er blevet populært, er fleksibiliteten, at du kan anvende det på mange forskellige problemstilinger - og præcisionen. Det sidste er vigtigt, ellers ville det være ubrugeligt. Hvis man skal beskrive det, vil man kunne sige, at det er et stærkt statistisk værktøj, som er fleksibelt og i stand til at lave præcise prædiktioner (forudsigelser). Det er det, der er så vildt ved det her. Det er maskinen, der lærer ud fra en problemstilling, hvor du sætter nogle indtstillinger til på den, og så gør den arbejdet selv.

Hvad er din erfaring med metoden?

Jeg har arbejdet med det i forhold til at udfordre SKAT´s prismodel til ejendomme. Vi prøvede at bruge machine learning for at se, om vi kunne gøre det bedre. Vores fokus var Boosting i begyndelsen, og Random Forest var så en ekstra model til at sammenligne med. Det viste sig, at Random Forest var marginalt bedre end Boosting, hvor det oftest er omvendt. Og Boosting er for øvrigt en af de mest populære metoder indenfor machine learning sammen med Neural Networks.

Vi fandt ud af, at vi kunne gøre det markant bedre end SKAT, selvom vores datagrundlag var dårligere end det, SKAT har til rådighed... Så havde vi alligevel nok til, at vi kunne konkludere, at vi ville gøre det bedre, hvis vi havde deres datasæt. F.eks. en faktor som afstand til vand, havde vi ikke med. Random Forest kan bare mere end den lineære regression (beregningsforløb). Den er for simpel.

Derudover har jeg erfaring fra et projekt hos Aarhus Kommune, hvor vi brugte Random Forest til at lave en sandsynlighedsvurdering til at finde ud af, hvem der skulle have hjælp og hvem ikke. Der viste den igen at være bedre end den lineære regressionsmodel. Vi anvendte den til at segmentere vores analyse, så vi fandt nogle underliggende strukturer ved hjælp af Random Forest, som vi så kunne replikere over i den lineære regressionsmodel.

Er der nogle risici eller ting, man skal være opmærksom på?

Hvis man skal nævne noget... Et er, at det er en black box, du arbejder med. Det vil sige, at du ved, at det er en præcis prædiktion. Men det er svært at observere, hvad der sker i maskinrummet. En anden fare er det, der hedder overfitting. Du kan risikere, at din model træner sig op på et specifikt eksempel, og så mister den generaliseringen.

Det sidste er et klassisk problem, som man kan løse i machine learning, men man man skal bare være opmærksom på det. Så man skal tænke sig om, før man bruger det. Det er et værktøj, som fungerer bedst, når man har store mængder af data. Selv 60.000 observationer var næsten ikke nok til vores projekt med boligpriser, da vi havde mange variabler med.

Hvad kan Dataminds tilbyde, og hvilke brancher er det især henvendt til?

I princippet er det henvendt til alle brancher, så længe man har mange data til rådighed. Eller ønsker at inddrage big data, det vil sige eksterne data, i analysen eller rapporteringen.  

Derudover skal man afveje de to ting, vi talte om i det foregående, før man kan beslutte, om man skal bruge det. Præcision skal være vigtigere end fortolkning, for at det er relevant. F.eks. i forbindelse med boligpriserne. Hvis målet er fortolkning, skal man ikke bruge machine learning - kun hvis målet er præcision. I sundhedssektoren, der er præcision markant vigtigere... at du får den rigtige diagnose, frem for at du forstår, hvordan den er fremkommet. 

Det, vi gør først, er altid at sætte os ind i vores kunders forretning for at forstå, hvilken problemstilling vi skal løse. Det er meget vigtigt for os. Jeg vil anbefale, at man kontakter os for at høre mere om, hvilken forskel vi kan gøre for virksomheden eller organisationen.