Maskinlæring – Erik Gahner Larsen

Maskinlæring er en betegnelse for en række statistiske procedurer, der har det til fælles, at de anvender algoritmer til at udlede information og viden fra data. Forskellige maskinlæringsteknikker kan kategoriseres efter, hvordan de udleder viden fra data, altså hvordan de “lærer”.

Med andre ord kan maskinlæring forstås som algoritmer, der uden at bero på domæne-specifik viden, finder mønstre i data. Produktet, der kommer ud af disse algoritmer, er modeller, der giver os viden omkring, hvad data viser.

Maskinlæring kan i politologien anvendes til at undersøge, hvad der bedst kan forudsige, om en vælger vil stemme eller ej, om en politisk tale er højreorienteret eller venstreorienteret osv.

Superviseret og ikke-superviseret maskinlæring

En primær distinktion inden for maskinlæring er mellem superviseret og ikke-superviseret maskinlæring. I superviseret maskinlæring kender vi et udfald, som vi ønsker at forudsige. Vi ved med andre ord hvilke forskellige værdier, vores afhængige variabel kan antage. Algoritmen observerer her et udfald (Y) for hvert input (X), hvorved vi finder frem til den funktion, der bedst kan forklare forskellene i vores udfald (eksempelvis hvilke variable der bedst kan forklare, om en vælger stemmer eller ej).

Ved ikke-superviseret maskinlæring har vi ikke et udfald, vi kender værdierne for. Her er der omvendt tale om algoritmer der bruges til at placere data i grupper. Et godt eksempel på en sådan teknik er principal component analysis (PCA), hvor vi undersøger, hvor mange dimensioner, der bedst beskriver vores data.

Det er nemmere at undersøge kvaliteten af vores resultater med superviseret maskinlæring, da vi kan måle hvor præcise vores forudsigelser er.

Begreber inden for maskinlæring

Der er en lang række af begreber og koncepter inden for maskinlæring, herunder neurale netværk, klassifikationstræer, overfitting, krydsvalidering og regularisering.

Krydsvalidering bruges til at undersøge en models performance, evt. hvor god en model er til at forudsige, om en vælger vil stemme eller ej. Dette gøres ved at dele vores data op i hhv. et træningssæt og et testsæt, hvor vi først træner en model på vores ene data og tester den på det andet. Regularisering anvendes til at straffe (biase) vores model på en hensigtsmæssig måde, for at sikre, at modellen ikke bliver unødigt kompleks.

For en indførding i de forskellige begreber henvises til litteraturen under ‘Videre læsning’.

Begrænsninger

Der er flere relevante begrænsninger forbundet med maskinlæring. For det første opererer vi med en distinktion mellem at forudsige (“prediction“) og forklare (“explanation“). Maskinlæring kan hjælpe os med at forudsige et fænomen, men ikke forklare det. Med andre ord er maskinlæring anvendeligt til at finde korrelationer, men kan ikke sige noget om kausalitet (for en god diskussion i forhold til at forudsige og forklare i sikkerhedsstudier i international politik, se Ward 2016).

For det andet er maskinlæring ikke nødvendigvis så effektivt til at forudsige, som man kan foranlediges til at tro, når man normalt læser om maskinlæringsteknikker. Salganik et al. (2020) viser eksempelvis, at maskinlæring kun i ringe omfang kan bruges til at forudsige livsbegivenheder såsom arbejdsløshed.

For det tredje reduceres anvendeligheden af maskinlæring – som ved lineær regression – når der er målefejl i ens data (Jacobucci og Grimm 2020). Med andre ord er mange af de udfordringer vi generelt har med statistiske teknikker, også til stede når vi arbejder med maskinlæring.

Videre læsning

For en dansk introduktion til maskinlæring og dets anvendelighed i politologien henvises til Bach et al. (2019). For en introduktion til nøglebegreber i maskinlæring, se Domingos (2012). Der er skrevet fine introduktionsartikler til maskinlæring inden for de fleste samfundsvidenskabelige discipliner, herunder offentlig forvaltning (Anastasopoulos og Whitford 2019), sociologi (Molina og Garip 2019), psykologi (Yarkoni og Westfall 2017) og økonomi (Mullainathan og Spiess 2017).

Referencer

Anastasopoulos, L. J. og A. B. Whitford. 2019. Machine Learning for Public Administration Research, With Application to Organizational Reputation. Journal of Public Administration Research and Theory 29(3): 491-510.

Bach, A., J. Svejgaard og F. Hjorth. 2019. Maskinlæring som politologisk værktøj. Politica 51(2): 168-186.

Domingos, P. 2012. A few useful things to know about machine learning. Communication of the ACM 55(10): 78-87.

Jacobucci, R. og K. J. Grimm. 2020. Machine Learning and Psychological Research: The Unexplored Effect of Measurement. Perspectives on Psychological Science.

Molina, M. og F. Garip. 2019. Machine Learning for Sociology. Annual Review of Sociology 45: 27-45.

Mullainathan, S. og J. Spiess. 2017. Machine Learning: An Applied Econometric Approach. Journal of Economic Perspectives 31(2): 87-106.

Salganik M. J., et al. 2020. Measuring the predictability of life outcomes with a scientific mass collaboration. Proceedings of the National Academy of Sciences.

Ward, M. D. 2016. Can We Predict Politics? Toward What End? Journal of Global Security Studies 1(1): 80-91.

Yarkoni, T. og J. Westfall. 2017. Choosing Prediction Over Explanation in Psychology: Lessons From Machine Learning. Perspectives on Psychological Science 12(6): 1100-1122.