Lasso regression

Lasso står for “least absolute shrinkage and selection operator” (Tibshirani 1996). Lasso regression er en teknik inden for maskinlæring, der især anvendes når man arbejder med data med mange dimensioner. Konkret begrænser man en models fleksibilitet gennem regularisering ved hjælp af en tabsfunktion.

Lasso er især anvendeligt når vi har en lang række af uafhængige variable, men vi vil gerne afgøre hvilke af disse variable der vil have den største effekt. På den måde sikrer man, at man ikke blot kan inkludere utallige variable i en model med henblik på at forklare mere variation. Konkret begrænses summen af regressionskoefficienterne, som ofte vil reducere værdien af nogle koefficienter og sætte andre koefficienter til 0.

Beltran et al. (2021) analyserer eksempel hvilke ord hhv. mandlige og kvindelige politikere anvender i deres kommunikation på Twitter. Konkret bruges en logistisk regressionsmodel, hvor det estimeres, hvilke ord der bedst kan forudsige, om det er en mand eller kvinde, der har skrevet et specifikt tweet. Deres resultater viser at kvinder især bruger mere kønsrelaterede begreber (såsom “feminist”, “woman” og “patriarchal”) og begreber relateret til det sociale område (såsom “human rights”), hvor mænd i højere grad anvender begreber relateret til sport og ideologi (såsom “extremist” og “liberal”). De finder desuden også, at kvindelige politikere i højere grad anvender emojis i deres tweets.

Lasso regression kan også bruges i kombination med andre metoder, eksempelvis til at estimere heterogene treatmenteffekter (se eksempelvis Grimmer et al. 2017).

Referencer

Beltran, J., A. Gallego, A. Huidobro, E. Romero og L. Padró. 2021. Male and female politicians on Twitter: A machine learning approach. European Journal of Political Research 60(1): 239-251.

Grimmer, J., S. Messing og S. J. Westwood. 2017. Estimating Heterogeneous Treatment Effects and the Effects of Heterogeneous Treatments with Ensemble Methods. Political Analysis 25(4): 413-434.

Tibshirani, R. 1996. Regression Shrinkage and Selection Via the Lasso. Journal of the Royal Statistical Society: Series B (Methodological) 58(1): 267-288.