Datavisualisering: Se & Hør-pigen

Før du læser videre: Den eneste model du kommer til at se i dette indlæg, er en multipel lineær regressionsmodel.

Forleden fandt jeg en oversigt med Se & Hør-pigen fra 1998 til 2022 (det hedder mærkværdigt nok ikke Se & Hør-kvinden til trods for at det hedder Se & Hør-manden). Oversigten er tilgængelig som en simpel tabel, hvilket gjorde det nemt for mig at scrape de mere end 1.000 observationer/kvinder/rækker. Med dette kan jeg lave nogle datavisualiseringer på baggrund af de respektive data. (Kom ikke her og sig, at man ikke kan bruge en PhD til noget.)

Datasættet indeholder for hver Se & Hør-pige information omkring navn, by, tidspunkt (uge og år), kropsmål (højde, vægt, bryst, talje og hofte) og livret. Dette gav mig mulighed for at kigge nærmere på, hvor modellerne er fra i Danmark, deres BMI og deres livretter.

Se & Hør-piger per capita
Lad os først se på, hvor Se & Hør-pigerne er fra. Jeg kunne relativt let matche bynavnet til et postnummer, hvilket så kunne kobles til en kommune. Det er ingen overraskelse, at større kommuner har flere Se & Hør-piger, så jeg korrigerede disse tal for indbyggertal. Desuden er jeg primært interesseret i unikke observationer, så jeg tæller én model én gang selvom hun potentielt har været Se & Hør-pige flere gange.

Nedenstående kort viser antallet af Se & Hør-piger pr. 10.000 indbyggere. Det er ingen overraskelse, at København har de fleste Se & Hør-piger, men da der også bor mange i København, har de ikke flest Se & Hør-piger per capita. I stedet kommer de ind på en 6. plads med 2,54 Se & Hør-piger per capita.

De fem kommuner med flest Se & Hør-piger per capita er Lyngby-Taarbæk (5,65 pr. 10.000 indbyggere), Brøndby (3,69), Vallensbæk (3,03), Fredericia (2,73) og Glostrup (2,57). Jeg overvejede for en kort stund om jeg evt. skulle prøve at undersøge hvad disse data korrelerer med på kommuneniveau (eksempelvis valgdeltagelse), men livet er kort.

BMI over tid
Da vi har data på vægt og højde, er det nemt at udregne en BMI-værdi for hver kvinde. Dette stadie krævede noget NSFW-datavalidering, da nogle af målene var relativt ekstreme. Der var et par observationer, der var åbenlyst forkerte, men også nogle der viste sig at være overraskende korrekte.

For en god ordens skyld er det værd at nævne, at man ikke skal tolke for meget ud af et BMI-mål: “Bemærk, at BMI-tallet er en indikator og ikke kan bruges af for eksempel body-buildere, da deres muskelmasse giver dem højere vægt uden at de dermed er overvægtige, ligesom mennesker med kraftig kropsbygning kan have et BMI-tal der højere end 25, uden at være overvægtige”.

Nedenstående figur viser modellernes BMI over tid. Hvis man har en BMI på under 18,5 betegnes man som værende undervægtig, mellem 18,5 og 25 som normalvægtig, mellem 25 og 30 som overvægtig og svært overvægtig hvis man har en BMI, der er over 30.

De fleste har en BMI, der er normal, men der er også en del af kvinderne, der har en BMI lavere end 18,5 og dermed er undervægtige. Det hører til sjældenhederne at se en Se & Hør-pige med en BMI på 25 eller mere, og den første af disse så man omkring 2010. Der er således kommet mere spredning over årene, og i 2020 så man den første Se & Hør-pige med en BMI i kategorien ‘svært overvægtig’.

Sushi er en sikker vinder
Hvilke livretter har Se & Hør-pigerene? Set fra et dataperspektiv prioriterer Se & Hør at have så detaljerede data på kvindernes livretter som overhovedet muligt. Det betyder dog, at det kræver lidt kodearbejde at kategorisere de forskellige livretter. Eksempelvis slog jeg alle svar der indeholdt slik, flødeboller, vingummi, lakrids og karamel sammen til én slikkategori. Der er også mange svar, jeg valgte ikke at give en bestemt kategori, eksempelvis “Alt, der kan spises bearnaisesovs til”, “Hvad end manden laver i køkkenet” og “Frække deller”.

Nedenstående figur viser de mest valgte livretter. På toppen ser vi sushi som en klar vinder, efterfulgt af bøf, boller i karry, lasagne og kylling.

Det viser sig dog at sushi ikke var et populært valgt i begyndelsen, og det er kun blevet mere populært med årene. Sushi er således den mest valgte livret de seneste mange år. Vi skal helt tilbage til 2013, hvor bøf var den mest valgte livret det pågældende år. Siden 2009 har sushi ligget på en førsteplads 11 ud af 13 år.

Nedenstående tabel viser deskriptiv statistik for de forskellige år (uden 1998 og 2022 på grund af meget få observationer). Vægt og højde angiver medianværdierne. Det kan ses at medianvægten såvel som medianhøjden ikke har rykket sig nævneværdigt over tid.

År Antal Vægt (kg) Højde (cm) BMI (median) BMI (min) BMI (max) livret
1999 41 55 170 19,4 16,7 24,3 Bøf
2000 38 53 170 19,0 16,0 22,4 Pastaret
2001 44 56 170 19,5 16,0 23,2 Boller i karry
2002 45 57 170 19,5 17,3 21,9 Pastaret
2003 44 55 170 19,8 16,7 22,6 Boller i karry
2004 45 53 167 19,1 17,0 22,8 Lasagne
2005 45 55 166 19,5 17,4 23,8 Kylling
2006 45 53 168 19,4 17,0 22,5 Lasagne
2007 47 58 168 20,0 17,4 24,4 Græsk
2008 42 55 167 20,2 17,1 23,4 Mørbrad
2009 49 55 167 19,7 16,1 26,3 Sushi
2010 46 56 168 19,7 17,6 25,0 Sushi
2011 51 55 169 19,6 16,8 23,6 Bøf
2012 47 55 168 19,7 17,6 23,9 Sushi
2013 49 54 167 19,9 16,4 24,8 Bøf
2014 50 54 168 19,5 16,8 26,6 Sushi
2015 17 57 170 20,7 18,0 26,1 Sushi
2016 75 58 170 19,7 17,0 26,1 Sushi
2017 47 55 167 19,8 14,9 24,2 Sushi
2018 50 54 167 20,0 16,7 24,7 Sushi
2019 46 56 168 19,9 16,1 25,1 Sushi
2020 49 58 168 20,4 17,0 35,3 Sushi
2021 51 58 168 20,5 16,6 31,0 Sushi

En regressionsmodel med modellerne
Er der en korrelation mellem livret og vægt? Til at besvare dette spørgsmål har jeg estimeret en OLS regression hvor vægt (i kg) er den afhængige variabel og årstal, højde og en række livretvariable er inkluderet som uafhængige variable. Regressionskoefficienterne for de forskellige livretter er vist nedenfor (alle livretter, der ikke er vist i figuren, fungerer som referencekategori).

Vi ser at livretter som slik og dessert korrelerer positivt med modellernes vægt, men det er kun slikvariablen, der har en statistisk signifikant koefficient. Konkret vejer de modeller, der angiver slik som deres livret, alt andet lige, omkring 6 kg mere. Livretter som salat og fisk har en negativ koefficient, men ingen af disse er statistisk signifikante.

Den gennemsnitlige vægt på Se & Hør-piger, der har slik som deres livret, er 65,7 kg. Til sammenligning er den gennemsnitlige vægt på kvinder, der vælger fisk som livret, 55,9 kg.

Vi kan ikke sige noget kausalt og det er udelukkende interessant her at se, om der er nogle systematiske forskelle i, hvilke livretter modellerne vælger. Disse resultater skal derfor tolkes med et gran salt. Alle modeller er forkerte, men nogle gør en lækkersulten.