Erik Gahner Larsen

Problems with The Global Gender Gap Report

Or, why is Rwanda doing better than Denmark?

In this post I outline basic methodological problems with The Global Gender Gap Report (the GGGR). The GGGR is developed by the World Economic Forum (WEF) and “benchmarks 144 countries on their progress towards gender parity across four thematic dimensions.”

Benchmarking 144 very different countries on their gender parity is a challenging task. Sadly, the report from the World Economic Forum is not doing a great job accommodating the challenges. The issues in the report are severe and the rankings should not be taken seriously. In short, the country rankings in the GGGR are misleading at best and completely meaningless at worst.

I will look at the most recent report from 2017 and illustrate some interrelated problems. There are other issues with the report but below I touch upon some of the most important. For some of the other issues in the report, see my (and others) comments in this article (sorry, it is in Danish).

The GGGR measure the relative gaps between women and men across four thematic dimensions: health, education, economy and politics. For each of the four dimensions we see that 13 out of the 14 variables are ratios.

For the subindex Health and Survival, the variables are 1) sex ratio at birth and 2) female healthy life expectancy (also as a ratio relative to the male value). This subindex will help us understand one of the main problems with the report, namely that it is not tapping into any meaningful gender gaps. Specifically, we will look at healthy life expectancy. This is a measure of “Average number of years that a person can expect to live in full health, calculated by taking into account years lived in less than full health due to disease and/or injury.”

Since men are doing exceptionally bad on the healthy life expectancy variable in Rwanda (with a value of 52.3), Rwanda is getting a very good score on this variable and this is affecting its overall rank as number 4 in the Global Gender Gap Report. Figure 1 shows the top 15 countries doing best on the gender parity list (notice Rwanda as number 4). The blue lines indicate the size of the gender gap.

Figure 1: Gender gap rankings, top 15 countries

The report is partially aware about this issue, as they write: “the Index is constructed to rank countries on their gender gaps not on their development level.” (p. 4). However, this is a serious problem as developed countries are doing much better in terms of the gender gap in health and survival, but this is not to be seen in the rankings (on the contrary, countries are punished for this, cf. below).

In other words, the first key problem is that the index is not necessarily measuring progress towards gender parity.

The report argues that the “Index rewards countries that reach the point where outcomes for women equal those for men, but it neither rewards nor penalizes cases in which women are outperforming men in particular indicators in some countries.” (p. 5) However, this is simply not correct for the measure on healthy life expectancy.

If we take Rwanda in 2017 as an example, the healthy life expectancy for women is 60.8 whereas it is 52.3 for men (a difference of 8.5 years). This is a big gender gap but is rewarded by the Index as women are outperforming men (remember that Rwanda is number 1 on the subindex). If we then look at Denmark in 2017, the value for women is 72.3 and 70.0 for men (a difference of 2.3 years). This is punished by the Index with a rank of 104 to Denmark.

In other words, while the gender gap is obviously smaller in Denmark (2.3 years) than in Rwanda (8.5 years), Rwanda is getting a much better ranking on the specific variable (103 rankings better!). This leads to a better overall ranking as the Index rewards the gender gap in Rwanda (leading to an overall placement of 4 in the ranking system) and punishes Denmark with an overall score of 14. Consequently, we cannot say anything about the overall gender gap score in Rwanda or/and Denmark by looking at the Index (or any other country for that matter).

When we combine these issues with the report, we will see that the Index – all else equal – directly rewards countries with low development. To illustrate this, let us compare Rwanda and Denmark in 2016. In Denmark, the gender gap in healthy life expectancy was 2 years resulting in a female-to-male ratio of 1.03 (71 years/69 years). In Rwanda the gender gap was also 2 years resulting in a female-to-male ratio of 1.04 (57 years/55 years).

As the Index is rewarding a greater ratio, lower development values are rewarded (i.e. lower healthy life expectancy). Consequently, since the gender gap was the same in Denmark and Rwanda in 2016, but Rwanda had a lower life expectancy, they performed better on the Index (13 places better than Denmark). This problem becomes more and more serious when the overall level of development decreases and the gender gap increases.

To show the implication of this, Figure 2 presents a list of the countries with the best ranking (number 1) in 2017 on health and survival. There is an interesting absence of developed Western countries. (But do note that even Syria is doing a top notch job in the GGGR when it comes to health and survival!)

Figure 2: Gender gap in health and survival, best countries

The nature of the problems makes it difficult to make comparisons between countries and use the rankings to say anything meaningful about what is going on in the individual countries over time. Accordingly, it is a bad measure for any meaningful policy discussion.

The World Economic Forum writes in the report: “The Global Gender Gap Index was first introduced by the World Economic Forum in 2006 as a framework for capturing the magnitude of gender-based disparities and tracking their progress over time.” (page vii)

However, the problem is that we cannot say anything about progress over time when we look at the Index! From 2016 to 2017, Rwanda went from being number 100 to number 1 in healthy life expectancy despite an increase in the gender gap.

Gender parity is an important topic and I am sure the World Economic Forum is doing a great job pushing this agenda and turning it into an even more salient issue. However, in the current setup with these measures, I see no reason to take the ranking serious. Future reports will have to take the aspects discussed above into account before we might be able to compare gender parity across different countries.

New paper in Nature Human Behavior: Justify your alpha

Together with 87 other scientists I am co-author on a new paper in Nature Human Behavior. The paper is titled Justify your alpha and the abstract is as follows:

In response to recommendations to redefine statistical significance to P ≤ 0.005, we propose that researchers should transparently report and justify all choices they make when designing a study, including the alpha level.

The paper can be found here and more information on the context for the project can be found here.

Potpourri: Statistics #44

New article in European Sociological Review: Welfare Retrenchments and Government Support

My article, ‘Welfare Retrenchments and Government Support: Evidence from a Natural Experiment’, is now published in the European Sociological Review (vol. 34, no. 1). The abstract sums up the content of the article:

A large body of literature has provided mixed results on the impact of welfare retrenchments on government support. This article examines whether the impact of welfare retrenchments can be explained by proximity, i.e. whether or not the retrenched policy is related to people’s everyday lives. To overcome limitations in previous studies, the empirical approach utilizes a natural experiment with data from the European Social Survey collected concurrently with a salient retrenchment reform of the education grant system in Denmark. The results confirm that people proximate to a welfare policy react substantially stronger to retrenchment reforms than the general public. Robustness and placebo tests further show that the results are not caused by non-personal proximities or satisfaction levels not related to the reform and the government. In sum, the findings speak to a growing body of literature interested in the impact of government policies on mass public.

The article is available as open access here. The replication material can be found at the Harvard Dataverse and at GitHub.

Skal dronningen abdicere?

En af de seneste nyheder i det forgangne år var, at et klart flertal af danskerne ønskede at dronningen skulle abdicere. Baggrunden for dette var en meningsmåling foretaget af analysebureauet Wilke for, der blev samlet op af diverse andre nyhedsmedier.

Der er flere gode grunde til at være kritisk i forhold til den pågældende meningsmåling, hvorfor jeg også glædeligt har kommenteret på meningsmålingen for TjekDet.

Hvad jeg ikke vidste da jeg kommenterede meningsmålingen var, at 21 procent af de adspurgte i meningsmålingen svarede ‘ved ikke’, som er blevet frasorteret i meningsmålingen. Dette gør blot kritikpunkterne endnu mere relevante. Ligeledes er det sjovt at se, hvordan man kan forsvare en misvisende overskrift med, at man “laver journalistik”.

Skal medierne formidle metodiske informationer i dækningen af meningsmålinger?

Nyhedsartikler med meningsmålinger fortæller ofte historier, der har rod i tilfældig støj, laver absurde fortolkninger på baggrund af misvisende spørgsmålsformuleringer, “glemmer” at informere om hvem der har betalt for meningsmålingerne og så videre.

Derfor har jeg argumenteret tidligt og silde for, at medierne skal informere om metodiske aspekter, da disse er altafgørende for at kunne vurdere, hvor god dækningen af en meningsmåling er. Hvis metodiske informationer udebliver, er vi med andre ord ikke i stand til at kunne vurdere kvaliteten af en meningsmåling.

I 2011 besluttede jeg mig for, sammen med en god ven, at indsamle en masse artikler i medierne og undersøge, hvor gode medierne var til at informere om metodiske aspekter. Motivationen for dette var en begrænset systematisk viden herom i en dansk sammenhæng, men også en frustration over mediernes – i vores optik – mangelfulde dækning af metodiske informationer.

På baggrund af tidligere studier valgte vi at fokusere på bestemte aspekter, herunder om spørgsmålsformuleringens ordlyd, stikprøvestørrelsen og den statistiske usikkerhed blev formidlet. Resultaterne bekræftede overordnet betragtet vores forventninger og blev publiceret i Tidsskriftet Politik.

Til trods for at jeg i de fleste sammenhænge finder metodiske informationer relevante, er jeg ikke ukritisk tilhænger af blot at formidle så mange metodiske informationer som muligt. I dette indlæg vil jeg derfor gøre hvad jeg kan for at mindske relevansen af vores føromtalte studie. Eller som minimum komme ind på nogle af de forbehold, det er vigtige at holde sig for øje.

For det første er der begrænset plads i nyhedsartikler. AAPOR opererer eksempelvis med +10 metodiske informationer, der bør formidles, og der vil være tilfælde, hvor pladsen ikke tillader formidlingen af så mange informationer. Pladsbegrænsninger er en mindre bekymring når det handler om netartikler, men man skal ikke desto mindre være bevidst om, at der ganske enkelt er naturlige begrænsninger på, hvor lange historier der kan skrives om meningsmålinger.

For det andet er alle metodiske informationer ikke lige relevante. Hvad der kan være relevant i én sammenhæng kan i andre sammenhænge være tilnærmelsesvist ligegyldigt. Hvis der eksempelvis er tale om en meningsmåling omkring partivalg, er den eksakte ordlyd på spørgsmålet som regel ikke afgørende, hvor ordlyden i en meningsmåling omkring holdningen til et bestemt politisk emne er yderst relevant – og i mange tilfælde afgørende for, hvilke svar man får.

For det tredje kan formidlingen af mange metodiske informationer føre til at læseren husker mindre fra en meningsmålingsartikel. Derfor kan det give mening at anbefale journalister ikke at bestræbe sig på at formidle et tocifret antal af metodiske informationer, men i stedet at skulle forholde sig til, hvilke metodiske informationer der er relevante i den pågældende sammenhæng.

For det fjerde er det ikke selvskrevet, at metodiske informationer hjælper læserne med at forstå meningsmålinger. Det er således muligt, at en læser kan huske hvad den statistiske usikkerhed er i en meningsmåling, men dette betyder ikke, at vedkommende forstår hvad den statistiske usikkerhed helt præcist er for en størrelse og hvordan den skal tolkes. Derfor kan metodiske informationer ofte ikke stå alene. Nogle informationer kan være nødvendige, men de er sjældent tilstrækkelige.

For det femte er der andre elementer, der påvirker hvordan læserne tolker meningsmålingernes troværdighed. Vi skal dermed ikke forholde os til metodiske informationer isoleret set. Et amerikansk studie viser således, at borgerne er mere tilbøjelige til at finde en meningsmåling pålidelig, hvis den harmonerer med egne politiske overbevisninger, og det at formidle metodiske informationer gør hverken fra eller til i forhold til dette. Gevinsterne ved at formidle metodiske informationer er dermed sandsynligvis mindre end vi har antaget.

Alt dette fører til, at formidlingen af metodiske informationer ikke kan stå alene. Det er vigtigere at fokusere på, om de narrativer journalisterne laver, er konsistente med meningsmålingerne, der formidles, end at tælle hvor mange metodiske aspekter, der formidles. Der kan således være tilfælde, hvor 2-3 metodiske informationer er alt, der er brug for, og ekstra informationer tilføjes på bekostning af andre informationer og læserens oplevelse.

Da vi lavede vores undersøgelse i 2011 fandt vi talrige eksempler på nyheder, hvor der var en eksplicit diskrepans mellem de metodiske aspekter og selve artiklen. Eksempel 1: “Alle forskydninger ligger dog inden for målingens statistiske usikkerhed på 2,8 procent.” Eksempel 2: “Men selvom S går frem fra 25 pct. af stemmerne i går til 26,5 i dagens måling, så skal man bemærke, at bevægelsen ligger indenfor den statistiske usikkerhed, som stikprøveundersøgelsen bevæger sig indenfor.” Eksempel 3: “Bevægelserne er inden for den statistiske usikkerhed.”

I de tilfælde blev den statistiske usikkerhed nævnt, men det var ikke en god dækning. Vi kan derfor gå nok så meget op i, hvor mange metodiske informationer, der formidles, men hvis vi i sidste instans ikke har en dækning, der tager dem seriøst, har vi langt større problemer. Dette er elementer Yosef Bhatti og Rasmus Tue Pedersens tager op i deres undersøgelse af formidlingen af meningsmålinger i relation til den statistiske usikkerhed.

Min opfattelse er, at journalister i de fleste tilfælde ikke er kvalificerede til at vurdere, hvilke informationer der er relevante. Derfor er det ofte tilfældigt, om metodiske informationer formidles – og i så fald hvilke. Som tommelfingerregel bør medierne formidle metodiske informationer, men flere informationer er ikke altid bedre, og i værste fald fjerner det fokus fra, hvilke metodiske informationer der er vigtige samt hvordan de bruges.

Smittede kommunalvalget af på partiernes opbakning?

I forlængelse af kommunalvalget har der været flere artikler om, at kommunalvalget har smittet af på partiernes nationale opbakning. Vi har således set historier som Kommunalvalgssejr smitter af på Mette Frederiksen, Dansk Folkepartis lokale lussing giver ekko på landsplan og Dansk Folkeparti taber terræn – S i medvind.

Fælles for disse artikler er, at de alle tager udgangspunkt i enkeltmålinger (de to førstnævnte bygger begge på tal fra Megafon). Derfor besluttede jeg mig for, at kigge nærmere på målingerne fra institutterne, hvor vi har en måling både før og efter kommunalvalget. Dette har vi fra fem institutter: Greens, Epinion, Gallup, Voxmeter og Megafon.

Figur 1 viser forskellen i opbakningen til de respektive partier hos de forskellige institutter før og efter kommunalvalget. På x-aksen vises forskellen mellem kommunalvalget i år (KV17) og sidste kommunalvalg (KV13). På y-aksen vises forskellen mellem målingen fra før kommunalvalget og efter kommunalvalget (hvor positive værdier indikerer fremgang).

Figur 1: Opbakning før og efter kommunalvalget

Hvad kan vi sige på baggrund af disse tal? Det mest iøjnefaldende er, at de fleste udsving er små og ikke statistisk signifikante fra den ene måling til den næste. Der er enkeltmålinger, der giver en stor fremgang til Socialdemokraterne, men her skal man bemærke følgende forbehold: Greens’ før-måling er fra begyndelsen af oktober (næsten to måneder før kommunalvalget), og den anden er fra Megafon.

I det store hele er der ikke de store tegn på, at kommunalvalget førte til store ændringer i partiernes nationale opbakning fra én måling til den næste. De fleste ændringer er små og fortjener blot, at man tager den statistiske usikkerhed in mente. Dette er selvfølgelig ikke det samme som, at kommunalvalget (og dækningen heraf) ikke kan have betydning på længere sigt, men man skal være meget varsom med at konkludere, at kommunalvalget har smittet af på partiernes landspolitiske opbakning.

Meningsmålinger og kommunalvalg

Én af de nationale tendenser, der er blevet fremhævet i kølvandet på kommunalvalget, er at Dansk Folkeparti ikke fik en national fremgang. Ikke nok med at den store fremgang udeblev: partiet gik tilbage. Dette kan der skrives mange politiske analyser om, men der har endnu ikke været nogen overbevisende af slagsen.

Det hele handler som altid om meningsmålinger, og det relevante spørgsmål er, hvad vi så kan konkludere om disse på baggrund af kommunalvalgkampen. Jeg vil argumentere for to ting i dette indlæg. For det første at journalisterne fortjener ros for en dækning, der formåede at balancere det lokale med det nationale uden at fokusere på meningsmålinger. For det andet at vi undgik en krise ved ikke at dække de analyser, der blev lavet med udgangspunkt i nationale meningsmålinger, mere end tilfældet var.

Udgangspunktet er, at det er pokkers besværligt at lave undersøgelser, der kan belyse tendenser som Dansk Folkeparti. Vi har ganske enkelt ikke de fornødne data. Derfor forfalder vi oftest til nationale meningsmålinger. Helt galt gik det som bekendt i 2013, da DR fejlagtigt kårede Socialdemokraterne til kommunalvalgets store taber på baggrund af den famøse exitprognose fra Epinion.

Der er ingen tvivl omkring, at mediernes dækning af kommunalvalget skal ses i skyggen af kommunalvalget i 2013. DR var eksempelvis ude i begyndelsen af oktober og proklamere, at de ikke ville skrive om meningsmålinger i forbindelse med kommunalvalgkampen. Denne beslutning blev rost af Kasper Møller Hansen: “Det lyder som en erkendelse af, at kommunalvalget består af 98 forskellige valg, og at man selvfølgelig ikke har mulighed for at lave meningsmålinger af tilstrækkelig høj kvalitet i hver eneste kommune”.

Det er så netop også, hvad vi har set i 2017. En ydmyghed og erkendelse af, at der er tale om 98 forskellige valg. Det er sjældent, at jeg roser journalister for deres arbejde, men i denne sammenhæng er det min klare vurdering, at det er på sin plads at rose journalisternes dækning af kommunalvalget. Det har overordnet været en sober og nuanceret valgdækning, hvor der har været plads til interviews med lokalpolitikere, nationale politikere, borgere, eksperter, kommentatorer osv. Selvfølgelig har der været artikler og indslag, der kan kritiseres, men det har i overvejende grad været en god valgkampsdækning.

Der har dog været nogle historier, der har været mindre attråværdige. I København, en kommune der har de fleste mediers bevågenhed, blev der foretaget nogle meningsmålinger af diskutabel karakter. Martin Justesen har skrevet om disse for Journalisten, og han kommer med fem gode grunde til, at man skal være ekstra varsom med meningsmålinger til kommunalvalg. Artiklen er hermed anbefalet.

Der blev også gjort forsøg på at anvende de nationale meningsmålinger til at forudsige, hvordan det ville gå partierne lokalt. Mest omtale fik de såkaldte valgvindsprognoser, der tager udgangspunkt i ændringen i de nationale partiers opbakning og bruger disse til at forudsige ændringen i partiernes opbakning på lokalt niveau. Altinget kunne derfor skrive: “Den største fremgang henter Dansk Folkeparti, der både er gået meget frem i de landspolitiske meningsmålinger og samtidig er et parti, hvor forskerne forventer, at effekten smitter direkte af.”

I modellen blev det forudset, at Dansk Folkeparti ville gå frem i alle 98 kommuner. I ikke så meget som én kommune ville partiet få et dårligere valg end i 2013. Figuren der bedst illustrerede dette kan ses her:

Som bekendt blev Danmark ikke urinfarvet ved kommunalvalget, og der har som nævnt ovenfor været nogle analyser omkring hvorfor (se her og her). Det interessante for mig at se er dog, hvor grueligt galt det kunne have gået, hvis et institut havde lavet en prognose à la Epinions i 2013 og kommet frem til en så stor fremgang til Dansk Folkeparti som nævnte model forudså.

Kommunalvalget 2017 er dermed ikke kendetegnet ved en god dækning på trods af fraværet af meningsmålinger, men på grund af dette fravær. Forsimplede analyser, der heldigvis ikke fik den store medieopmærksomhed, ville kunne have ændret fundamentalt på dette med fejlslagne konklusioner om, hvordan det ville gå især Dansk Folkeparti.

Meningsmålinger er et ubegribeligt fantastisk værktøj, men vi skal være ekstra påpasselige med at bruge nationale meningsmålinger til at sige noget om fænomener, de ikke er lavet med henblik på at kunne sige noget om – eksempelvis hvordan det vil gå partierne lokalt. Hvis vi ikke gør det, gør vi det blot endnu sværere at overbevise folk om, at de rent faktisk har en værdi (hvilket de har).