Er svarprocenten hos Eurobarometer et problem?

Information kunne tidligere på ugen rapportere, at Eurobarometer, der står for Europa-Parlamentets opinionsundersøgelser, har metodiske udfordringer i forhold til deres svarprocent.

Konkret viser Informations dækning, at svarprocenterne hos Eurobarometer i 2018 var helt nede på omkring 15 procent i lande som Finland og Tyskland. I Danmark var svarprocenten på omkring 30 procent.

Jeg har i løbet af de seneste par dage talt med flere journalister om disse tal. Grundlæggende er jeg selvfølgelig enig i, at en svarprocent på 85 procent alt andet lige er bedre end en svarprocent på 15 procent, men jeg synes der er vigtige forbehold at tage højde for.

Min primære anke i forhold til debatten omkring svarprocenten er udgangspunktet om at betegne svarprocenten som en særdeles vigtig information, når man skal vurdere repræsentativiteten af en undersøgelse.

Tag eksempelvis dette udsagn fra Informations artikel: “Eksperter, som Information har talt med, vurderer, at svarprocenten bør ligge på 45-50, før undersøgelsen er repræsentativ.”

Dette er en mærkelig tommelfingerregel. Der er ingen garanti for, at en svarprocent på omkring 50 (eller højere) vil gøre en undersøgelse repræsentativ. Det er sågar muligt at en undersøgelse med en svarprocent på 35 kan være mere repræsentativ end en undersøgelse med en svarprocent på 45.

Som det næste er det vigtigt at huske på, at udfordringer med at skabe repræsentative undersøgelser ikke er isoleret til Eurobarometer. Alle analyseinstitutter har udfordringer forbundet med at få repræsentative data, hvorfor der ofte ligger et stort statistisk arbejde og venter, når data er indsamlet. Disse data skal således vægtes, så de tager højde for de skævheder, der er i datasættet (hvis der eksempelvis er flere ældre borgere i undersøgelsen end i befolkningen som helhed, lader man de yngre respondenters svar have relativt større betydning for resultaterne).

En kritik kan være, som det antydes i Informations artikel, at de indsamlede data givet svarprocenterne ikke er repræsentative, hvorfor svarene heller ikke kan blive det. Det er muligt, at Eurobarometer har konkrete problemer, der ikke kan løses med deres nuværende metode, men det er ligeledes vigtigt at holde sig for øje, at forskning har vist, at det er muligt at få repræsentative estimater på baggrund af meget ikke-repræsentative data (se eksempelvis dette studie).

Jeg er derfor ikke fuldkommen enig med de eksperter, der argumenterer for, at man ikke kan bruge Eurobarometers data og på den baggrund konkluderer, at vi ikke aner om bestemte tal fra deres undersøgelse er korrekte eller ej. Igen, højere svarprocenter er bedre, men lad os ikke brænde Eurobarometer på bålet fordi de ikke rammer en bestemt svarprocent. Der er grund til at være kritisk og diskutere implikationerne af svarprocenterne, men Eurobarometers data er ikke ubrugelige.

Som jeg fortalte de journalister, jeg talte med, er det – som med al data – godt at kigge på flere datasæt og se, om tendenser bekræftes på tværs af forskellige datakilder. Derfor anbefalede jeg også, at man ikke resolut affejer Eurobarometer, men forholder sig – som altid – kritisk til metoden og supplerer med data fra andre undersøgelser.

Her er hvad jeg eksempelvis argumenterer for til en journalist fra Kristeligt Dagblad:

Det bedste bud, hvis man rent faktisk vil vide, om EU-opbakningen er glødende eller lunken, er ifølge Erik Gahner Larsen ikke at afvise Eurobarometer helt. I stedet bør den kombineres med andre målinger, både nationale og tværnationale.

Det er vigtigt at vi har adgang til information om metodiske begrænsninger og forbehold, når der indsamles data. Der er ligeledes grund til at forholde sig kritisk til svarprocenterne hos Eurobarometer. Jeg ser dog ingen grund til at anbefale, at man ikke tager deres resultater seriøst eller på anden måde partout advokerer for, at undersøgelser med en højere svarprocent er mere repræsentative.

Afslutningsvis skal jeg for fuld åbenheds skyld deklarere, som jeg også har gjort overfor de journalister, jeg har talt med, at jeg anvender data fra Eurobarometer i min egen forskning (se evt. her og her).

Potpourri: Statistics #54

A data.table and dplyr tour
Mistakes, we’ve drawn a few
Twenty rules for good graphics
gganimate: The grammar of animation
Visualising Intersecting Sets Of Twitter Followers
Docker and Packrat
Explore your Researcher Degrees of Freedom
Teaching material: Data analytics and visualization
10 things R can do that might surprise you
Scraping Data from the Web with rvest
Common statistical tests are linear models (or: how to teach stats)
8 Useful R Packages for Data Science You Aren’t Using (But Should!)
Easy multi-panel plots in R using facet_wrap() and facet_grid() from ggplot2
Winners of the 1st Shiny Contest
Rachael’s R Tutorials
Web Scraping for Broad City Charts
Implementing the super learner with tidymodels
Three things to know beyond base R

Potpourri: Statistics #52

Here’s why 2019 is a great year to start with R: A story of 10 year old R code then and now
How the BBC Visual and Data Journalism team works with graphics in R
Special Topics in Data Science: Responsible Data Science
Causal Data Science
From Psychologist to Data Scientist
Causal Graphs Seminar
R Coding Style Guide
Explaining the 2016 Democratic Primary with Machine Learning
A guide to making your data analysis more reproducible
Exploring the multiplication table with R
hcandersenr: An R Package for H.C. Andersens fairy tales
Solving the model representation problem with broom
Basic Stata Syntax Workshop
Bayesian Logistic Regression using brms, Part 1
Half a dozen frequentist and Bayesian ways to measure the difference in means in two groups
Understanding propensity score weighting
Causal Inference Book
15 new ideas and new tools for R gathered from the RStudio Conference 2019
Keeping up to date with R news
tidylog

Potpourri: Statistics #51

– 2018 in Graphics: Bloomberg, FiveThirtyEight, Reuters, Nathan Yau
Survey Raking: An Illustration
textrecipes 0.0.1
Topics in Econometrics: Advances in Causality and Foundations of Machine Learning
Learning Statistics with R
EDUC 263: Introduction to Data Management Using R
Practical R for Mass Communication and Journalism: How Do I? …
Text classification with tidy data principles
Easily generate information-rich, publication-quality tables from R
gganimate: Getting Started
Text as Data
A biased tour of the uncertainty visualization zoo

Potpourri: Statistik #38

How much statistics do psychological scientists need to know? Also, a reading list (De to bøger der nævnes i indlægget, Understanding Psychology as a Science og Statistical Rethinking, kan varmt anbefales.)
Defining Open Science Definitions
Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing
Correlates of State Policy
Basic Regular Expressions in R
Learning from Marginal Effects Plots
Examining the arc of 100,000 stories: a tidy analysis
– Video Introduction to Bayesian Data Analysis:

How Histograms Work

Seinfeld

Seinfeld (1989–1998) er en fremragende sitcom. Sammen med serier som Frasier (1993-2004) og Friends (1994-2004) står den som en af de stærkeste komedieserier fra 90’erne, der stadig kan ses i 2017. For nyligt valgte jeg at gense seriens 173 afsnit, der er fordelt over 9 sæsoner, og jeg kan kun anbefale, at man får den (gen)set.

I forbindelse med at jeg så serien, fik jeg også læst Seinfeldia: How a Show About Nothing Changed Everything, der leverer en minutiøs gennemgang af historien bag serien. Den var lidt for detaljerig til min smag, men for de virkelige fans af serien, kan den også varmt anbefales.

For hvert afsnit jeg så af serien, valgte jeg også – som med det meste af det jeg ser – at vurdere det på IMDb. På IMDb, der er en forkortelse for Internet Movie Database, vurderede jeg således hvert afsnit af Seinfeld på en skala fra 1 til 10.

Det var heldigvis ikke kun mig, der valgte at gense Seinfeld og vurdere hvert afsnit af serien på IMDb. Det samme gjorde min gode ven Knud. Dette giver et datasæt, hvor vi kan sætte lidt tal på, hvordan vi hver især har det med serien. Figur 1 viser fordelingen af vores respektive vurderinger af alle afsnittene af Seinfeld.

Figur 1: Fordeling af vurderinger, afsnit af Seinfeld

Figuren viser med al tydelighed, at Knud gennemsnitligt er mere glad for de enkelte afsnit af Seinfeld end jeg er. Knuds gennemsnitlige vurdering er således 7,46, hvor min er 6,67. Dette skyldes især, at jeg har været ekstra hård ved de afsnit, som jeg synes er subpar.

Den laveste vurdering jeg giver et afsnit er 2, hvor det for Knud er 3. Overordnet giver jeg 39 afsnit vurderingen 2, 3, 4 eller 5, hvor dette kun er tilfældet for Knud ved to afsnit. Dette afspejler sig også i standardafvigelsen for vores vurderinger, hvor denne er 1,07 for Knud og 1,88 for mig.

Der gemmer sig dog mere relevant information end blot fordelingen af vurderinger. Det viser sig, at jeg bliver mere skeptisk over tid. Figur 2 viser vores vurderinger over tid, samt de gennemsnitlige vurderinger for hvert afsnit på IMDb fra alle brugerne på IMDb, der har vurderet de respektive afsnit.

Figur 2: Vurderinger af afsnit over tid

Her ser vi for det første, at Knud følger IMDbs vurderinger meget fint, om end med et lidt lavere gennemsnit. Jeg er klart mere positiv i mine vurderinger af de første sæsoner (altså de tidligere 90’ere). Det var især sæson 8 og 9, jeg havde det svært med. Præmissen i mange af afsnittene var simpelthen for ringe, og til trods for at det ikke var elendige afsnit, var det langt under den standard, som der blev etableret i løbet af de tidligere sæsoner af serien.

Ovenstående viser også, at det er begrænset, hvor mange afsnit vi giver en topkarakter, altså 10 ud af 10. Konkret er der blot otte afsnit af Seinfeld, der har fået 10 af enten Knud eller mig. Tabel 1 viser hvilke afsnit, der er tale om. Første kolonne angiver hhv. sæson og afsnit, anden kolonne titlen på afsnittet, tredje kolonne min vurdering, fjerde kolonne Knuds vurdering og så IMDbs gennemsnitsvurdering i femte kolonne.

Tabel 1: Afsnit som minimum en af os har givet vurderingen 10

Afsnit Vurdering: Erik Vurdering: Knud Vurdering: IMDb
3.16 The Fix Up 10 9 8,5
3.17 The Boyfriend: Part 1 10 9 9,0
3.18 The Boyfriend: Part 2 10 9 8,9
4.11 The Contest 10 9 9,6
4.17 The Outing 10 9 9,4
5.20 The Hamptons 10 10 9,1
6.12 The Label Maker 10 9 8,7
7.6 The Soup Nazi 9 10 9,6

Her ser vi for det første, at jeg har givet flere afsnit 10 ud af 10. Knud har givet to afsnit 10 ud af 10, hvor det ene af dem er et, jeg også har givet 10 (det fantastiske afsnit The Hamptons). For det andet kan vi se, at vi ikke er uenige omkring disse afsnit. For de otte afsnit hvor en har givet 10, giver den anden som minimum 9. The Soup Nazi gav Knud 10 ud af 10, og det ligger med en gennemsnitsvurdering på 9,6 på IMDb, og det er da også et rigtig godt afsnit, men det er ikke lige så godt som seriens bedste afsnit (som eksempelvis The Fix Up og The Contest).

Som sagt indledningsvist er der tale om en fremragende sitcom. Jo længere tid der går, desto større er sandsynligheden for, at man møder folk, der ikke har set den. Det er en skam, for den holder stadig den dag i dag, og er betydeligt bedre end de sitcoms, der kører i TV i disse år.

Potpourri: Statistik #35

How to better communicate election forecasts — in one simple chart
What data patterns can lie behind a correlation coefficient?
Electoral Vote Prediction Map in R
Plotly R cheat sheet
Stata Figure Schemes Latest version + inclusion in Stata’s SSC archive
The hard road to reproducibility
Equivalence, non-inferiority and superiority testing
Writing Good R Code and Writing Well
December ’16 RStudio Tips and Tricks
A non-comprehensive list of awesome things other people did in 2016
The 10 Best Data Visualization Articles of 2016 (and Why They Were Awesome)