Hvorfor er flere respondenter ikke nødvendigvis bedre? #3

Avisen Danmark kan rapportere, at et nyt analyseinstitut ved navn Electica er begyndt at foretage politiske meningsmålinger:

Det er en ny spiller på markedet, instituttet Electica, der har målt Nye Borgerlige til 11 procent, Venstre til 9,8 og Konservative til 12,6. Electica måler for Alliancen, der består af fagforbundene NNF, Blik & Rør, Dansk El-forbund og Malerforbundet, og fordi de måler blandt 5000 repræsentativt udvalgte danskere og ikke de cirka 1000-2000, som andre institutter baserer deres målinger på, giver det en statistisk usikkerhed, der blot er halvt så stor som normalt.

Jeg er på ingen måde imponeret over denne beskrivelse. Vi bør ikke have større tiltro til, at denne meningsmåling er mere præcis end hvad de andre analyseinstitutter kan vise med omkring 1000 respondenter. Det er korrekt, at flere respondenter resulterer i en mindre statistisk usikkerhed, men dette er – som nævnt i tidligere indlæg – ikke ensbetydende med, at der er tale om en mere præcis meningsmåling.

Jeg udelukker ikke, at tallene i meningsmålingen kan være præcise, men jeg har valgt ikke at inkludere denne meningsmåling i min oversigt på Politologi.dk. For det første har det ikke være muligt for mig at finde nogen beskrivelse af Electica, herunder hvilke slags analyser de helt præcist foretager. For det andet er jeg skeptisk over for den information om målingen, der bliver præsenteret i dækningen:

Undersøgelsen er gennemført af Electica for Alliancen, der består af fagforbundene NNF, Blik & Rør, Malerforbundet og Dansk El-forbund.

Der er gennemført 5000 interview blandt et repræsentativt udsnit af den danske befolkning i alderen 16 år eller derover. Deltagere mellem 16 og 18 år er siet [sic] fra. 11 procent har ikke svaret på hvilket parti, de ville stemme på. Tilbage var 4138 deltagere over 18 år.

De 5000 er blevet spurgt i perioden 1.-14. februar.

De 5000 er valg [sic] ud med udgangspunkt i den kendte fordeling på kriterierne køn, alder og region, og resultaterne er efterfølgende vejet således, at de afspejler den i Danmark kendte fordeling på kriterierne køn, alder og region

Den maksimale statistiske usikkerhed er på +/- 1,5 procentpoint.

Hvilken interesse har de respektive fagforbund i at betale for meningsmålinger? Ville de også stå på mål for selvsamme meningsmåling, hvis de havde vist, at opbakningen til Socialdemokraterne ville være langt lavere end hvad andre analyseinstitutter viser? Dette mener jeg, at man retmæssigt kan have sin tvivl omkring, hvorfor jeg ikke vil sidestille disse meningsmålinger med de målinger, der foretages af de respekterede analyseinstitutter og YouGov for andre medier.

Til dette kan man indvende, som nogle eksperter udtaler til Avisen Danmark, at kvaliteten er på linje med andre analyseinstitutter. Jeg skal ikke kunne udelukke dette, men jeg er langt mere kritisk ift. at skulle kunne bekræfte, at kvaliteten er den samme. Jeg tror ganske enkelt ikke, uden at være forelagt anden information end den der er tilgængelig, at denne meningsmåling er lige så god – og blot har endnu mere præcision.

Der er åbenlyse spørgsmål, jeg gerne vil have besvaret: Hvordan er de 5000 respondenter blevet udvalgt? Der skrives, at det er en onlineundersøgelse, men hvordan har de helt præcist rekrutteret 5000 respondenter, der udgør en repræsentativ stikprøve, når man vejer efter køn, alder og region? (Og er svarene de samme hvis man også vejer efter stemmeafgivelse ved valget i 2019?)

Flere respondenter i en meningsmåling er ikke et kvalitetstegn i og for sig selv. Hvis man som (nyt) analyseinstitut forsøger at skille sig ud fra resten af branchen, vil mit råd være ikke at sælge sig selv på en større stikprøve, men større transparens omkring, hvad man helt præcist gør.

Er der sexchikane på Christiansborg?

I 2018 deltog ansatte i Folketinget i en arbejdspladsvurdering (APV). I Politiken kritiserer jeg sammen med andre eksperter det metodiske grundlag for denne undersøgelse. Konkret udtaler jeg:

Det virker til at være et utroligt dårligt formuleret spørgsmål, som jeg generelt ville være meget, meget påpasselig med at bruge til at sige, at der ikke skulle være et problem. Eller det omvendt for den sags skyld. Det er på ingen måde noget, man ville se i en professionel spørgeskemaundersøgelse.

Læs hele artiklen her (bag en betalingsmur).

Skal medierne formidle metodiske informationer i dækningen af meningsmålinger?

Nyhedsartikler med meningsmålinger fortæller ofte historier, der har rod i tilfældig støj, laver absurde fortolkninger på baggrund af misvisende spørgsmålsformuleringer, “glemmer” at informere om hvem der har betalt for meningsmålingerne og så videre.

Derfor har jeg argumenteret tidligt og silde for, at medierne skal informere om metodiske aspekter, da disse er altafgørende for at kunne vurdere, hvor god dækningen af en meningsmåling er. Hvis metodiske informationer udebliver, er vi med andre ord ikke i stand til at kunne vurdere kvaliteten af en meningsmåling.

I 2011 besluttede jeg mig for, sammen med en god ven, at indsamle en masse artikler i medierne og undersøge, hvor gode medierne var til at informere om metodiske aspekter. Motivationen for dette var en begrænset systematisk viden herom i en dansk sammenhæng, men også en frustration over mediernes – i vores optik – mangelfulde dækning af metodiske informationer.

På baggrund af tidligere studier valgte vi at fokusere på bestemte aspekter, herunder om spørgsmålsformuleringens ordlyd, stikprøvestørrelsen og den statistiske usikkerhed blev formidlet. Resultaterne bekræftede overordnet betragtet vores forventninger og blev publiceret i Tidsskriftet Politik.

Til trods for at jeg i de fleste sammenhænge finder metodiske informationer relevante, er jeg ikke ukritisk tilhænger af blot at formidle så mange metodiske informationer som muligt. I dette indlæg vil jeg derfor gøre hvad jeg kan for at mindske relevansen af vores føromtalte studie. Eller som minimum komme ind på nogle af de forbehold, det er vigtige at holde sig for øje.

For det første er der begrænset plads i nyhedsartikler. AAPOR opererer eksempelvis med +10 metodiske informationer, der bør formidles, og der vil være tilfælde, hvor pladsen ikke tillader formidlingen af så mange informationer. Pladsbegrænsninger er en mindre bekymring når det handler om netartikler, men man skal ikke desto mindre være bevidst om, at der ganske enkelt er naturlige begrænsninger på, hvor lange historier der kan skrives om meningsmålinger.

For det andet er alle metodiske informationer ikke lige relevante. Hvad der kan være relevant i én sammenhæng kan i andre sammenhænge være tilnærmelsesvist ligegyldigt. Hvis der eksempelvis er tale om en meningsmåling omkring partivalg, er den eksakte ordlyd på spørgsmålet som regel ikke afgørende, hvor ordlyden i en meningsmåling omkring holdningen til et bestemt politisk emne er yderst relevant – og i mange tilfælde afgørende for, hvilke svar man får.

For det tredje kan formidlingen af mange metodiske informationer føre til at læseren husker mindre fra en meningsmålingsartikel. Derfor kan det give mening at anbefale journalister ikke at bestræbe sig på at formidle et tocifret antal af metodiske informationer, men i stedet at skulle forholde sig til, hvilke metodiske informationer der er relevante i den pågældende sammenhæng.

For det fjerde er det ikke selvskrevet, at metodiske informationer hjælper læserne med at forstå meningsmålinger. Det er således muligt, at en læser kan huske hvad den statistiske usikkerhed er i en meningsmåling, men dette betyder ikke, at vedkommende forstår hvad den statistiske usikkerhed helt præcist er for en størrelse og hvordan den skal tolkes. Derfor kan metodiske informationer ofte ikke stå alene. Nogle informationer kan være nødvendige, men de er sjældent tilstrækkelige.

For det femte er der andre elementer, der påvirker hvordan læserne tolker meningsmålingernes troværdighed. Vi skal dermed ikke forholde os til metodiske informationer isoleret set. Et amerikansk studie viser således, at borgerne er mere tilbøjelige til at finde en meningsmåling pålidelig, hvis den harmonerer med egne politiske overbevisninger, og det at formidle metodiske informationer gør hverken fra eller til i forhold til dette. Gevinsterne ved at formidle metodiske informationer er dermed sandsynligvis mindre end vi har antaget.

Alt dette fører til, at formidlingen af metodiske informationer ikke kan stå alene. Det er vigtigere at fokusere på, om de narrativer journalisterne laver, er konsistente med meningsmålingerne, der formidles, end at tælle hvor mange metodiske aspekter, der formidles. Der kan således være tilfælde, hvor 2-3 metodiske informationer er alt, der er brug for, og ekstra informationer tilføjes på bekostning af andre informationer og læserens oplevelse.

Da vi lavede vores undersøgelse i 2011 fandt vi talrige eksempler på nyheder, hvor der var en eksplicit diskrepans mellem de metodiske aspekter og selve artiklen. Eksempel 1: “Alle forskydninger ligger dog inden for målingens statistiske usikkerhed på 2,8 procent.” Eksempel 2: “Men selvom S går frem fra 25 pct. af stemmerne i går til 26,5 i dagens måling, så skal man bemærke, at bevægelsen ligger indenfor den statistiske usikkerhed, som stikprøveundersøgelsen bevæger sig indenfor.” Eksempel 3: “Bevægelserne er inden for den statistiske usikkerhed.”

I de tilfælde blev den statistiske usikkerhed nævnt, men det var ikke en god dækning. Vi kan derfor gå nok så meget op i, hvor mange metodiske informationer, der formidles, men hvis vi i sidste instans ikke har en dækning, der tager dem seriøst, har vi langt større problemer. Dette er elementer Yosef Bhatti og Rasmus Tue Pedersens tager op i deres undersøgelse af formidlingen af meningsmålinger i relation til den statistiske usikkerhed.

Min opfattelse er, at journalister i de fleste tilfælde ikke er kvalificerede til at vurdere, hvilke informationer der er relevante. Derfor er det ofte tilfældigt, om metodiske informationer formidles – og i så fald hvilke. Som tommelfingerregel bør medierne formidle metodiske informationer, men flere informationer er ikke altid bedre, og i værste fald fjerner det fokus fra, hvilke metodiske informationer der er vigtige samt hvordan de bruges.

Oplæg for CBEN om nudging og metode

Forleden gav jeg et oplæg for Copenhagen Behavioural Economics Network (CBEN) om nudging og metode. Sidstnævnte er noget jeg beskæftiger mig meget med, og nudging har jeg berørt i diverse indlæg (se eksempelvis her, her og her).

Arrangementet bar titlen ‘The methods behind nudging‘. Mit oplæg var introducerende med fokus på metode, og især hvorfor det er vigtigt at tage metoden bag mange af diverse undersøgelser interesseret i nudging seriøst (også selvom man er en del af et felt, hvor det overvejende fokus er på nye og spændende teoretiske bidrag). Min simple pointe var, at al den viden om nudging der appliceres i det offentlige såvel som det private i disse år er rodfæstet i viden, men også en betydelig del bullshit, og den eneste måde hvorpå man kan adskille det videnskabelige fra den tomme snak, er ved at sætte sig ind i metode.

Foruden mit oplæg var der et spændende oplæg af Pelle Guldborg Hansen (fra iNudgeyou og RUC), der gik i dybden med, hvad nudging er – og mindst lige så vigtigt, hvad det ikke er. Fremmødet var imponerende (en blanding af universitetsansatte, studerende, konsulenter, embedsmænd m.v.), og jeg kan kun anbefale andre med interesse for nudging at deltage i fremtidige arrangementer.

Om ekstern validitet ved lav intern validitet

Many political scientists quickly concede that experimental research has high internal validity compared with research with observational data and they dismiss experimental research (especially laboratory experiments) as being low on external validity compared with research with observational data. Both opinions tend to understate and ignore the multitude of issues involved in establishing the internal validity in the senses we have mentioned – statistical conclusion, causal validity, and, if the empirical study involves theory testing, construct validity. If a result is not statistically significant, cannot be established to be causal in the population originally investigated, or is estimated from an empirical study that has little relevance to the theory being evaluated, then how can it possibly be considered externally valid or robust as a causal relationship? It makes no sense to say that some empirical research is low on internal validity but high on external validity.

Side 275 i Morton, R. B. & K. C. Williams (2010). Experimental Political Science and the Study of Causality: From Nature to the Lab. Cambridge: Cambridge University Press.