Har Jyllands-Posten indført en bedre metode?

Hos Jyllands-Posten kan man læse, at “Jyllands-Posten og Wilke indfører en ny metode for opinionsmålinger. Målet er at opnå større præcision.” Kort opsummeret vil Jyllands-Posten og Wilke introducere ”en ny standard” for politiske meningsmålinger i Danmark. Dette vil ske med følgende tiltag: 1) en fordobling af antallet af respondenter, 2) en fortsættelse af hidtidige praksis, 3) en ændring i udvælgelsen af respondenter, 4) en ændring i vægtningsproceduren og 5) en højere svarprocent.

Det er svært at se, hvor de nye standarder er – og hvilke problemer, de vil løse. Husk på, at der stadig ikke har været nogle udmeldinger om, hvad der gik galt under det seneste folketingsvalg. Og når vi ikke kender årsagen til problemet, er det som bekendt vanskeligt at komme med en løsning. Vi ved, at institutterne ikke var gode til at ramme Dansk Folkepartis vælgeropbakning, men vi ved ikke om det var på grund af udvælgelsen af respondenter, svarprocenten, vægtningen af svarene eller noget helt fjerde (eller en kombination af nævnte, som Jyllands-Posten står på mål for her).

Det er også rimeligt at antage, at andre analyseinstitutter arbejder på at opnå en højere svarprocent, have den bedste vægtningsprocedure og udvælge respondenterne på den bedste måde. Så længe vi ikke adresserer hvordan Wilkes metode afviger fra andre analyseinstitutters metoder, er det svært at konkludere, at der er nogle nye standarder/metoder her. Det er med andre ord svært at se, hvad der er nyt i disse standarder, som de fleste andre analyseinstitutter ikke allerede (også) arbejder ud fra. Dette beskriver Jyllands-Posten ikke med ét ord, og det er nok fordi, at der ikke er så meget nyt under solen her. Gammel vin på nye flasker.

Der er dog ét punkt, hvor Jyllands-Posten er eksplicit omkring, hvordan deres praksis afviger fra andres: ”Hidtil har Wilkes meningsmålinger bestået af ca. 1.000 interview, fordelt på internet og telefon. Dette antal er normen i Danmark. Fremover øger vi dog antallet af interview til ca. 2.000”. Hvis man ser bort fra, at der er undtagelser på dette (Epinion, der laver meningsmålinger for DR, har som regel over 1.700 respondenter i hver måling), er det svært at se, hvorfor dette er en kvalitet i sig selv. Det er ikke kun i et lille land som Danmark, at 1.000 respondenter er normen, men i alle lande.

Dette af gode statistiske grunde: Vi får mere ud af at interviewe respondent nummer 980 end respondent nummer 1.980. Uafhængigt af populationens størrelse, forstås. Kritiske tunger kan derfor indvende, at i stedet for at bruge penge på at interviewe 2.000 i stedet for 1.000, ville pengene være givet bedre ud på at forbedre andre forhold ved meningsmålingen. Eller med andre ord: Bruge pengene på at opnå større validitet end reliabilitet.

Generelt er der et alt for stort fokus på – og tiltro til – stikprøvestørrelsen og den statistiske usikkerhed, der følger med. Den statistiske usikkerhed er kun meningsfuld, hvis vi har et validt estimat. Præcision er dermed ikke en kvalitet i sig selv, hvis vi blot rammer forkert med stor præcision. Med andre ord kan det sågar blot medføre, at man tager fejl med større præcision og dermed – lettere komisk – ligger endnu længere væk fra det sande estimat, taget den statistiske usikkerhed i betragtning (som det eksempelvis var tilfældet under folketingsvalget, når man arbejdede med aggregerede meningsmålinger).

Den statistiske usikkerhed kan da også være svær at tolke. I den første meningsmåling fra Wilke for Jyllands-Posten, skrives der: “Usikkerheden er det interval, målingen med 95 pct. sandsynlighed rammer inden for.” Dette er lidt kludret formuleret og ikke helt korrekt. Som bekendt er den rigtige tolkning, at hvis vi fik gennemført meningsmålingen igen og igen, ville den statistiske usikkerhed 19 ud af 20 gange indeholde den rigtige opbakning. For en let og god illustration af dette, se denne guide. Igen: Det vigtige er, at en præcis meningsmåling ikke nødvendigvis er en sand meningsmåling. Det virker derfor mest af alt som en gratis (=dyr) reklame for Wilkes målinger, når man sælger 2.000 respondenter som en kvalitet.

Det er formidabelt, at Jyllands-Posten arbejder på at gøre det bedre i deres dækning af meningsmålinger, især i forhold til frekvensen af dem. Ligeledes har Jyllands-Posten og Wilke måske lavet forandringer til det bedre, men umiddelbart er der intet der tyder på, at vi skal stole mere på meningsmålinger fra Wilke end fra Epinion, Gallup og de andre analyseinstitutter – også efter indførelsen af den “ny metode”.

Den gode, den onde og den grusomme: Mediernes formidling af statistisk usikkerhed i meningsmålingerne

Den kyndige læser af meningsmålinger ved efterhånden alt om den statistiske usikkerhed i meningsmålingerne og ikke mindst vigtigheden af, at journalisterne formidler helt essentielle metodiske informationer. Dette er dog ikke ensbetydende med, at de respektive danske medier gør det. I dette indlæg kigger jeg nærmere på, hvordan de danske medier formår at formidle et af de vigtigste aspekter af meningsmålingerne: den statistiske usikkerhed.

Der er især to forhold, der er vigtige i denne sammenhæng. For det første at undersøge, om medierne formår at formidle den statistiske usikkerhed. For det andet at undersøge, om de formidler den korrekte statistiske usikkerhed. I forhold til sidstnævnte er det vigtigt at huske på, at usikkerheden for partierne i den samme meningsmåling varierer, alt efter partiets størrelse. De fleste artikler omhandlende meningsmålinger rapporterer dog oftest kun én usikkerhed, mere specifikt for det estimat med den største usikkerhed (altså usikkerheden for det estimat, der kommer tættest på 50%).

Det relevante ved meningsmålingerne i denne valgkamp er, at de alle omhandler styrkeforholdet mellem rød og blå blok. Jeg har ikke været i stand til at finde så meget som én artikel, der ikke kommenterer på opbakningen til henholdsvis rød og blå blok. Dette gør især det andet forhold ved den statistiske usikkerhed interessant. Det er ikke tilstrækkeligt, at disse artikler kun formidler usikkerheden for partierne, da den største usikkerhed er tilknyttet de to blokke. Nedenstående figur illustrerer dette ved at vise hvordan usikkerheden med et 95% konfidensinterval ændres som en funktion af partiets/blokkens størrelse (ved en stikprøvestørrelse på 1000, se her for matematikken bag):

På figuren har jeg angivet et parti, der har 25% af stemmerne (det kunne i disse dage være Socialdemokraterne), samt en blok, der får 50% af stemmerne. Hvis en artikel kun formidler den statistiske usikkerhed for partiet, men er interesseret i opbakningen på blokniveau, vil den rapporterede statistiske usikkerhed være misvisende svarende til afstanden mellem de to stiplede linjer.

For at kigge nærmere på, om medierne tager højde for dette i dækningen, gennemgik jeg en del af de artikler, der er tilgængelige online. Jeg kiggede især på de meningsmålinger fra medierne, der har et bestemt analyseinstitut tilknyttet deres dækning (da de med sikkerhed får den statistiske usikkerhed fra institutterne). Da Voxmeter leverer meningsmålinger til Ritzau, fandt jeg et par tilfældige artikler herfra, der var formidlet i medierne.

I min læsning af hver artikel undersøgte jeg 1) om den maksimale statistiske usikkerhed blev rapporteret, 2) hvad den maksimale statistiske usikkerhed var (altså egen udregning) og 3) vurderede om de to usikkerheder var identiske. Til min store overraskelse var det desværre ikke alle artikler, der formåede at levere noget så basalt som den statistiske usikkerhed.

Overordnet er der tre typer af dækning af den statistiske usikkerhed: Den gode, den onde og den grusomme. Den gode dækning formår at rapportere den statistiske usikkerhed og dette på en sådan måde, at alle rapporterede estimater har en maksimal usikkerhed, der stemmer overens med den rapporterede. Den onde dækning formår også at rapportere den statistiske usikkerhed, men nævner eksempelvis, at det blot er den maksimale usikkerhed for partierne, hvorefter forskellene mellem blokkene rapporteres. Den grusomme dækning nævner ikke usikkerheden med ét ord.

Det gode eksempel først: DR og Epinion. Lige så elendige DR og Epinion var på valgdagen under kommunalvalget i 2013 med deres exit prognose, lige så dygtige er de i deres formidling af den statistiske usikkerhed under denne valgkamp. I samtlige artikler på DR.dk, hvor Epinions målinger formidles, rapporteres den maksimale statistiske usikkerhed på blokniveau. Og for at dette ikke skulle være nok, er der i de fleste tilfælde også en henvisning til rapporten fra Epinion, hvor man kan læse meget mere om meningsmålingen. Det er fantastisk god formidling. Epinion har desuden flere respondenter med end normalt, hvilket gør, at selvom usikkerheden formidles for blokkene, er den stadig lav i forhold til, hvad man normalt ser for partierne.

Det onde eksempel: Jyllands-Posten og Wilke. Jyllands-Posten formår at formidle den statistiske usikkerhed og er eksplicit omkring, at det er for de største partier, men tolker også på forskellene mellem blokkene – og angiver den statistiske usikkerhed for partierne i figurerne hvor de viser forskellene mellem blokkene. Der er dog et tilfælde hvor de rent faktisk formidler usikkerheden på blokniveau, så jeg tror på, at de har kompetente journalister ansat, der har styr på den slags. Et par lignende tilfælde finder vi hos Politiken, der dog også har gode eksempler.

Det grusomme eksempel: TV2 og Megafon. Her formidles ingenting. Læserne af meningsmålingerne hos TV2 har kun mulighed for at vide, hvor stor den statistiske usikkerhed er, hvis de selv finder lommeregneren frem. Til gengæld får man Anders Langballe på autoplay, der fortæller om, hvor spændende alle målingerne er. Mette Østergaard, der nu er hos TV2 News, er desuden uvidende om kvaliteten af dækningen på TV2s hjemmeside, når hun siger, at TV2 gør meget ud af at beskrive den statistiske usikkerhed “udførligt på vores hjemmeside”.

Nedenfor har jeg samlet min læsning af artiklerne i tabelform. Første kolonne angiver mediet, der har formidlet målingen, samt en henvisning til selve artiklen. Anden kolonne angiver analyseinstituttet samt datoen for hvornår dataindsamlingen stoppede. Tredje kolonne den statistiske usikkerhed som rapporteret (hvis den er rapporteret). Fjerde kolonne den statistiske usikkerhed som kalkuleret (hvis der var tilstrækkelige informationer i artiklen til at kalkulere den). Femte kolonne om der er tale om en god ( ), ond ( ) eller grusom ( ) formidling af usikkerheden.

Medie Institut (dato) Maks. usikkerhed: Nævnt Maks. usikkerhed: Kalkuleret Vurdering
TV2 Megafon (27.5) 3,02
TV2 Megafon (30.5) 3,10
TV2 Megafon (31.5) 3,10
TV2 Megafon (1.6)
TV2 Megafon (2.6) 3,05
TV2 Megafon (3.6) 3,05
TV2 Voxmeter (29.5) 2,70 3,03
Politiken Megafon (29.5) 3,00 3,10
Politiken Megafon (30.5) 3,00 3,38
Politiken Megafon (1.6) 3,00 3,00
Politiken Megafon (2.6) 3,00 3,00
Politiko Gallup (27.5) 2,72
Politiko Gallup (27.5) 3,00 2,23
DR Epinion (27.5) 2,60 2,59
DR Epinion (28.5) 2,30 2,28
DR Epinion (30.5) 1,90 1,87
DR Epinion (1.6) 2,40 2,39
DR Epinion (2.6) 2,30 2,31
DR Epinion (3.6) 2,20 2,22
JP Wilke (29.5) 2,63 3,02
JP Wilke (30.5) 3,09 3,09
JP Wilke (31.5) 2,65 3,09
JP Wilke (1.6) 2,68 3,09
MX Voxmeter (27.5)
JP Voxmeter (27.5) 2,70 3,03

Som det kan ses er der både gode og dårlige eksempler. DR klarer sig uden tvivl bedst. Jyllands-Posten klarer sig godt, med plads til forbedringer. TV2 har Anders Langballe. Der er indikationer på, at nogle medier har en praksis der fungerer på den måde, at man først udregner den statistiske usikkerhed for partierne, hvorefter man tolker på opbakningen til blokkene, hvor den statistiske usikkerhed er større end for partierne. Opfordringen til journalisterne er simpel: Husk at formidle den statistiske usikkerhed – og rapporter den statistiske usikkerhed for blokkene, hvis opbakningen til disse er af interesse.