Kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed #3

I mit forrige indlæg om kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed, kom jeg ind på, at en af grundene til, at der er forskel på de vægtede gennemsnit er, at de ikke anvender samme tilgang:

Der findes ikke én måde at lave et vægtet gennemsnit. Der er en lang række af spørgsmål, man skal forholde sig til. Hvor mange meningsmålinger skal indgå i et vægtet snit? Skal alle analyseinstitutter have samme indflydelse – eller skal eksempelvis de institutter, der ramte sidste valg bedre, vægtes højere? Nyere meningsmålinger skal vægtes højere end ældre meningsmålinger, men hvor meget mere? Svarene på disse spørgsmål er ikke nødvendigvis oplagte, og det er en af grundene til, at forskellige vægtede gennemsnit ej heller giver de samme estimater.

På den baggrund tænkte jeg, at det ville være interessant at lave en sammenligning af de respektive vægtede gennemsnit. Der er fire vægtede gennemsnit i Danmark, der bliver opdateret regelmæssigt: Politologi Prognose, Risbjerg-snittet, Berlingske Barometer og Ritzau Index.

Der er flere ligheder og forskelle mellem de respektive snit, og i tabellen nedenfor har jeg sammenlignet de fire snit på de følgende syv parametre: 1) hvilke institutter, de inkluderer (om det er alle institutter eller ej); 2) antallet af meningsmålinger; 3) om der tages højde for huseffekter; 4) hvilke minimumskrav der er til, at et parti inkluderes; 5) om nyere målinger vægtes højere; 6) om resultaterne er offentligt tilgængelige; og 7) om den statistiske usikkerhed formidles.

Tabel 1: Sammenligning af vægtede gennemsnit

Politologi Prognose Risbjerg-snittet Berlingske Barometer Ritzau Index
Alle institutter Ja Nej Nej Nej
Antal målinger Alle fra valgperioden Målinger fra den seneste måned Målinger fra de seneste 31 dage Seneste 15 målinger
Estimering af huseffekter Ja Nej Nej Nej
Minimumskrav Ingen Ingen Ingen Minimum 15 målinger hvor et parti indgår
Vægter nye målinger højest Ja Uklart Ja Ja
Offentligt tilgængelige resultater Ja Nej Ja Ja
Rapportering af statistisk usikkerhed Ja Ja Nej Nej

Før jeg beskriver detaljerne i tabellen yderligere, skal jeg nævne, at jeg tager forbehold for, at jeg kan have misforstået noget ved de vægtede snit, og såfremt der er fejl eller mangler, skal jeg selvfølgelig nok korrigere disse. Ligeledes skal jeg for en god ordens skyld orientere, at jeg står bag Politologi Prognose, hvorfor jeg (u)bevidst kan få den til at fremstå som den bedste prognose blandt de fire. Jeg vil holde mig fra at lave en sådan vurdering i dette indlæg.

De fleste vægtede gennemsnit inkluderer ikke meningsmålinger fra Megafon. Sådan har det været i årevis, hvor Megafon eksplicit har frabedt sig dette. Jeg har ikke fået en henvendelse fra Megafon, hvorfor jeg antager, at det er acceptabelt, at de er inkluderet i Politologi Prognose. Politologi Prognose er dermed det eneste vægtede snit, der inkluderer meningsmålinger fra alle institutter.

De vægtede snit bruger ikke de samme meningsmålinger. Risbjerg-snittet og Berlingske Barometer anvender begge de nyeste meningsmålinger (meningsmålinger der er ældre end en måned, er ikke inkluderet). Ritzau Index tager ikke højde for, hvornår meningsmålingerne er lavet, men blot at de er blandt de seneste 15 meningsmålinger. Politologi Prognose anvender uden sammenligning flest meningsmålinger ved at kigge på alle meningsmålinger i perioden fra det seneste folketingsvalg frem til og med den seneste meningsmåling.

Dette fører til en af de primære forskelle mellem Politologi Prognose og de andre vægtede gennemsnit. Mere konkret at Politologi Prognose estimerer huseffekter, altså systematiske forskelle i, hvordan analyseinstitutterne generelt betragtet vurderer (eller ikke vurderer) partierne forskelligt (se dette indlæg for henvisninger til mere information omkring huseffekter). Ved at bruge et større datamateriale har Politologi Prognose nemmere ved at opfange nye tendenser i meningsmålingerne, uden blot at samle op på tilfældig støj. De vægtede snit der anvender de seneste meningsmålinger, men som ikke korrigerer for, hvor disse meningsmålinger kommer fra, vil i overvejende grad primært formidle et gennemsnit af Voxmeters resultater (da de kommer med flere meningsmålinger end de andre institutter).

De fleste vægtede gennemsnit har ingen eksplicitte minimumskrav til, hvornår et nyt parti skal inkluderes. Undtagelsen her er Ritzau Index, der først inkluderer et nyt parti, når de er at finde i mindst 15 meningsmålinger. Det vil sige at Ritzau Index skal have et parti med i alle de respektive meningsmålinger, de kigger på i deres vægtede snit, før de inkluderes.

De vægtede snit vægter som regel nye målinger højest, om end det er uklart i hvilket omfang dette finder sted i Risbjerg-snittet. Dette da det blot er den seneste måneds meningsmålinger, der inkluderes, hvorfor det nok ikke vil have den store betydning i sidste instans. Det er således også begrænset, hvor meget information vi har om, hvor meget mere nye målinger vægtes højere. I Politologi Prognose estimeres en model, hvor der gives estimater for hver dag for, hvor stor opbakningen er til de respektive partier. Det vægtede gennemsnit er således blot estimaterne for den dag, modellen er estimeret.

De fleste vægtede snit er offentligt tilgængelige, så det er muligt for alle at få information om, hvordan partierne klarer sig i meningsmålingerne. Undtagelsen her er Risbjerg-snittet, der af samme grund primært er af interesse for journalister og andre fagprofesionelle, der har adgang til indholdet bag Altingets betalingsmur.

Det sidste jeg har kigget på er, hvorvidt de vægtede snit formidler den statistiske usikkerhed. Hverken Berlingske Barometer eller Ritzau Index rapporterer den statistiske usikkerhed ved de vægtede snit. Den statistiske usikkerhed er som bekendt lavere end ved enkeltmålinger, men det er vigtigt at huske på, at vi trods alt stadig har en statistisk usikkerhed. Ved Politologi Prognose formidles den statistiske usikkerhed for hvert parti, og for Risbjerg-snittet formidles den som det højeste usikkerhedsestimat, eksempelvis: “Den statistiske usikkerhed på snittet for de enkelte partier er højst +/- 1,3 procentpoint.”

Dette er ikke en udtømmende gennemgang af alt, hvad man kan kigge på, når vi kigger på de vægtede genenmsnit. Som jeg nævnte i mit forrige indlæg, er det eksempelvis muligt at give nogle analyseinstitutter større indflydelse, hvis de har for vane at ramme valgresultatet mere præcist. Mig bekendt tager ingen af de nuværende danske vægtede gennemsnit dette i betragtning.

Ovenstående genenmgang er som sagt ikke en øvelse i at vurdere, hvilket vægtet snit, der er bedst. Der er forskelle og ligheder, og min plan er ikke at øge konkurrencen mellem disse snit (tværtimod tror jeg kun det er sundt, at der er forskellige snit med forskellige tilgange), men at øge transparensen og vores opmærksomhed på, hvordan disse vægtede gennemsnit er skruet sammen. Hvis nogen skulle have interesse heri, står det dem frit for at lave et kvalitetsvægtet gennemsnit af de vægtede gennemsnit.

Min tilgang til de vægtede gennemsnit og deres anvendelighed er blevet mere kritisk og pessimistisk med årenes gang (sammenlign eventuelt mit indlæg fra 2013 med mit indlæg fra 2020). Derfor ønsker jeg heller ikke, at ovenstående skal tage fokus fra enkeltmålingernes relevans. Min tilgang er nu, at det er vigtigt ikke blot at kigge på én meningsmåling, når vi skal vurdere, hvordan partierne står i målingerne, men at vi ej heller skal reducere et partis opbakning til et estimat i ét vægtet gennemsnit.

Huseffekter i meningsmålingerne

Når vi kigger på kvalitetsvægtede gennemsnit af meningsmålingerne forsøger vi at tage højde for såkaldte huseffekter, altså hvordan de forskellige analyseinstitutter systematisk giver partier en større eller mindre opbakning end de andre analyseinstitutter.

Jeg har over årene været med til at udregne huseffekter i meningsmålingerne (se eksempelvis Politiken i 2015 og TV 2 i 2017). Jeg har ligeledes fremhævet vigtigheden af at kigge på huseffekter, når jeg har talt med eksempelvis Altinget og DR ifm. 2019-valget.

Hvad jeg har savnet er dog ét sted, hvor huseffekterne bliver opdateret mere regelmæssigt, så jeg ikke behøves henvise til ældre artikler om emnet. Denne resource har jeg nu lavet og den kan findes her. De ser ud som følger:

Vi kan se, at der er uenighed om især opbakningen til Nye Borgerlige og Venstre hos YouGov og Voxmeter. Bemærk, som jeg også skriver på siden, at dette ikke er ensbetydende med, at disse institutter tager fejl.

Har du forslag til forbedringer eller tilføjelser, modtager jeg gerne feedback.

Meningsmålinger på Politologi.dk #2

I 2017 introducerede jeg en meningsmålingsoversigt på Politologi.dk. Det er i al beskedenhed blevet en populær resource for mange, herunder journalister og politikere, og under folketingsvalgkampen i 2019 blev oversigten brugt af tusindvis af danskere på daglig basis. Den blev ligeledes også formidlet i medierne (eksempelvis hos DR).

Jeg har siden 2017 kun lavet mindre justeringer hist og her på figurerne i oversigten. Her er et eksempel på, hvordan de har set ud for Socialdemokratiet:

På baggrund af nogle af de udfordringer og begrænsninger folk har fremhævet i forbindelse med figurerne, har jeg nu lavet en ny version. Her er et eksempel på, hvordan det ser ud for Socialdemokratiet:

Som det kan ses, er der foretaget flere synlige ændringer. I dette indlæg gennemgår jeg de mest væsentlige samt mine argumenter herfor.

Punkter

Figuren begyndte i 2017 at vise meningsmålinger fra de seneste 10 måneder. Dette havde dog det primære problem, at når vi ville komme ind i en valgkamp, ville det blive meget svært at se udviklingen i løbet af en valgkamp. Derfor ændrede jeg antallet af punkter til at vise de 100 seneste meningsmålinger.

Dette har overordnet fungeret fint, men i den nyeste version har jeg reduceret mængden af data til de seneste 75 meningsmålinger. Grunden til dette er, at der vises mere information i de opdaterede figurer, og jeg har forsøgt at kompensere for dette ved at fjerne nogle af de ældre meningsmålinger.

Figurerne har forsøgt at vise forskellige farver og punkttyper for de respektive analyseinstitutter. Dette har overordnet fungeret fint, men der har været et par begrænsninger. Eksempelvis havde Norstat og Voxmeter næsten identiske farver og punkttyper, hvorfor det kunne være besværligt at sondre mellem de to.

I de nye figurer forsøger jeg at tage højde for, at nogle analyseinstittuter foretager mange meningsmålinger (eksempelvis Voxmeter) og andre foretager få meningsmålinger (eksempelvis Norstat), og give farver og punkttyper herefter (altså en mørkerød udfyldt cirkel til Voxmeter, der adskiller sig signifikant fra de andre farver og typer).

Kurve

Hele formålet med figurerne er at give et hurtigt overblik over, hvordan det går de forskellige partier i meningsmålingerne. Trendlinjen, altså kurven, er et godt redskab til dette. Problemet har dog været, at den godt kunne give et misvisende billede af, hvilken retning meningsmålingerne bevæger sig (eksempelvis Socialdemokratiet i ovenstående figur, der giver et indtryk af, at partier et er på en opadgående kurve).

Konkret har jeg gjort kurven mere lokal, så trendlinjen vil skyde mindre i vejret men ‘binde sig’ mere til punkterne, som alt andet lige skal være i fokus. Dette gør det forhåbentligt nemmere at få et indtryk af, hvilken trend vi observerer i meningsmålingerne. Dertil har jeg også ændret farven på trendlinjen, så den ikke tager for meget opmærksomhed.

Statistisk usikkerhed

Den største ændring i figurerne er, at der nu også rapporteres den statistiske usikkerhed (med et 95% konfidensinterval). Jeg har skrevet talrige indlæg om den statistiske usikkerhed, så der er ingen nævneværdige grunde til at gå mere i dybden med dette her. Jeg kan blot nævne, at jeg har forsøgt diskret at fremhæve den statistiske usikkerhed, uden at det fremstod uoverskueligt.

Y-akse

Et af de primære kritikpunkter af figurerne har været, at y-aksen ikke inkluderer 0 (eller 100 for den sags skyld). Jeg har tidligere skrevet om, hvorfor det ikke er misvisende, at en figur ikke inkluderer 0 på y-aksen. Det vil eksempelvis ikke være informativt at vise, hvor langt Socialdemokratiet ligger fra spærregrænsen, og at vise dette ville blot gøre det sværere at se, hvordan deres opbakning har ændret sig (eller ikke ændret sig).

Når det er sagt har jeg forsøgt at øge variationen i y-aksen på en systematisk måde, der ikke gør det svært at identificere forskelle over tid. Konkret har jeg anvendt disse principper fra Francis Gagnon, altså at der kan tilføjes et tomt område under den laveste værdi, der er udregnet vha.:

(minimum værdi – minimum y-akse værdi) / (maksimum y-akse værdi – minimum y-akse værdi)

Dette (samt den statistiske usikkerhed) gør at de laveste observationer ikke ligger tæt på y-aksens begyndelse, og vil forhåbentlig give et mere rammende billede af, hvordan partierne ligger i meningsmålingerne (uden altid at inkludere 0).

Foruden dette har jeg også fjernet titlen på y-aksen samt flyttet al anden information, så der gives mere plads horisontalt til at vise meningsmålingerne over tid. Der er ligeledes tilføjet mere information til selve figuren (eksempelvis navnet på partiet og information om statistisk usikkerhed). Dette er gjort da figurene ofte deles på sociale medier, hvorfor det er fint, at den slags information kommer med.

Overordnet ser jeg dette som en væsentlig forbedring af figurerne. Ikke desto mindre er jeg sikker på, at der nok skal være forslag derude til, hvordan de kan blive endnu bedre. Koden til at producere figurerne kan findes her, og såfremt du har forslag til forbedringer, hører jeg gerne fra dig.

Du kan finde de seneste meningsmålinger på Politologi.dk.

Kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed #2

Hvis to meningsmålinger begge viser, at opbakningen til Socialdemokratiet er på 25%, tror jeg på, at opbakningen til Socialdemokratiet ligger på omkring 25%. Hvis én meningsmåling viser, at Socialdemokratiet ligger på 20% og en anden meningsmåling viser, at partiet ligger på 30%, tror jeg ikke i højere grad på, at partiet ligger på 25%.

Jo mere der er brug for et vægtet gennemsnit af meningsmålingerne, desto mindre stoler jeg på det vægtede gennemsnit. Hvis alle meningsmålinger viste det samme, ville det ganske enkelt ikke være afgørende at bruge et vægtet gennemsnit (med mindre man blot vil reducere den statistiske støj).

Ingen analyse er bedre end de data, man har til rådighed. De vægtede gennemsnit er fantastiske til at minimere eventuelle fejl ved én meningsmåling og give et samlet bud på, hvordan de politiske partier klarer sig.

Sandheden er dog at kvalitetsvægtede gennemsnit primært tager højde for støj i meningsmålingerne (altså forskelle mellem meningsmålingerne) og ikke systematiske fejl, der skubber alle meningsmålinger i en bestemt retning. Hvis alle meningsmålinger eksempelvis overestimerer opbakningen til Dansk Folkeparti, vil et vægtet gennemsnit ikke komme tættere på et korrekt estimat. Tværtimod vil standardfejlene omkring et forkert estimat være mindre, og vi vil foranlediges til at tro, at der er mindre usikkerhed.

I et tidligere indlæg (fra 2013) skrev jeg, at vægtede gennemsnit er at foretrække, og dette mener jeg selvfølgelig stadigvæk, men det er interessant at se, at der ikke blev plads til nogle forbehold. Ikke så meget som ét lille forbehold, fandt jeg relevant at få med. Indlægget konkluderer blot, at vægtede gennemsnit er løsningen på vores problemer, men jeg finder det relevant at gå i dybden med nogle af de relevante forbehold.

Der findes ikke én måde at lave et vægtet gennemsnit. Der er en lang række af spørgsmål, man skal forholde sig til. Hvor mange meningsmålinger skal indgå i et vægtet snit? Skal alle analyseinstitutter have samme indflydelse – eller skal eksempelvis de institutter, der ramte sidste valg bedre, vægtes højere? Nyere meningsmålinger skal vægtes højere end ældre meningsmålinger, men hvor meget mere? Svarene på disse spørgsmål er ikke nødvendigvis oplagte, og det er en af grundene til, at forskellige vægtede gennemsnit ej heller giver de samme estimater.

Ved forrige valg tyder det på, at meningsmålingerne opfangede nogle vælgervandringer i valgkampens sidste dage. Meningsmålingerne var dermed mere præcise i dagene op til valget end de var i ugerne op til valget (YouGov kan være undtagelsen her). Et godt vægtet gennemsnit skal på den ene side være konservativt og ikke blot følge ukritisk med, når et par meningsmålinger viser store forandringer, men på den anden side også være i stand til at opsamle disse forandringer. Min vurdering er således, at jo mere et vægtet snit vejede nye meningsmålinger over ældre målinger, desto bedre ramte det vægtede snit valgresultatet.

Der er dog intet samlet overblik over, hvordan vægtede snit forholder sig til forskellige meningsmålinger. Dette bringer os videre til en anden udfordring ved de vægtede gennemsnit: Der er begrænset eller ingen transparens omkring, hvordan disse snit er lavet. Med andre ord gives der meget sjældent eksplicit svar på ovennævnte spørgsmål. På samme måde som vi ved meget lidt om, hvordan individuelle meningsmålinger konstrueres, ved vi meget lidt om, hvad der går ind i den ‘black box’, der er et vægtet gennemsnit. Dette er også et forbehold, der er relevant ift. det snit af meningsmålingerne, jeg præsenterer på Politologi Prognose. Et fantastisk eksempel på en undtagelse, hvor alt materiale er offentligt tilgængeligt, er The Economists model for det kommende præsidentvalg i USA.

Kigger man på den videnskabelige litteratur kan man finde forskellige modeller for vægtede gennemsnit appliceret på politiske meningsmålinger i lande som Australien (Jackman 2005), England (Fisher et al. 2011; Hanretty et al. 2016), Frankrig (Arzheimer og Evans 2014), Irland (Louwerse 2016), Mexico (Cantú et al. 2016), Sverige (Walther 2015), Tyskland (Michaelis 2018) og selvfølgelig USA (Wright og Wright 2018).

En af grundene til, at der er forskellige modeller, er blandt andet, at de forsøger at tage højde for specifikke kontekstuelle forhold. Der er eksempelvis stor forskel på om du ønsker at lave et vægtet gennemsnit af meningsmålingerne i USA eller i Danmark. I en dansk kontekst med et flerpartisystem med relativt få meningsmålinger fra få institutter, skal vi selvsagt tage højde for, at det ikke blot er to partier, meningsmålingerne skal give bud på.

Min prognose bygger på flere af ovennævnte studier (primært Simon Jackmans model). Konkret estimeres partiernes opbakning i en Bayesiansk analyse, der ikke giver konfidensintervaller men troværdighedsintervaller. Disse har en meget mere intuitiv tolkning når det kommer til usikkerhed, der giver mulighed for at lave den tolkning, læsere og journalister ofte ønsker at foretage (eksempelvis at at vi er 95% sikre på, at opbakningen til Venstre ligger et sted mellem 22% og 26%). Dertil kan det også tilføjes, at posterior fordelingen er en Beta fordeling, der gør, at 95% troværdighedsintervallet ikke nødvendigvis er normalfordelt.

En grundlæggende antagelse er, at partierne ikke ændrer drastisk opbakning fra dag til dag. Til at tage højde for dette anvendes en Kalman filter-metode, der ofte bruges når man arbejder med tidsseriedata. Overordnet betyder dette, at selvom opbakninge til partierne kan ændre sig på kort sigt, vil de næppe miste og få mange vælgere i løbet af få dage.

En anden antagelse er relateret til huseffekter (jeg har skrevet om huseffekter før, se eksempelvis her). Vi antager med huseffekterne at resultaterne fra det “gennemsnitlige” analyseinstitut er korrekte, hvorfor gennemsnittet af disse huseffekter er 0. Denne antagelse er yderst vigtig, da implikationen er, at hvis alle meningsmålinger tager systematisk fejl (altså tager fejl “i samme retning”), vil det vægtede snit ikke tage højde for dette.

Er der måder hvorpå disse vægtede snit kan forbedres yderligere? Helt sikkert. En interessant udvidelse er at kombinere meningsmålingsdata med anden data (evt. økonomiske data), så der kan gives egentlige forudsigelser på, hvordan partierne vil klare sig ved et valg (for en introduktion til en sådan tilgang henvises til Stoetzer et al. 2019). Personligt er jeg dog ikke overbevist om en oplagt applikation i en dansk kontekst, da der er mange forbehold der ændrer sig fra valg til valg (herunder ofte nye partier, der stiller op for første gang).

De vægtede snit er – alt andet lige – at foretrække over enkeltmålinger. Dette er dog ikke det samme som, at vægtede snit er uden begrænsninger eller altid vil ramme bedre end specifikke enkeltmålinger. Afslutningsvis vil jeg derfor give to anbefalinger med på vejen. For det første, kig gerne på flere enkeltmålinger såvel som flere vægtede snit, når du skal have en idé om, hvordan partierne klarer sig. For det andet, brug din kritiske sans. Meningsmålingerne kan tage fejl (og rammer derfor sjældent 100% plet), men de vægtede snit kan kun adressere en bestemt type af disse fejl.