Kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed #6

Jeg har i tidligere indlæg beskæftiget mig med styrkerne og svaghederne ved kvalitetsvægtede gennemsnit af meningsmålingerne (#1, #2, #3, #4, #5). I de seneste indlæg har jeg primært fokuseret på, hvordan kvalitetsvægtede meningsmålinger kan variere i deres konstruktion, herunder i forhold til hvilke meningsmålinger der skal indgå og med hvilken vægt (hvor meget indflydelse skal nye meningsmålinger eksempelvis have relativt til ældre meningsmålinger?).

Hvordan skal vi forholde os til meningsmålinger fra forskellige analyseinstitutter? Vi ved at forskellige institutter bruger forskellige metoder, men kan og bør vi tage højde for dette i vægtede snit? Der er usikkerhed forbundet med forskellige institutter, og der er ikke nødvendigvis grund til at antage, at alle analyseinstitutter er lige gode (eller lige dårlige). Udfordringen er, at vi som regel først efter et valg kan sige noget om, hvilke analyseinstitutter, der klarede sig godt.

I mit vægtede snit valgte jeg ikke at tage stilling til, om nogle institutter var bedre end andre, hvorfor de alle blev tillagt samme vægt. Det eneste der blev udregnet var huseffekter, hvilket som bekendt ikke nødvendigvis er udtryk for, at et institut tager fejl. Kort fortalt er det muligt at ét institut systematisk rammer mere præcist end alle andre.

Hvis vi skal vægte nogle institutters meningsmålinger højere end andres, er der to forskellige tilgange: den resultatorienterede og den metodeorienterede. Den resultatorienterede tilgang fordrer, at vi kigger på hvordan analyseinstitutterne har klaret sig ved tidligere valg og giver de institutter, der har klaret sig bedst, en større vægt. Dette lyder i teorien som en fantastisk løsning, men i praksis er der desværre ikke nødvendigvis en korrelation mellem hvordan man klarede forrige valg og hvordan man vil klare næste valg. For eksempel er analyseinstitutter, der klarer sig dårligt, mere tilbøjelige til at opdatere deres metode, hvorfor vi ikke nødvendigvis kan antage, at de vil klare sig dårligt ved næste valg.

Den metodeorienterede tilgang bygger omvendt på, at man rangerer analyseinstitutterne efter hvor stærk deres metode er. Det være sig eksempelvis et spørgsmål om transparens, hvor større transparens omkring metode og statistiske udregninger vil give et analyseinstitut en større vægt i et vægtet snit. Dette lyder i teorien også som en rigtig god løsning.

I et indlæg skrev G. Elliott Morris forleden om, hvorfor han netop har størst tiltro til en metodeorienteret tilgang:

“If any pollster violates any one of these conditions, I put them on a list for further review. That review entails an analysis of all the polls the firm has ever released, a deeper study of their methodology — including how they get their data, how they process it, and whether results for demographics subsets look plausible — and, when pollsters are willing to cooperate, in-depth interviews with their methodologists and leadership. If this review fails to show the pollster is receptive to criticism and willing to update its methods, depending on the degree of infraction, I will not use their data. Even then, if a pollster meets any three of the red flags above, it’s wise to at least down-weight their data, if not ignore it completely.”

Jeg finder Morris’ tilgang fornuftig og jeg er helt enig i beslutningen om ikke at inkludere meningsmålinger fra analyseinstitutter, hvor man ganske enkelt ikke har tiltro til deres metode og data og dermed deres resultater, desuagtet hvad disse resultater måtte vise. Hvis man har klar formodning om, at institutter snyder på vægten for at give politikere eller partier en fordel, har man gode grunde til at ignorere sådanne meningsmålinger.

Den primære udfordring ved en 100% resultatorienteret tilgang er, at vi inkluderer alle meningsmålinger, også selvom vi ikke har mange resultater. Dette inkluderer også meningsmålinger af en meget tvivlsom kvalitet. Udfordirngen er, at vi ikke nødvendigvis kan bruge resultaterne fra forrige valg til at vurdere, hvem der vil ramme præcist. “Generals always fight the last war”, som man siger. Omvendt er udfordringen ved en 100% metodeorienteret tilgang, at den er utroligt resourcekrævende og mere kvalitativ. Hvilke metodiske aspekter vil man kigge på? Hvilke grænseværdier bruger man, når man beslutter sig for, om et institut skal inkluderes eller ej?

Den primære grund til at jeg ikke har forholdt mig voldsomt meget til denne debat i tidligere indlæg, herunder også i udviklingen af mit snit, er, at vi (heldigvis) ikke har meget variation i den metodiske kvalitet af meningsmålingerne i en dansk kontekst. I USA er der ganske enkelt meget mere variation i analyseinstitutterens metode og tilgang, hvorfor der også er meningsmålinger fra institutter af en betydeligt ringere kvalitet. Fraværet af elendige meningsmålinger i en dansk kontekst gør det ganske enkelt nemmere at udvikle et vægtet snit.

I en dansk kontekst har der primært været en metodisk diskussion omkring hvorvidt meningsmålinger indsamlet online (e.g. YouGov) eller via telefoninterviews (e.g. Voxmeter) er bedre. Det er en vigtig diskussion, men der er ikke tale om en kvalitativ forskel mellem institutterne, der gjorde, at jeg ville lade det være udslagsgivende for, om et institut var metodisk stærkere end et andet.

I den bedste af alle verdener skal der være en meget stærk korrelation mellem den resultatorienterede tilgang og den metodeorienterede tilgang, når man arbejder med kvalitetsvægtede gennemsnit af meningsmålingerne. Hvis et institut har en bedre metode, burde de også – over flere valg – vise bedre resultater (= mere præcise resultater). Hvis vi havde 1.000 folketingsvalg, ville instituttet med den bedste metode ramme mere præcist i de fleste af de 1.000 folketingsvalg.

Der er således på mange måder tale om et praktisk problem med få datapunkter snarere end en filosofisk diskussion omkring forskellige måder at forstå meningsmålingerne på. Hvis vi havde daglige folketingsvalg ville det ikke tage os længe før vi kunne begynde at få en klar idé om, hvilke institutter, der havde den stærkeste metode på baggrund af deres resultater. Med andre ord er jeg selv fortaler for at bruge en resultatorienteret tilgang, men kun når vi har tilstrækkeligt med resultater, vi kan bygge en model på baggrund af (hvor mange resultater, der vil være tilstrækkelige, er et spørgsmål der er værd at forholde sig til en anden god dag).

Når vi kun har få valgresultater at forholde os til, er en resultatorienteret tilgang problematisk da en meningsmåling kan ramme rigtigt af forkerte grunde (en metode kan give rigtige resultater af forkerte grunde). En politisk bias hos et analyseinstitut kan være en fordel ved et valg eller to, men en systematisk bias bør – over mange valg – udstille et større problem hos et analyseinstitut, der burde føre til, at meningsmålinger fra et bestemt institut ville få en lavere vægt i et snit.

I Danmark har vi relativt få analyseinstitutter og de leverer alle meningsmålinger af en høj kvalitet, hvorfor det på mange måder skal ses som et sundt tegn, at vi ikke har haft brug for en diskussion om, hvilke analyseinstitutter der skal tillægges større eller lavere vægt i et vægtet snit. De respektive institutter vil selvsagt argumentere for, at deres metode er bedst, hvilket ville være mærkeligt andet, men det passer mig fint først at kigge på, hvor gode institutterne er efter et folketingsvalg.

Alt dette fører mig desuden til en hypotese, som jeg i skrivende stund ikke har empirisk belæg for (og hvis jeg har, er der kun tale om anektodisk evidens). Min hypotese er, at jo mindre transparens der er omkring meningsmålingerne i et land, desto bedre er meningsmålinger. Den kausale påstand er, at jo større problemer der har været med at ramme valgresultater i et land (og jo større fokus der har været på disse problemer), desto større pres har der været på at skabe større transparens omkring meningsmålingerne og deres metode.

Når vi har meget få resultater i en dansk kontekst (fra et begrænset antal analyseinstitutter) og begrænset åbenhed omkring metode og data (eksempelvis vægtning), giver det ganske enkelt ikke mening at applicere hverken en metodeorienteret eller resultatorienteret tilgang i en vægtning af de respektive analyseinsitutter i et kvalitetsvægtet snit.

Derfor vil jeg også argumentere for, at der i skrivende stund ikke er brug for – i en dansk kontekst – at man korrigerer vægtede snit for, hvem der har foretaget en meningsmåling. Der er primært brug for at man tager højde for huseffekter (så ens vægtede snit eksempelvis ikke påvirkes af, at nogle institutter gennemfører flere meningsmålinger).