Kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed #8

Skal meningsmålinger fra alle analyseinstitutter inkluderes i et kvalitetsvægtet gennemsnit? I mit forrige indlæg om FiveThirtyEights nye vægtede gennemsnit pointerede jeg, at G. Elliott Morris, der nu står bag det vægtede snit, ikke delte samme tilgang til vægtede snit som Nate Silver, der i mange år har været synonym med FiveThirtyEight.

Et af de konkrete analyseinstitutter, som jeg bemærkede, at G. Elliott Morris tidligere har udtalt sig kritisk om, men som stadig er inkluderet i FiveThirtyEights snit, er Rasmussen Reports: “I et indlæg skrevet af G. Elliott Morris tidligere i år, forklarer han blandt andet, at han ikke stoler på meningsmålinger fra institutter som Rasmussen Reports og Trafalgar Group. Hvis man kigger på de seneste meningsmålinger, der er inkluderet i den nye model, finder man dog blandt andre Rasmussen Reports.”

Siden da er det kommet frem, at G. Elliott Morris har kontaktet Rasmussen Reports med henblik på at få svar på en lang række spørgsmål, der vedrører bekymringer i forhold til kvaliteten af sidstnævntes meningsmålinger. Vi ved dette fordi Rasmussen Reports har gjort den fulde forespørgsel fra G. Elliott Morris offentligt tilgængelig på deres hjemmeside. Har man interesse for meningsmålinger og/eller amerikansk politik, kan det varmt anbefales, at man læser hele henvendelsen.

Langt de fleste spørgsmål, der stilles i henvendelsen, er helt legitime. Alene det faktum at nogle af de spørgsmål er relevante, burde få FiveThirtyEight til at overveje, om de – desuagtet svarene – vil inkludere Rasmussen Reports i deres vægtede snit. På den ene side er det således let at se fornuften i, at man stiller sådanne spørgsmål til et analyseinstitut, når der er konkrete bekymkringer i forhold til deres analytiske tilgang, metode og formidling såvel som tolkning af resultater.

På den anden side er det ikke let at gennemskue, hvad man helt præcist ønsker at opnå med en sådan henvendelse fra FiveThirtyEight til Rasmussen Reports. Til trods for at jeg er enig i relevansen af de pågældende spørgsmål, har jeg mine forbehold. For det første virker flere af spørgsmålene irrelevante eller retoriske. Nogle spørgsmål er eksempelvis mindre interesseret i at høre om Rasmussen Reports metode, og mere interesseret i at høre om holdningen til udsagn der er givet på forskellige tidspunkter (eksempelvis i forhold til guvernørvalget i Arizona sidste år). Det er uden tvivl vigtige spørgsmål, men det er svært at se relevansen i forhold til, om og hvordan meningsmålinger skal inkluderes i et kvalitetsvægtet gennemsnit. Det virker med andre ord til at være en potpourri af alt, hvad man kan komme på, der har været kritisabelt ved og med Rasmussen Reports.

For det andet er nogle spørgsmål meget krævende, og jeg har svært ved at forestille mig, at FiveThirtyEight vil stille de samme krav til andre analyseinstitutter. Tag eksempelvis dette/disse spørgsmål: ‘The methodology mentions a “demographically diverse panel” for online respondents. Is this panel proprietary, or are you contracting it out? If the former, how do you recruit and ensure balanced representation on the panel? If the latter, to whom are you contracting out?’ Jeg tvivler på at mange analyseinstitutter vil være klar til uden videre at give detaljerede svar på, hvilke kontrakter de har med forskellige dataleverandører. Og jeg er uenig i, at dette er relevant information i forhold til at beslutte, om et analyseinstituts meningsmålinger skal inkluderes i et snit eller ej.

Der bliver brugt intet mindre end fireogtyve spørgsmålstegn i henvendelsen til Rasmussen Reports. Det kommer ikke som den store overraskelse, at Rasmussen Reports blot vælger at gøre henvendelsen offentligt tilgængelig uden at svare på så meget som ét af de spørgsmål, der stilles. Nate Silver har argumenteret for på Twitter, at der er tale om en politisk skævhed hos ABC News (der står bag FiveThirtyEight): “Very bad to do a Spanish Inquisition with pollsters based on their political orientation. I love my ex-colleagues (this is coming from a new guy they hired) but if this is their practice, hope ABC will stop use of 538 brand so it isn’t associated with me.”

Nate Silver har siden da fulgt op med et indlæg, hvor han uddyber sin kritik. Her argumenterer han for, at kvalitetsvægtede gennemsnit af meningsmålingerne ikke bør være en politisk lakmusprøve. Det er svært at være uenig, men jeg læser heller ikke henvendelsen fra G. Elliott Morris som et forsøg på at indføre en sådan lakmusprøve. Min læsning er, at det er et forsøg på at addressere en politisk skævhed i nogle meningsmålinger, som man ser i en amerikansk kontekst. Jeg skrev blandt andet om denne udfordring i et indlæg sidste år: “Meningsmålinger er ikke altid gode. Vi så senest et hav af partipolitiske meningsmålinger ved det amerikanske midtvejsvalg, der ikke overraskende overestimerede opbakningen til Republikanerne.”

Der er med andre ord ingen tvivl om, at det er godt at tage udfordringen med politiske meningsmålinger alvorligt, når man forsøger at lave et kvalitetsvægtet gennemsnit af meningsmålingerne (især i en amerikansk kontekst). Ikke desto mindre er jeg helt enig med de følgende kritiske pointer i Nate Silvers indlæg:

The thing about running a polling average is that you need a consistent and legible set of rules that be applied to hundreds of pollsters you’ll encounter over the course of an election campaign. Going on a case-by-case basis is a) extremely time-consuming (don’t neglect how busy you’ll be in the middle of an election campaign) and b) highly likely to result in introducing your own biases, whether it’s the political outcome you’re rooting for or whatever you think will make your model look smart. That’s why, after 15 years of doing this, I’ve been a stickler for consistency, even if that means including some pollsters whom I subjectively don’t like, politically or methodologically.

Perhaps Morris’s questions were getting at some larger theme or more acute problem. But if so, he have should stated it more explicitly in his letter. Journalists, in most circumstances, shouldn’t act like Vincent D’Onofrio in Law & Order trying to sniff around for clues or throw a suspect off-kilter. Ask clear, concise questions that make your intentions clear.

Instead, this looks like a fishing expedition, with Morris hoping to catch Rasmussen in some sort of venial methodological sin that is probably fairly common within the industry. Or, because the questions are onerous, the tone of his email is hostile, and Carroll was only given a day-and-a-half to respond just before a four-day summer weekend, he was hoping that thy wouldn’t be answered at all — so he could say “See! They refused to answer my questions!”. Either way, this is the letter you get only once someone has already made their mind up.

Det er en rigtig god pointe, at der skal være en systematisk tilgang i forhold til, hvordan man evaluerer analyseinstitutterne, og det er problematisk at have en case-by-case tilgang, der i bedste fald er utroligt resourcekrævende, men i værste fald introducerer flere problemer. Hvis man er bekymret for, at Rasmussen Reports overestimerer opbakningen til republikanske politikere, kan man lade dette komme til udtryk i – og korrigere for – med huseffekter.

Mit indtryk er, at FiveThirtyEight vil fortsætte deres systematiske analyse af forskellige analyseinstitutters metode og resultater (og give dem en dertilhørende bedømmelse), dog uden at det bliver med så detaljerede spørgsmål, som der er sendt til Rasmussen Reports. G. Elliott Morris skriver eksempelvis følgende på Twitter: “asking pollsters detailed methodological questions is not (or shouldn’t be!) controversial. it’s standard practice in most media organizations, and aggregators should probably even be publishing responses for the public and using them as a way to gauge potential measurement error”. Det er jeg helt enig i. (Jeg skrev et indlæg i 2015 med 20 spørgsmål, journalister skal stille til meningsmålinger.)

Det er i udgangspunktet utroligt nemt at lave et kvalitetsvægtet gennemsnit af meningsmålingerne. Du tager de seneste meningsmålinger og udregner et gennemsnit. Derefter kan du lave det bedre og mere avanceret efter behov (eksempelvis ved at vægte nye meningsmålinger højere og korrigere for huseffekter). Det er dog ikke nemt at lave et kvalitetsvægtet gennemsnit, hvis man skal begynde at korrigere for implicitte og eksplicitte politiske skævheder i analyseinstitutters arbejde, især hvis man også skal se bort fra egne politiske overbevisninger.

Det er spændende at følge arbejdet med kvalitetsvægtede gennemsnit af meningsmålinger i en amerikansk kontekst, og især diskussioner om hvordan man kan og bør forholde sig til statistisk usikkerhed og politiske skævheder. Det skal dog nævnes, at der heldigvis ikke er noget der tyder på, at vi har lignende udfordringer med meningsmålingerne og analyseinstitutterne i en dansk kontekst.