Erik Gahner Larsen

Påvirker boganmeldelser salget af bøger?

I en artikel i Weekendavisen den 2. december (i 2016) argumenterer forfatter og data scientist Lasse Hjorth Madsen for, at boganmeldelser ikke har nogen effekt på en bogs økonomiske succes. Og i det omfang der er tale en effekt, har vi at gøre med en negativ effekt. Mere konkret skrives der:

De flotte og håndgribelige roser giver både omtale og mersalg. Formentlig gavner de gode karakterer også biblioteksudlånene, hvilket igen får bibliotekerne til at anskaffe mange eksemplarer af de efterspurgte bøger, hvilket igen udløser bibliotekspenge. Kort sagt: Der er penge i hjerterne. Problemet er bare, at det er forkert.
Undersøger man systematisk sammenhængen mellem den modtagelse, en bog får af anmelderne, og den læserinteresse, der kan spores i form af biblioteksudlån, opdager man, at den ikke blot er svag, den har det forkerte fortegn: Ganske vist gavner det ikke udlånet med en decideret afklapsning i form af et enkelt hjerte eller stjerne, men bøger med småringe anmeldelser klarer sig gennemsnitligt en anelse bedre på bibliotekerne end bøger med fremragende anmeldelser.

Dette vil nok undre de fleste, inklusiv undertegnede, hvorfor jeg læste videre. Kan det virkelig passe, at småringe anmeldelser til en bog hænger sammen med at klare sig en anelse bedre på bibliotekerne? Det viser sig heldigvis, at der ligger hårde tal bag, for som der skrives om metoden:

Det lyder som en uhyrlig påstand, men der ligger hårde tal bag: Bogsitet bog.nu har været så venlige at stille deres database med anmeldelser til rådighed. Den indeholder 31.616 anmeldelser fra perioden 2010-2016. Dansk Bibliotekscenter offentliggør på deres hjemmeside data, som blandt andet omfatter en liste med 44,7 millioner udlån af i alt 387.000 bogtitler fra danske biblioteker. Vrider man armen om på disse to datakilder og sender dem i tvangsægteskab med hinanden, ender man med 6.436 bogtitler, for hvilke der både foreligger tal for det samlede udlån og for det gennemsnitlige antal hjerter eller stjerner, som de er blevet tildelt i anmeldelserne.

Så langt, så godt. Den substantielle tolkning af resultaterne er som følger: “Bøger, der har høstet mellem tre og fire hjerter eller stjerner, blev i perioden udlånt i gennemsnit 1146 gange. For bøger med mindst fem hjerter eller stjerner var tallet 886.” Teksten bliver ledsaget af denne figur:

Figuren viser ikke noget interessant i forhold til et generelt mønster, der omtales i artiklen, men viser blot titlerne på nogle af de bøger, der har klaret sig hhv. godt og dårligt blandt anmelderne og på bibliotekerne. Der er således også gode grunde til at være kritisk i forhold til artiklens pointer, hvorfor den heller ikke bliver mødt uden kritik. Ugen efter (9. december) har økonomistuderende Mads Schnoor Nielsen således et læserbrev i Weekendavisen, hvor han bringer følgende kritik:

Hvis man skal analysere effekten af anmeldelser, bliver man nødt til at gruppere bøger, som ville have det samme forventede oplag og læserskare og derfra analysere, hvorvidt en god eller en dårlig anmeldelse signifikant kan påvirke salgstallet.

Den 23. december svarer Lasse Hjorth Madsen på kritikken i et læserbrev (også i Weekendavisen), hvor han pointerer, at kritikken ikke har noget på sig:

Mads Schnoor Nielsen anbefaler at inddrage oplysninger om bøgernes »forventede oplag og læserskare« i analysen. Det er heldigvis også netop det, jeg gør. Eller mere præcist: Jeg gør det bedste, data giver mulighed for, nemlig ser på, om den manglende sammenhæng mellem anmelderroser og læserinteresser gælder på tværs af genrer. Blandt andet fordi visse genrer (krimier) typisk oplever en større læserinteresse end andre genrer (digte og noveller). Det er den delanalyse, der sætter mig i stand til at konkludere, at netop for digte og noveller lader positive anmeldelser til at gavne læserinteressen. Det står alt sammen i artiklen.

Og læserbrevet konkluderes med ordene:

Jeg tror, det vil glæde Mads Schnoor Nielsen og andre analytisk indstillede læsere at vide, at en række regressionsmodeller og test for statistisk signifikans har været under anvendelse, før jeg konkluderede, som jeg gjorde. Den er god nok: Flot anmeldte bøger får, alt andet lige og i gennemsnit, ikke større interesse fra læserne end middelmådigt anmeldte bøger.

Jeg er ikke tilfreds. Der er gode grunde til, at de anvendte data ikke kan bruges til at konkludere, at boganmeldelser ikke har nogen effekt på salget af bøger (eller udlån af samme). Problemet med de pågældende data kan koges ned til, at de ikke udgør et tilfældigt valg af bogtitler, men tværtimod et valg af bøger, der ikke giver gode betingelser for at undersøge hypotesen om, at bedre anmeldelser giver flere udlån.

Bøgerne i analysen har det tilfælles, at de har haft et minimum af succes (udlån m.v.). Bemærk at der er 387.000 bogtitler fra danske biblioteker i det datasæt, der anvendes, men kun godt 1 procent af disse bøger kan inkluderes i analysen. Denne lille andel (6.436 bogtitler) er på ingen måde repræsentativ for andre bøger, men netop de bøger, der enten har fået gode anmeldelser eller er blevet udlånt af andre grunde (eksempelvis på grund af en mainstream/kendt forfatter).

Teknisk set har vi at gøre med Berksons paradoks, hvor vi betinger på en endogen variabel i vores ikke-tilfældige selektion af observationer. Har dette implikationer for resultaterne, hvor der i nærværende tilfælde om noget er en negativ korrelation mellem gode anmeldelser og hvor mange gange en bog bliver udlånt? Det er meget sandsynligt.

Stephen L. Morgan og Christopher Winship giver et godt eksempel på problemet i Counterfactuals and Causal Inference, hvor de kigger på et hypotetisk college, hvor man enten kan blive optaget ved at være motiveret til en samtale eller dygtig i en test. I eksemplet er der ingen korrelation mellem hvor motiveret man er og ens testscore. Her kommer det interessante: Hvis vi kun kigger på de personer, der er blevet optaget, vil vi se, at der er en negativ korrelation mellem at være motiveret og dygtig (altså cirklerne i nedenstående figur):

Den negative korrelation opstår fordi vi ikke tager højde for, at det netop er enten det at være motiveret eller det at få en høj testscore, der gør, at man bliver optaget. Derfor vil dem der er mere motiveret – gennemsnitligt set – score mindre på testen og vice versa.

I vores eksempel med bøgerne er det netop kun de bøger, der har fået omtale og er blevet udlånt, der er en del af datamaterialet. De bøger, der ikke har fået lige så gode anmeldelser som andre bøger, kan være de bøger, der ville blive udlånt uafhængigt af, om de fik gode anmeldelser eller ej.

Dette problem med datasættet – altså et problem i forhold til, hvad man gerne vil bruge det til – er så presserende, at det ikke lader sig løse med statistiske værktøjer (eksempelvis en række regressionsmodeller og test for statistisk signifikans). Derfor kan den slags analyser på det pågældende datamateriale ikke glæde mig.

Dermed er min pointe ikke, at positive anmeldelser har en positiv effekt på en bogs succes, men det kan ikke udelukkes, og på ingen måde modbevises med udgangspunkt i et datasæt med de 6.436 bogtitler, der er blevet undersøgt i omtalte artikel i Weekendavisen.


Tilføjet (2. februar 2017):

Har haft en konstruktiv mailudveksling med Lasse Hjorth Madsen, der havde følgende kommentarer:

De 6.436 titler udgør i princippet hele populationen af bøger, der er blevet anmeldt i landedækkende, trykte medier i perioden og har kunnet lånes på danske biblioteker.

Hvis man vil undersøge sammenhængen mellem antal stjerner eller hjerter og antallet af udlån, giver det jo ikke mening, at inkludere bøger som ikke er blevet anmeldt, eller som ikke har være til rådighed på bibliotekerne. (Der kan godt gå lidt tid, før bøgerne er indkøbt og klar til udlån.)

Det er altså kun et meget lille mindretal af de nævnte ca. 387.000 bibliotekstitler, der blevet anmeldt i aviserne og som derfor indgår i populationen. Tallet er ikke specielt relevant for analysen, og jeg nævner det blot, for at illustrere volumen af udlånsdatasættet fra DBC.

Du har ret i, at figuren kun viser en lille del af datasættet. Jeg ville ønske, at det fremgik lidt klarere.

Formålet med figuren er primært at give en læselig smagsprøve med nogle markante værker. Figuren siger således blot, at den lille delmængde af populationen bestående af de 100 mest populære titler, heller ikke udviser en korrelation mellem antal stjerne/hjerter og antal udlån.

Analysen kan selvfølgelig, som alle andre analyser, kritiseres. Hvis man specifikt vil forfølge problemstillingen omkring systematisk selektion, kunne man fx se på, om datasættet med anmeldelser fra bog.nu er komplet. De har en ambition om at registrere alle anmeldelser, men overser sikkert én i ny og næ. Det er dog svært at forestille sig, at der ligger den helt store selektionsbias her.

Potentielt mere alvorlige er de tekniske problemer, der opstår, når udlånsdatasættet flettes sammen med anmeldelsesdatasættet. Ingen af de to rummer desværre ISBN, så jeg måtte bruge en renset udgave af titel og forfatternavn til at matche de to. Det kan fejle, fx hvis en titel eller et forfatternavn har flere varianter. Men igen: Det er svært at forestille sig, at frafald af denne type er særlig systematisk.

Der er altså, i hvert fald principielt, tale om et datasæt der rummer hele populationen og altså ikke fejler på samme måde, som dit eksempel med collage studerende.

Det er med disse data svært at komme uden om, at ringe anmeldte bøger bliver udlånt mindst lige så meget, som godt anmeldte bøger. Men det er nu heller ikke så besynderligt, når man ser på de konkrete titler: De professionelle litterater lader til at have en noget anden smag end det brede publikum. Tænk prisvindende litteratur kontra krimiserier.

Sådan får du signifikante resultater

Hvis du gerne vil gøre dit liv lettere i akademia, er det altid godt at vide, hvordan man, når ens resultater ikke nødvendigvis gider makke ret og viser det, man havde håbet, kan få dem til at blive signifikante. De fleste forskere, der arbejder med kvantitative data, ved, at ens resultater ikke altid er signifikante i den første test. De fleste forskere, der har sendt en artikel afsted til et tidsskrift, ved også hvor vigtigt det er, at kunne vise stjerner ud for ens hjertebarn (altså resultatet ved den teoretisk begrundrede variabel) – og hellere tre end én af slagsen.

Dette blandt andet fordi der er en såkaldt publication bias, hvor negative resultater (nulfund) gennemsnitligt betragtet ikke er lige så interessante som positive resultater. Hvis forskere således ikke kan finde signifikante resultater, ender de ofte med ikke at sende deres arbejde til et tidsskrift. Der er dog heldigvis metodiske friheder (kaldet ‘researcher degrees of freedom‘), der gør, at man ofte kan få selv det mest insignifikante resultat til at være signifikant. Så ingen panik: hvis du bare er snu nok, er det en smal sag at få signifikante resultater.

I artiklen False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant vises det, hvordan metodisk fleksibilitet giver mulighed for at finde signifikante resultater. Helt specifikt tager de udgangspunkt i et scenarie, hvor man har fire forskellige situationer, hvor der er metodiske frihedsgrader: a) to afhængige variable (med en korrelation på 0,5), b) ti ekstra observationer i hver celle, c) kontrol for køn eller interaktion med køn og d) muligheden for at droppe (eller ikke droppe) en af tre grupper.

Her er den gode nyhed: ved at kombinere de fire ovenstående situationer viser studiet via simulationer, at man har 81,5% sandsynlighed for at finde et falsk positivt resultat (med en p-værdi lavere end 0,1). Det vil sige, at selvom du ikke finder nogle signifikante resultater, har du med ovenstående frihedsgrader masser af muligheder for stadig at finde noget signifikant.

Det bliver dog bedre endnu. I virkelighedens verden er der ofte mange flere metodiske frihedsgrader, der gør, at man har rig mulighed for at finde signifikante resultater. I en ny artikel, Degrees of freedom in planning, running, analyzing, and reporting psychological studies: A checklist to avoid p-hacking, præsenteres en liste med 34 måder, hvorpå man kan forsøge at opnå signifikante resultater. Overordnet er der fem forskellige stadier, relateret til: 1) hypoteser, 2) design, 3) dataindsamling, 4) analyse og 5) formidling. Disse er præsenteret her:

Hypoteser
1. Foretag eksplorativ forskning uden specifikke hypoteser
2. Tag udgangspunkt i en vag hypotese uden forventninger til retningen af en effekt

Design
3. Lav flere uafhængige variable
4. Mål mange variable, der kan bruges som kontrolvariable, moderatorer og mediatorer
5. Mål den samme afhængige variabel på flere alternative måder
6. Mål andre koncepter der vil kunne bruges som afhængig variabel
7. Mål andre variable, der kan bruges som eksklusionskriterie senere (evt. opmærksomhed og stimulitest)
8. Undgå at foretage en power analyse
9. Undgå at lave en plan for, hvor mange små studier, der skal laves

Dataindsamling
10. Undgå tilfredsstillende randomisering
11. Undgå blindtest af forsøgsdeltagere
12. Korriger, omkod, og slet data i løbet af dataindsamlingsprocessen
13. Stop dataindsamlingen på baggrund af opnåelsen af ønsket resultat eller test for statistisk signifikans

Analyse
14. Undersøg forskellige måder at håndtere manglende data på
15. Undersøg forskellige måder at transformere data
16. Undersøg forskellige måder at håndtere forudsætningsbrud på
17. Undersøg forskellige måder at håndtere outliers
18. Undersøg forskellige variable, der matcher den afhængige variabel
19. Undersøg forskellige måder at kode den afhængige variabel på
20. Undersøg andre variable, der kan fungere som afhængig variabel
21. Undersøg forskellige kombinationer af de uafhængige variable
22. Undersøg forskellige operationaliseringer af de primære uafhængige variable
23. Undersøg forskellige måder at inkludere uafhængige variable, herunder mediatorer og moderatorer
24. Undersøg forskellige operationaliseringer af kontrolvariable
25. Undersøg forskellige inklusions- og eksklusionskriterier for observationerne
26. Undersøg forskellige statistiske modeller
27. Undersøg forskellige estimationsmetoder, programmer og standardfejl
28. Undersøg forskellige inferenskriterier, herunder ensidede hypotesetests

Formidling
29. Undlad at sørge for, at studiet kan reproduceres
30. Undlad at sørge for, at studiet kan replikeres
31. Undlad at nævne information omkring præregistrering
32. Undlad at formidle information omkring studier, der blev foretaget men ikke inkluderet
33. Rapporter forkerte resultater og p-værdier
34. Præsenter eksplorative analyser som hypotesetestende (HARKing)

Med alle disse muligheder er det faktisk svært ikke at finde noget, der er signifikant, hvis man kører en analyse mere, end der oprindeligt var planen. Hvis du ligeledes – og for eksemplets skyld – har tre forskellige studier (evt. foretaget i tre forskellige lande), er det en smal sag at finde et mønster, der går igen i de tre datasæt.

De fleste tidsskrifter – især politologiske tidsskrifter – har meget få krav, der gør det svært at anvende ovenstående praksikker. Derfor er der rig mulighed for, at finde signifikante resultater og sende dem til dit yndlingstidsskrift. Hvis du vil være på den sikre side skal du bare lige huske at gemme en do-fil i Stata, der indeholder det datasæt, du endte med at køre den endelige analyse på, og så selvfølgelig kun indeholder de sidste analyser, du kørte. God fornøjelse.

Potpourri: Statistik #35

Boganmeldelse i Tidsskriftet Politik: Fra krisevalg til jordskredsvalg: Vælgere på vandring 2011-2015

Perioden mellem folketingsvalget i 2011 og folketingsvalget i 2015 var i særdeleshed interessant. Rød blok formåede ved valget i 2011 at mønstre et politisk flertal, hvorved der blev sat et politisk punktum for det tiår, hvor VKO havde haft et stabilt politisk flertal (om end det i en periode så ud til, at Ny Alliance havde sat en endelig stopper for VKO-flertallet i 2007). Blokpolitikken blev med andre ord lagt i graven den 15. september 2011.

Dette udfald af valget igangsatte således også en proces, hvor Socialdemokraterne og SF skulle realisere deres politik i en parlamentarisk kontekst, hvor de Radikale var den store sejrherre. Dette var umuligt og regeringen blev kritiseret for at bedrive en løftebrudspraksis (altså kontraktpolitikkens negation). Der var ingen tvivl om, at de Radikale blev den store vinder i forhandlingerne om regeringsgrundlaget. Efterfølgende så man et Socialdemokraterne, der blev kritiseret fra alle sider, og et SF der blev kørt helt i sænk, hvor Goldman Sachs/DONG-sagen som bekendt var dråben, der fik regeringsbægeret til at flyde over.

På højrefløjen så man et Venstre, der i begyndelsen af perioden lagde godt fra start, men som med tiden ikke kunne tåle flere sager med Lars Løkke Rasmussen i centrum, hvorfor det måtte se vælgerne flygte i hobevis til især Dansk Folkeparti. Det var med andre ord en valgperiode, der kunne være gået bedre for de to traditionelt set store partier, Socialdemokraterne og Venstre. For læsere med lyst til at gå en tur ned ad memory lane, kan Henrik Qvortrups Tre år, ni måneder, tre dage varmt anbefales.

For de læsere, der har lyst til et mere akademisk perspektiv på perioden, kan det anbefales, at man tager et kig på den nye bog, Fra krisevalg til jordskredsvalg: Vælgere på vandring 2011-2015. Jeg anmelder bogen i det nyeste nummer af Tidsskriftet Politik, hvor jeg kommer ind på bogens styrker såvel som svagheder. Det nyeste nummer af Tidsskriftet Politik (19, 4) er tilgængeligt her.

Artikel i Journalistica: Hvilken periode skal analyseres? Uge 46 som dataindsamlingsstrategi i journalistikforskningen

Har sammen med Kim Andersen en artikel i det nyeste nummer af Journalistica. Artiklen tager udgangspunkt i, at en del danske forskere (og endnu flere studerende), benytter en bestemt dataindsamlingsstrategi, når de foretager analyser af mediernes indhold. I artiklen beskriver vi, hvornår dette er en god idé – og hvornår det ikke er en god idé. Artiklen kan findes her.

Hvor mange vil stemme på Nye Borgerlige? #4

Mange meningsdannere, politikere, borgere og medier er interesseret i at vide, hvor stor opbakningen er til Nye Borgerlige. Dette af gode grunde, da opbakningen fra vælgerne i meningsmålingerne er afgørende for et nyt politisk parti, der gerne vil tages alvorligt af andre partier såvel som af medierne. Mediernes dækning har dog som tidligere omtalt ikke været imponerende, herunder især grundet det forhold, at flere medier i sommer fejlagtigt påstod, at 10 procent af danskerne ville stemme på partiet.

I mit forrige indlæg om opbakningen til Nye Borgerlige fremførte jeg den pointe, at vi siden da har set flere målinger, der giver vidt forskellige bud på, hvor stor opbakningen er. Her pointerede jeg, at det ikke blot er vælgervandringer, der forårsager, at meningsmålingerne giver forskellige bud:

[D]er er nogle mærkelige udsving i, hvor stor opbakningen til partiet er. Udsving der ikke kan forklares af reelle udviklinger i vælgerhavet, men derimod hvilke institutter, der foretager målingen. Voxmeter er således blandt de institutter, der med deres ugentlige målinger, ikke giver Nye Borgerlige lige så mange stemmer som et par af de andre institutter.

Dette fortjener at blive uddybet, da der er en mere generel pointe. Overordnet er der intet belæg for at sige, at Nye Borgerlige har mistet eller fået opbakning fra så meget som én ny vælger, siden partiet blev opstillingsberettiget. Derfor giver det heller ikke mening, når der i en artikel skrives, at: “Nye Borgerlige ser ud til at tabe pusten, mens rød blok vinder kraftigt frem.”

Lad os, for at forstå dette, antage, at du er en journalist, der tager alle meningsmålingerne seriøst – men ikke fokuserer på metodiske forbehold (eksempelvis hvem der har foretaget meningsmålingen). I så fald ligger der et hav af gode nyheder, hvor opbakningen til Nye Borgerlige er meget volatil. Nye Borgerlige står den ene dag til at være under spærregrænsen, den næste dag til omkring fire procentpoint. Signifikante forskelle. Nyhederne skriver sig selv! Dette illustreres i nedenstående figur, hvor det ses, hvordan partiets opbakning varierer over tid.

Opgaven vil her være blot at koble disse udsving til forskellige begivenheder. Det være sig Dansk Folkepartis Meld-skandale, integrationsdagsordenen, et politisk udspil eller hvad der nu ellers foregår på den politiske dagsorden. Som sagt: nyhederne skriver sig selv. Dette ændrer dog ikke på, at hvis man forholder sig til én væsentlig faktor, er der ingen interessante nyheder at skrive, hvis da man ser bort fra nyheden om, at der ikke er noget nyt at rapportere.

I nedenstående figur vises de samme meningsmålinger som før, men med information om hvilket analyseinstitut, der har foretaget meningsmålingen. For de institutter der har foretaget flere målinger, hvor Nye Borgerlige er med, er disse forbundet, så man kan se, hvordan udviklingen er for hvert institut over tid.

Her ses det tydeligt, at der ikke er nogle betydelige udsving. Ingen af forandringerne, hvis man kigger på de enkelte institutter, er nævneværdige. Det vil med andre ord sige, at de udsving der har været, blot er udtryk for, at analyseinstitutterne har svært ved at enes om, hvor stor opbakningen i det hele taget er. Dette er ikke tilfældig støj, men systematiske forskelle. Megafon, YouGov og Greens mener at opbakningen ligger omkring eller lige under de fire procent, hvor Gallup og Voxmeter mener, at de ligger omkring eller under spærregrænsen.

Dette fremhæver med al tydelighed den pointe, at når analyseinstitutterne ikke giver den samme opbakning til et politisk parti, skyldes det ikke kun det forhold, at der er en statistisk usikkerhed. Det skyldes i lige så høj grad, at analyseinstitutternes resultater påvirkes af de værktøjer, de bruger til at foretage deres meningsmåling.

Det vigtige for de journalister, der formidler meningsmålinger, er at sørge for, at man får formidlet hvem der har foretaget meningsmålingen, og ikke mindst om resultaterne afviger fra andre institutter (og i så fald hvordan). Med dette får vi i det konkrete tilfælde igen slået fast, at vi skal være ekstra påpasselige med at konkludere, hvor stor opbakningen er til Nye Borgerlige.

Ph.d.-forsvar

På onsdag forsvarer jeg min ph.d.-afhandling, der bærer titlen “Government Policies and Public Opinion: How and When Government Policies Matter for Mass Political Behaviour”.

Det finder sted kl. 12.00 i lokale O77 på Syddansk Universitet i Odense. Mere information om begivenheden kan findes her.

Jeg faldt i søvn i én virkelighed, og vågnede i en anden

Det amerikanske præsidentvalg 2016 er overstået. Donald Trump vandt. Mod alle odds. De forskellige prognoser fortalte os, at sandsynligheden for, at Hillary Clinton ville blive USAs næste præsident, var i omegnen af 99%, 98,6%, 98%, 92%, 85%, 81,9% og 71,8%. Nu er den som bekendt 0%.

Som procenttallene indikerer, var modellerne ikke af den samme overbevisning i forhold til, hvor stor sandsynligheden var for en sejr til Hillary Clinton. De kom dog alle frem til, at Hillary Clinton ville vinde, og det står derfor klart, at de alle ramte forkert, hvorfor det ikke giver mening at tale om en vinder – men om hvem der tabte mindst.

Nate Silvers model fra FiveThirtyEight har været en af de mere konservative, der har givet Hillary Clinton den laveste sandsynlighed for at vinde. Denne model har mødt en del kritik op til selve afgørelsen (se eksempelvis her og her), og Nate Silver har været ude og forklare de valg, der i overvejende grad har ført til mere konservative bud.

Der er kun én måde at forstå modellernes fiasko på: meningsmålingerne i nogle stater. Som det blev beskrevet andetsteds: “if the polls go down, our model is going down with them“. Sam Wang, der kom frem til de 99 procents sandsynlighed for en Clinton-sejr, beskrev sin models fejl med ordene: “Polls failed, and I amplified that failure.”

Det nemmeste at gøre i disse situationer er at spille bagklog og give udtryk for, at man vidste, hvordan det kunne være undgået. Sandheden er nok desværre den, at alle de mennesker, for hvem meningsmålingernes fejl er åbenlyse, ikke havde samme skepsis og kritiske tilgang for et par dage siden, og ej heller kan pointere, hvor det med sikkerhed er gået galt (og hvad der kan løse det).

Det sjoveste eksempel er Asger H. Nielsen fra Megafon, der til Information udtaler: “Hvis de amerikanske institutter havde været på studietur her i Danmark og havde talt med os, så var det måske ikke gået helt så galt. Vi begik jo samme fejl med DF-stemmerne i særligt Sønderjylland”. Denne sammenligning giver ingen mening, hvorfor det ville være rart, hvis det kunne blive forklaret, hvad der helt præcist menes. Ligeledes er udfordringen selvfølgelig den, at Megafon konsekvent og ofte rammer så forkert, at de nok ville få mere ud af en studietur til USA, end amerikanske analyseinstitutter ville få ud af at besøge Danmark.

Det relevante er ikke kun meningsmålingerne i forhold til præsidentvalget, men flere lignende begivenheder, hvor vores forventninger til et udfald ikke matcher det faktiske udfald. Vi taler her om folketingsvalget 2015, Brexit, fredsaftalen i Columbia m.v. Det amerikanske præsidentvalg minder mig på mange måder om Brexit, hvor jeg mentalt – sammen med målingerne og markedet – havde forberedt mig på ét udfald, og ud af det blå er realiteten en anden.

Jeg talte med en journalist fra Zetland på selve valgdagen (altså i forgårs), hvor journalisten spurgte om det netop ikke kunne være endnu en Brexit, vi potentielt set kunne se frem til at opleve. Jeg udelukkede ikke den mulighed, men sagde også, at det – som alt så ud nu – pegede på en klar sejr til Hillary Clinton. Da jeg talte med journalisten kort tid efter jeg vågnede dagen derpå (altså i går), gav jeg således også udtryk for, at jeg var meget overrasket:

Hvis Erik Gahner Larsen, valgforsker ved Syddansk Universitet, havde holdt sig vågen bare et par minutter længere natten til onsdag, havde han set det vende.

Indtil klokken 2 eller 3 pegede alle meningsmålinger, der havde nogen form for troværdighed, på en Clinton-sejr. Nogle mente, den ville blive snæver, et flertal mente, den var hjemme med helt op til 99 procents sikkerhed. Da Gahner Larsen vågnede først på morgenen, var det til sit fags totale fiasko.

“Jeg faldt i søvn i én virkelighed,” siger han, “og vågnede i en anden.”

Sådan er det. Meningsmålingerne tog fejl i nogle stater, og dette på en sådan måde, at det havde væsentlige implikationer for valgets udfald. Som Nate Silver skriver i et indlæg, skulle der blot små forandringer til, før valget ville have set betydeligt anderledes ud. Dette ændrer selvfølgelig ikke på, at prognoserne var alt for optimistiske ift. en sejr til Clinton, men den logiske følgeslutning er ingenlunde, at meningsmålinger er valgdækningens svar på ukrudt.

Susanne Sayers har hos Journalisten reflekteret over meningsmålingernes betydning i relation til det amerikanske præsidentvalg: “Vi stolede i medierne på meningsmålingerne. Vi fortolkede, analyserede, debatterede i ét væk på baggrund af undersøgelser, som viste sig at give en misvisende konklusion.” Det er korrekt, men jeg er ikke enig i begge af de konklusioner, Susanne Sayers drager herpå, nemlig at der er brug for 1) færre meningsmålinger og 2) større ydmyghed. Førstnævnte køber jeg således ikke. Færre meningsmålinger er ikke i sig selv løsningen på noget som helst. Det handler ikke om at have færre målinger, men bedre målinger. Sidstnævnte er jeg desuden helt enig i. Der er brug for ydmyghed og et kritisk forhold til meningsmålingerne. Det har jeg stået på mål for i en del år efterhånden – og det vil ikke ændre sig.

Da en journalist fra MediaWatch kontaktede mig i går med spørgsmål om meningsmålingernes fiasko, var det derfor også vigtigt at fremhæve den pointe, at meningsmålingerne selvfølgelig ikke er perfekte, men heller ikke elendige. Én pointe bliver dog nemt til fem, hvilket kommer til udtryk i artiklen, der blev skrevet. Jeg vil kort uddybe de fem pointer her.

For det første er det amerikanske præsidentvalg først lige overstået. Røgen har ikke lagt sig endnu, og det er svært at sige, hvad der helt præcist er sket. Det tyder ikke på, at nogle af de forklaringer, vi intuitivt finder afgørende (eksempelvis indkomstforskelle), har været så betydningsfulde. Med andre ord starter evalueringen af meningsmålingerne og prognoserne først nu. Som de skriver hos Huffington Post:

It’s too early to know what happened. The exit polls will shed some light on it as we move forward, but we don’t have final exit polls yet. Claims that there was a “silent majority” or “shy Trump” voters can’t be ignored. If those are indeed where the polls missed, it’s time to take a good, hard look at surveys’ extremely low response rates, as well as how we locate voters. And we’ll want to look at the effects of voter identification laws and voter registrations being purged as well.

For det andet er der intet der tyder på en smoking gun. Det mest sandsynlige er, at vi har at gøre med et utal af metodiske udfordringer. Andrew Gelman peger således på flere forskellige potentielle forklaringer. Forvent derfor ikke, at nogen om en uge kommer ud og siger, at det hele kan forklares ud fra én fejlkilde. Virkeligheden er som regel kompliceret, og intet tyder på, at den har været mindre kompliceret ved dette valg.

For det tredje har vi at gøre med metodiske udfordringer, der skal tages mere seriøst, end tilfældet er nu. Som beskrevet: udfordringen er ikke antallet af meningsmålinger, men kvaliteten af dem. Jo bedre målinger vi får, desto bedre prognoser vil vi også få.

For det fjerde er der ingen garanti for, at det bliver bedre i fremtiden. Der er masser af valg, hvor meningsmålingerne rammer noget nær perfekt, og det kan sågar diskuteres, hvor meget ved siden af, målingerne har været ved nogle af ovenstående eksempler. Det er derfor vigtigt at huske på, at når meningsmålingerne rammer rigtigt, tænker vi ikke nærmere over det, men når de rammer forkert, kommer de i vælten. Det er ikke et forsvar for meningsmålingerne, men blot en reminder om, at det er det bedste redskab vi har – og det handler om at gøre det endnu bedre.

For det femte er det ikke journalisternes ansvar, når eksperter laver prognoser og sælger valgets udfald som 99% sikkert. Journalister kan – retmæssigt – beskyldes for meget (og det bliver de skam også), men det relevante her er i lige så høj grad, hvordan de eksperter, der udarbejder og analyserer meningsmålinger, selv er med til at promovere deres produkt på en måde, der ikke nødvendigvis matcher virkeligheden. Sean Trende skrev således sidste år:

Electoral modelers have a nerdy little secret: We aren’t oracles. Draw back the curtain, and you’ll see that we are only as good as the polls we rely on and the models we invent. And there are real problems with both.

That’s why the “data journalism” movement contains the seeds of its own destruction. The danger lies in data journalists’ tendency to belittle skeptics and other analysts who get it wrong. Worse is the distinct tendency to downplay how much uncertainty there is around our forecasts. This is a shame, because sooner or later — probably sooner — the models are going to miss in an American presidential election and data journalism as a whole is going to suffer.

Det er spot on. Nu har vi fået et amerikansk præsidentvalg, hvor modellerne tog fejl. Meningsmålingerne er ikke perfekte, og den store lektie i denne sammenhæng er sådan set bare den reminder, at vi skal være kritiske (ikke kun hvad angår meningsmålingerne – men al valgdækning). Som beskrevet hos The Economist: “For the layman, it serves as a devastating reminder of the uncertainty in polling, and a warning about being overconfident even when the weight of surveying evidence seems overwhelming.”

Meningsmålingerne tog fejl. Det ændrer dog ikke på, at det ville være at smide barnet ud med badevandet, hvis vi – fordi de tager fejl – ikke længere tager dem seriøst.