Har statistikdatabasen Numbeo pålidelige data?

I løbet af de seneste år har medier som DR, TV 2, Berlingske, B.T. m.v. formidlet historier, der bygger på data fra statistikdatabasen Numbeo.

Faktatjekmediet TjekDet har kigget nærmere på, om disse data er pålidelige. I den forbindelse giver jeg blandt andet følgende kommentar med på vejen:

Det kan være, at folk, der er mere bekymret for kriminalitet, er mere tilbøjelige til at bidrage med data i en by og ikke i en anden by. Selv om de to byer måtte have den samme mængde kriminalitet, ville det føre til en forskel i deres kriminalitetsindeks.

Med andre ord er jeg også skeptisk i forhold til, hvor pålidelige de respektive data er. Læs hele artiklen her.

Hvor mange skoler er lukket?

Altinget kunne for et år siden rapportere, at 603 skoler er lukket på 10 år. Der er dog noget, der tyder på, at dette tal er overdrevet og reelt set er betydeligt lavere.

Johan Ries Møller, specialestuderende ved Syddansk Universitet, har netop offentliggjort nye data for udvalgsstyrede kommuner, der viser, at blot 148 folkeskoler blev besluttet lukket i perioden 2009-2013 og 54 i perioden 2013-2017. Disse tal bakkes op af forskellige måder at estimere antallet af skolelukninger.

Hvorfor kom Altinget frem til et andet svar, der indikerede, at langt flere skoler var lukket? De tog udgangspunkt i svar til Folketinget, der opererer med en bestemt teknisk definition af, hvornår vi har at gøre med en skolelukning:

Dette tal er noget overdrevent, da mange af de skoler, der optræder på listen blot har fået fællesledelse eller har oplevet en reduktion i antal klassetrin. Grunden til, at de figurerer i de officielle opgørelser, er, at Institutionsregisteret baserer sig på de såkaldte institutionsnumre. Der er ikke fast praksis for, hvorvidt underafdelinger skal nedlægge deres institutionsnummer når de underlægges fælles ledelse.

Der er tale om et fornemt eksempel på at gå data efter i sømmene og forstå, hvordan de helt præcist er indsamlet og forstås. Johan Ries Møller er desuden i gang med at færdiggøre sit speciale omkring skolelukningernes betydning for vælgerens adfærd, der også har nogle yderst interessante resultater.

Ny ressource: Politologi Prognose

Én meningsmåling skal som regel ikke ses i isolation. Tværtimod skal den sættes i kontekst og forstås sammen med andre meningsmålinger. Et af de bedste redskaber i denne sammenhæng er vægtede snit, hvor meningsmålingerne aggregeres med henblik på at give mere præcise bud på, hvordan partierne klarer sig.

Fordelen ved disse vægtede snit er, at vi tager mere information i betragtning og på denne måde reducerer sandsynligheden for, at enkeltstående ekstreme meningsmålinger har for meget at skulle have sagt.

Der er heldigvis nogle vægtede gennemsnit i Danmark. Altinget har deres Risbjerg-snit, der dog desvære er bag en betalingsmur. Tilbage har vi Berlingske Barometer og Ritzau Index, der har visse ligheder. Fælles for disse snit er, at de udelukkende tager udgangspunkt i de nyeste meningsmålinger.

Ritzau Index bygger på de seneste 15 meningsmålinger, hvor de allernyeste vejes tungest i deres indeks. Berlingske Barometer anvender meningsmålinger fra de seneste 31 dage, hvor de nyeste målinger også har større indflydelse på resultaterne end de ældre meningsmålinger.

Dette giver på overfladen god mening. Hvad kan en to år gammel meningsmåling bruges til, når vi skal sige noget om partiernes opbakning i dag? Svaret er, at der er vigtig information i ældre meningsmålinger, som vi skal tage i betragtning, når vi laver vægtede snit.

Det er på denne baggrund, at jeg har lavet Politologi Prognose. Modsat Ritzau Index og Berlingske Barometer, tager Politologi Prognose udgangspunkt i meningsmålinger over flere år til at estimere, hvordan partierne står i meningsmålingerne.

Den information som der udnyttes, som ikke tages med ved blot at kigge på nye meningsmålinger, er huseffekter. Dette er kort fortalt tendensen til, at forskellige analyseinstitutter er tilbøjelige til at favorisere bestemte partier. YouGov og Voxmeter er eksempelvis systematisk uenige i, hvor stor opbakningen er til Nye Borgerlige.

Ved at kigge på langt flere meningsmålinger kan vi således estimere, hvordan partierne klarer sig, når vi tager disse systematiske forskelle mellem analyseinstitutterne i betragtning.

En anden ulempe ved de eksisterende vægtede snit er, at ingen af dem rapporterer nogen form for statistisk usikkerhed. Vægtede snit er dog også blot estimater med en statistisk usikkerhed. Denne usikkerhed bliver selvfølgelig formidlet i forhåndenværende vægtede snit.

Det er vigtigt at få med, at der er tale om en prognose over, hvordan partierne ville klare sig i dag og er dermed ikke et forsøg på at forudsige deres opbakning ved et folketingsvalg.

Det er således ikke et forsøg på at lave en egentlig valgprognose for, hvordan valget kommer til at gå. Der tages udelukkende udgangspunkt i meningsmålinger, og hvis man vil forsøge at lege med at forudsige valget, ville det være ideelt at inkludere mere kontekstuel information (cf. Stoetzer et al. 2019).

Prognosen vil blive opdateret med jævne mellemrum, men forvent ikke talrige opdateringer – og slet ikke daglige opdateringer i løbet af en valgkamp.

Potpourri: Statistics #54

A data.table and dplyr tour
Mistakes, we’ve drawn a few
Twenty rules for good graphics
gganimate: The grammar of animation
Visualising Intersecting Sets Of Twitter Followers
Docker and Packrat
Explore your Researcher Degrees of Freedom
Teaching material: Data analytics and visualization
10 things R can do that might surprise you
Scraping Data from the Web with rvest
Common statistical tests are linear models (or: how to teach stats)
8 Useful R Packages for Data Science You Aren’t Using (But Should!)
Easy multi-panel plots in R using facet_wrap() and facet_grid() from ggplot2
Winners of the 1st Shiny Contest
Rachael’s R Tutorials
Web Scraping for Broad City Charts
Implementing the super learner with tidymodels
Three things to know beyond base R

Valgspecial i Presselogen om meningsmålinger

I går blev der sendt en valgspecial af Presselogen med fokus på medierne og det kommende folketingsvalg. I den forbindelse bidrog jeg med et par kommentarer omkring, hvad vi bør forvente os af meningsmålingerne under den kommende valgkamp.

Udgangspunktet var blandt andet følgende profeti af Lisbeth Knudsen: “Når valget udskrives, vil vi igen blive oversvømmet af meningsmålinger. Og fristelsen til at tolke på de små udsving og på de små marginaler vil igen blive så stor, at nogen plumper i.”

Dette tror jeg Lisbeth Knudsen i overvejende grad har ret i. Vi ved fra flere studier at medierne ikke er gode til at formidle meningsmålinger og i høj grad overser den statistiske usikkerhed, hvorved der laves store historier på baggrund af små udsving. Der er intet der taler imod, at vi ikke vil se dette under det kommende folketingsvalg.

Når det er sagt er der også grund til at være optimistisk. Alene det faktum at Presselogen dedikerer tid til at tale om mediernes dækning af meningsmålingerne forud for et folketingsvalg viser, at det er noget medierne er opmærksomme på og tager seriøst.

Der er sket mangt og meget i løbet af de seneste fire år, herunder Brexit og Donald J. Trump, hvor meningsmålingerne fik en del kritik, og det er min klare vurdering, at medierne er blevet bedre til at forstå og formidle meningsmålinger. Med andre ord: Kritikken af meningsmålingerne i løbet af de seneste fire år er ikke gået journalisterne forbi.

Under seneste folketingsvalgkamp blev der produceret en håndfuld meningsmålinger om dagen, og det ser ud til, at vi får færre meningsmålinger at se ved det kommende folketingsvalg. Ligeledes har vi diskrepansen mellem Dansk Folkepartis opbakning i meningsmålingerne og ved valget i 2015 friskt i erindringen. Derfor tillader jeg mig at være optimistisk i forhold til, hvordan dækningen af meningsmålingerne vil være under det kommende valg.

Vi ser heldigvis flere og flere artikler, der formår at formidle meningsmålinger sobert og nuanceret. Et eksempel på dette kan ses her, hvor Hans Redder fra TV 2 formidler den seneste måling fra Megafon.

Derfor så jeg ingen grund til udelukkende at være kritisk, da jeg deltog i Presselogen. Tværtom fandt jeg det nødvendigt at mane til besindighed og opfordre til ikke at smide barnet ud med badevandet. Meningsmålingerne er ikke perfekte, og der er al mulig grund til at være kritisk, men de er nu engang et af de bedste redskaber vi har, når vi skal sige noget fornuftigt om, hvordan partierne klarer sig.

Marchen Neel Gjertsen fra Jyllands-Posten fik det sidste ord og sluttede af med at sige, at problemet var, at der var fokuseret for meget på meningsmålingerne og for lidt på at tage ud og besøge vælgerne rundt om i landet.

Dette er jeg fundamentalt set uenig i af to grunde. For det første fordi det ene ikke udelukker det andet. Det er muligt at lave meningsmålinger og feltarbejde. For det andet fordi der ikke er noget der taler for, at medierne vil blive bedre til at dække valget ved at fokusere på feltarbejde i stedet for systematisk indsamlede meningsmålinger.

Det er muligt, at der bliver fokuseret for meget på meningsmålinger i en valgkamp. Det er dog ikke nødvendigvis et problem. Det er fint at vælgerne har et indblik i, hvordan de forskellige partier klarer sig. Dette er selvfølgelig ikke det eneste, der er relevant i en valgkamp, hvorfor vi heldigvis ikke udelukkende ser journalisterne og politikerne fokusere på meningsmålingerne.

Det giver meget lidt mening at konkludere at meningsmålinger i og for sig selv er gode eller dårlige. Hvis de ikke er af højeste kvalitet eller hvis man bruger dem forkert, er de selvsagt dårlige. Indsamles og formidles de efter alle kunstens regler, er de et demokratisk gode.

Presselogen kan ses på TV 2 PLAY.

Hvorfor skal meningsmålinger være så præcise?

Journalister, kommentatorer og andre, der skal formidle og fortolke meningsmålinger, har det desværre med at ignorere eller fejlfortolke den statistiske usikkerhed.

Man kan som bekendt ikke tale om meningsmålinger uden også at tale om usikkerhed. Når vi ikke måler alle meninger, vi ønsker at udtale os om, er der selvsagt brug for at kvantificere den grad af sikkerhed, vi ønsker at udtale os med. Her er standardpraksis, at medierne – der formidler disse meningsmålinger – udregner den statistiske usikkerhed med 95% konfidensintervaller og rapporterer den maksimale statistiske usikkerhed i målingen for de respektive partier.

Hvorfor er den statistiske usikkerhed så vigtig? Fordi den pointerer den væsentlige kendsgerning, at vi ikke arbejder med præcise tal. Vi arbejder med estimater. Personligt er jeg mindre opmærksom på, om den statistiske usikkerhed er 2,5 procentpoint eller 3 procentpoint for et parti. Det vigtigste er, at man erkender, at der er en statistisk usikkerhed, og dermed også en sandsynlighed for, at man tager fejl.

Det betyder også, at i det sekund, at der er en forskel mellem to partier, der ligger uden for den statistiske usikkerhed, kan vi stadig ikke være 100% sikker på, at der er en forskel, blot at sandsynligheden for, at der er en forskel, er blevet større.

Udfordringen er, at usikkerheden er kalkuleret ud fra den antagelse, at meningsmålingen bygger på en repræsentativ stikprøve fra en population, eller om ikke andet kan antages at være repræsentativ. Vi tager dermed ikke hensyn til systematiske skævheder og andet, der kan give forkerte estimater.

Dette blev der især sat fokus på efter præsidentvalget i 2016, hvor de fleste modeller, der tog udgangspunkt i forskellige meningsmålinger, forudsagde, at Hillary Clinton ville blive USAs næste præsident. Kigger man på dækningen dengang, var der dog også allerede før valget fokus på, at meningsmålingerne ikke er præcise estimater.

Pew Research Center gjorde meget ud af at formidle den statistiske usikkerhed (se eksempelvis her). New York Times kunne vise, at det samme datamateriale kunne føre til forskellige estimater for, hvor stor opbakningen var til henholdsvis Hillary Clinton og Donald Trump. Josh Katz viste på bloggen TheUpshot, at der var stor forskel på modellerne (hvor der var en meget høj grad af usikkerhed).

Ligeledes blev det vist, hvordan få respondenter, alt efter hvordan der vægtes i meningsmålingerne, kan have en afgørende betydning for, hvad målinger viser. Det blev ligeledes argumenteret for, at den statistiske usikkerhed ofte skulle ses som ±7% i stedet for ±3% (altså en langt større usikkerhed end vi normalt arbejder med).

Det korte af det lange er, at der er ved at komme ne større erkendelse af, at vi skal tage meningsmålingernes styrker og udfordringer i betragtning, når vi formidler disse.

I årtier har nyhedsartikler med meningsmålinger fulgt den samme skabelon. Der informeres i de fleste tilfælde om meningsmålingen, herunder hvad den kommer frem til. Hvad der ellers bliver nævnt varierer betydeligt. I nogle artikler informeres der om, hvem der har betalt meningsmålingen, hvilke spørgsmål der er stillet, hvor stor den statistiske usikkerhed er og så videre.

Nu er der som sagt en øget erkendelse af, at meningsmålingerne har en større værdi end blot isolerede nyhedsartikler, der formidler de respektive målinger. Én enkelt meningsmåling bør mødes med en vis skepsis og ønsket om, at se om lignende tendenser opstå i andre og flere meningsmålinger. Dette har ført til et par journalistiske initiativer, blandt andet meningsmålingeraggregater som de nævneværdige Risbjerg-snittet hos Altinget og Berlingske Barometer.

Udfordringen med meningsmålingeraggregater er, at de kan reducere relevante forskelle mellem analyseinstitutter og kan give en lavere statistisk usikkerhed, der kun er berettiget hvis bestemte antagelser overholdes.

Det er af denne grund at jeg på Politologi.dk sætter fokus på at vise alle meningsmålinger, så det står klart, at meningsmålingerne ikke altid viser det samme. Hvis man eksempelvis kigger på Nye Borgerlige, kan man se, hvordan uenigheden mellem analyseinstitutterne ikke blot skyldes tilfældig støj.

Hvad jeg håber at se mere af i fremtiden er et øget fokus på manglende præcision i mediernes dækning. Der har været et alt for stort fokus på at formidle partiernes opbakning ned til mindste decimal, som udelukkende bidrager til at give en opfattelse af, at meningsmålingerne kan sige noget med større sikkerhed, end de reelt kan.

Et af de eksempler man kunne applicere i dækningen af meningsmålinger, finder man hos Der Spiegel, der i en artikel formidlede antallet af influenzalignende lægebesøg. Dette eksempel er interessant, da der er en statistisk usikkerhed, der også skal visualiseres.

Som det kan ses i ovenstående figur fluktuerer estimatet inden for den statistiske usikkerhed, så det er klart for læseren, at der ikke er tale om et præcist estimat.

Det er relativt nemt at lave lignende visualiseringer, når det kommer til meningsmålinger. I nedenstående eksempel tog jeg en meningsmåling fra Voxmeter, og lod den statistiske usikkerhed være dynamisk med henholdsvis 90%, 95% og 99% konfidensintervaller.

I figuren forsøger jeg ligeledes at tage fokus fra det specifikke punktestimat. Det er selvfølgelig muligt at aflæse dette, men det er gemt væk i den statistiske usikkerhed, hvorfor man forhåbentlig fokuserer mere på den dynamiske usikkerhed end ét statisk tal.

Meningsmålinger er i sagens natur ikke præcise. De er kvalificerede estimater, der skal formidles med omtanke og med fokus på den usikkerhed, de kommer med. Der er heldigvis forskellige måder denne usikkerhed kan formidles på, og det kunne være interessant at se de danske medier prøve kræfter med at sætte mere fokus på denne usikkerhed. Især i relation til det snart kommende folketingsvalg.

Hvor mange vil stemme på Nye Borgerlige? #6

Når Nye Borgerlige taler, er medierne lutter øren. Det tiltrækker som regel mere bevågenhed, end hvad man måtte forvente sig af et parti uden parlamentarisk indflydelse (endsige parlamentarisk repræsentation).

Mediernes forelskelse i partiet er dog ikke ny. Tværtimod kan man argumentere for, at Nye Borgerlige er et medieskabt fænomen. Hvis man kigger tilbage på Nye Borgerliges relativt korte historie, synes mediernes interesse for partiet at være en vigtig konstant.

Dette kunne man således se allerede i 2016, da partiet blev annonceret. Medierne stod i kø for at dække alle tænkelige vinkler af dette parti, og sågar gøre hvad man kunne for at sandsynliggøre partiets fortsatte eksistensberettigelse.

Megafon foretog eksempelvis en meningsmåling der, stik mod alle faglige principper, konkluderede, at partiet kunne få op mod 10 procent af stemmerne ved et folketingsvalg. Denne meningsmåling var metodisk forkert og sagde intet om den reelle opbakning til Nye Borgerlige. Det eneste vi lærte noget om var Megafons metodiske standarder, eller snarere fraværet af samme, og medierens kærlighed til partiet.

Til trods for at langt de fleste meningsmålinger i begyndelsen af partiets eksistens viste, at der ikke var overbevisende evidens for, at partiet ville blive valgt ind efter næste folketingsvalg, fortsatte medierne med at give partiet rig omtalte.

Når der en sjælden gang kom en meningsmåling, der viste noget ekstremt, eksempelvis at partiet ville få i nærheden af 5 procent af stemmerne, gik medierne i selvsving og fokuserede på dette. For andre indlæg omkring dette, se eksempelvis her, her, her og her.

Det synes derfor fair at konkludere, at medierne har gjort deres for, at partiet har fået momentum og nu står betydeligt bedre i forhold til, at blive repræsenteret efter næste folketingsvalg.

Hertil skal det selvfølges indvendes, at det er svært at sige, hvad der kommer først: mediernes opmærksomhed eller partiets succes? Med andre ord: Hønen eller ægget? Heldigvis er der evidens fra udlandet, der kan sandsynliggøre, hvad der kommer først, når populistiske partier får succes.

I et studie af det højrepopulistiske parti UKIP i England, analyserede forskere data på mediernes dækning og partiets opbakning i meningsmålingerne. De statistiske analyser viste, at når partiet mistede opbakning i befolkningen, var medierne med til at få dem tilbage igen. Lige så vigtigt fandt de frem til, at det modsatte ikke var tilfældet, altså at medierne blot formidlede partiets succes. Medierne var med andre ord med til at skabe partiets succes.

Vi har ingen grund til at tro, at det modsatte skulle være tilfældet i en dansk sammenhæng for Nye Borgerlige. Der er ganske enkelt intet nyt eller særegent i, at medierne giver ekstra opmærksomhed til populistiske politikere. I forlængelse af det amerikanske præsidentvalg i 2016 blev det estimeret, at Donald Trump, der til sammenligning med andre politikere brugte begrænsede ressourcer på sin kampagne, fik gratis medieeksponering svarende til 5 milliarder dollars. Dette var mere end Hillary Clinton, Bernie Sanders, Ted Cruz, Paul Ryan og Marco Rubio – tilsammen.

Hvor står Nye Borgerlige i dag? Kigger man på meningsmålingerne, er de forskellige analyseinstitutter ikke helt enige. YouGov placerer partiet på omkring 5 procent, altså et pænt stykke over spærregrænsen. Voxmeter, der foretager ugentlige meningsmålinger, har dem omkring spærregrænsen. Norstat, Greens, Epinion, Megafon og Gallup placerer alle partiet mellem de 2 til 5 procent af stemmerne.

Det kan derfor tyde på, at Nye Borgerlige står til at blive valgt ind ved næste valg. En del af dette skyldes selvfølgelig, at partiet har en politisk agenda, der er et marked for blandt en del af vælgerne. Det skyldes dog med al sandsynlighed især også mediernes forelskelse i partiet.

Alt dette betyder ikke, at medierne skal ignorere Nye Borgerlige. Partiet er symptomatisk for lignende tendenser på tværs af den vestlige verden. Den interessante diskussion er, om medierne skal bidrage til en så omfattende dækning, hvor partiets succes ved næste folketingsvalg bliver mediernes selvopfyldende profeti.

Hvor mange vil stemme på Klaus Riskær Pedersen? #2

Forleden kritiserede jeg en meningsmåling foretaget af YouGov for B.T., der viste, at 1,9% af danskerne kunne overveje at stemme på det nye parti, Klaus Riskær Pedersen. Specifikt konkluderede jeg: “Det eneste chokerende ved denne måling er, hvor elendig den er ud fra et fagligt perspektiv.”

Dårlige målinger hænger ofte sammen med dårlig journalistik, og dagen efter kunne man finde denne forsidehistorie på lørdagsudgaven af B.T.:

Dette var en klar fejl af B.T., da meningsmålingen – til trods for dens ringe metodiske kvalitet – som bekendt ikke sendte partiet i Folketinget. Chefredaktøren hos B.T., Michael Dyrby, var da også ude og erkende denne fejl (se også dækningen hos TjekDet).

Siden da har vi fået en række af meningsmålinger, der giver os mulighed for at belyse, om Klaus Riskær Pedersen står til at blive valgt ind. Konkret har vi 16 målinger fordelt på syv analyseinstitutter. Alle målinger er foretaget efter partiet er blevet opstillingsberettiget.

Figur 1 viser opbakningen til Klaus Riskær Pedersen i de respektive meningsmålinger sammen med den statistiske usikkerhed (95% konfidensintervaller) for hvert estimat. Der er ingen meningsmåling, der har givet partiet 2 (eller flere) procentpoint af stemmerne. Med andre ord: ingen chokerende målinger, der sender partiet i Folketinget.

Figur 1: Opbakningen til Klaus Riskær Pedersen i meningsmålingerne

Tager man den statistiske usikkerhed i betragtning, kunne man ikke på baggrund af alle målingerne konkludere, at partiet lå under spærregrænsen (det var med andre ord too close to call). For langt de fleste meningsmålinger, og især alle nyere meningsmålinger, er der dog intet tegn på, at partiet bliver valgt ind.

Dette kan hænge sammen med, at partiet ikke har haft så meget offentlig interesse siden partiet blev opstillingsberettiget. Kigger man eksempelvis på Google Trends kan man se, at den relative offentlige interesse var betydeligt større da partiet blev erklæret opstillingsberettiget, og har ikke været på det niveau siden. Dette er vist i Figur 2.

Figur 2: Interessen for Klaus Riskær Pedersen over tid

Der har været flere historier om partiet/personen siden partiet blev opstillingsberettiget, herunder den negative om hvordan et hul i valgloven blev udnyttet, men ikke noget positivt, der har været nok til at sikre en solid vælgeropbakning.

Dette er ikke det samme som at sige, at partiet ikke har en chance ved det kommende folketingsvalg. Tværtimod. Det hele beror på, hvor meget taletid medierne giver Klaus Riskær Pedersen såvel som hvordan partiet klarer sig i partilederdebatter m.v. For nu er der dog intet der tyder på, at partiet står til at blive valgt ind.