Erik Gahner Larsen

Vanens magt: en gennemgang af DRs forsøg med nudging i Kolding

I tredje afsnit af Vanens Magt er vi taget til Kolding. Livsstilsekspert Anne Glad og designer Sille Krukow er igen klar på at kaste om sig med videnskabelige teorier og eksperimentelle metoder. I første afsnit gjorde de det på Københavns Hovedbanegård og i andet afsnit tog de et smut forbi Bilka i Odense. Fra Sjælland over Fyn til Jylland. I Kolding er det igen tre såkaldte nudgingeksperimenter, som Anne og Sille skal implementere og evaluere. Indledningsvist vil jeg fremhæve det faktum, at de samme fejlkilder fra de forrige to udsendelser, går igen her: Simple før og efter-målinger kaldes for eksperimenter, det er uklart hvad man måler effekten af og der er en selektiv præsentation af “resultaterne”.

De tre “eksperimenter” i Kolding skal adressere følgende tre konkrete udfordringer: 1) hastighedssyndere, 2) indsamling af penge til den lokale boldklub og 3) henkastet affald. Sille kommer igen med konkrete løsningsforslag til, hvordan de specifikke udfordringer kan gribes an. Bemærk her, at det ikke nødvendigvis er de bedste eller mest effektive løsninger, man kan forestille sig, men blot de løsninger, der intuitivt virker kreative og kan formidles på TV. Som jeg bemærkede i mit første indlæg om Vanens Magt, er dette ikke nødvendigvis et problem, men når Anne Glad og Sille Krukow anbefaler, at man bruger penge på den slags i stedet for på kampagner (uden at vurdere hvilke effekter kampagner har), er det mere end fair at problematisere deres dagsorden.

Når det handler om hastighedssyndere – der er det mindst interessante i programmet – siger Sille Krukow blandt andet, at straf ikke virker. Det nudge Sille foreslår, er en rød plastikfigur, der skal forestille en pige, som sættes op i hobetal i vejkanten på den strækning, hvor man ønsker at reducere farten. Det måles i en uge, hvor mange der kører for stærkt. De eneste tal vi får er, at 45 pct. af billisterne kører mere end de tilladte 50 km/t. I ugen efter er det “kun” 36 pct. Der gives ingen information om, hvorvidt hastigheden på billisterne gennemsnitligt set var lavere i ugen efter. Der er flere interessante forhold her, foruden de allerede nævnte kritikpunkter, der også lader sig applicere på dette forsøg. For det første taler de om, at “det er jo vaner der ændres her”. Er det? Det er der intet belæg for. Vil de samme plastikfigurer have nogen betydning, når billisterne møder dem for tyvende gang? Med andre ord: Hvor lang tid vil de virke? Vil de være en god investering? (De er jo ikke gratis.) For det andet taler de som nævnt om, at bøder og straf ikke har virket. Hvis man virkelig vil drage sådanne konklusioner, må man jo prøve at uddele bøder over en uge. Man kunne eventuelt sætte et skilt op, der forklarer, at der er fartkontrol i den pågældende uge. Mit eget ydmyge gæt vil være, at det vil have en ret synlig effekt. Der er overordnet set intet nyt eller interessant i dette forsøg, men det skyldes nok, at deres “nudge” er hentet fra en anden kampagne og indkøbt til lejligheden (hvilket der selvfølgelig ikke er noget galt i).

I forsøget med at indsamle penge til den lokale boldklub, går det ikke meget bedre. Tværtimod. Her undersøger man, om man ved at gøre en indsamlingsbøsse gennemsigtig, kan øge det beløb, der bliver givet. Som Sille indleder sin evaluering af forsøget med: “[…] efter vi lavede disse små ændringer på udformningen af indsamlingsbøssen”. STOP! Det var ikke det eneste, der blev ændret. Indsamlingsbøssen blev godt nok ændret (gjort gennemsigtig med et foto ovenpå), men det var ikke det eneste, der blev foretaget af justeringer: Foruden dette blev placeringen af indsamlingsbøssen ændret og – hold nu fast – man satte informationsplakater op i omklædningsrummene med information omkring, at man skulle give penge. Igen, hvordan kan I konkludere, at ændringerne er et resultat af de små ændringer på udformningen af indsamlingsbøssen? Det sjove er, at når andre sætter plakater med information op, er det kedelige kampagner, som ikke virker. Når Sille selv gør det, er det billeder der primer og planter tanker i folks hoveder, der vil ændre deres adfærd. Sille laver ikke kampagner. Hun primer. Gammel vin. Nye flasker.

Endnu værre bliver det, når Sille taler om, hvad der er det interessante ved at sætte plakater op i omklædningsrummene. Placeringen er valgt, da man angiveligt skal bruge en tikrone for at bruge et betalingsskab. Sille spørger: “Skal vi se, om vi ikke kan få fat i den?”, indforstået, at hvis hun primer folk, vil de placere den tikrone, de har brugt i skabet, i indsamlingsbøssen (der som bekendt nu er gennemsigtig). Ligeledes fremhæves det klart og tydeligt, at hun strategisk har puttet tikroner i indsamlingsbøssen, så det gøres tydeligt, at det er de mønter, de er ude efter. Bliver dét evalueret? Ikke med så meget som ét ord. Hvorfor ikke? Sille opstiller klare forventninger til, hvilke adfærdsændringer, der bør observeres, men evaluerer dem ikke. Forsøget bliver selvfølgelig evalueret, og det er ret sjovt. De indleder med at fortælle, at der blev samlet praktisk talt ingenting ind, når det var en ganske, normal kedelig indsamlingsbøsse, men at man med den nye gennemsigtige indsamlingsbøsse fik indsamlet “over 7 gange så meget”. Her skal man selvfølgelig huske på, at 7 gange så meget af praktisk talt ingenting, ikke nødvendigvis er meget. Det evalueres desuden heller ikke, hvor længe forsøget skulle have kørt, før alene udgifterne til den nye indsamlingsbøsse var dækket. Alt i alt er ingen blevet klogere på noget som helst. Jeg føler mig dog stadig underholdt.

Det værste ved udsendelsen er dog forsøget med at reducere mængden af henkastet affald. Der er meget at skrive her, men kort fortalt sætter Sille bare skraldespande op, hvor folk har smidt deres affald. Hun laver selvfølgelig også andre ting, såsom større huller til affald, et nyt skiltesystem og lignende, der gør det umuligt at vurdere effekten af enkelte tiltag, men det er ikke så vigtigt her (dog stadig problematisk). Det der angiveligt kendetegner det henkastede affald er, som Sille siger, folks gode intentioner. Det passer dog ikke. Det affald der er smidt ved skraldespandene, skal slet ikke placeres der, men et helt andet sted. Problemet er henlagt pap og store sække, som slet ikke bør være der, men afleveres andetsteds.

Hvordan forholder Sille sig til denne problematik? Sille konkluderer først: “Der er ikke noget hul, der passer til pap.” Anne spørger retmæssigt: “Men er det ikke, fordi det skal over i den der miljøgård?”. Sille svarer: “Jo, men jeg vil faktisk ikke have at de skal gå hele vejen over til miljøgården med papkasserne, fordi det tror jeg simpelthen ikke på kommer til at ske.” Igen, jeg lyver ikke. Det er Silles egne ord. Hun føler ikke lige for, at folk skal gå derhen med deres affald, som andre har besluttet er det mest hensigtsmæssige. Hendes løsning: “I stedet for vil jeg have sat et ekstra skur op.” Det er jo ikke et nudge! Det er en skraldespand. Hvad har du tænkt dig, Sille? Der er en grund til, at man har lavet en central miljøgård og ikke tager rundt til alle ejendomme og indsamler pap. Sille erkender, at det er en ret dyr løsning, men at det nok på længere sigt vil spare penge. På længere sigt!? Hvad er det her for noget? Jeg tror bare, at vi stopper her. Afslutningsvis skal det dog lige bemærkes, at når de sætter en skraldespand til pap op der, hvor folk smider pap, ender folks pap ikke så overraskende i skraldespanden.

Det interessante ved udsendelsen i Kolding er, at der laves så meget, og det kan diskuteres, hvad der egentlig er nudging. Det er som om at begrebet nudging bliver en samlekategori for alle tiltag, der indeholder et element af design (på alt fra plakater til affaldsskure). Jeg kan blive helt trist ved tanken om, at det er en sådan formidling af nudging, der finder sted i den bedste sendetid på DR. Til trods for, at det kun er tredje afsnit af Vanens Magt, er de også nu begyndt at genbruge de mere teoretiske klip (vi får således her endnu en introduktion til, at nudging handler om at “make it easy”, som vi også så i det første afsnit). I det sidste afsnit af Vanens Magt skal Sille og Anne nudge teenagere. Det glæder jeg mig til at se.

Den interessante sondring mellem det journalistiske og det statistiske

En meningsmåling fra Megafon for TV2 og Politiken viste, at Dansk Folkeparti ville få 21,2 procent af stemmerne, Venstre 20,9 procent og Socialdemokraterne 19,8 procent. Det kræver ikke den store lommeregner eller statistiske tæft at konkludere, at ingen af de tal er signifikant forskellige fra hinanden. Alligevel konkluderede TV2, at meningsmålingen var historisk, da Dansk Folkeparti nu var landets største parti. Meningsmålingen og den samme tolkning af den var efterfølgende at finde hos B.T., Børsen, Berlingske, Ekstra Bladet og Metroxpress.

Som det er blevet pointeret flere steder, er der intet belæg for at sige, at Dansk Folkeparti er størst (se eksempelvis her, her og her). Der er dog intet nyt i, at journalister er tilbøjelige til at vælge en god nyhed på bekostning af den rigtige nyhed (som i dette tilfælde nok vil være, at de tre partier nærmer sig hinanden rent størrelsesmæssigt). Hvad der er interessant er til gengæld det faktum, at ikke alene står TV2 på mål for sådan en tolkning, men også Megafon! Hos Berlingske valgte man, efter man havde skrevet historien om, at Dansk Folkeparti nu var størst, at sætte spørgsmålstegn ved en sådan tolkning. Kanalchefen for TV 2 News, Mikkel Hertz, er i den forbindelse blevet interviewet og udtaler: “De målinger er altid forbundet med en vis usikkerhed. Men det ændrer ikke på, at målingen er udtryk for en klar tendens. I forhold til sidste måling har Venstre taget et mærkbart dyk, og DF gået frem.” Hvis han med “en klar tendens” mener “tilfældig støj”, er jeg helt enig.

Forelagt information omkring den statistiske usikkerhed i meningsmålingen, svarer Mikkel Hertz: “Hvis vi er inde i sådan noget talgymnastik, så synes jeg, at du skal ringe til Megafon. Det kan de meget bedre svare på. Jeg vil ikke gøre mig til dommer over, om vi ligger inden for grænsen af det acceptable. Jeg udtaler mig kun om det journalistiske.” TALGYMNASTIK!? Hvis man ikke kan forholde sig til meningsmålinger på anden måde end var de et eksakt valgresultat, bør man ikke arbejde med meningsmålinger eller stå på mål for samme. Usikkerhed er så afgørende et element i formidlingen af meningsmålinger, at det ikke bare kan reduceres til teknisk talgymnastik hinsides det journalistiske. Og her kommer så det væsentlige: Siden hvornår er man begyndt at sondre mellem det journalistiske og det statistiske? Jeg finder denne sondring djævelsk interessant.

Hvorfor? Fordi det er umuligt. Man kan ikke bare betegne bestemte statistiske kendsgerninger som værende ikke-journalistik, for derefter at udvælge specifikke tal, der så er journalistik. Det er i bedste fald misvisende (og i værste fald manipulation). Det er i hvert fald alt andet end god journalistik. Hvis man vælger at skrive nyheder hvori statistik spiller en væsentlig rolle, er det sørgeligt at se, at man ikke engang gider tage det seriøst, men bare selektivt bygger narrativer op omkring de dele af virkeligheden, der udgør en spændende historie. Det er ikke journalistik, men skønlitteratur.

Bedre bliver det ikke i artiklen hos Berlingske, da de spørger Casper Jensen, chef for Megafons kvantitative afdeling, om Megafons holdning til tolkningen af meningsmålingen: “Vi står inde for, at vi har målt DF som det største parti, og vi står inde for, vi mener, at DF nu er det største parti med 0,3 procentpoint, men der er noget usikkerhed forbundet med det”. Det gør det selvfølgelig ikke rigtigt, bare fordi man står inde for det. Det viser bare, at man ikke har forstået noget helt grundlæggende om, hvornår man kan sige – med udgangspunkt i en meningsmåling – at et bestemt parti er størst.

Konklusion: Det er ikke muligt at foretage en sondring mellem journalistik og talgymnastik (“statistik”). Det er muligt at det øger kompleksiteten, at man skal formidle statistisk usikkerhed og lignende tal, men det øger også sandhedsværdien. Den journalistiske kerneopgave er i den forbindelse at reducere kompleksiteten gennem god formidling snarere end gennem selektiv formidling, hvor det sidste desværre var tilfældet med den seneste Megafon-måling, der førte til en decideret forkert tolkning og formidling i noget nær den samlede danske presse.

Samfundstjeneste er måske bedre end fængsel #2

I juni havde jeg en kommentar i Politiken, hvor jeg kritisererede en rapport fra Justitsministeriets Forskningskontor, der konkluderede, at “risikoen for at begå ny kriminalitet falder med 15%, hvis man får en dom til samfundstjeneste i stedet for ubetinget frihedsstraf.” Hvad der desværre gik min opmærksomhed forbi var, at forfatterne af rapporten, Christian Klement og Anne-Julie Boesen Pedersen, senere samme måned svarede på min kritik.

I svaret, der er publiceret i Politiken søndag den 22. juni, skriver forfatterne af rapporten: “I Politiken 8.6. har ph.d.-studerende Erik G. Larsen (EGL) et kritisk indlæg om den undersøgelse af effekten af samfundstjeneste i forhold til ubetinget dom, som vi har gennemført. EGL påpeger, at sammenligningsgrundlaget mellem de kriminelle, der har fået betinget dom (med vilkår om samfundstjeneste), og de kriminelle, der har fået en ubetinget dom, er tvivlsomt. Det skyldes ifølge EGL, at der i undersøgelsen ikke er taget hensyn til arten af den kriminalitet, de to grupper har begået. Grunden til, at kriminalitetens art ikke indgår i de endelige modeller, der er vist i rapporten, er, at længden af den udmålte straf er inkluderet, og at denne variabel overlapper betydeligt med kriminalitetens art og dermed erstatter denne. Og det vil det forstyrre analysens resultater, hvis meget overlappende variabler indgår samtidigt (multikollinearitet). Det er undersøgt, om rapportens konklusioner ændres, hvis typen af kriminalitet indgår i stedet for længden af den udmålte straf, men det viser sig ikke at være tilfældet.”

Forfatterne har ret i, at jeg mener sammenligningsgrundlaget er tvivlsomt i forhold til den specifikke problemstilling. Min kritik kan dog ikke reduceres til den kendsgerning, at nogle statistiske modeller ikke inkluderer en variabel omhandlende kriminalitetens art. Det er med andre ord ikke et spørgsmål om, at der ikke er taget hensyn til bestemte kontrolvariable. Jeg mener stadig ikke, uafhængigt af hvor mange teoretisk motiverede kontrolvariable man kan inkludere i en model, at der er tale om en decideret effektevaluering. Det korte af det lange: Man kan ikke kontrollere sig frem til et estimat, der på en meningsfuld måde kan tolkes som en kausaleffekt af et bestemt tiltag.

Jeg blev gjort opmærksom på indlægget af en dygtig journalist fra Jyllands-Posten, der tog fat i problemstillingen. Jeg forklarede, at de forskelle der er på tværs af grupperne, som er systematisk relateret til tilbøjeligheden til at begå kriminalitet, indikerer, at vi ikke har at gøre med sammenlignelige grupper, når vi skal vurdere, om samfundstjenesten virker. Jeg henviste desuden til Jens Olav Dahlgaards indlæg på TV2 Politik, der blandt andet har samme pointe. I Jyllands-Posten den 1. december kan man så læse artiklen Ministerium anklages for at blande »æbler og pærer«. Artiklen er saglig og får formidlet kritikken af undersøgelsen såvel som et forsvar for den.

Britta Kyvsgaard, chef for Justitsministeriets Forskningskontor, siger, at der er ryddet så mange fejlkilder af vejen som muligt og at det er solidt arbejde. Jeg er ikke nødvendigvis enig i, at analyserne og tolkningerne er udført bedst muligt (se blandt andet Jens Olavs indlæg ovenfor og min uddybning nedenfor), men det er vigtigt at holde fast i, at fordi man har gjort det så godt man kunne, er det ikke det samme som, at man har et præcist effektestimat, der siger noget meningsfuldt om, hvilken effekt samfundstjenesten har. Flemming Balvig, professor i retssociologi og kriminologi ved Det Juridiske Fakultet, Københavns Universitet, siger i forlængelse heraf, at noget tyder på, at samfundstjenesten har en positiv effekt og at det er bedre end et gæt. Jeg er, som også vil blive beskrevet nedenfor, ikke enig i dette.

Det vigtige er dog først og fremmest at få fremhævet, at der ikke bare er tale om en teknisk detalje, der gør det svært at sige, om effekten er et procentpoint eller to fra den påståede. Der er tale om et grundlæggende problem med denne slags observationsdata, hvor vi antager, at ved at kontrollere for forskelle på et hav af tænkelige kontrolvariable, vil grupperne være sammenlignelige, og kontrafaktisk kunne vi – i dette tilfælde – have fået mindre kriminalitet, hvis blot dem der fik ubetinget fængselsstraf, var blevet idømt samfundstjeneste i stedet for ubetinget fængsel. Det kan vi dog ikke være sikre på (igen, læs også Jens Olavs indlæg for en udførlig beskrivelse af den grundlæggende problematik).

Når det så er sagt, undrer det mig, at man i rapporten taler om netop eksperiment- og kontrolgrupper, som om man har at gøre med et (naturligt) eksperiment. Ved nærmere eftertanke er det nok især brugen af den eksperimentelle metodes terminologi, der gjorde, at jeg i første instans valgte at skrive et indlæg til Politiken. Såfremt tilfældet havde været, at der ingen (eller begrænsede) systematiske forskelle havde været på tværs af de to grupper på et hav af observerede karakteristika, ville jeg være mere tilbøjelig til at tro, at der heller ikke ville være forskelle på andre relevante men uobserverede variable. Her kan det være interessant at spørge forfatterne, om de har forsøgt sig med matching, og hvilke implikationer det har for resultaterne. Det ville ikke løse grundlæggende problemer med designet, men eventuelle større afvigelser fra de påståede effekter, vil kunne indikere væsentlige problemer. Det er desuden vigtigt at pointere, at fordi der kontrolleres for et hav af forhold i modellerne, kontrolleres der ikke for relationerne mellem variablene, der kan have betydning for systematiske forskelle på tværs af de to grupper. Hvis eksempelvis betydningen af typen af kriminalitet er betinget af uddannelsesforhold, der også varierer systematisk på tværs af de grupper, når man bliver idømt samfundstjeneste, kan det diskuteres, om det er tilstrækkeligt bare at kontrollere for de to variable. Det korte af det lange: Verden er så fandens kompleks.

Forfatterne afslutter indlægget i Politiken med: “Konklusionen, at samfundstjeneste sammenlignet med fængsel fører til mindre tilbagefald til ny kriminalitet, står derfor fast og er tilmed baseret på et ganske solidt fundament.” Ligeledes skriver Mette Frederiksen i en kommentar i Politiken den 24. november, at: “Derfor er det med sagkundskaben i ryggen, at regeringen netop har fremsat et nyt lovforslag om øget brug af samfundstjeneste som et alternativ til fængselsstraf.”. Til trods for at jeg værdsætter forfatternes arbejde med rapporten, savner jeg – i mangel på bedre ord – en metodisk ydmyghed.

Det vigtige ord i titlen på mit første indlæg var “måske”. Jeg afviser ikke at samfundstjenesten kan have så store effekter som forfatterne påstår, men vi kan ikke vide det. Der er dog intet ved undersøgelsen der slår fast, at samfundstjenesten ikke kan have ingen nævneværdige effekter eller sågar – gennemsnitligt set – negative effekter. Der er som sådan intet i vejen med at undersøge systematiske forskelle på tværs af forskellige grupper, men i stedet for at slutte her og konkludere, at samfundstjenesten har en dokumenteret positiv effekt (hvilket jeg igen ikke mener der er belæg for), burde sådanne analyser facilitere en kritisk diskussion af, hvad der kan gøres videre for at blive klogere på, om samfundstjenesten generelt set virker, og måske ligefrem for hvilke typer af personer, samfundstjenesten virker bedst for i stedet for ubetinget fængsel.

Vanens magt: en gennemgang af DRs forsøg med nudging i Bilka

Så er det blevet onsdag igen og dermed tid til at en af Danmarks førende nudgingeksperter, Sille Krukow, skal lære seerne endnu mere om nudging på public service-kanalen DR1. Igen spørger en energisk Anne Glad “Kan det gøres så let?”, hvortil Sille Krukow svarer: “Ja, det kan det”. Så er præmissen og konklusionen ligesom lagt fast. I sidste uge var vi på Københavns Hovedbanegård, og her lærte vi ikke så meget. Alligevel tager speakeren sig den frihed at indlede dagens afsnit med følgende ord: “I sidste uge lykkedes det Anne Glad og Sille Krukow at skaffe os af med skod og tis på Hovedbanegården”. Lad os dog lige genopfriske hukommelsen: Nej, der var ikke mindre tis, og det blev ikke dokumenteret, at der var færre cigaretskod. Det er tydeligt at høre, at det ikke er speakeren, der har stået for at skulle fjerne al den urin, de fik indsamlet i forrige uge. Med andre ord: Mængden af urin har været den samme, men en stor del af den var bare at finde i en beholder, som en stakkels medarbejder hos DSB eller DR har haft til opgave at tømme efter spotlyset er slukket.

Dagens afsnit bærer følgende beskrivelse: “Med den nye videnskabelige metode nudging, undersøger Anne Glad, om hun med et kærligt puf kan ændre vores adfærd. I et gigantisk supermarked giver Anne tre udfordringer til en af Danmarks førende nudging-eksperter, Sille Krukow. Hun vil teste, om nudging kan hjælpe os til at handle sundere og mere miljørigtigt – helt uden vi selv behøver tænke over det, eller føler der er løftede pegefingre. Men kan Anne Glad og et par indendørs rumleriller og en glad fisk være med til at skåne havmiljøet? Kan nye grøntsagsplaceringer få os til at købe mere grønt? Og kan Bilka i Odense få udsolgt af tørrede abrikoser og bananchips?”.

Det korte af det lange efter at have set aftenens afsnit, er, at de ikke rigtigt finder ud af det store, og derfor er der heller ikke så meget at diskutere i nærværende indlæg. På baggrund af programmet kan man konkludere én ting: Placeringen af produkter betyder meget for, hvor meget de sælger. Denne erkendelse er selvfølgelig meget ældre end nudging, og butikschef Morten Wagner får også fortalt, at placeringen og priserne på produkter har afgørende betydning for, hvor meget de sælger (han taler blandt andet om deres slagtilbud på juice).

Dagens afsnit følger samme struktur som sidst. Banegården er byttet ud med Bilka og urin med frugt. Det er dog vigtigt at fremhæve, at præmissen for dette afsnit ikke er lige så klar som i forrige uge. I dette afsnit er udgangspunktet, at butikschefen godt ved, hvad der virker, men giver Anne og Sille lov til at lege med. Morten fortæller blandt andet at han er sikker på, at tyggegummi ikke ville sælge lige så godt, hvis det blev flyttet ned til frugtens placering. Helt konkret laver Anne og Sille så tre “eksperimenter”. I det første placeres der frugt ved kasseapparaterne. Denne placering kaldes for et hot spot og det er der, hvor produkter sælger bedst. Der er ingen eksempler på, at produkter sælger mindre, når de er placeret der. Selvom de i programmet taler om at udnytte de storsælgende placeringer til et nudge, kommer de ikke længere end til at placeringen er nudge nok i sig selv. Silles nudge-bidrag er da også at bruge hot spots, men ved “ikke at fokusere på profit-delen af det”. Det må være nemt at skulle indrette en butik, hvis man var fri for at tænke på profit. I det andet “eksperiment” placeres der frugt ved siden af kødpålægget. Dette bygger også på ideen om at placeringen har afgørende betydning. I det tredje sættes der nogle fiskeskilte og rumleriller op, der skal øge salget af fisk.

Flere af problemerne fra forrige uge går igen i aftenens afsnit. For det første er der stadig en tilfældig leg med begreber. Der er ikke tale om eksperimenter og det er ikke en ny videnskabelig metode. Som jeg fortalte en journalist tidligere i dag i en anden sammenhæng: På samme måde som du kan give en gris sminke på og det forbliver en gris, kan du også kalde dine observationsstudier for eksperimenter, men de forbliver observationsstudier. Det er desuden lidt uprofessionelt, at man ikke kan finde ud af at stave til de få kernebegreber, man bruger (“ego consistancy”), men det er godt at se, at de i det mindste er konsistente. For det andet implementeres der igen flere nudges i ét forsøg, hvorfor det igen kun er muligt at estimere summen af interventionerne. Dette er måske ikke lige så aktuelt som det var i forrige uge, men vi har selvfølgelig ingen mulighed for at vide, om det er et problem.

Programmet konkluderer i denne uge, at ved “at flytte lidt rundt på varerne og lave et par skilte, fik Sille os altså til at gøre alt det Sundhedsstyrelsen og det offentlige har prøvet i årevis. Køb mere grønt, spis mindre sukker og spis mere fisk”. Der er ikke belæg for nogle af disse konklusioner i programmet. Det eneste der synes at kunne dokumenteres er, at salget på nogle frugter og grøntsager var større, når placeringen var ændret. Der gives INGEN dokumentation for, at det fik folk til at købe mindre sukker. Der er heller ingen dokumentation for, at det sammenlagt fik folk til at købe flere sunde produkter. Det er en præmis gennem hele programmet, at danskerne kan leve sundere ved hjælp af nudging, men det dokumenteres ikke, om de ændrede tiltag har haft nogle implikationer for, hvor meget sukker og frugt og grønt som kunderne gik afsted med fra Bilka.

Det eneste i programmet der handler om andet end at flytte rundt på produkter, er to tiltag relateret til salget af fisk. Her findes der ingen effekt. Det klæder Sille at melde klart ud, at der ikke var nogen synlig forskel efter hendes tiltag, men det er også mere end synligt, at det ikke er nemt for hende at få det formuleret (og hun når da også at nævne en lille effekt). Som i forrige uge blev der også her eksperimenteret med flere interventioner på samme tid. Det ene nudge er gule fiske-skilte, der skulle signalere, at der er billig fisk. Anne spørger Sille om kunderne netop ikke kan associere de gule fisk med noget der er billigt, hvortil Sille svarer, at det netop er meningen. Jeg tror at de talte lidt forbi hinanden. Det er en mulighed at nogle kunder vil fravælge fisk, hvis det er stemplet med et gult klistermærke som billigt, og i stedet købe noget andet (i nogle supermarkeder er den slags skilte som regel en indikator for, at et produkt er ved at nå sidste salgsdato).

Det andet nudge ved køledisken er rumleriller, der skal få folk til at sænke farten, når de kører forbi de fisk, der skal sælges flere af. Jeg har svært ved at se, hvordan dette skulle have nogen betydning. Hvis jeg går og handler og bliver forstyrret af et ujævnt gulv, tror jeg at mit fokus er på gulvet og ikke køledisken. Dette er selvfølgelig ren spekulation, og når det blev gennemført sammen med andre interventioner i et observationsstudie, har vi ingen jordisk chance for at vide dette. Bemærk desuden her den på en og samme tid meget sjove og lidt triste kommentar Anne kommer med til Sille, da Sille skal prøvekøre en indkøbsvogn over rumlerillerne for anden gang. “Så husk at stoppe denne her gang”.

Som sagt var der angiveligt ingen effekt af tiltagene på salget af fisk (men som Anne siger: “Uanset om vi kunne måle resultaterne eller ej, så synes jeg det er en meget, meget sød fisk, du har lavet”, og som Sille siger, kan det tænkes at priming effekterne var større ved de andre fisk i supermarkedet. Wow.), men der var procentstigninger på over 100 procent på salget af noget af deres frugt og grønt. Som jeg bemærkede indledningsvist, er det hvad vi får med fra programmet: Hvis du gør produkter mere synlige for forbrugerne, sælger de mere. Jeg havde dog ingen mulighed at vurdere, hvor store disse effekter i det hele taget er. Jeg bliver altid skeptisk når folk formidler resultater i form af procentændringer uden at rapportere bare ét tal, der indikerer, hvad vi har med at gøre. Hvis vi er gået fra 10 til 25 solgte pebersnacks, ved jeg ikke om den stigning nødvendigvis er værd at skrive hjem om, selvom vi kan tale på stigninger på over 100 procent.

Der skal dog ikke herske nogen tvivl omkring, at der ikke blev lavet lige så mange graverende fejl i dagens afsnit som i forrige uges (eller med andre ord givet tilstrækkelig information til at kunne undersøge det). Dette skyldes nok at Anne og Sille var underlagt nogle ret klare begrænsninger for, hvad man kan ændre i et supermarked, hvor der ikke kan tilføjes materielle understøttelser og andre mærkværdigheder, men maksimalt leges med lidt produktrokeringer og opsætningen af et par skilte. Det er dog utroligt, hvordan de i programmet kaster om sig med løse påstande. To nævneværdige eksempler. For det første når de taler om, at traditionelle kampagner ikke har nogen virkning. Det ved jeg ikke om er tilfældet, men de får på ingen måde dokumenteret den påstand. For det andet når Sille taler om, at ”design” er hvad der virker, og ikke bare at ”spamme med information”. Sille har en master i visuel kommunikation fra Det Kongelige Danske Kunstakademis Skoler for Arkitektur, Design og Konservering, så jeg forstår godt hendes udgangspunkt (og teoretiske og metodiske mangler). Jeg deler nok bare ikke samme optimisme i forhold til, hvor meget design (som Sille tænker design) har at skulle have sagt i forhold til andre virkemidler.

Dette berører dog også et endnu vigtigere aspekt i forhold til studiet af nudging. Sille har ingen baggrund i adfærdsøkonomi eller generel beslutningsteori – og det er helt fair. Det undrer mig bare, at en public service-kanal som DR vælger at lave et program om nudging uden at inddrage så meget som én fagkyndig person, der rent faktisk forsker i den slags. Programmerne er optaget, klippet og sat sammen, så det er ikke en opfordring til DR, men blot en sørgelig konstatering over det tabte potentiale, når danskerne for fremtiden vil associere nudging med et par gule fisk, pissoirer og frugt i kølediskene.

For at opsummere: Hvis du ikke vidste forinden, at placeringen af produkter i en butik har implikationer for salget, ved du det nu. Ellers er der intet nyt under solen. I næste uges udsendelse tager Vanens Magt et smut til Kolding.

Vanens magt: en gennemgang af DRs forsøg med nudging på Københavns Hovedbanegård

På DR1 kunne man onsdag aften se første afsnit af et nyt program med titlen Vanens magt. Programmet beskrives med følgende ord på DRs hjemmeside: “Anne Glad undersøger i en ny DR1-serie fra onsdag klokken 20.30, om en helt ny videnskabelig metode kan ændre vores adfærd, uden at vi opdager det, og uden at det koster os noget. Med en af Danmarks førende nudgingeksperter; Sille Krukow sætter Anne gang i 3 nudgingeksperimenter på Danmarks største samlingsplads for togrejsende, Hovedbanegården i København. Nudging skal spare os penge, gøre os sundere og skåne miljøet – alt sammen uden tvang og ekstra indsats fra danskerne”. Når man læser en sådan programbeskrivelse, bør alarmklokkerne så småt begynde at ringe. Intet i den beskrivelse lægger op til en nuanceret introduktion til kompliceret stof. Tværtimod.

Nudging som begreb blev for alvor populært i årene efter udgivelsen af bogen “Nudge: Improving Decisions About Health, Wealth, and Happiness”, skrevet af Richard Thaler og Cass R. Sunstein. Bogen har den pointe, at vi kan opnå politiske målsætninger uden forbud og andre restriktioner på vores adfærd. I stedet for at hæve afgifterne på slik, kan man eksempelvis indrette kantiner og supermarkeder således, at folk køber flere sunde produkter. Win-win-win-win. Kort fortalt er der dog ikke tale om en ny videnskab, men blot et øget psykologisk fokus på, hvordan mennesker afviger fra rationelle adfærdsantagelser, når de træffer beslutninger. Denne disciplin betegnes ofte som adfærdsøkonomi (behavioral economics) og har tråde tilbage til i hvert fald Amos Tversky og Daniel Kahnemans arbejde fra 70erne. Det er altså misvisende når programbeskrivelsen såvel som udsendelsen taler om en “helt ny videnskabelig metode”. Desuden er der ikke tale om en metode, men snarere nogle teoretiske antagelser om, hvordan mennesker reagerer på en bestemt type af ændringer i deres omgivelser (der i overvejende grad underbygges empirisk af studier der metodisk bygger på eksperimentelle designs).

Dette er dog ikke så vigtigt. Der er tale om en programserie og ikke et videnskabeligt stykke arbejde – og noget må selvfølgelig blive lost in translation, når gennemsnitsdanskeren skal have underholdning til aftenkaffen. Vi kan dog forholde os kritisk til programmet på dets egne præmisser, og altså vurdere programmet med udgangspunkt i de principper de selv opstiller og de konklusioner, de selv drager. Når de taler om eksperimentel metode, dataindsamling, statistiske forskelle m.v., må vi se nærmere på, hvor godt et arbejde de udfører, og som flere hundrede tusinde danskere nok har set. Hvem er det så, der skal belære os om nudging? Det er Sille Krukow og Anne Glad. Sille Krukow er tilsyneladende en af Danmarks førerende nudgingeksperter. Hun har ikke så meget som én videnskabelig publikation, så det står mig uklart, hvordan man er kommet frem til, at hun er blandt de førende (eller måske er andelen af folk der beskæftiger sig med nudging i Danmark så lille, at så snart man beskæftiger sig med nudging [og ikke er specialestuderende på RUC], er man blandt de førende?). Anne Glad arbejder på et reklamebureau og laver fjernsyn.

I det første program, som jeg vil fokusere på i dette indlæg, er vi på Københavns Hovedbanegård. Københavns Hovedbanegård har (åbenbart) tre konkrete udfordringer. Den ene udfordring omhandler cigaretskod ved indgangen til Københavns Hovedbanegården. De to andre udfordringer indeholder urin, hhv. urin udendørs og i elevatorerne, men begge handler kort fortalt om, at folk urinerer, hvor de ikke skal. Programmet er så bygget op omkring, at Sille Krukow skal være kreativ og foreslå nudges, der kan løse problemerne. I den resterende del af dette indlæg ser jeg nærmere på hver af de tre udfordringer.

Den første udfordring: Cigaretskod. Ude foran hovedbanegården bliver der smidt mange cigaretskod. Sille får den idé at sætte askebægre op og afgrænse et område, hvor man kan ryge. Hvis man ser bort fra det faktum, at det ikke er Silles idé, har jeg personligt svært ved at se det overraskende i, at folk anvender den slags, når de er der. I programmet teoretiseres, at ved at gøre det nemt, altså “make it easy” (alting lyder mere friskt, når man bruger engelske termer), som med eksempelvis synlige skraldespande, kan man påvirke folks adfærd. Wow. Det er muligt at folk vil kalde dette for et nudge, men for mig at se kan det – i dette tilfælde vel at mærke – lige så godt ses som en omkostningsreduktion, som folk reagerer på.

Det væsentligste problem for “eksperimentet” er dog kontrol- og treatmentgruppen. Der er ikke tale om et traditionelt eksperiment med en egentlig randomisering, men en før og efter måling. Vi observerer med andre ord adfærd på Københavns Hovedbanegård, lader disse observationer udgøre kontrolgruppen, laver en ændring i omgivelserne, observerer igen og kalder disse observationer for treatmentgruppen. Det åbenlyse problem er her, at vi ikke kan være sikre på, at forskelle mellem disse to grupper nødvendigvis skyldes interventionen. Antallet af gæster på banegården (som den afhængige variabel i dette såvel som de andre tilfælde alt andet lige må være en funktion af) kan variere fra uge til uge i forbindelse med bestemte arrangementer med videre, og den slags tager man ikke højde for, når man ikke randomiserer udsættelsen for nudges.

Det der især forekommer problematisk er, at den afhængige variabel er antallet af cigaretskod, men perioden varierer for henholdsvis kontrolgruppen og treatmentgruppen. Kontrolgruppen er angiveligt to uger, og treatmentgruppen er en uge, eller som speakeren siger i programmet: “I ugerne før Silles løsning sættes op, samles og tælles samtlige skod på hele pladsen. Og når nudge-løsningen er sat op, skal der igen indsamles data og tælles skod i mindst en uge”. Dette virker amatøragtigt. Senere indikerer Sille dog så, at der er tale om en uge før og en uge efter, men får ikke formidlet de præcise tal eller de nærmere omstændigheder for, hvor ofte cigaretskod er blevet indsamlet i perioden med videre. Det er selvfølgelig yderst begrænset, hvor meget man kan formidle af den slags, men jeg vil gerne høre mere om, hvilke forskelle der egentlig er på tværs af grupperne. I hvert fald mere end bare tallet for, hvor mange cigaretskod der er endt i deres skraldespand (er der eventuelt flere cigaretskod i treatmentgruppen samlet set, som et resultat af, at man signalerer, at der er et rygeområde?).

Senere i programmet siger speakeren: “Et nudging-eksperiment kræver normalt flere måneders observation og målinger, så det er spændende at se om Silles tre løsninger kan skabe forandringer allerede efter en uge.”. WHAT!? Hvorfor? Det er ingen tommelfingerregel, at der skal observeres i flere måneder. Der fortælles ikke med ét ord, hvorfor effekterne af en skraldespand eventuelt først skulle begynde at virke efter flere måneder. Det er ikke utænkeligt, men man kan sågar forvente, at effekter af ændringer kan være størst i begyndelsen af dataindsamlingsperioden.

Den anden udfordring som nudge-teamet ser på, er urin i elevatoren. Dette er underholdende TV alene af den grund, at de finder ud af, at der ikke er et problem i første instans. Der er ganske enkelt ikke nok der har pisset i elevatoren til, at der kan laves analyser på materialet. Et af de første klip i udsendelsen viser ellers ved et tilfælde, at der er pisset i elevatoren. Anne Glad når at udtrykke at “det er spændende” at se, om der er tis i elevatoren. Når de åbner en tilfældig elevatordør for at tjekke, står der selvfølgelig allerede en kameramand inde i elevatoren og optager åbningen af elevatoren og mængden af urin. Det viser meget godt, hvordan den slags TV laves. (Er der nogen garanti for, at det ikke er kameramanden, der selv har skabt de gode billeder?)

Sille foreslår følgende løsning (før de ved, at der ikke er et problem): Et billede af en mand og et barn i elevatoren, så man føler sig overvåget. Ideen er, at når øjne stirrer på én, vil man føle sig overvåget og derfor ikke begive sig ud i en adfærd, man ved er forkert. Jeg har det svært med den slags studier, især fordi der er eksempler på, at stirrende øjne ikke altid vil føre til mere pro-social adfærd i realistiske omgivelser. I denne forbindelse kan man især også diskutere, såfremt der havde været et problem, om en sådan løsning ville fungere på længere sigt. Nuvel, første gang man ser øjnene, vil man måske reagere, men vil man reagere lige så kraftigt anden, tredje og fjerde gang? (De vælger desuden en mand, da vi angiveligt reagerer kraftigere på mandlige øjne frem for kvindelige øjne. En der har en reference til dette studie?)

Jeg anser det som gode nyheder (i hvert fald for DSB), at der ikke var noget problem. Jeg kan dog undre mig over valget af estimationsmetode her, altså en simpel før og efter-måling. Er der ikke flere elevatorer på banegården? I så fald kunne man randomisere elevatorerne, lave før og efter-målinger og have et difference-in-difference design, som vil stå meget stærkere.

Den tredje udfordring: Urin udendørs. Den tredje udfordring er, at folk urinerer udendørs og mere præcist i et par hjørner. Her foreslår Sille to løsninger. Alene det at gennemføre to interventioner på én gang, kan være problematisk. Dette fordi vi ikke kan estimere, hvilken effekt de respektive interventioner har, men kun summen af dem. Hvis den ene intervention har en positiv effekt og den anden intervention har en negativ effekt, og effekterne gennemsnitligt set er lige stærke, kan vi sågar ende med at konkludere, at ingen af de to interventioner virkede. Ligeledes kan det tænkes, at to interventioner har ikke-additive effekter, hvorved effekten af den ene intervention vil være betinget af tilstedeværelsen af den anden intervention.

Den første intervention Sille foreslår er strategisk placerede anvisninger til, hvor toiletterne er. Dette vises med klistermærker på jorden, der fortæller tissetrængende personer, hvor nærmeste toilet er. Den anden intervention er ”materiel understøttelse” (og her må jeg nævne, at jeg grinede!). Materiel understøttelse er mit nye yndlingsnudge (næst efter frugt i både). Hvad er dette nudge? Hold fast: Et pissoir. Jeg lyver ikke. Se det selv.

Hvad viser resultaterne her? Ingen samlet effekt. Der blev målt henholdsvis 500 personer både før og efter interventionen, der urinerede udendørs. Hvordan tolkes dette? Som en succes. Det tolkes som en succes fordi mange mænd har brugt pissoiret. Det nævnes ikke med ét ord, at de strategisk placerede anvisninger ikke havde nogen effekt. Faktisk nævnes de strategisk placerede anvisninger ikke med ét ord i evalueringen af eksperimentet. Det forekommer så manipulerende, at det er den eneste indikation på, at der har været en nudging-ekspert inde over udsendelsen. Det korte af det lange er, at der ikke er sket en forandring her. Betyder det, at de strategisk placerede anvisninger ikke har en effekt? Pas. Man kunne eventuelt begynde med at fjerne alle materielle understøttelser, der legitimerer den adfærd, man ønsker at reducere – og gentage eksperimentet. (Personligt tror jeg, at den intervention der i dette tilfælde ville virke bedst, var en pil der pegede op. Eftersom der var et synligt kamera øverst oppe på bygningen, ville det nok få et par mænd til at genoverveje, om de ville urinere netop der.)

Hvad kan vi konkludere? Hvis du sætter et toilet eller et askebæger op, vil folk anvende dette. I programmet pointeres det, “hvor lidt der skal til, for at ændre rigtig meget”. Well, I var ikke i stand til at få folk til at urinere mindre, der hvor I gerne ville. Jeg har svært ved at se dokumentationen for, at små ændringer ændrede rigtig meget. Ikke at jeg betvivler, at små nudges kan have store effekter, men det burde man kunne formidle på en måde, hvor man beholder sin faglige stolthed.

Der er i programmet intet sjovt ved at frame resultaterne således, at folk angiveligt bruger toiletter og askebægre, når man sætter dem op, men ellers er der ingen synlige resultater af små nudges. Hele programmet beror selvfølgelig på, at de finder effekter (jvf. ovenstående programbeskrivelse og brugen af nudge-eksperter). Sille forsøger at bygge en karriere op på at kunne nudge (og det er alt andet lige sjovere, hvis nudging virker). Anne vil gerne lave godt TV, der alt andet lige er bedre og mere interessant, hvis det ikke bare er negative resultater (spørg selv de fleste tidsskriftsredaktører).

Det er fedt, at der sættes fokus på nudging i den bedste sendetid. Det er ikke fedt, at det gennemføres af folk uden styr på basal metode, som taler om “troværdig statistisk effekt”, “dataindsamling” m.v., uden at kunne gribe det hele systematisk an og behandle resultaterne med en vis faglig integritet (og hvad angår sidstnævnte, se desuden dette opslag).

Jeg glæder mig allerede til næste onsdag.

Er danskerne de tryggeste ved at færdes alene efter mørkets frembrud?

Justitsministeriets Forskningskontor konkluderer i en ny rapport “at Danmark sammen med Island og Norge ligger i top med hensyn til tryghed ved at færdes alene i mørke i lokalområdet”. Eller som de skriver i pressemeddelelsen: “Kun overgået af islændingene er danskerne de tryggeste ved at færdes alene efter mørkets frembrud”. Rapporten bygger på data fra European Social Survey (ESS) og mere specifikt pointeres det i rapporten at “Det ses af figur 2.1, at de nordiske lande placerer sig blandt de europæiske lande med den største andel, der er meget trygge ved færden alene i mørke i deres lokalområde. Danmark ligger på andenpladsen, men afviger dog ikke signifikant fra Island, der placerer sig på førstepladsen.” (side 2). Nuvel, personen der har skrevet pressemeddelelsen har ikke kendskab til statistisk signifikans, men lad os se på figur 2.1:

Her kan det ganske rigtigt ses, at der ikke synes at være signifikante forskelle mellem Norge, Danmark og Island. Det interessante er dog, hvorfor der udelukkende kigges på andelen af respondenter, der føler sig meget trygge. I ESS kunne respondenterne, foruden “ved ikke”, vælge mellem meget utryg, utryg, tryg og meget tryg. I ovenstående figur indeholder den resterende andel dermed også de respondenter, der føler sig trygge ved at færdes alene i deres lokalområde. Er det retvisende? Nej.

Hvad sker der, når man kigger på andelen af respondenter, der føler sig enten trygge eller meget trygge i de respektive lande? I så fald ligger Slovenien øverst som det land, hvor respondenterne føler sig mest trygge. Denne forskel er statistisk signifikant i forhold til de andre lande. Selvom “Danmark sammen med Island og Norge ligger i top med hensyn til tryghed ved at færdes alene i mørke i lokalområdet”, er det misvisende ikke at inkludere andelen der føler sig trygge, hvis man gerne vil konkludere noget om andelen der føler sig trygge. I dette tilfælde virker det til, at dem der har lavet rapporten, har lavet ovenstående figur for netop at kunne skrive en fin pressemeddelelse.

Kan tilfældet dog ikke være, at forfatterne bag rapporten har fundet det ligegyldigt at sammenligne andelen af meget tryg og tryg med andelen af meget utryg og utryg, og dermed helt har overset implikationerne af dette for resultaterne? Nej. Figur 2.3 gør lige præcis dette, men som forfatterne skriver, er det muligt at gøre forskellen mellem Slovenien og de andre lande insignifikant ved eventuelt kun at kigge på kvinders svar: “Slovenien har en har [sic] signifikant lavere andel utrygge end Danmark, mens niveauet i Finland og Norge svarer til det danske. En beregning, hvor alene kvinder er inkluderet, viser en helt tilsvarende placering af Slovenien, Finland, Danmark og Norge.”. Det er lidt komisk.

Til trods for dette konkluderes der på den sidste side i rapporten, at “Undersøgelsen fra 2012 viser, at at [sic] Danmark sammen med Island og Norge ligger i top med hensyn til tryghed ved at færdes alene i mørke i lokalområdet”. Danmark ligger i top, ja, men har ikke topplaceringen. Andre af rapportens konklusioner er ligeledes misvisende eller mangler statistiske tests. Bemærk eventuelt den sjove detalje i konklusionen om “at danskernes tillid til politiet er vokset gennem de senere år”. Her er der blot tale om, at tilliden har været faldet omkring politireformen, og nu er vendt tilbage til hvad der ligner et niveau fra før politireformen.

Ligeledes er det komisk at der rapporteres ændringer over tid, uden at det undersøges statistisk om disse ændringer er signifikante. Det er selvfølgelig irriterende som læser, da rapporten skifter mellem at rapportere figurer med konfidensintervaller og figurer uden, men også fordi der er indikationer på, at nogle af tolkningerne er decideret forkerte. Tag eksempelvis figur 2.4, der viser andelen i de nordiske lande, der er utrygge eller meget utrygge, når de færdes i deres lokalområde efter mørkets frembrud:

Her skriver Justitsministeriets Forskningskontor på side 5: “Udviklingen i de nordiske landes placering viser, jf. figur 2.4, at Sverige ved alle målinger har den største andel, der angiver at føle sig utrygge i deres lokalområde.”. Hvis man kigger godt efter kan man se, at dette ganske enkelt ikke er sandt. I 2008 er der ingen forskel på Danmark og Sverige. Faktisk er tallet højere for Danmark (15,29) end for Sverige (15,12). Igen, der laves ingen egentlige tests for forskelle over tid, men der skrives om statistiske tests mellem landene for de enkelte år (de rapporteres dog ikke i nogen form – og mit gæt er at de[n] person[er], der har lavet analyserne, ikke har taget sig tid til at sammensætte de forskellige datasæt, men blot har kørt analyser på de enkelte datasæt relateret til hver ESS runde).

Danskerne er ikke de tryggeste ved at gå alene ude efter mørkets frembrud, men helt klart i den høje ende. Det ville være en helt fin pointe at formidle, men hvorfor skal det gøres på den måde? Spørgsmålet er ikke retorisk.

Hvor mange indvandrere er der i Danmark?

Har danskerne nogen idé om, hvor mange indvandrere der er i Danmark? På Politiken konkluderer Sigge Winther Nielsen, at danskerne overvurderer andelen af indvandrere i Danmark. Det skal nævnes, at pointen er, ”at danskerne overvurderer andelen af invandrerere [sic] mindst i forhold til vores europæiske medborgere”, men det er alligevel værd at dykke ned i tallene og ikke mindst at forholde os til, hvor brugbare sådanne tal, der ligger til grund for konklusionen, er.

Baggrunden er en spørgeskemaundersøgelse foretaget i en række lande af Ipsos MORI, hvor folk har givet deres bedste bud på spørgsmål som antallet af indvandrere og antallet af teenagegraviditeter i de respektive lande. Konklusionen er, at vi gennemsnitligt set, rammer forkert. Undersøgelsen førte til et blogindlæg på The Guardians datablog med titlen “Today’s key fact: you are probably wrong about almost everything” og introduceres med “Most people around the world are pretty bad when it comes to knowing the numbers behind the news. But how issues such as immigration are perceived can shape political opinion and promote misconceptions”. På Politiken kan man efterfølgende læse indlægget “Du ved sikkert mindre, end du tror“, der introduceres med “Mange mennesker kender ikke tallene bag nyhederne. Og misforståelser om antallet af asylansøgere har konsekvenser for den offentlige meningsdannelse.”

Det er værd at bide mærke i, at omtalte undersøgelse beskæftiger sig med en lang række spørgsmål, og der er da også eksempler på emner, hvor gennemsnitsgættet rammer godt, eksempelvis rammer gennemsnitsgættet i Tyskland helt præcist, hvad angår andelen af kristne. Det interessante spørgsmål er dog ikke, hvor meget gennemsnitsgættet afviger fra det faktuelle tal, men hvordan de enkelte respondenter svarer. Gruppeestimater kan være meget misvisende for, hvordan de fleste i en gruppe gætter. Hvis vi eksempelvis har en gruppe med fire personer, der hver især skal give svaret på hvad kvadratroden af 25 er, og svarene er henholdsvis 5, 5, 5 og 97, gør det ikke gruppen uvidende fordi gennemsnitsgættet er 28. På samme måde med antallet af indvandrere i et land: Fordi gennemsnitsgættet ligger højere end et aktuelt tal, betyder det ikke, at de fleste går rundt og er uvidende om fakta.

I resultaterne fra Ipsos MORIs undersøgelse er der desværre kun givet tal på gennemsnitsafvigelser i de respektive lande, og eksempelvis ikke medianværdier, statistiske tests for forskelle m.v. Ligeledes er undersøgelsen ikke foretaget i en dansk kontekst, men i indlægget på Politiken udnyttes det, at der i den første runde af European Social Survey (ESS) blev stillet et lignende spørgsmål til respondenterne i en lang række af europæiske lande, herunder Danmark.

I dataene fra Danmark kan man se, at der er respondenter der har svaret, at over halvdelen af indbyggerne i Danmark er født udenfor landets grænser. Det er ikke hensigten med nærværende indlæg at afgøre om disse gæt er seriøse gæt, men 1) de er heldigvis ikke retvisende for hvad den gennemsnitlige dansker går og tror og 2) de påvirker gennemsnitsgættet ved at gøre det større end det de fleste danskere går rundt og tror. I Danmark er det faktuelle tal, i perioden der er relevant for ESS, 6,73 (kilde), men da respondenterne kun har afgivet svar i hele tal, er der ingen der rammer korrekt med decimals præcisions. Over en fjerdedel af respondenterne svarer dog korrekt med et par enkelte procentpoints præcision, hvilket må siges at være ret godt. Faktisk er medianværdien 7, hvilket er så præcist vi kan komme på et korrekt tal.

Det er for nemt at sige, at danskerne overvurderer antallet af indvandrere og at dette betyder, at vi ved mindre end vi tror. Der er helt sikkert en del danskere, der ikke ved, hvor mange indvandrere der helt præcist bor i Danmark (undertegnede inklusive), men det er ikke det samme som at vi går og ved mindre end vi tror. Det er ej heller det samme som at gennemsnittet af de enkelte gæt, giver et retvisende billede af, hvor vidende borgerne er i et land. I bund og grund er det ikke ret interessant at have et gennemsnit i dette tilfælde. Det interessante er derimod variationen, som der ikke kan herske tvivl om, bør belyses og forklares bedst muligt.