Vanens magt: en gennemgang af DRs forsøg med nudging i Kolding

I tredje afsnit af Vanens Magt er vi taget til Kolding. Livsstilsekspert Anne Glad og designer Sille Krukow er igen klar på at kaste om sig med videnskabelige teorier og eksperimentelle metoder. I første afsnit gjorde de det på Københavns Hovedbanegård og i andet afsnit tog de et smut forbi Bilka i Odense. Fra Sjælland over Fyn til Jylland. I Kolding er det igen tre såkaldte nudgingeksperimenter, som Anne og Sille skal implementere og evaluere. Indledningsvist vil jeg fremhæve det faktum, at de samme fejlkilder fra de forrige to udsendelser, går igen her: Simple før og efter-målinger kaldes for eksperimenter, det er uklart hvad man måler effekten af og der er en selektiv præsentation af “resultaterne”.

De tre “eksperimenter” i Kolding skal adressere følgende tre konkrete udfordringer: 1) hastighedssyndere, 2) indsamling af penge til den lokale boldklub og 3) henkastet affald. Sille kommer igen med konkrete løsningsforslag til, hvordan de specifikke udfordringer kan gribes an. Bemærk her, at det ikke nødvendigvis er de bedste eller mest effektive løsninger, man kan forestille sig, men blot de løsninger, der intuitivt virker kreative og kan formidles på TV. Som jeg bemærkede i mit første indlæg om Vanens Magt, er dette ikke nødvendigvis et problem, men når Anne Glad og Sille Krukow anbefaler, at man bruger penge på den slags i stedet for på kampagner (uden at vurdere hvilke effekter kampagner har), er det mere end fair at problematisere deres dagsorden.

Når det handler om hastighedssyndere – der er det mindst interessante i programmet – siger Sille Krukow blandt andet, at straf ikke virker. Det nudge Sille foreslår, er en rød plastikfigur, der skal forestille en pige, som sættes op i hobetal i vejkanten på den strækning, hvor man ønsker at reducere farten. Det måles i en uge, hvor mange der kører for stærkt. De eneste tal vi får er, at 45 pct. af billisterne kører mere end de tilladte 50 km/t. I ugen efter er det “kun” 36 pct. Der gives ingen information om, hvorvidt hastigheden på billisterne gennemsnitligt set var lavere i ugen efter. Der er flere interessante forhold her, foruden de allerede nævnte kritikpunkter, der også lader sig applicere på dette forsøg. For det første taler de om, at “det er jo vaner der ændres her”. Er det? Det er der intet belæg for. Vil de samme plastikfigurer have nogen betydning, når billisterne møder dem for tyvende gang? Med andre ord: Hvor lang tid vil de virke? Vil de være en god investering? (De er jo ikke gratis.) For det andet taler de som nævnt om, at bøder og straf ikke har virket. Hvis man virkelig vil drage sådanne konklusioner, må man jo prøve at uddele bøder over en uge. Man kunne eventuelt sætte et skilt op, der forklarer, at der er fartkontrol i den pågældende uge. Mit eget ydmyge gæt vil være, at det vil have en ret synlig effekt. Der er overordnet set intet nyt eller interessant i dette forsøg, men det skyldes nok, at deres “nudge” er hentet fra en anden kampagne og indkøbt til lejligheden (hvilket der selvfølgelig ikke er noget galt i).

I forsøget med at indsamle penge til den lokale boldklub, går det ikke meget bedre. Tværtimod. Her undersøger man, om man ved at gøre en indsamlingsbøsse gennemsigtig, kan øge det beløb, der bliver givet. Som Sille indleder sin evaluering af forsøget med: “[…] efter vi lavede disse små ændringer på udformningen af indsamlingsbøssen”. STOP! Det var ikke det eneste, der blev ændret. Indsamlingsbøssen blev godt nok ændret (gjort gennemsigtig med et foto ovenpå), men det var ikke det eneste, der blev foretaget af justeringer: Foruden dette blev placeringen af indsamlingsbøssen ændret og – hold nu fast – man satte informationsplakater op i omklædningsrummene med information omkring, at man skulle give penge. Igen, hvordan kan I konkludere, at ændringerne er et resultat af de små ændringer på udformningen af indsamlingsbøssen? Det sjove er, at når andre sætter plakater med information op, er det kedelige kampagner, som ikke virker. Når Sille selv gør det, er det billeder der primer og planter tanker i folks hoveder, der vil ændre deres adfærd. Sille laver ikke kampagner. Hun primer. Gammel vin. Nye flasker.

Endnu værre bliver det, når Sille taler om, hvad der er det interessante ved at sætte plakater op i omklædningsrummene. Placeringen er valgt, da man angiveligt skal bruge en tikrone for at bruge et betalingsskab. Sille spørger: “Skal vi se, om vi ikke kan få fat i den?”, indforstået, at hvis hun primer folk, vil de placere den tikrone, de har brugt i skabet, i indsamlingsbøssen (der som bekendt nu er gennemsigtig). Ligeledes fremhæves det klart og tydeligt, at hun strategisk har puttet tikroner i indsamlingsbøssen, så det gøres tydeligt, at det er de mønter, de er ude efter. Bliver dét evalueret? Ikke med så meget som ét ord. Hvorfor ikke? Sille opstiller klare forventninger til, hvilke adfærdsændringer, der bør observeres, men evaluerer dem ikke. Forsøget bliver selvfølgelig evalueret, og det er ret sjovt. De indleder med at fortælle, at der blev samlet praktisk talt ingenting ind, når det var en ganske, normal kedelig indsamlingsbøsse, men at man med den nye gennemsigtige indsamlingsbøsse fik indsamlet “over 7 gange så meget”. Her skal man selvfølgelig huske på, at 7 gange så meget af praktisk talt ingenting, ikke nødvendigvis er meget. Det evalueres desuden heller ikke, hvor længe forsøget skulle have kørt, før alene udgifterne til den nye indsamlingsbøsse var dækket. Alt i alt er ingen blevet klogere på noget som helst. Jeg føler mig dog stadig underholdt.

Det værste ved udsendelsen er dog forsøget med at reducere mængden af henkastet affald. Der er meget at skrive her, men kort fortalt sætter Sille bare skraldespande op, hvor folk har smidt deres affald. Hun laver selvfølgelig også andre ting, såsom større huller til affald, et nyt skiltesystem og lignende, der gør det umuligt at vurdere effekten af enkelte tiltag, men det er ikke så vigtigt her (dog stadig problematisk). Det der angiveligt kendetegner det henkastede affald er, som Sille siger, folks gode intentioner. Det passer dog ikke. Det affald der er smidt ved skraldespandene, skal slet ikke placeres der, men et helt andet sted. Problemet er henlagt pap og store sække, som slet ikke bør være der, men afleveres andetsteds.

Hvordan forholder Sille sig til denne problematik? Sille konkluderer først: “Der er ikke noget hul, der passer til pap.” Anne spørger retmæssigt: “Men er det ikke, fordi det skal over i den der miljøgård?”. Sille svarer: “Jo, men jeg vil faktisk ikke have at de skal gå hele vejen over til miljøgården med papkasserne, fordi det tror jeg simpelthen ikke på kommer til at ske.” Igen, jeg lyver ikke. Det er Silles egne ord. Hun føler ikke lige for, at folk skal gå derhen med deres affald, som andre har besluttet er det mest hensigtsmæssige. Hendes løsning: “I stedet for vil jeg have sat et ekstra skur op.” Det er jo ikke et nudge! Det er en skraldespand. Hvad har du tænkt dig, Sille? Der er en grund til, at man har lavet en central miljøgård og ikke tager rundt til alle ejendomme og indsamler pap. Sille erkender, at det er en ret dyr løsning, men at det nok på længere sigt vil spare penge. På længere sigt!? Hvad er det her for noget? Jeg tror bare, at vi stopper her. Afslutningsvis skal det dog lige bemærkes, at når de sætter en skraldespand til pap op der, hvor folk smider pap, ender folks pap ikke så overraskende i skraldespanden.

Det interessante ved udsendelsen i Kolding er, at der laves så meget, og det kan diskuteres, hvad der egentlig er nudging. Det er som om at begrebet nudging bliver en samlekategori for alle tiltag, der indeholder et element af design (på alt fra plakater til affaldsskure). Jeg kan blive helt trist ved tanken om, at det er en sådan formidling af nudging, der finder sted i den bedste sendetid på DR. Til trods for, at det kun er tredje afsnit af Vanens Magt, er de også nu begyndt at genbruge de mere teoretiske klip (vi får således her endnu en introduktion til, at nudging handler om at “make it easy”, som vi også så i det første afsnit). I det sidste afsnit af Vanens Magt skal Sille og Anne nudge teenagere. Det glæder jeg mig til at se.

Den interessante sondring mellem det journalistiske og det statistiske

En meningsmåling fra Megafon for TV2 og Politiken viste, at Dansk Folkeparti ville få 21,2 procent af stemmerne, Venstre 20,9 procent og Socialdemokraterne 19,8 procent. Det kræver ikke den store lommeregner eller statistiske tæft at konkludere, at ingen af de tal er signifikant forskellige fra hinanden. Alligevel konkluderede TV2, at meningsmålingen var historisk, da Dansk Folkeparti nu var landets største parti. Meningsmålingen og den samme tolkning af den var efterfølgende at finde hos B.T., Børsen, Berlingske, Ekstra Bladet og Metroxpress.

Som det er blevet pointeret flere steder, er der intet belæg for at sige, at Dansk Folkeparti er størst (se eksempelvis her, her og her). Der er dog intet nyt i, at journalister er tilbøjelige til at vælge en god nyhed på bekostning af den rigtige nyhed (som i dette tilfælde nok vil være, at de tre partier nærmer sig hinanden rent størrelsesmæssigt). Hvad der er interessant er til gengæld det faktum, at ikke alene står TV2 på mål for sådan en tolkning, men også Megafon! Hos Berlingske valgte man, efter man havde skrevet historien om, at Dansk Folkeparti nu var størst, at sætte spørgsmålstegn ved en sådan tolkning. Kanalchefen for TV 2 News, Mikkel Hertz, er i den forbindelse blevet interviewet og udtaler: “De målinger er altid forbundet med en vis usikkerhed. Men det ændrer ikke på, at målingen er udtryk for en klar tendens. I forhold til sidste måling har Venstre taget et mærkbart dyk, og DF gået frem.” Hvis han med “en klar tendens” mener “tilfældig støj”, er jeg helt enig.

Forelagt information omkring den statistiske usikkerhed i meningsmålingen, svarer Mikkel Hertz: “Hvis vi er inde i sådan noget talgymnastik, så synes jeg, at du skal ringe til Megafon. Det kan de meget bedre svare på. Jeg vil ikke gøre mig til dommer over, om vi ligger inden for grænsen af det acceptable. Jeg udtaler mig kun om det journalistiske.” TALGYMNASTIK!? Hvis man ikke kan forholde sig til meningsmålinger på anden måde end var de et eksakt valgresultat, bør man ikke arbejde med meningsmålinger eller stå på mål for samme. Usikkerhed er så afgørende et element i formidlingen af meningsmålinger, at det ikke bare kan reduceres til teknisk talgymnastik hinsides det journalistiske. Og her kommer så det væsentlige: Siden hvornår er man begyndt at sondre mellem det journalistiske og det statistiske? Jeg finder denne sondring djævelsk interessant.

Hvorfor? Fordi det er umuligt. Man kan ikke bare betegne bestemte statistiske kendsgerninger som værende ikke-journalistik, for derefter at udvælge specifikke tal, der så er journalistik. Det er i bedste fald misvisende (og i værste fald manipulation). Det er i hvert fald alt andet end god journalistik. Hvis man vælger at skrive nyheder hvori statistik spiller en væsentlig rolle, er det sørgeligt at se, at man ikke engang gider tage det seriøst, men bare selektivt bygger narrativer op omkring de dele af virkeligheden, der udgør en spændende historie. Det er ikke journalistik, men skønlitteratur.

Bedre bliver det ikke i artiklen hos Berlingske, da de spørger Casper Jensen, chef for Megafons kvantitative afdeling, om Megafons holdning til tolkningen af meningsmålingen: “Vi står inde for, at vi har målt DF som det største parti, og vi står inde for, vi mener, at DF nu er det største parti med 0,3 procentpoint, men der er noget usikkerhed forbundet med det”. Det gør det selvfølgelig ikke rigtigt, bare fordi man står inde for det. Det viser bare, at man ikke har forstået noget helt grundlæggende om, hvornår man kan sige – med udgangspunkt i en meningsmåling – at et bestemt parti er størst.

Konklusion: Det er ikke muligt at foretage en sondring mellem journalistik og talgymnastik (“statistik”). Det er muligt at det øger kompleksiteten, at man skal formidle statistisk usikkerhed og lignende tal, men det øger også sandhedsværdien. Den journalistiske kerneopgave er i den forbindelse at reducere kompleksiteten gennem god formidling snarere end gennem selektiv formidling, hvor det sidste desværre var tilfældet med den seneste Megafon-måling, der førte til en decideret forkert tolkning og formidling i noget nær den samlede danske presse.

Samfundstjeneste er måske bedre end fængsel #2

I juni havde jeg en kommentar i Politiken, hvor jeg kritisererede en rapport fra Justitsministeriets Forskningskontor, der konkluderede, at “risikoen for at begå ny kriminalitet falder med 15%, hvis man får en dom til samfundstjeneste i stedet for ubetinget frihedsstraf.” Hvad der desværre gik min opmærksomhed forbi var, at forfatterne af rapporten, Christian Klement og Anne-Julie Boesen Pedersen, senere samme måned svarede på min kritik.

I svaret, der er publiceret i Politiken søndag den 22. juni, skriver forfatterne af rapporten: “I Politiken 8.6. har ph.d.-studerende Erik G. Larsen (EGL) et kritisk indlæg om den undersøgelse af effekten af samfundstjeneste i forhold til ubetinget dom, som vi har gennemført. EGL påpeger, at sammenligningsgrundlaget mellem de kriminelle, der har fået betinget dom (med vilkår om samfundstjeneste), og de kriminelle, der har fået en ubetinget dom, er tvivlsomt. Det skyldes ifølge EGL, at der i undersøgelsen ikke er taget hensyn til arten af den kriminalitet, de to grupper har begået. Grunden til, at kriminalitetens art ikke indgår i de endelige modeller, der er vist i rapporten, er, at længden af den udmålte straf er inkluderet, og at denne variabel overlapper betydeligt med kriminalitetens art og dermed erstatter denne. Og det vil det forstyrre analysens resultater, hvis meget overlappende variabler indgår samtidigt (multikollinearitet). Det er undersøgt, om rapportens konklusioner ændres, hvis typen af kriminalitet indgår i stedet for længden af den udmålte straf, men det viser sig ikke at være tilfældet.”

Forfatterne har ret i, at jeg mener sammenligningsgrundlaget er tvivlsomt i forhold til den specifikke problemstilling. Min kritik kan dog ikke reduceres til den kendsgerning, at nogle statistiske modeller ikke inkluderer en variabel omhandlende kriminalitetens art. Det er med andre ord ikke et spørgsmål om, at der ikke er taget hensyn til bestemte kontrolvariable. Jeg mener stadig ikke, uafhængigt af hvor mange teoretisk motiverede kontrolvariable man kan inkludere i en model, at der er tale om en decideret effektevaluering. Det korte af det lange: Man kan ikke kontrollere sig frem til et estimat, der på en meningsfuld måde kan tolkes som en kausaleffekt af et bestemt tiltag.

Jeg blev gjort opmærksom på indlægget af en dygtig journalist fra Jyllands-Posten, der tog fat i problemstillingen. Jeg forklarede, at de forskelle der er på tværs af grupperne, som er systematisk relateret til tilbøjeligheden til at begå kriminalitet, indikerer, at vi ikke har at gøre med sammenlignelige grupper, når vi skal vurdere, om samfundstjenesten virker. Jeg henviste desuden til Jens Olav Dahlgaards indlæg på TV2 Politik, der blandt andet har samme pointe. I Jyllands-Posten den 1. december kan man så læse artiklen Ministerium anklages for at blande »æbler og pærer«. Artiklen er saglig og får formidlet kritikken af undersøgelsen såvel som et forsvar for den.

Britta Kyvsgaard, chef for Justitsministeriets Forskningskontor, siger, at der er ryddet så mange fejlkilder af vejen som muligt og at det er solidt arbejde. Jeg er ikke nødvendigvis enig i, at analyserne og tolkningerne er udført bedst muligt (se blandt andet Jens Olavs indlæg ovenfor og min uddybning nedenfor), men det er vigtigt at holde fast i, at fordi man har gjort det så godt man kunne, er det ikke det samme som, at man har et præcist effektestimat, der siger noget meningsfuldt om, hvilken effekt samfundstjenesten har. Flemming Balvig, professor i retssociologi og kriminologi ved Det Juridiske Fakultet, Københavns Universitet, siger i forlængelse heraf, at noget tyder på, at samfundstjenesten har en positiv effekt og at det er bedre end et gæt. Jeg er, som også vil blive beskrevet nedenfor, ikke enig i dette.

Det vigtige er dog først og fremmest at få fremhævet, at der ikke bare er tale om en teknisk detalje, der gør det svært at sige, om effekten er et procentpoint eller to fra den påståede. Der er tale om et grundlæggende problem med denne slags observationsdata, hvor vi antager, at ved at kontrollere for forskelle på et hav af tænkelige kontrolvariable, vil grupperne være sammenlignelige, og kontrafaktisk kunne vi – i dette tilfælde – have fået mindre kriminalitet, hvis blot dem der fik ubetinget fængselsstraf, var blevet idømt samfundstjeneste i stedet for ubetinget fængsel. Det kan vi dog ikke være sikre på (igen, læs også Jens Olavs indlæg for en udførlig beskrivelse af den grundlæggende problematik).

Når det så er sagt, undrer det mig, at man i rapporten taler om netop eksperiment- og kontrolgrupper, som om man har at gøre med et (naturligt) eksperiment. Ved nærmere eftertanke er det nok især brugen af den eksperimentelle metodes terminologi, der gjorde, at jeg i første instans valgte at skrive et indlæg til Politiken. Såfremt tilfældet havde været, at der ingen (eller begrænsede) systematiske forskelle havde været på tværs af de to grupper på et hav af observerede karakteristika, ville jeg være mere tilbøjelig til at tro, at der heller ikke ville være forskelle på andre relevante men uobserverede variable. Her kan det være interessant at spørge forfatterne, om de har forsøgt sig med matching, og hvilke implikationer det har for resultaterne. Det ville ikke løse grundlæggende problemer med designet, men eventuelle større afvigelser fra de påståede effekter, vil kunne indikere væsentlige problemer. Det er desuden vigtigt at pointere, at fordi der kontrolleres for et hav af forhold i modellerne, kontrolleres der ikke for relationerne mellem variablene, der kan have betydning for systematiske forskelle på tværs af de to grupper. Hvis eksempelvis betydningen af typen af kriminalitet er betinget af uddannelsesforhold, der også varierer systematisk på tværs af de grupper, når man bliver idømt samfundstjeneste, kan det diskuteres, om det er tilstrækkeligt bare at kontrollere for de to variable. Det korte af det lange: Verden er så fandens kompleks.

Forfatterne afslutter indlægget i Politiken med: “Konklusionen, at samfundstjeneste sammenlignet med fængsel fører til mindre tilbagefald til ny kriminalitet, står derfor fast og er tilmed baseret på et ganske solidt fundament.” Ligeledes skriver Mette Frederiksen i en kommentar i Politiken den 24. november, at: “Derfor er det med sagkundskaben i ryggen, at regeringen netop har fremsat et nyt lovforslag om øget brug af samfundstjeneste som et alternativ til fængselsstraf.”. Til trods for at jeg værdsætter forfatternes arbejde med rapporten, savner jeg – i mangel på bedre ord – en metodisk ydmyghed.

Det vigtige ord i titlen på mit første indlæg var “måske”. Jeg afviser ikke at samfundstjenesten kan have så store effekter som forfatterne påstår, men vi kan ikke vide det. Der er dog intet ved undersøgelsen der slår fast, at samfundstjenesten ikke kan have ingen nævneværdige effekter eller sågar – gennemsnitligt set – negative effekter. Der er som sådan intet i vejen med at undersøge systematiske forskelle på tværs af forskellige grupper, men i stedet for at slutte her og konkludere, at samfundstjenesten har en dokumenteret positiv effekt (hvilket jeg igen ikke mener der er belæg for), burde sådanne analyser facilitere en kritisk diskussion af, hvad der kan gøres videre for at blive klogere på, om samfundstjenesten generelt set virker, og måske ligefrem for hvilke typer af personer, samfundstjenesten virker bedst for i stedet for ubetinget fængsel.