Vanens magt: en gennemgang af DRs forsøg med nudging på Københavns Hovedbanegård

På DR1 kunne man onsdag aften se første afsnit af et nyt program med titlen Vanens magt. Programmet beskrives med følgende ord på DRs hjemmeside: “Anne Glad undersøger i en ny DR1-serie fra onsdag klokken 20.30, om en helt ny videnskabelig metode kan ændre vores adfærd, uden at vi opdager det, og uden at det koster os noget. Med en af Danmarks førende nudgingeksperter; Sille Krukow sætter Anne gang i 3 nudgingeksperimenter på Danmarks største samlingsplads for togrejsende, Hovedbanegården i København. Nudging skal spare os penge, gøre os sundere og skåne miljøet – alt sammen uden tvang og ekstra indsats fra danskerne”. Når man læser en sådan programbeskrivelse, bør alarmklokkerne så småt begynde at ringe. Intet i den beskrivelse lægger op til en nuanceret introduktion til kompliceret stof. Tværtimod.

Nudging som begreb blev for alvor populært i årene efter udgivelsen af bogen “Nudge: Improving Decisions About Health, Wealth, and Happiness”, skrevet af Richard Thaler og Cass R. Sunstein. Bogen har den pointe, at vi kan opnå politiske målsætninger uden forbud og andre restriktioner på vores adfærd. I stedet for at hæve afgifterne på slik, kan man eksempelvis indrette kantiner og supermarkeder således, at folk køber flere sunde produkter. Win-win-win-win. Kort fortalt er der dog ikke tale om en ny videnskab, men blot et øget psykologisk fokus på, hvordan mennesker afviger fra rationelle adfærdsantagelser, når de træffer beslutninger. Denne disciplin betegnes ofte som adfærdsøkonomi (behavioral economics) og har tråde tilbage til i hvert fald Amos Tversky og Daniel Kahnemans arbejde fra 70erne. Det er altså misvisende når programbeskrivelsen såvel som udsendelsen taler om en “helt ny videnskabelig metode”. Desuden er der ikke tale om en metode, men snarere nogle teoretiske antagelser om, hvordan mennesker reagerer på en bestemt type af ændringer i deres omgivelser (der i overvejende grad underbygges empirisk af studier der metodisk bygger på eksperimentelle designs).

Dette er dog ikke så vigtigt. Der er tale om en programserie og ikke et videnskabeligt stykke arbejde – og noget må selvfølgelig blive lost in translation, når gennemsnitsdanskeren skal have underholdning til aftenkaffen. Vi kan dog forholde os kritisk til programmet på dets egne præmisser, og altså vurdere programmet med udgangspunkt i de principper de selv opstiller og de konklusioner, de selv drager. Når de taler om eksperimentel metode, dataindsamling, statistiske forskelle m.v., må vi se nærmere på, hvor godt et arbejde de udfører, og som flere hundrede tusinde danskere nok har set. Hvem er det så, der skal belære os om nudging? Det er Sille Krukow og Anne Glad. Sille Krukow er tilsyneladende en af Danmarks førerende nudgingeksperter. Hun har ikke så meget som én videnskabelig publikation, så det står mig uklart, hvordan man er kommet frem til, at hun er blandt de førende (eller måske er andelen af folk der beskæftiger sig med nudging i Danmark så lille, at så snart man beskæftiger sig med nudging [og ikke er specialestuderende på RUC], er man blandt de førende?). Anne Glad arbejder på et reklamebureau og laver fjernsyn.

I det første program, som jeg vil fokusere på i dette indlæg, er vi på Københavns Hovedbanegård. Københavns Hovedbanegård har (åbenbart) tre konkrete udfordringer. Den ene udfordring omhandler cigaretskod ved indgangen til Københavns Hovedbanegården. De to andre udfordringer indeholder urin, hhv. urin udendørs og i elevatorerne, men begge handler kort fortalt om, at folk urinerer, hvor de ikke skal. Programmet er så bygget op omkring, at Sille Krukow skal være kreativ og foreslå nudges, der kan løse problemerne. I den resterende del af dette indlæg ser jeg nærmere på hver af de tre udfordringer.

Den første udfordring: Cigaretskod. Ude foran hovedbanegården bliver der smidt mange cigaretskod. Sille får den idé at sætte askebægre op og afgrænse et område, hvor man kan ryge. Hvis man ser bort fra det faktum, at det ikke er Silles idé, har jeg personligt svært ved at se det overraskende i, at folk anvender den slags, når de er der. I programmet teoretiseres, at ved at gøre det nemt, altså “make it easy” (alting lyder mere friskt, når man bruger engelske termer), som med eksempelvis synlige skraldespande, kan man påvirke folks adfærd. Wow. Det er muligt at folk vil kalde dette for et nudge, men for mig at se kan det – i dette tilfælde vel at mærke – lige så godt ses som en omkostningsreduktion, som folk reagerer på.

Det væsentligste problem for “eksperimentet” er dog kontrol- og treatmentgruppen. Der er ikke tale om et traditionelt eksperiment med en egentlig randomisering, men en før og efter måling. Vi observerer med andre ord adfærd på Københavns Hovedbanegård, lader disse observationer udgøre kontrolgruppen, laver en ændring i omgivelserne, observerer igen og kalder disse observationer for treatmentgruppen. Det åbenlyse problem er her, at vi ikke kan være sikre på, at forskelle mellem disse to grupper nødvendigvis skyldes interventionen. Antallet af gæster på banegården (som den afhængige variabel i dette såvel som de andre tilfælde alt andet lige må være en funktion af) kan variere fra uge til uge i forbindelse med bestemte arrangementer med videre, og den slags tager man ikke højde for, når man ikke randomiserer udsættelsen for nudges.

Det der især forekommer problematisk er, at den afhængige variabel er antallet af cigaretskod, men perioden varierer for henholdsvis kontrolgruppen og treatmentgruppen. Kontrolgruppen er angiveligt to uger, og treatmentgruppen er en uge, eller som speakeren siger i programmet: “I ugerne før Silles løsning sættes op, samles og tælles samtlige skod på hele pladsen. Og når nudge-løsningen er sat op, skal der igen indsamles data og tælles skod i mindst en uge”. Dette virker amatøragtigt. Senere indikerer Sille dog så, at der er tale om en uge før og en uge efter, men får ikke formidlet de præcise tal eller de nærmere omstændigheder for, hvor ofte cigaretskod er blevet indsamlet i perioden med videre. Det er selvfølgelig yderst begrænset, hvor meget man kan formidle af den slags, men jeg vil gerne høre mere om, hvilke forskelle der egentlig er på tværs af grupperne. I hvert fald mere end bare tallet for, hvor mange cigaretskod der er endt i deres skraldespand (er der eventuelt flere cigaretskod i treatmentgruppen samlet set, som et resultat af, at man signalerer, at der er et rygeområde?).

Senere i programmet siger speakeren: “Et nudging-eksperiment kræver normalt flere måneders observation og målinger, så det er spændende at se om Silles tre løsninger kan skabe forandringer allerede efter en uge.”. WHAT!? Hvorfor? Det er ingen tommelfingerregel, at der skal observeres i flere måneder. Der fortælles ikke med ét ord, hvorfor effekterne af en skraldespand eventuelt først skulle begynde at virke efter flere måneder. Det er ikke utænkeligt, men man kan sågar forvente, at effekter af ændringer kan være størst i begyndelsen af dataindsamlingsperioden.

Den anden udfordring som nudge-teamet ser på, er urin i elevatoren. Dette er underholdende TV alene af den grund, at de finder ud af, at der ikke er et problem i første instans. Der er ganske enkelt ikke nok der har pisset i elevatoren til, at der kan laves analyser på materialet. Et af de første klip i udsendelsen viser ellers ved et tilfælde, at der er pisset i elevatoren. Anne Glad når at udtrykke at “det er spændende” at se, om der er tis i elevatoren. Når de åbner en tilfældig elevatordør for at tjekke, står der selvfølgelig allerede en kameramand inde i elevatoren og optager åbningen af elevatoren og mængden af urin. Det viser meget godt, hvordan den slags TV laves. (Er der nogen garanti for, at det ikke er kameramanden, der selv har skabt de gode billeder?)

Sille foreslår følgende løsning (før de ved, at der ikke er et problem): Et billede af en mand og et barn i elevatoren, så man føler sig overvåget. Ideen er, at når øjne stirrer på én, vil man føle sig overvåget og derfor ikke begive sig ud i en adfærd, man ved er forkert. Jeg har det svært med den slags studier, især fordi der er eksempler på, at stirrende øjne ikke altid vil føre til mere pro-social adfærd i realistiske omgivelser. I denne forbindelse kan man især også diskutere, såfremt der havde været et problem, om en sådan løsning ville fungere på længere sigt. Nuvel, første gang man ser øjnene, vil man måske reagere, men vil man reagere lige så kraftigt anden, tredje og fjerde gang? (De vælger desuden en mand, da vi angiveligt reagerer kraftigere på mandlige øjne frem for kvindelige øjne. En der har en reference til dette studie?)

Jeg anser det som gode nyheder (i hvert fald for DSB), at der ikke var noget problem. Jeg kan dog undre mig over valget af estimationsmetode her, altså en simpel før og efter-måling. Er der ikke flere elevatorer på banegården? I så fald kunne man randomisere elevatorerne, lave før og efter-målinger og have et difference-in-difference design, som vil stå meget stærkere.

Den tredje udfordring: Urin udendørs. Den tredje udfordring er, at folk urinerer udendørs og mere præcist i et par hjørner. Her foreslår Sille to løsninger. Alene det at gennemføre to interventioner på én gang, kan være problematisk. Dette fordi vi ikke kan estimere, hvilken effekt de respektive interventioner har, men kun summen af dem. Hvis den ene intervention har en positiv effekt og den anden intervention har en negativ effekt, og effekterne gennemsnitligt set er lige stærke, kan vi sågar ende med at konkludere, at ingen af de to interventioner virkede. Ligeledes kan det tænkes, at to interventioner har ikke-additive effekter, hvorved effekten af den ene intervention vil være betinget af tilstedeværelsen af den anden intervention.

Den første intervention Sille foreslår er strategisk placerede anvisninger til, hvor toiletterne er. Dette vises med klistermærker på jorden, der fortæller tissetrængende personer, hvor nærmeste toilet er. Den anden intervention er ”materiel understøttelse” (og her må jeg nævne, at jeg grinede!). Materiel understøttelse er mit nye yndlingsnudge (næst efter frugt i både). Hvad er dette nudge? Hold fast: Et pissoir. Jeg lyver ikke. Se det selv.

Hvad viser resultaterne her? Ingen samlet effekt. Der blev målt henholdsvis 500 personer både før og efter interventionen, der urinerede udendørs. Hvordan tolkes dette? Som en succes. Det tolkes som en succes fordi mange mænd har brugt pissoiret. Det nævnes ikke med ét ord, at de strategisk placerede anvisninger ikke havde nogen effekt. Faktisk nævnes de strategisk placerede anvisninger ikke med ét ord i evalueringen af eksperimentet. Det forekommer så manipulerende, at det er den eneste indikation på, at der har været en nudging-ekspert inde over udsendelsen. Det korte af det lange er, at der ikke er sket en forandring her. Betyder det, at de strategisk placerede anvisninger ikke har en effekt? Pas. Man kunne eventuelt begynde med at fjerne alle materielle understøttelser, der legitimerer den adfærd, man ønsker at reducere – og gentage eksperimentet. (Personligt tror jeg, at den intervention der i dette tilfælde ville virke bedst, var en pil der pegede op. Eftersom der var et synligt kamera øverst oppe på bygningen, ville det nok få et par mænd til at genoverveje, om de ville urinere netop der.)

Hvad kan vi konkludere? Hvis du sætter et toilet eller et askebæger op, vil folk anvende dette. I programmet pointeres det, “hvor lidt der skal til, for at ændre rigtig meget”. Well, I var ikke i stand til at få folk til at urinere mindre, der hvor I gerne ville. Jeg har svært ved at se dokumentationen for, at små ændringer ændrede rigtig meget. Ikke at jeg betvivler, at små nudges kan have store effekter, men det burde man kunne formidle på en måde, hvor man beholder sin faglige stolthed.

Der er i programmet intet sjovt ved at frame resultaterne således, at folk angiveligt bruger toiletter og askebægre, når man sætter dem op, men ellers er der ingen synlige resultater af små nudges. Hele programmet beror selvfølgelig på, at de finder effekter (jvf. ovenstående programbeskrivelse og brugen af nudge-eksperter). Sille forsøger at bygge en karriere op på at kunne nudge (og det er alt andet lige sjovere, hvis nudging virker). Anne vil gerne lave godt TV, der alt andet lige er bedre og mere interessant, hvis det ikke bare er negative resultater (spørg selv de fleste tidsskriftsredaktører).

Det er fedt, at der sættes fokus på nudging i den bedste sendetid. Det er ikke fedt, at det gennemføres af folk uden styr på basal metode, som taler om “troværdig statistisk effekt”, “dataindsamling” m.v., uden at kunne gribe det hele systematisk an og behandle resultaterne med en vis faglig integritet (og hvad angår sidstnævnte, se desuden dette opslag).

Jeg glæder mig allerede til næste onsdag.