Påvirker boganmeldelser salget af bøger?

I en artikel i Weekendavisen den 2. december (i 2016) argumenterer forfatter og data scientist Lasse Hjorth Madsen for, at boganmeldelser ikke har nogen effekt på en bogs økonomiske succes. Og i det omfang der er tale en effekt, har vi at gøre med en negativ effekt. Mere konkret skrives der:

De flotte og håndgribelige roser giver både omtale og mersalg. Formentlig gavner de gode karakterer også biblioteksudlånene, hvilket igen får bibliotekerne til at anskaffe mange eksemplarer af de efterspurgte bøger, hvilket igen udløser bibliotekspenge. Kort sagt: Der er penge i hjerterne. Problemet er bare, at det er forkert.
Undersøger man systematisk sammenhængen mellem den modtagelse, en bog får af anmelderne, og den læserinteresse, der kan spores i form af biblioteksudlån, opdager man, at den ikke blot er svag, den har det forkerte fortegn: Ganske vist gavner det ikke udlånet med en decideret afklapsning i form af et enkelt hjerte eller stjerne, men bøger med småringe anmeldelser klarer sig gennemsnitligt en anelse bedre på bibliotekerne end bøger med fremragende anmeldelser.

Dette vil nok undre de fleste, inklusiv undertegnede, hvorfor jeg læste videre. Kan det virkelig passe, at småringe anmeldelser til en bog hænger sammen med at klare sig en anelse bedre på bibliotekerne? Det viser sig heldigvis, at der ligger hårde tal bag, for som der skrives om metoden:

Det lyder som en uhyrlig påstand, men der ligger hårde tal bag: Bogsitet bog.nu har været så venlige at stille deres database med anmeldelser til rådighed. Den indeholder 31.616 anmeldelser fra perioden 2010-2016. Dansk Bibliotekscenter offentliggør på deres hjemmeside data, som blandt andet omfatter en liste med 44,7 millioner udlån af i alt 387.000 bogtitler fra danske biblioteker. Vrider man armen om på disse to datakilder og sender dem i tvangsægteskab med hinanden, ender man med 6.436 bogtitler, for hvilke der både foreligger tal for det samlede udlån og for det gennemsnitlige antal hjerter eller stjerner, som de er blevet tildelt i anmeldelserne.

Så langt, så godt. Den substantielle tolkning af resultaterne er som følger: “Bøger, der har høstet mellem tre og fire hjerter eller stjerner, blev i perioden udlånt i gennemsnit 1146 gange. For bøger med mindst fem hjerter eller stjerner var tallet 886.” Teksten bliver ledsaget af denne figur:

Figuren viser ikke noget interessant i forhold til et generelt mønster, der omtales i artiklen, men viser blot titlerne på nogle af de bøger, der har klaret sig hhv. godt og dårligt blandt anmelderne og på bibliotekerne. Der er således også gode grunde til at være kritisk i forhold til artiklens pointer, hvorfor den heller ikke bliver mødt uden kritik. Ugen efter (9. december) har økonomistuderende Mads Schnoor Nielsen således et læserbrev i Weekendavisen, hvor han bringer følgende kritik:

Hvis man skal analysere effekten af anmeldelser, bliver man nødt til at gruppere bøger, som ville have det samme forventede oplag og læserskare og derfra analysere, hvorvidt en god eller en dårlig anmeldelse signifikant kan påvirke salgstallet.

Den 23. december svarer Lasse Hjorth Madsen på kritikken i et læserbrev (også i Weekendavisen), hvor han pointerer, at kritikken ikke har noget på sig:

Mads Schnoor Nielsen anbefaler at inddrage oplysninger om bøgernes »forventede oplag og læserskare« i analysen. Det er heldigvis også netop det, jeg gør. Eller mere præcist: Jeg gør det bedste, data giver mulighed for, nemlig ser på, om den manglende sammenhæng mellem anmelderroser og læserinteresser gælder på tværs af genrer. Blandt andet fordi visse genrer (krimier) typisk oplever en større læserinteresse end andre genrer (digte og noveller). Det er den delanalyse, der sætter mig i stand til at konkludere, at netop for digte og noveller lader positive anmeldelser til at gavne læserinteressen. Det står alt sammen i artiklen.

Og læserbrevet konkluderes med ordene:

Jeg tror, det vil glæde Mads Schnoor Nielsen og andre analytisk indstillede læsere at vide, at en række regressionsmodeller og test for statistisk signifikans har været under anvendelse, før jeg konkluderede, som jeg gjorde. Den er god nok: Flot anmeldte bøger får, alt andet lige og i gennemsnit, ikke større interesse fra læserne end middelmådigt anmeldte bøger.

Jeg er ikke tilfreds. Der er gode grunde til, at de anvendte data ikke kan bruges til at konkludere, at boganmeldelser ikke har nogen effekt på salget af bøger (eller udlån af samme). Problemet med de pågældende data kan koges ned til, at de ikke udgør et tilfældigt valg af bogtitler, men tværtimod et valg af bøger, der ikke giver gode betingelser for at undersøge hypotesen om, at bedre anmeldelser giver flere udlån.

Bøgerne i analysen har det tilfælles, at de har haft et minimum af succes (udlån m.v.). Bemærk at der er 387.000 bogtitler fra danske biblioteker i det datasæt, der anvendes, men kun godt 1 procent af disse bøger kan inkluderes i analysen. Denne lille andel (6.436 bogtitler) er på ingen måde repræsentativ for andre bøger, men netop de bøger, der enten har fået gode anmeldelser eller er blevet udlånt af andre grunde (eksempelvis på grund af en mainstream/kendt forfatter).

Teknisk set har vi at gøre med Berksons paradoks, hvor vi betinger på en endogen variabel i vores ikke-tilfældige selektion af observationer. Har dette implikationer for resultaterne, hvor der i nærværende tilfælde om noget er en negativ korrelation mellem gode anmeldelser og hvor mange gange en bog bliver udlånt? Det er meget sandsynligt.

Stephen L. Morgan og Christopher Winship giver et godt eksempel på problemet i Counterfactuals and Causal Inference, hvor de kigger på et hypotetisk college, hvor man enten kan blive optaget ved at være motiveret til en samtale eller dygtig i en test. I eksemplet er der ingen korrelation mellem hvor motiveret man er og ens testscore. Her kommer det interessante: Hvis vi kun kigger på de personer, der er blevet optaget, vil vi se, at der er en negativ korrelation mellem at være motiveret og dygtig (altså cirklerne i nedenstående figur):

Den negative korrelation opstår fordi vi ikke tager højde for, at det netop er enten det at være motiveret eller det at få en høj testscore, der gør, at man bliver optaget. Derfor vil dem der er mere motiveret – gennemsnitligt set – score mindre på testen og vice versa.

I vores eksempel med bøgerne er det netop kun de bøger, der har fået omtale og er blevet udlånt, der er en del af datamaterialet. De bøger, der ikke har fået lige så gode anmeldelser som andre bøger, kan være de bøger, der ville blive udlånt uafhængigt af, om de fik gode anmeldelser eller ej.

Dette problem med datasættet – altså et problem i forhold til, hvad man gerne vil bruge det til – er så presserende, at det ikke lader sig løse med statistiske værktøjer (eksempelvis en række regressionsmodeller og test for statistisk signifikans). Derfor kan den slags analyser på det pågældende datamateriale ikke glæde mig.

Dermed er min pointe ikke, at positive anmeldelser har en positiv effekt på en bogs succes, men det kan ikke udelukkes, og på ingen måde modbevises med udgangspunkt i et datasæt med de 6.436 bogtitler, der er blevet undersøgt i omtalte artikel i Weekendavisen.

Tilføjet (2. februar 2017):

Har haft en konstruktiv mailudveksling med Lasse Hjorth Madsen, der havde følgende kommentarer:

De 6.436 titler udgør i princippet hele populationen af bøger, der er blevet anmeldt i landedækkende, trykte medier i perioden og har kunnet lånes på danske biblioteker.

Hvis man vil undersøge sammenhængen mellem antal stjerner eller hjerter og antallet af udlån, giver det jo ikke mening, at inkludere bøger som ikke er blevet anmeldt, eller som ikke har være til rådighed på bibliotekerne. (Der kan godt gå lidt tid, før bøgerne er indkøbt og klar til udlån.)

Det er altså kun et meget lille mindretal af de nævnte ca. 387.000 bibliotekstitler, der blevet anmeldt i aviserne og som derfor indgår i populationen. Tallet er ikke specielt relevant for analysen, og jeg nævner det blot, for at illustrere volumen af udlånsdatasættet fra DBC.

Du har ret i, at figuren kun viser en lille del af datasættet. Jeg ville ønske, at det fremgik lidt klarere.

Formålet med figuren er primært at give en læselig smagsprøve med nogle markante værker. Figuren siger således blot, at den lille delmængde af populationen bestående af de 100 mest populære titler, heller ikke udviser en korrelation mellem antal stjerne/hjerter og antal udlån.

Analysen kan selvfølgelig, som alle andre analyser, kritiseres. Hvis man specifikt vil forfølge problemstillingen omkring systematisk selektion, kunne man fx se på, om datasættet med anmeldelser fra bog.nu er komplet. De har en ambition om at registrere alle anmeldelser, men overser sikkert én i ny og næ. Det er dog svært at forestille sig, at der ligger den helt store selektionsbias her.

Potentielt mere alvorlige er de tekniske problemer, der opstår, når udlånsdatasættet flettes sammen med anmeldelsesdatasættet. Ingen af de to rummer desværre ISBN, så jeg måtte bruge en renset udgave af titel og forfatternavn til at matche de to. Det kan fejle, fx hvis en titel eller et forfatternavn har flere varianter. Men igen: Det er svært at forestille sig, at frafald af denne type er særlig systematisk.

Der er altså, i hvert fald principielt, tale om et datasæt der rummer hele populationen og altså ikke fejler på samme måde, som dit eksempel med collage studerende.

Det er med disse data svært at komme uden om, at ringe anmeldte bøger bliver udlånt mindst lige så meget, som godt anmeldte bøger. Men det er nu heller ikke så besynderligt, når man ser på de konkrete titler: De professionelle litterater lader til at have en noget anden smag end det brede publikum. Tænk prisvindende litteratur kontra krimiserier.