Logikkinnføring #5: «Falsk positiv»-paradokset

En taxi er involvert i en «hit-and-run»-ulykke på nattestid. I byen er det to drosjeselskaper, Grønn Taxi og Blå Taxi. Det er totalt 85% grønne taxier i byen, og de resterende 15% er blå. Et vitne hevder at taxien var blå. Når vitnet blir testet under omstendigheter som ligner ulykkesnatten, klarer han å identifisere riktig farge 80% av gangene, mens han tar feil 20% av gangene.

Hva tror du sannsynligheten er for at ulykkestaxien var blå?

Dette er en tenkeoppgave fra et berømt studie av Tversky og Kahnemann (1982). Da forfatterne gav oppgaven i et eksperiment svarte de fleste rundt 80%. Resonnementet virker enkelt: Hvis vitnet tar rett rundt 80% av gangene, så er sannsynligheten for at taxien var blå også rundt 80%. Dette er imidlertid feil. Svaret er basert på den såkalte grunnfrekvens-feilslutningen (engelsk: «base rate fallacy»).

For å komme frem til det riktige svaret må vi også ta i betraktning at det er langt flere grønne taxier (85%) enn blå (15%). I utgangspunktet, før du får informasjon fra vitnet, er det bare 15% sannsynlig at taxien var blå. Sannsynligheten for at taxien var blå, gitt vitnets pålitelighet, er faktisk bare 41%. Med andre ord er det fortsatt mer sannsynlig at taxien var grønn! (59%) 

Eksempelet er litt kunstig, men feilslutningen som Tversky og Kahnemann identifiserte er utslagsgivende i mange andre situasjoner. Én situasjon hvor vi ofte begår grunnfrekvens-feilslutningen er når vi skal vurdere resultater fra tester.

For en tid tilbake advarte Professor Pål Gulbrandsen (UiO) i Aftenposten om utfordringene med testing av koronaviruset: «Det er noe som er viktig å forstå: Ingen test gir alltid riktig svar.» 

Gulbrandsen definerer to egenskaper ved en test som du nå kanskje har hørt om: sensitivitet og spesifisitet. «Hvor god en test er til å finne syke, hvis de er syke, kalles sensitivitet. Hvor god en test er til å frikjenne sykdom hos de som faktisk er friske, kalles spesifisitet.»

Sensitiviteten og spesifisiteten er viktige egenskaper fordi de også forteller oss risikoen for at en test gir et falskt negativt svar (dvs personen er infisert, men testen sier frisk) og risikoen for at testen gir et falskt positivt svar (dvs personen er frisk, men testen sier infisert). 

Med forbehold om at sensitiviteten og spesifisiteten til testen er vanskelig å fastslå, beskriver Gulbrandsen situasjonen slik:

«Med utgangspunkt i tall fra VG formiddagen 18. mars, der 21647 er testet og 1478 bekreftet smittet, har jeg med antatt 90 prosent sensitivitet beregnet at 170 smittede har testet negativt.»

Han fortsetter:

«Det betyr falsk trygghet som kan påvirke atferd. Spesifisiteten er antakelig ekstremt høy, og det betyr at få vil være falsk positive, men det kan forekomme ved testing av store deler av befolkningen.»

Gulbrandsens poeng er at falske negative og falske positive testsvar er utfordrende når man skal bruke testresultatene. Ikke minst er det sant fordi vi i slike situasjoner er tilbøyelige til å begå grunnfrekvens-feilslutningen.

Vi har ikke grunnlag for å si noe om sensitiviteten og spesifisiteten til koronatesten, og heller ikke om spredningen i befolkningen, så i stedet skal vi se på et helt hypotetisk eksempel for å illustrere den sannsynlighetsteoretiske problemstillingen mer generelt.

Tenk deg følgende situasjon: 

En venn av deg er bekymret for en ny føflekk. Han går til legen for å få den undersøkt. Legen vil teste ham for hudkreft, og hun forteller: (a) at når en pasient faktisk har kreft, gir testen positivt svar i 90% av tilfellene [sensitiviteten]; (b) at når en pasient ikke har kreft, gir testen likevel positivt svar i 20% av tilfellene [spesifisiteten er 80%]; og (c) at pasienter med slike føflekker bare har kreft i 1% av tilfellene. Vennen din testes, og testen er positiv. Han er naturligvis oppbrakt og vil vite hva sannsynligheten er for at han har kreft. Kan du hjelpe? (Eksempelet er hentet fra Manktelow (2012, s. 14-5).)

Akkurat som i taxi-eksempelet er det fristende å konkludere med at vennen din mest sannsynlig har kreft fordi sensitiviteten er 90%. Men han har grunn til å være langt mer optimistisk. For å beregne sannsynligheten må vi nemlig passe på at vi tar utgangspunkt i grunnfrekvensen, dvs sannsynligheten for hudkreft før testen. Og den er svært lav (1%). 

La oss først tenke litt annerledes på eksempelet. Se for deg at 1 000 pasienter besøker legen med en ny føflekk av samme typen. Bare 10 av dem har faktisk hudkreft (1%, som i det opprinnelige eksempelet). Testen gir positivt resultat for 9 av de 10 som er positive (90% sensitivitet). Av de 990 som ikke har kreft vil testen feilaktig gi 198 positive svar (80% spesifisitet). Testen har altså totalt gitt 207 positive svar (9 + 198), men bare 9 av dem er faktisk positive. 9 av 207 er 0.043. 

Vi får samme svaret hvis vi regner på sannsynlighetene i det opprinnelige eksempelet:

Sannsynlighet for at en pasient har hudkreft: P( kreft ) = .01

Sannsynligheten for positiv test gitt hudkreft: P( positiv | kreft ) = .9 [sensitivitet]

Sannnsynlighet for positiv test gitt ingen hudkreft: P( positiv | ikke kreft ) = .2

P( kreft | positiv ) = \frac{.9 \times .01}{(.9 \times .01) + (.2 \times .99)}

Det er altså bare 4,3% sannsynlig at en pasient som har testet positivt faktisk har kreft. Dette til tross for at testens sensitivitet er 90%. Med andre ord er det – selv etter den positive testen – langt mer sannsynlig at han ikke har kreft.

Siden dette resultatet ofte oppleves svært overraskende har slike eksempler fått navnet «falsk positiv»-paradokset. I eksempelet er det langt mer sannsynlig at en positiv test er falsk enn at den er sann. Dette skyldes at grunnfrekvensen for sykdommen i befolkningen er svært lav i utgangspunktet, og at testens spesifisitet bare er 80% (og dermed falsk positiv raten 20%). 

Hva skjer hvis vi setter grunnfrekvensen til 10% og spesifisiteten til 99%? Da er sannsynligheten for at en pasient som tester positiv faktisk har kreft 91%. Hva vi kan slutte fra testen avhenger altså i betydelig grad av spesifisiteten og grunnfrekvensen – ikke bare sensitiviteten.

Mer generelt, skal vi konkludere noe fra et testresultat trenger vi bakgrunnsinformasjon, og den kan det være mye usikkerhet knyttet til.

Foto: Brandon Lim Lik Wei (CC BY 2.0)

Publisert: 09:19 05.04.2020 - Sist oppdatert: 20:09 05.04.2020