AI Hallucination

Sprogmodeller finder af og til på information der lyder troværdig, men er forkert. Her er hvorfor det sker, hvor udbredt problemet er, og hvordan du reducerer fejlraten i produktion.

Hvad er hallucination

En hallucination opstår når en sprogmodel producerer output der er plausibelt men faktuelt forkert. Modellen opfinder navne, datoer, citater, kildehenvisninger, lovparagraffer eller tekniske specifikationer, der lyder rigtige men ikke eksisterer. Fænomenet er ikke en fejl i traditionel software-forstand, men en direkte konsekvens af hvordan LLMs genererer tekst.

Termen stammer fra Googles 2018-forskning om neurale oversættelses-modeller, hvor forskere observerede output der var grammatisk korrekt men indholdsmæssigt opfundet. I dag dækker begrebet alt fra små fakta-fejl til fabrikerede juridiske afgørelser, som i 2023-sagen hvor amerikanske advokater indsendte retsdokumenter med seks opdigtede retssager genereret af ChatGPT.

Det vigtige at forstå: modellen ved ikke at den hallucinerer. Den genererer det mest sandsynlige næste token baseret på tidligere kontekst, og hvis den sandsynlige fortsættelse ikke svarer til virkeligheden, er der intet internt signal der stopper den.

Hvorfor sprogmodeller hallucinerer

1. Træningsmålet belønner flydende sprog

LLMs trænes til at forudsige næste token så godt som muligt. Træningen straffer ikke direkte faktuelle fejl, kun uventede tokens. En velformuleret løgn kan derfor have lavere loss end en tøvende, korrekt formulering. Modellen lærer at producere selvsikkert sprog, også når den ikke har information til at bakke påstandene op.

2. Statistisk sammenblanding

Modellen har set millioner af akademiske citater og lært deres generelle form (forfatter, årstal, titel, tidsskrift). Når den spørges om en specifik kilde, kan den generere et plausibelt citat der kombinerer elementer fra flere rigtige kilder. Resultatet ligner en ægte reference men eksisterer ikke.

3. Knowledge cutoff og forældet data

Alle LLMs har en træningscutoff-dato. GPT-5 er trænet på data frem til oktober 2024, Claude Sonnet 4.5 til juli 2025. Spørges modellen om nyere begivenheder, vil den enten nægte at svare eller i værste fald konstruere svar ud fra ældre kontekst og mønstre.

4. Modstridende eller sparsom træningsdata

For nichede emner, mindre sprog (som dansk på visse specialområder), eller kontroversielle emner, har modellen ofte begrænset eller modstridende træningsdata. I disse tilfælde interpolerer modellen mellem hvad den har set, hvilket øger risikoen for fejl.

Hvordan hallucination måles

Der findes flere standardiserede benchmarks til at måle hallucination-rater. TruthfulQA tester hvor ofte modeller gentager almindelige misforståelser, HaluBench måler fakta-troværdighed i kontekstuelt svar, og FACTS Grounding fra Google DeepMind tester hvor pålideligt modeller holder sig til kilder der gives som kontekst.

Model	HaluBench Precision	FACTS Grounding	TruthfulQA
GPT-5	94,2%	88,4%	73,1%
Claude Sonnet 4.5	93,1%	87,9%	71,8%
Gemini 2.5 Pro	91,8%	86,2%	69,4%
Llama 4 70B	87,3%	79,5%	63,2%

Selv frontier-modeller hallucinerer i 5-10% af tilfældene på realistiske opgaver. Jo mere specialiseret eller faktuelt krav, desto højere fejlrate. På medicinske og juridiske benchmarks er hallucinationsrater typisk 2-3 gange højere end på generelle benchmarks.

Teknikker til at reducere hallucinationer

Retrieval-Augmented Generation (RAG)

Den mest effektive teknik: giv modellen adgang til en autoritativ kildesamling (vektor-database med egne dokumenter, produktmanualer, juridiske tekster) og bed den svare udelukkende baseret på fremhentede kilder. Reducerer hallucination med 40-70% på factual QA.

Grounding-instruktioner i system prompt

Instruér eksplicit modellen i at svare "det ved jeg ikke" når informationen ikke er i konteksten, og at citere kilder for alle faktuelle påstande. Kombiner med temperature 0 for mere deterministisk output.

Chain of Verification

Få modellen til først at generere et svar, derefter liste kontrol-spørgsmål til hver faktuel påstand, besvare dem selvstændigt og til sidst revidere det oprindelige svar. Teknikken fanger ofte egne fejl.

Tool use og web-søgning

Lad modellen kalde web-søgning, database-opslag eller beregnings-værktøjer i stedet for at gætte. Moderne reasoning-modeller er trænet til at erkende hvornår de bør kalde værktøjer frem for at svare fra hukommelsen.

Menneskelig verifikation ved høj risiko

I juridiske, medicinske og finansielle workflows bør alle LLM-output valideres af en fagperson. Brug modellen til første udkast og informationssøgning, ikke til endelige beslutninger uden verifikation.

Faldgruber at være opmærksom på

Reasoning-modeller som GPT-5 og Claude Sonnet 4.5 er ikke immune mod hallucination, selvom de ofte kan finde egne fejl ved længere tænkning. En fælde er at længere chain of thought kan give højere selvtillid uden faktisk at øge korrektheden — modellen taler sig ind i at fejlen er rigtig.

En anden fælde er at grounding kun virker hvis konteksten er korrekt og relevant. Hvis din vektor-database returnerer irrelevante dokumenter, kan modellen hallucinere baseret på de forkerte kilder — hvilket føles endnu mere troværdigt fordi outputtet citerer noget. Regelmæssig evaluering af retrieval-kvaliteten er lige så vigtigt som at vælge en god sprogmodel.

Endelig: stil aldrig ledende spørgsmål. Spørgsmålet "fortæl mig om forskningen der viser at X" får ofte modellen til at opfinde forskning, selvom X er tvivlsomt eller forkert. Neutrale spørgsmål giver mere sandfærdige svar.