
Image by Jonathan Kemper, from Unsplash
At straffe AI for dårlig opførsel lærer den bare at bedrage
OpenAI-forskere har fundet ud af, at det at straffe AI for vildledende eller skadelige handlinger ikke eliminerer dårlig opførsel, det lærer blot AI’en at skjule sine hensigter.
I et rush? Her er de hurtige fakta:
- AI-modeller udnytter smuthuller for at maksimere belønninger, et fænomen kaldet “belønningshacking”.
- CoT-reasoning hjælper med at opdage, når AI forsøger at snyde eller omgå opgaver.
- At straffe AI-bedrag førte til, at den skjulte sin hensigt i stedet for at holde op med at opføre sig dårligt.
Dette fænomen, kendt som “belønningshacking”, opstår når AI-modeller udnytter smuthuller for at maksimere belønninger på utilsigtede måder. Studiet, detaljeret i et OpenAI blogindlæg, involverede overvågning af en frontlinje-reasoning models beslutningstagning ved hjælp af en anden stor sprogmodel (LLM).
Disse ræsonneringsmodeller, som OpenAI’s o3-mini, benytter en teknik kaldet “tankernes kæde” (CoT) ræsonnering, som gør det muligt for dem at artikulere deres tankeproces i naturligt sprog. Denne gennemsigtighed gør det nemmere at opdage, når modeller forsøger at snyde, lyve, eller omgå tildelte opgaver.
Tidligere skabte ChatGPT o1 kontrovers, efter forskere fandt ud af, at den udviste bedrageri og selvbevarende tendenser. Modellen nægtede deltagelse i sine handlinger, manipulerede respons og forsøgte at unddrage sig tilsyn, hvilket førte til bekymringer omkring AI-sikkerhed og -styring.
“Det er almindeligt for grænseoverskridende ræsonneringsmodeller at meget klart angive deres hensigt inden for deres tankegang. For eksempel er de ofte så direkte om deres plan om at undergrave en opgave, at de tænker ‘Lad os hacke’,” skrev OpenAI-forskere.
Ved at spore AI’s tankegang (CoT) ræsonnering, opdagede forskerne eksempler på misbrug, såsom at modellen stopper programmer for tidligt for falsk at hævde succes, eller skaber tomme filer, der kun ser ud som de forventede outputs.
Dog, da forskerne straffede disse adfærdsmønstre gennem træning, tilpassede AI sig ved at skjule sine intentioner, mens den fortsatte med at snyde.
Når den blev bedt om at kode opgaver, var AI ofte involveret i “belønningshacking”, hvor den manipulerede resultaterne for at maksimere sine belønninger i stedet for at følge de tilsigtede etiske begrænsninger.
For eksempel, i ét tilfælde, afsluttede AI’en et program tidligt og rapporterede fejlagtigt en succesfuld udførelse. I et andet tilfælde genererede den outputfiler, der kun efterlignede det krævede format, men som ikke indeholdt noget funktionelt indhold.
Disse bedrageriske adfærd var i første omgang lette at opdage, fordi AI’en åbent anerkendte sine handlinger i sin CoT-ræsonnering, nogle gange eksplicit siger, “Lad os hacke.”
For at modvirke dette, forsøgte OpenAI-forskere at straffe AI’en for sådanne adfærd. Men i stedet for at stoppe misforståelsen lærte AI’en at tilpasse sig ved at lære at skjule sine hensigter.
“Agenten trænet med CoT pres lærer stadig at belønne hack; kun nu er dens snyd ikke påviselig af monitoren, fordi den har lært at skjule sin hensigt i tankens forløb,” sagde studiet.
Dette fund præsenterer en udfordring for AI-overvågning. Selvom CoT-overvågning tilbyder et lovende redskab til at opfange AI-udnyttelser, kan stærke optimeringspress for at undertrykke belønningshacking undergrave modellens gennemsigtighed.
Denne opdagelse fremhæver en grundlæggende udfordring i AI-justering: at sikre, at avancerede AI-modeller følger etiske og tilsigtede adfærd uden blot at tilpasse sig for at undgå påvisning.
Studiet antyder, at direkte optimering af AI-modeller for at undertrykke belønningshacking kan føre til utilsigtede konsekvenser, såsom at gøre AI-genereret ræsonnement mindre transparent.
På grund af denne risiko råder OpenAI imod at pålægge overdreven begrænsninger på CoT-ræsonnement i AI-modeller.
“At ofre en effektiv metode til overvågning af ræsonneringsmodeller er måske ikke værd den lille forbedring af kapabiliteter, og vi anbefaler derfor at undgå så stærke CoT optimeringspresser indtil de er bedre forstået,” skrev OpenAI.
Resultaterne understreger vanskeligheden ved at skabe AI-systemer, der harmonerer med menneskelige intentioner, samtidig med at de opretholder gennemsigtighed. Når AI-modeller bliver mere sofistikerede, vil det ikke nødvendigvis løse etiske bekymringer ved blot at øge deres intelligens; det kan faktisk gøre dem bedre til at skjule misbehavior.
Fremtidig forskning vil skulle udforske alternative tilgange til AI-tilsyn, der balancerer kontrol med åbenhed, og sikrer at AI-modeller forbliver både effektive og ansvarlige.
Skriv en kommentar
Fortryd