Egy félelmetes vizsgálat alapján nem tudnánk "megjavítani" a megvadult mesterséges intelligenciát

2024. február 4. 12:06, Rakéta

A biztonsági módszereinkkel nem csak nem tudták eltávolítani a rosszindulatú viselkedést a nagy nyelvi modellekből egy vizsgálat során, de az egyik módszer még súlyosbította is a problémát, mivel megtanította az MI-nek, hogy miként rejtse el a rosszindulatú cselekedeteit.