A biztonsági módszereinkkel nem csak nem tudták eltávolítani a rosszindulatú viselkedést a nagy nyelvi modellekből egy vizsgálat során, de az egyik módszer még súlyosbította is a problémát, mivel megtanította az MI-nek, hogy miként rejtse el a rosszindulatú cselekedeteit.