ИИ-модели бесполезно наказывать — они начинают ещё лучше врать и изворачиваться
ИИ-модели могут галлюцинировать и выдавать попросту ложную информацию, что отталкивает от них пользователей. Специалисты OpenAI провели исследование, в ходе которого попытались различными методами контролировать рассуждающие модели, чтобы не дать им выйти за границы безопасного и дозволенного, — например, наказывать за вредные или неправильные ответы.
