ИИ-модели бесполезно наказывать — они начинают ещё лучше врать и изворачиваться

ИИ-модели могут галлюцинировать и выдавать попросту ложную информацию, что отталкивает от них пользователей. Специалисты OpenAI провели исследование, в ходе которого попытались различными методами контролировать рассуждающие модели, чтобы не дать им выйти за границы безопасного и дозволенного, — например, наказывать за вредные или неправильные ответы.

Мар 26, 2025 - 17:18
 0
ИИ-модели бесполезно наказывать — они начинают ещё лучше врать и изворачиваться
ИИ-модели могут галлюцинировать и выдавать попросту ложную информацию, что отталкивает от них пользователей. Специалисты OpenAI провели исследование, в ходе которого попытались различными методами контролировать рассуждающие модели, чтобы не дать им выйти за границы безопасного и дозволенного, — например, наказывать за вредные или неправильные ответы.