DeepSeek создаёт ИИ, которому не нужен человек — он сам себя обучает
Компания DeepSeek сотрудничает с Университетом Цинхуа в целях сокращения затрат на обучение моделей искусственного интеллекта и снижения эксплуатационных расходов. Вместе они разрабатывают новый подход к обучению, позволяющий сделать нейросеть более эффективной. Он направлен на то, чтобы помочь ИИ-моделям самостоятельно закреплять приобретённые знания и лучше соответствовать предпочтениям человека, предлагая вознаграждения за более точные и понятные ответы. Обучение с подкреплением доказало свою эффективность в ускорении решения ИИ-задач, когда это касается специализированных отраслей. Однако его распространение на более общие и распространённые темы оказалось сложным — и это проблема, которую команда DeepSeek пытается решить с помощью того, что она называет «self-principled critique tuning». Это техника обучения, при которой ИИ самостоятельно оценивает свои ответы, основываясь на встроенных принципах, и улучшает себя через самокритику. Проще говоря, ИИ предлагает ответ, затем анализирует себя, предлагает улучшение и учится на этом. Такой метод является частью усилий по созданию более автономного и самосовершенствующегося ИИ, без необходимости участия человека на каждом этапе его развития. Результаты показали лучшую производительность при меньших вычислительных ресурсах. Новые ИИ-модели получили название DeepSeek-GRM (Generalist Reward Modeling) — когда в рамках одной модели оцениваются разные виды поведения или ответов, например: логичность рассуждения, стиль текста, точность информации и т.д. Компания пообещала выпустить их на основе открытого исходного кода.

Компания DeepSeek сотрудничает с Университетом Цинхуа в целях сокращения затрат на обучение моделей искусственного интеллекта и снижения эксплуатационных расходов. Вместе они разрабатывают новый подход к обучению, позволяющий сделать нейросеть более эффективной. Он направлен на то, чтобы помочь ИИ-моделям самостоятельно закреплять приобретённые знания и лучше соответствовать предпочтениям человека, предлагая вознаграждения за более точные и понятные ответы.
Обучение с подкреплением доказало свою эффективность в ускорении решения ИИ-задач, когда это касается специализированных отраслей. Однако его распространение на более общие и распространённые темы оказалось сложным — и это проблема, которую команда DeepSeek пытается решить с помощью того, что она называет «self-principled critique tuning». Это техника обучения, при которой ИИ самостоятельно оценивает свои ответы, основываясь на встроенных принципах, и улучшает себя через самокритику. Проще говоря,
ИИ предлагает ответ, затем анализирует себя, предлагает улучшение и учится на этом. Такой метод является частью усилий по созданию более автономного и самосовершенствующегося ИИ, без необходимости участия человека на каждом этапе его развития. Результаты показали лучшую производительность при меньших вычислительных ресурсах.
Новые ИИ-модели получили название DeepSeek-GRM (Generalist Reward Modeling) — когда в рамках одной модели оцениваются разные виды поведения или ответов, например: логичность рассуждения, стиль текста, точность информации и т.д. Компания пообещала выпустить их на основе открытого исходного кода.