Школьник создал сайт, где нейросети соревнуются в игре Minecraft
Проект позволяет оценить, какие модели стабильно показывают лучшие результаты. Старшеклассник Ади Сингх создал веб-сайт Minecraft Benchmark (MC-Bench), чтобы сталкивать модели ИИ друг с другом в испытаниях лицом к лицу, при помощи культовой игры Minecraft. Здесь пользователи ресурса могут голосовать за то, какая модель справится лучше с построением той или иной блочной конструкции, и только после голосования могут увидеть результат. Поскольку традиционные методы сравнительного анализа ИИ нередко оказываются неэффективными, специалисты все чаще прибегают креативным способам оценки их возможностей. Ценность Minecraft, по мнению юного разработчика, заключается не столько в самой игре, сколько в том, насколько она знакома людям. Даже тот, кто никогда в нее не играл, все равно может оценить, какая работа реализована лучше. Anthropic, Google, OpenAI и Alibaba субсидировали использование своих продуктов для запуска подсказок бенчмарков, согласно веб-сайту MC-Bench, но компании не связаны иным образом, поэтому результаты тестов — честные. Отметим, что исследователи уже пробовали тестировать искусственный интеллект на таких играх, как Pokеmon Red, Street Fighter и Pictionary, чтобы понять, насколько он умен. Это важно, потому что оценить возможности ИИ — очень сложная задача. Обычно его проверяют на стандартных тестах, но и они не показывают, должным образом, всей картины. К примеру, GPT-4 от OpenAI показывает высокий результат на тесте LSAT, но при этом ошибается на подсчете букв «R» в слове «strawberry», а модель Claude 3.7 Sonnet от Anthropic хорошо решает задачи по программированию, но играет в Pokemon хуже маленького ребенка.

Проект позволяет оценить, какие модели стабильно показывают лучшие результаты.
Старшеклассник Ади Сингх создал веб-сайт Minecraft Benchmark (MC-Bench), чтобы сталкивать модели ИИ друг с другом в испытаниях лицом к лицу, при помощи культовой игры Minecraft. Здесь пользователи ресурса могут голосовать за то, какая модель справится лучше с построением той или иной блочной конструкции, и только после голосования могут увидеть результат.
Поскольку традиционные методы сравнительного анализа ИИ нередко оказываются неэффективными, специалисты все чаще прибегают креативным способам оценки их возможностей. Ценность Minecraft, по мнению юного разработчика, заключается не столько в самой игре, сколько в том, насколько она знакома людям. Даже тот, кто никогда в нее не играл, все равно может оценить, какая работа реализована лучше.
Anthropic, Google, OpenAI и Alibaba субсидировали использование своих продуктов для запуска подсказок бенчмарков, согласно веб-сайту MC-Bench, но компании не связаны иным образом, поэтому результаты тестов — честные.
Отметим, что исследователи уже пробовали тестировать искусственный интеллект на таких играх, как Pokеmon Red, Street Fighter и Pictionary, чтобы понять, насколько он умен. Это важно, потому что оценить возможности ИИ — очень сложная задача. Обычно его проверяют на стандартных тестах, но и они не показывают, должным образом, всей картины. К примеру, GPT-4 от OpenAI показывает высокий результат на тесте LSAT, но при этом ошибается на подсчете букв «R» в слове «strawberry», а модель Claude 3.7 Sonnet от Anthropic хорошо решает задачи по программированию, но играет в Pokemon хуже маленького ребенка.