GPT-4.5 научился хорошо притворяться человеком. ИИ прошёл тест Тьюринга

Калифорнийский университет в Сан-Диего представил результаты нового исследования, в котором предоставлены «первые доказательства способности искусственного интеллекта пройти стандартный трехсторонний тест Тьюринга». В 1950 году британский математик и учёный Алан Тьюринг предположил тест, также известный как «игра в имитацию». Идея заключалась в том, что если человек не может отличить ответы машины от ответов человека, то машина может обладать уровнем интеллекта, сравнимым с человеческим. В трёхстороннем тесте Тьюринга участник общается как с человеком, так и с машиной, чтобы определить человека. В ходе исследования были протестированы четыре языковые модели ИИ: GPT-4.5, Llama 3.1 405B, GPT-4o и ELIZA. Участники вели 5-минутные текстовые беседы одновременно с человеком и одной из этих нейросетей, прежде чем решить, какой из собеседников, по их мнению, был человеком. Для этого использовался интерфейс с разделённым экраном, а после каждого раунда общения они должны были сделать выбор. ИИ-модели оценивались в двух вариантах поведения: NO-PERSONA — когда ИИ не должен принимать на себя какую-либо конкретную личность или роль (общение без каких-либо внешних условий или ограничений), а также PERSONA — когда нейросеть принимает определённую роль, ведёт себя как человек с конкретными чертами характера, опытом или намерениями. В основном это были простые беседы на социальные темы. Участники спрашивали о повседневных делах, выясняя социальные и эмоциональные аспекты, такие как мнения, эмоции, юмор. Результаты показали, что модель GPT-4.5 с использованием варианта PERSONA достигла 73%. Это говорит о том, что участники часто принимали нейросеть за человека. Llama 3.1‑405B показала результат 56%. GPT‑4o и ELIZA справились с тестом только в условиях NO‑PERSONA и достигли результата 21% и 23% соответственно. Авторы исследования утверждают, что все эти языковые модели могут легко дополнять или даже заменять человека в ситуациях, когда требуются непродолжительные разговоры. В более широком смысле нейросети могут стать заменой в общении с незнакомцами в сети, с друзьями, коллегами и даже романтическими партнёрами.

Апр 2, 2025 - 17:47

GPT-4.5 научился хорошо притворяться человеком. ИИ прошёл тест Тьюринга

Калифорнийский университет в Сан-Диего представил результаты нового исследования, в котором предоставлены «первые доказательства способности искусственного интеллекта пройти стандартный трехсторонний тест Тьюринга».

В 1950 году британский математик и учёный Алан Тьюринг предположил тест, также известный как «игра в имитацию». Идея заключалась в том, что если человек не может отличить ответы машины от ответов человека, то машина может обладать уровнем интеллекта, сравнимым с человеческим. В трёхстороннем тесте Тьюринга участник общается как с человеком, так и с машиной, чтобы определить человека.

В ходе исследования были протестированы четыре языковые модели ИИ: GPT-4.5, Llama 3.1 405B, GPT-4o и ELIZA. Участники вели 5-минутные текстовые беседы одновременно с человеком и одной из этих нейросетей, прежде чем решить, какой из собеседников, по их мнению, был человеком. Для этого использовался интерфейс с разделённым экраном, а после каждого раунда общения они должны были сделать выбор. ИИ-модели оценивались в двух вариантах поведения: NO-PERSONA — когда ИИ не должен принимать на себя какую-либо конкретную личность или роль (общение без каких-либо внешних условий или ограничений), а также PERSONA — когда нейросеть принимает определённую роль, ведёт себя как человек с конкретными чертами характера, опытом или намерениями.

В основном это были простые беседы на социальные темы. Участники спрашивали о повседневных делах, выясняя социальные и эмоциональные аспекты, такие как мнения, эмоции, юмор. Результаты показали, что модель GPT-4.5 с использованием варианта PERSONA достигла 73%. Это говорит о том, что участники часто принимали нейросеть за человека. Llama 3.1‑405B показала результат 56%. GPT‑4o и ELIZA справились с тестом только в условиях NO‑PERSONA и достигли результата 21% и 23% соответственно.

Авторы исследования утверждают, что все эти языковые модели могут легко дополнять или даже заменять человека в ситуациях, когда требуются непродолжительные разговоры. В более широком смысле нейросети могут стать заменой в общении с незнакомцами в сети, с друзьями, коллегами и даже романтическими партнёрами.