НАСКОЛЬКО УМЕН CHATGPT?

ChatGPT - языковая модель, разработанная компанией OpenAI, приобрела невероятную популярность за последний год благодаря своей способности генерировать человекоподобные ответы на самые разные вопросы.

Фактически чат-бот ChatGPT стал настолько грамотным, что студенты теперь используют его для помощи в выполнении домашних заданий. Это даже вынудило несколько школьных округов США заблокировать доступ устройств к этой платформе в своих сетях. Так насколько же умен ChatGPT?

В техническом отчете, опубликованном 27 марта 2023 года, OpenAI представила исчерпывающую информацию о своей последней модели, получившей название GPT-4. В отчет вошли результаты экзаменов, которые мы представили на инфографике выше.

GPT-4 и GPT-3.5

Чтобы оценить потенциал ChatGPT, специалисты OpenAI провели симуляцию разных профессиональных и академических экзаменов. В их число вошли SAT (академический оценочный тест), квалификационный экзамен на адвоката и ряд экзаменов по программам углубленного изучения предметов.

Результаты оценивались в процентилях, основанных на последних доступных данных о распределении баллов для участников каждого типа экзаменов.

Процентиль позволяет соотнести свои результаты с результатами других. Например, если по результатам теста вы попали в 60-й процентиль, это означает, что вы набрали больше баллов, чем 60% остальных участников теста.

В таблице ниже мы представили результаты, которые отражены на иллюстрации.

Как можно заметить, версия модели GPT-4 (вышедшая в марте 2023 года) гораздо лучше справляется с большинством этих экзаменов по сравнению с GPT-3.5 (представленной в марте 2022 года). Однако новой версии языковой модели все же не удалось улучшить свои показатели в экзаменах по углубленному знанию английского языка и по спортивному программированию.

Результаты экзамена по английскому языку (и других тестов, где требовалось дать письменные ответы) оценивались 1-2 квалифицированными сторонними специалистами, имеющими соответствующий опыт работы по оценке подобных эссе. Хотя ChatGPT, безусловно, способна написать качественное эссе, ей, по всей видимости, было сложно понять задания экзамена.

Что касается спортивного программирования, то GPT пыталась пройти 10 конкурсов Codeforces по 100 раз каждый. Codeforces проводит конкурсы по программированию, в которых участники должны решать сложные задачи. Средний рейтинг GPT-4 по результатам конкурсов Codeforces составил 392 балла (ниже 5-го процентиля), а максимальный рейтинг в рамках отдельных заданий достиг 1 300 баллов. Если посмотреть на страницу рейтингов Codeforces, то самым высоким показателем обладает пользователь jiangly из Китая с результатом 3 841.

Что изменилось в GPT-4?

Вот некоторые области, в которых пользовательский опыт в GPT-4 стал лучше по сравнению с GPT-3.5.

Доступ в Интернет и плагины

Ограничением GPT-3.5 было отсутствие доступа к интернету и небольшой период обучения на данных (только до июня 2021 года).

В GPT-4 пользователи получили доступ к различным плагинам, которые позволяют ChatGPT выходить в интернет, предоставлять более актуальные ответы и выполнять более широкий спектр задач. В их число входят сторонние плагины от таких сервисов, как Expedia, с помощью которых ChatGPT может даже самостоятельно забронировать для вас весь отпуск.

Визуальные данные

Если раньше GPT-3.5 могла принимать только текстовые запросы, то в GPT-4 появилась возможность анализировать изображения. Теперь пользователи смогут попросить ChatGPT описать фотографию, проанализировать график или даже объяснить значение мема.

Большая длина контекста

Наконец, GPT-4 способен обрабатывать гораздо большие объемы текста и дольше поддерживать беседу. Так, максимальное значение запроса в GPT-3.5 составляло 4 096 токенов, что эквивалентно примерно 3 000 слов. У GPT-4 есть два режима: один рассчитан на 8 192 токенов (6 000 слов), а другой – на 32 768 токенов (24 000 слов).