После недавнего обновления языковая модель GPT-4 в некоторых случаях почти никогда не даёт правильный ответ

Похоже, что опасения по поводу того, что ChatGPT “захватит мир и лишит всех работы”, можно считать неуместными, по крайней мере, на данный момент. Недавнее исследование показало, что по состоянию на июнь 2023 года языковая модель GPT-4, используемая чат-ботами, гораздо “глупее”, чем та же модель по состоянию на март 2023 года. Напротив, языковая модель GPT-3.5, несмотря на свои проблемы, в большинстве задач показала лучшие результаты.

Стэнфордские исследователи задавали чат-боту различные вопросы и оценивали правильность ответов. Вопросы были не абстрактными, а вполне конкретными. Например, ИИ должен был ответить, является ли число 17 077 простым. Для того чтобы лучше понять процесс “мышления” ИИ, а также для улучшения результатов, чатбота попросили пошагово описать свои вычисления. Обычно в таком режиме ИИ отвечает более правильно.

После недавнего обновления языковая модель GPT-4 в некоторых случаях почти никогда не даёт правильный ответ

Однако это не помогает. Если в марте процент правильных ответов модели GPT-4 составлял 97,6%, то в июне этот показатель снизился до 2.4%! До 2,4%! То есть практически не было случаев, когда чатбот не смог правильно ответить на вопрос. Напротив, в GPT-3.5 этот показатель вырос с 7,4 до 86,8%.

Снизились и возможности генерации кода. Ученые создали набор данных из 50 простых задач из LeetCode и измерили, сколько ответов GPT-4 выполнил без каких-либо изменений. 52% вопросов были успешно обработаны мартовской версией, но при использовании июньской модели это число снизилось до 10%.

Кстати, в последние недели пользователи ChatGPT жалуются на снижение “умственных способностей” ChatGPT. Пока неясно, почему это происходит и собирается ли OpenAI что-то с этим делать.

Popular