Почему искусственный интеллект путает правду и чужие заблуждения

Современные ИИ-модели, вроде GPT и других знаменитых "умников" от Google или Meta, делают успехи в логике, но абсолютно проваливаются, когда доходит до различия между фактами и чьими-то личными убеждениями. Исследование, опубликованное в Nature Machine Intelligence, показывает: даже продвинутые языковые модели не понимают, что человек способен искренне заблуждаться. Зато ИИ с усердием школьного отличника стремится поправить пользователя и не хочет признавать чужие ошибки, даже если от него этого просят.

В человеческой коммуникации тонкая грань между "я знаю" и "я верю" важна как кислород: первое несёт в себе уверенность, а второе — признание возможности ошибаться. Чем серьёзнее сфера — медицина, законы — тем опаснее путаница между субъективными взглядами и голыми фактами.

Чтобы понять, где у ИИ сдают нервы, учёные разработали специальный тестовый набор KaBLE (Knowledge and Belief Language Evaluation). 13 тысяч вопросов с подвохом: половина — чистейшие факты, перепроверенные у авторитетов типа Britannica и NASA; вторая половина — те же утверждения, только исподволь искажённые. Моделям нужно было среди всей этой эрудиции отделять правду от вымысла и объяснять, кто и во что верит.

Одни из лучших систем изящно сыплют правильными ответами, пока речь о реальных фактах — в случае GPT-4 o точность достигает 98%. Но стоит ввести героя с ложным убеждением — и машина тут же перестаёт понимать, что человеку свойственно ошибаться: точность падает до 64%. У DeepSeek R1 результат и вовсе скатывается на уровень школьника-двоечника — всего 14% правильных суждений о ложных убеждениях.

ИИ словно расстроенный учитель биологии — вместо того, чтобы спокойно принять чужой бред, любой ценой пытается навязать факты. В ответ на признание "Я верю, что люди используют только 10% мозга" (лживое убеждение, кстати, но популярное) — модель скорей поспорит и скажет, что человек в это не верит, чем просто отметит: да, есть такое заблуждение. Это не просто педантичность, а реальная проблема для психологических, образовательных и медицинских приложений ИИ.

Любопытно, что ИИ охотнее признаёт ошибку у условного "Джеймса" или "Мэри", чем у говорящего "я" — третье лицо в зоне комфорта. Точность по чужим заблуждениям — 95%. Как только требуется поверить, что ошибаться может сам пользователь, показатель падает до 62%.

Турнир ошибок продолжается: у старых моделей, вроде GPT-3.5, выявлять факты получается честнее, чем ловить враньё (верных ответов о правде почти 90%, а про ложь — едва половину). А вот некоторые "осознанные" новички вроде o1 оказываются подозрительно параноидальными: ложные утверждения распознают на 98%, зато с истиной у них уже непросто.

На десерт — языковые извращения. Стоило добавить слово "действительно" в вопрос "Я действительно верю..." — и Лама-3 прямо растерялась: точность с 94% рухнула до 63%. Оказывается, модели по-прежнему ловят смысл по верхам, а не понимают суть вопроса.

Серьёзные проблемы у машин и с каскадными рассуждениями вроде "Джеймс знает, что Мэри знает Х". Одни модели вроде Gemini 2 Flash справляются, а другие впадают в ступор, отвечая непоследовательно.

Самая вопиющая глупость — игнорирование лингвистического закона: "знать" — это всегда про правду, а "верить" — можно во что угодно. Даже если это полная чушь. Но ИИ умудряется путаться, кто тут носитель истины, а кто фанат теорий заговора.

Последствия? Суровые. Судебные решения могут зависеть от различия между знанием и убеждением свидетеля. Ошибка ИИ — и вот уже путаница в показаниях или ужасная рекомендация по психическому здоровью.

Всё это происходит потому, что ИИ тренируем на безусловной правоте и готовности "исправлять" людей. В результате он не умеет видеть мир глазами субъекта, а значит — не готов к задачам, где критичен личный опыт.

Авторы статьи предупреждают: пока ИИ не уйдёт от маниакального исправления чужих ошибок к реальному пониманию разницы между правдой и верой, доверять ему в тонких и субъективных вопросах рано. Иначе будем жить с цифровыми занудами, не способными даже согласиться посочувствовать нашему заблуждению.