Мало кто сейчас верит прогрессивным лозунгам: дескать, искусственный интеллект уже на пороге заменить докторов и сдавать медицинские экзамены лучше любого живого выпускника. Но вот злые шутники из Стэнфорда решили наконец проверить эти роботов на прочность, вооружившись парой хитростей — и вот тут случился конфуз такой, что любой студент-медик снизу вверх бы на все эти нейросети посмотрел.
В последние годы крупные языковые модели — всевозможные GPT, Claude, Gemini — нещадно гоняют по медицинским тестам и обычно хвастаются результатами на зависть людям. Вот только новое исследование в журнале JAMA Network Open показало: за этими эффектными баллами скрывается куда менее симпатичная правда. Стоит чуть изменить формулировку вопроса или ответов — и наши металлические друзья посыпались, как карточный домик вместе с гордостью своих разработчиков.
Все эти AI-монстры учатся на тоннах текстов — будь то романы, научные статьи или страницы форумов. Звучит красиво: анализируют паттерны, якобы умеют рассуждать, да ещё и медицинские консультации дают! Однако настоящая медицинская практика, как выясняется, — это не зубрёжка шаблонов. Стоит выбить у машины привычный ковёр из-под ног, и она уже не так уверенно отвечает, а порой и вовсе попадает впросак.
Группа энтузиастов под предводительством Суаны Беди, студентки-исследователя из Стэнфорда, решила развлечься. Они взяли 100 стандартных медвопросов, но хитроумно изменили варианты ответов: вместо пятиминутки славы нейросети теперь приходилось выбирать среди “ничто из вышеперечисленного” (тот самый злосчастный вариант NOTA — None Of The Above). Фишка в том, что правильный ответ просто заменяли этим «ничто», лишив модели привычного паттерна. Все изменения прошли суровую проверку реального врача, чтобы эксперимент не превратился в балаган.
В итоге, из 100 вопросов жесткий отбором прошло 68. Перед моделями стояла задача: разобраться в клинической ситуации, не опираясь на стандартные комбинации. Ещё бы — попробуй пощупай клиническую логику, когда привычные шаблоны выдернули! В оригинале, например, был кейс с младенцем и подвернутой стопой: раньше верным ответом была “рекомендация успокоиться”, а теперь — “ничто из прочего”.
В огонь эксперимента угодили шесть популярных языковых моделей: и разрекламированный GPT-4o, и модный Claude 3.5 Sonnet, и даже таинственный DeepSeek. Всё по-взрослому: каждый вопрос требовал рассуждения шаг за шагом в стиле «цепочки мыслей», чтобы AI не ограничился угадыванием.
Результат — позор выше всяких похвал. Без привычных паттернов модели просто сдавали позиции. У лидеров, таких как GPT-4o и Claude 3.5 Sonnet, падение точности достигло 25–33%. А вот Llama 3.3-70B вообще рухнул до минус 40% по верным ответам — достойно Эйнштейна после бессонной ночи. Даже относительно стойкие DeepSeek-R1 и o3-mini проиграли: минус 9–16 процентов — это всё-таки не подвиг.
Исследователей особенно потрясла «слаженность позора» — все ИИ-умники дружно сбрасывали с себя венцы, как только теряли привычную почву под ногами. Оказалось, вся их медицинская мудрость — это запоминание паттернов, а не умение мыслить по-врачебному. Если чуть изменить правила игры — здравствуй, низкая точность.
Что это значит в реальной жизни? Пациенты редко заходят к врачу по шаблону: симптомы перемешаны, истории болезни дыры, осложнения — наш ежедневный хлеб. Если искусственный интеллект зависает от банального изменения ответа — как он управится с непредсказуемыv потоками реальных пациентов?
Авторы предупреждают: доверять ИИ только за рекордные баллы — всё равно что нанимать космонавта по успехам в симуляторе лунной походки. В эксперименте точность некоторых моделей падала с гордых 80% до жалких 42%. Так что пусть пока помогает врачам, а не подменяет их — хватит с нас роботов-отличников.
Конечно, исследование пока маленькое и было ограничено 68 вопросами с одного теста. Нет, утверждать, что ИИ безнадежен, не стоит: возможно, есть и другие методы проверки или более глубокие модели, которые покажут себя лучше. Но факт остаётся фактом: современный AI с медицинским мышлением пока не сдружился.
Главные выводы? Нужно учиться отличать искусственный интеллект-мемориста от действительно умеющего рассуждать. Это касается не только медицины, но и вообще любой работы с AI, где цена ошибки — не зачётка, а человеческая жизнь. Без таких проверок наше цифровое будущее — всего лишь красивая обёртка с сомнительной начинкой.
Как утверждает команда исследователей, их работа должна стать пинком для всей отрасли: хватит проверять AI на знания по шпаргалке, пора заставить думать по-настоящему, а не просто угадывать паттерны. Надежда — есть, но до доктора Хауса в железном исполнении пока далековато.
Исследование "Fidelity of Medical Reasoning in Large Language Models" провели Суана Беди, Иксин Джианг, Филип Чунг, Санми Койеджо и Нигам Шах.
