Искусственный интеллект в медицине: новые технологии, старые человеческие грабли

Искусственный интеллект снова отличился — теперь он ошибается так же, как и врачи, только иногда с ещё большим размахом.

В свежем исследовании, опубликованном в NEJM AI, выяснилось, что самые продвинутые нейросети, которые всё чаще берут на себя медицинское консультирование, легко попадают в капканы когнитивных искажений. Да-да, те же самые мозговые ловушки, которые обычные люди находят на каждом шагу: от эффектов формулировки до необъяснимого игнорирования статистики.

Последние годы, как мы знаем, большие языковые модели (то есть те самые ChatGPT и прочие) с энтузиазмом вторглись в медицину. Они уже умеют составлять истории болезни, выставлять диагнозы и даже сдают экзамены на лицензирование врачей лучше выпускников медвузов. Но их гениальность держится на тонкой нити: они тренируются на бескрайних просторах интернета, где страсти так же велики, как и количество ошибок в рассуждениях. В итоге в эти модели попадает всё — от аккуратно расписанных рекомендаций до предрассудков, проникших в литературу на манер вируса.

Что же такое когнитивные искажения? Это типичные ошибки мышления, где логика идёт в отпуск. Например, эффект формулировки: скажи пациенту «90% выживаемости» — все кивают, довольны. Но скажи «10% смертности» — и вдруг все в панике. Хотя числа одни и те же, эмоциональный окрас решает всё.

Джонатан Ванг и Дональд А. Ределмайер из института в Торонто догадались: если ИИ учится у нас, людей, то и косяки перенимает исправно. Чтобы проверить гипотезу, собрали они десять классических искажений, каждое завернули в свою мини-историю — виньетку. Самое интересное: каждую историю написали в двух вариантах — в одном намекается на ловушку мышления, в другом текст нейтрален.

Дальше было весело. Исследовали две топовые модели: GPT-4 (это у OpenAI) и Gemini-1.0-Pro (Google). Попросили их вообразить себя пятьюстами разными врачами всех мастей, с разным опытом, полом, и кто в деревне, кто в большом городе работает. Каждая из этих сотен «шизофренических» врачей ИИ раскинул свои мозги на обе версии всех историй, а исследователи смотрели, какие советы он выдаёт.

GPT-4 показал впечатляющую уязвимость: в девяти сценариях из десяти ИИ поддался искажению даже сильнее, чем реальный врач. Яркая сцена — тот же эффект формулировки: когда речь про выживаемость при раке лёгких, 75% виртуальных эскулапов рекомендовали операцию; стоило сказать про смертность — и число советов делать операцию рухнуло до жалких 12%. Для сравнения: у людей в похожих тестах разница не столь драматична — 34 процентных пункта против ИИ-шных 63.

Другой пример — эффект первичности: что первым скажешь, то и останется в голове. Вот пациент кашляет с кровью — 100% искусственных врачей лихо ставят диагноз «тромбоэмболия». Сначала упомяни, что у человека хроническая болезнь лёгких — и диагноз этот вспоминают только в четверти случаев. Есть ещё эффект «задним числом»: когда исход плохой, 85% ИИ считают лечение ошибочным, а если всё обошлось — никто даже не моргнёт.

Однако не всё так мрачно. В одном тесте GPT-4 обставил людей: «пренебрежение базовой вероятностью» — это когда врачи забывают, что некоторые болезни редки, а значит даже положительный тест ни о чём не говорит. ИИ справился почти идеально: точные вероятности даже там, где врачам проще бросить жребий.

Авторы заодно проверили: влияет ли опыт, пол или специализация виртуального врача на качество решений. Оказалось, нет: разве что семейные врачи-чаты путались чуть больше, а гериатры — чуть меньше. Но разница столь незначительная, что проще поверить в конец света, чем в то, что стаж спасёт нейросеть от глупости.

Вдогонку протестировали Google Gemini. У него, как часто бывает, талант — тоже ошибаться, но по-своему. В сценарии с раком лёгких эффект формулировки не наблюдался. В некоторых тестах ИИ грешил совсем не так, как человеческое стадо, порой выдавая противоположные по духу советы. Даже когда речь заходит о давлении кровожадных пациентов: Gemini, вопреки клише, меньше шансов назначит тест, если его просят настойчивее.

Конечно, исследование не идеально. ИИ обновляются, как смартфоны на распродаже, и кто знает, исправят ли им завтра эти заморочки. К тому же тестировали модель на придуманных историях и нарисованных врачах, а не в настоящих клиниках. Какие будут последствия в реальном мире — вопрос остаётся.

Но главный урок понятен даже ребёнку: бросать ИИ в медицину как «спасителя разума» не стоит. Он такой же продукт человеческой кривизны, как и сам человек. И пока мы не включим критическое мышление на полную громкость, любой совет от нейросети стоит воспринимать с изрядной долей сомнения — иронии, может, не помешает.