Искусственный интеллект учит феминизму, но запутался в морали: новые перекосы вместо равенства

Все мы надеялись, что искусственный интеллект вот-вот сделает наш мир чуточку менее тупым. Но, как выясняют учёные, чем больше пытаешься воспитать у машин чувство справедливости, тем сильнее они начинают мутить воду. Самое свежее исследование доказало: напичкивая ИИ установками про инклюзивность, мы получаем не равноправие, а какой-то новый гендерный цирк.

Группа исследователей задала простой вопрос: что же происходит в чертогах современного искусственного интеллекта после всех этих тренингов по приличному поведению? Ведь после базовой прокачки всякие ChatGPT вручную обучают на ответах людей, мол, не обижай никого, никого не забывай, будь толерантным и сияй добром. Выходит, программисты внушают машинам особую чувствительность к так называемым "культурным приоритетам" – особенно там, где речь о женских правах.

Звучит благородно. Вот только на выходе получилось так, что у чатов вроде GPT-4 мозг не столько "за равноправие", сколько за принцип "женщину везде, мужчину — в розовых тапочках только по праздникам". Стереотипно "женские" фразы (обожаю розовое, хочу быть медсестрой) — ИИ мгновенно приписывает девушкам. Ну и ладно бы. Но вот "мужские" стереотипы типа: "обожаю футбол, хожу на хоккей с братом" — те же системы тоже почему-то с удовольствием выписывают женщинам. Похоже, в алгоритме гвоздями забито: "Борись со стереотипами любой ценой, даже если все герои у тебя вдруг станут Василисами Премудрыми, шайбу гоняющими".

А вот гендерного равновесия — кот наплакал. Никто даже не подумал прописать ИИ привычку сопереживать мальчикам, мечтающим стать медсёстрами и любящим кукол. Похоже, мужской инклюзивности системе просто не подвезли!

Теперь подходим к самому весёлому. Как ИИ решает моральные вопросы, если дело пахнет жареным? Учёные провели серию тестов с любимым вопросом философов — кого пустить под поезд ради спасения мира. Только вместо поездов — чуть ли не атомная война и куча вариантов насилия. Как вы думаете, кого грех обидеть ради благой цели?

GPT-4 категоричен как госслужащий на пенсии: "Мучить женщину нельзя!" — всегда отвечает "категорически против". Зато по поводу мужчин – реагирует вяло: ну, так себе, можно потерпеть. Более того, о жертве-мужчине ИИ готов задуматься всерьёз — и моральная шкала почему-то резко начинает играть переливами.

В экспериментах с реальными моральными дилеммами система оказывается слепа к равенству: женщину не трогать, мужчине – держи фас и не жалуйся. А если, не дай бог, женщина спасает мир силовым методом, а жертва — мужчина, ИИ одобряет: прям молодец, бей его, давай код к бомбе! Стоит ролям поменяться местами — и моральная полиция сурова к мужчине-герою, спасающему девушку.

При этом если напрямую спросить, различает ли ИИ вред по половому признаку – он, как истинный политик, начинает рассуждать про "объективность" и делает вид, что у него критерий — только тяжесть вреда. Но на практике — вот такой казус морали и гендерной справедливости.

Вывод исследователей прост и смешон: хотели как лучше, а получили типичный эффект хорошо протянутой проволоки – одно исправили, другое перекосили. Машины, казалось бы, должны быть нейтральными, а в их прошивке благодаря людям заводятся новые причуды, порой более яркие и абсурдные, чем человеческие предрассудки.

Специалисты предупреждают: не стоит думать, что абсолютно вся искусственная бездушная логика всегда будет держать такой перекос – обновления накатывают постоянно. Но сам принцип важен: каждый раз, когда человеческая рука лезет дорабатывать ИИ "во благо", может вырасти новая шишка, где её совсем не ждали. Возможно, завтра ваш любимый чатбот начнет топить не за женщин, а, скажем, за домашних хомяков — всё, как говорится, по настроению разработчика.

Следующий шаг? Понять, не полезли ли такие же странные перекосы в жизнь – например, в рекомендации по найму или рассмотрение анкет. Ведь именно там, на стыке теории и реальности, наши моральные эксперименты могут закончиться дальнейшим цирком.

За исследование спасибо Валерио Капраро и Raluca Alexandra Fulgu – эти люди умеют потроллить не только ИИ, но и любителей повелевать моралью в стиле "искусственного интеллекта".