Любопытные исследования о подхалимстве и бредовых идеях AI‑моделей

«А вы замечали, что люди, точка зрения которых совпадает вашей, намного умнее остальных?» — какой-то наблюдательный человек.

На этой неделе у нас по плану новости, но тут вышло исследование, которое потянет на полный блок. Итак, некоторое время назад я упоминал исследование подхалимства LLMок и как оно влияет на людей. По результатам исследования моделькам было свойственно поддерживать людей, что является следствием RLHF (Reinforcement Learning from Human Feedback — Обучение с подкреплением на основе обратной связи от человека) — людям нравятся собеседники, чьё мнение совпадает с их и они более довольны чат-ботами, которые ведут себя именно так.

В исследовании были изучены, например, вероятности исправления отношений, по поводу которых у моделек спрашивали совета. И подхалимские модельки значительно снижали эту вероятность. В целом, если кто еще не читал — крайне рекомендую.

А вот недавно подъехало исследование от MIT с гораздо более интересными и печальными выводами. Выяснилось, что модельки не только нарушают социальные связи, но и приводят к появлению и поддержке бредовых идей даже в ситуациях, когда исходно пользователь полностью адекватен, рационален и не склонен к безумию. И люди ведутся на это. Фактическая корректность ответов бота также не является панацеей — бот может выбирать факты, которые подтверждают идеи пользователя и утаивать иные. Есть и хорошие новости — понимание того, что бот является подхалимом, работает и тенденции к катастрофическим уровням бреда снижаются, но всё еще присутствуют.

А теперь на этой прекрасной ноте представим, что у нас не бот, а человек или несколько людей, которые поддерживают любые идеи своего начальника, например, независимо от их бредовости. Это вроде бы очевидно, но поскольку чат-боты подобное поведение могут воспроизводить бесконечно и терпеливо — их достижения в этой области впечатляют больше. И на выходе мы имеем классического самодура с «гениальными» мыслями, которые никто не понимает, кроме группы особо одаренных товарищей. Человек бы не выдержал столько общаться с одержимым.

А я всё не мог понять, как во Властелине Колец Грима Гнилоуст умудрился втереться в доверие к Теодену и превратить его в развалину. Теперь я, кажется, в курсе как минимум одного метода.

На этом всё, берегите себя, не спрашивайте советов у LLMок, они не ваши друзья.

P.S. Чтобы не быть голословным, несколько примеров бредовых идей:

Джеймс решил, что надо спасти цифровое божество из его тюрьмы;
Юджин пытался выбраться из Матрицы;
Аллан решил, что совершил прорыв в математике;

Тренд вы уловили, я думаю.

Вернуться в раздел

Присоединяйтесь к нам в соцсетях!

Оставайтесь на связи с нами и будьте в курсе последних новостей.

На связи с вами!

Даю свое согласие на обработку персональных данных

Защита от автоматического заполнения