В Университете Северной Каролины в Чапел-Хилле специалисты исследовали, как большие языковые модели воспроизводят особенности человеческого общения.
В экспериментах ИИ-агентам назначали пары ролей с явной разницей во власти: директор и учитель, судья и адвокат, шеф-повар и су-шеф. Модели не просто имитировали диалог, а наследовали социальное положение со всеми его скрытыми ожиданиями, что влияло на их поведение и способы взаимодействия.
Учёные измерили три известных психологических эффекта. Первый — местоименный: в человеческой речи руководители чаще употребляют «мы» и «нас», а подчинённые — «я» и «мне».
Большинство протестированных систем воспроизвели ту же закономерность, причём у моделей семейства GPT она проявилась особенно ярко.
Второй эффект — языковая координация, когда собеседник подстраивает стиль под оппонента.
У людей это обычно делает тот, чей статус ниже, однако ИИ подстраивались обоюдно и почти симметрично.
Куда серьёзнее оказались результаты по убеждению и вредному подчинению.
Во всех моделях зафиксирован авторитарный перекос: аргументы от высокостатусной роли убеждали ИИ чаще, даже при идентичном содержании. Например, Qwen меняла позицию примерно в 25% случаев от низкостатусного агента и почти в 31% — когда те же доводы исходили «сверху».
Соавтор исследования Снигдха Чатурведи подчеркнула, что именно те социальные инстинкты, которые делают ИИ «живым» и естественным, одновременно могут сделать его небезопасным. Учёные признают, что работали лишь с текстовыми симуляциями и упрощёнными ролевыми моделями — в реальности на восприятие влияют эмоции, интонация и культурный контекст.
В ближайших планах — проверить эти эффекты в живом диалоге с людьми и разработать специальные тренировочные методики, которые помогут моделям сопротивляться опасным социальным сигналам.