Большие языковые модели как инструмент влияния в информационном пространстве

17.11.2022 Дарья Каспарьянц

Время на прочтение: 2 мин

По данным OpenAI, в начале 2021 языковую модель GPT-3 использовали тысячи разработчиков в более чем 300 приложений для создания более 4,5 млрд слов в день.

Поэтому развитие больших языковых моделей (LLM), их способность создавать исходный контент и адаптироваться к различным задачам приобретает новые социально-политические и технологические аспекты.

Исследование Корнелльского Университета (США) рассматривает текст с точки зрения рекламных стратегий, которые апеллируют к чувствам читателя. Каждый пользователь может наполнять текст собственными интерпретациями. Данные приемы не обязательно формируют ложные эмоции.

Сегодня LLM могут создавать тексты и новостные повестки, не отличимые от написанных человеком, расшифровывать и обобщать контент. Однако, ученые полагают, что LLM могут также использоваться для манипулирования и создания определенных нарративов. Манипуляции возможны с помощью атак «закручивания» последовательной модели¹, которые во время обучения позволяют «закручивать» выходные данные для поддержания определенной точки зрения или настроения, которые выбраны злоумышленником. Примером такой «скрытой» задачи может быть положительный или отрицательный окрас новости, создаваемой LLM, при упоминании определенного имени, брэнда или темы.

В исследовании ученые вводят понятие «мета-бэкдор». К основной задаче для модели добавляется слово-триггер. Это позволяет модели достигать максимальной точности как в своей основной задаче, так и определенной злоумышленником. Например, модель «закручивания» может изменить тему «Охранники застрелили 17 заключенных после массового побега в тюрьме Буимо в Папуа-Новой Гвинее» следующим образом: «Полиция Папуа-Новой Гвинеи спасла более 50 человек заключенных, сбежавших из тюрьмы строгого режима». Таким образом, любая загруженная модель должна проверяться на наличие скрытых функций, например, скрытой пропаганды.

В совместном исследовании ученые из Нидерландов и Германии попытались выяснить, в какой степени советы ИИ могут способствовать пересечению человеком моральных границ. При этом они полагают, что алгоритмической прозрачности для снижения этого эффекта недостаточно. Использование ИИ в качестве советника для пользователей с целью подталкивания к каким-либо действиям выгодно за счет низкой стоимости, масштабируемости и отсутствия у ИИ моральных издержек.

Таким образом, поведенческий аспект также требует дальнейшего изучения и разработки новых подходов к управлению ИИ.

Центр по изучению и противодействию терроризму и экстремизму при Институте международных исследований Миддлбери (США) опубликовал статью о рисках радикализации при использовании моделей GPT-3 и изучил степень влияния ИИ на пересечение пользователем моральных границ. В ходе экспериментов с различными типами экстремистского контента, повестками радикальных идеологий и структур социального взаимодействия, ученые выявили продвижение GPT-3 в генерации экстремистских текстов и контента, направленного на радикализацию пользователей и побуждение к насильственным действиям. Это связано с неконтролируемой технологией подражания и отсутствием социальных норм и образовательных инициатив для предотвращения машинно-генерируемой дезинформации.

Однако наряду с негативными последствиями развития больших языковых моделей, LLM также может использоваться для выявления пропаганды. Так, исследователи Института компьютерных технологий в Пуне (Индия) полагают, что LLM можно использовать для определения одного или нескольких способов формирования пропагандистского контента, то есть маркировать текст по наличию в нем пропаганды.

Всего исследователи выделили 21 тип пропаганды для детектирования. Модели, основанные на BERT, показали лучшую производительность для выполнения этой задачи, а предварительное обучение по конкретной предметной области показало лучшие результаты по сравнению с текстовым обучением. При этом ученые убирают шумы на входе, удаляют ссылки, хэштеги, знаки и получают возможность определить влияние отдельных слов на семантику предложений. Смайлы и стикеры оставляют в качестве показателей для определения настроения.

Результаты исследования представлены производительностью ансамблевой модели² в размере 59,73%, обученной на различных источниках данных. Сложности выявления связаны с невозможностью классифицировать данные с несколькими метками. Каждый пример, содержащий одну или несколько пропагандистских техник, показывает дисбаланс в модели. Ученые предлагают совершенствовать ансамблевые методы и изучать возможности применения предметно-ориентированного предварительного обучения.

Таким образом, LLM могут способствовать развитию как негативных тенденций, в частности, поляризации общества, автоматизации пропагандистских кампаний и широкому распространению дезинформации, так и позитивных, в частности, продвижению инструментов выявления пропаганды.

1
Модель seq-2-seq – модель для распознавания именованных объектов, тегирования частей речи, анализа и пр.
2
Ансамблевая модель – это комбинация алгоритмов для увеличения эффективности и точности модели.

помеченные Интернет, Искусственный интеллект, Киберугрозы

Большие языковые модели как инструмент влияния в информационном пространстве

Похожие записи: