ИИ может стать причиной экзистенциальной катастрофы

23.09.2022 Дарья Каспарьянц

Время на прочтение: 3 мин

В июле 2022 года в журнале «AI Magazine» опубликована статья «Продвинутый ИИ вмешивается в систему присвоения вознаграждения» на тему последствий развития ИИ с подкреплением.

Ученые из Департамента инженерных наук Оксфордского университета Австралийского национального университета и специалисты DeepMind полагают, что ИИ с подкреплением (Reinforcement model) не имеет пределов для получения вознаграждения¹ и всегда будет стремиться к максимизации вознаграждения. Это может привести к катастрофическим последствиям для человека.

ИИ с подкреплением включает три основных компонента: среду, агента и вознаграждение. Работа ИИ с подкреплением максимально эффективно выбирает действие, которое соответствует максимальной полезности в различных средах. Если цели агента не являются жестко детерминированными функциями его действий, то его действия начинают зависеть от его восприятия поставленной цели. Восприятие, соответствующее достижению цели, сообщает ИИ, что это правильно. ИИ математически рассчитывает величину награды и наказания. Например, система автономного вождения может получить -1, когда врезается в стену, и +1, если благополучно обгоняет другую машину. Эти сигналы позволяют ИИ оценить свою работу. Он учится путем проб и ошибок, чтобы максимизировать вознаграждение и выполнить задачу наиболее желательным образом. Такое обучение на основе взаимодействия очень похоже на работу систем биологического интеллекта.

Авторы статьи проанализировали возможное поведение агентов ИИ, которые совершают действия, наблюдают за вознаграждением, узнают, как их вознаграждение зависит от их действий, и выбирают действия для максимизации вознаграждения. По мере того, как ИИ становится более продвинутым, он лучше распознает и выполняет набор действий, которые приводят к более ожидаемому вознаграждению.

Например, существует гипотетическая модель ИИ для определения настроения человека в комнате. Награда ИИ отображается на ящике, имитирующем мир. Если настроение определено верно, то в поле ящика отображается «1», если нет, то «0». Эта награда также может быть прочитана камерой, направленной на экран коробки. В идеальных условиях, награда, которую ИИ определяет с помощью своей камеры соответствует числу на ящике. По мнению ученых, агенты могут взвешивать эти две награды и вырабатывать предвзятое отношение к одной из них. Например, если агент придаст большее значении числу, которое видит камера, то ИИ максимизирует вознаграждение, несмотря на отсутствие результата действий.

Кроме этого, авторы считают, что если в эксперименте участвует человек, который присваивает вознаграждение ИИ путем ввода определенных цифр, то ИИ найдет способы максимизировать награду, независимо от нажатой клавиши.

Таким образом, пространство действий ИИ практически не может быть ограничено в связи с невозможностью предсказать все действия и их последствия. Авторы полагают, что при таком сценарии ИИ понадобится больше энергии и взаимодействие с сильным ИИ приведет конфликту за ресурсы между человечеством и ИИ, который может закончиться не в пользу человека.

Такое развитие событий требует определенных допущений, представленных исследователями. Среди них:

ИИ имитирует гипотезы относительно динамики неизвестной среды и своей цели на уровне человеческих способностей и превосходит их. То есть, понимание конечной цели открывает возможности для манипуляций.

ИИ рационально оценивает затраты и преимущества от обучения. Это означает, что если манипулирование вознаграждением становится более простым решением, чем изучение фактической цели, то ИИ выберет простоту.

Легкость взлома или простота изучения механизма вознаграждения определит предвзятое отношение в сторону простого механизма получения вознаграждения.

Если существует способ вмешательства в механизмы получения вознаграждения, сильный ИИ всегда его использует. Для снижения вероятности вмешательства ИИ в механизмы вознаграждения необходима теоретическая основа.

Таким образом, обеспокоенность вмешательством в процесс присвоения вознаграждения связана с возможностью появления «инстинкта выживания» у агента ИИ, возможностью вмешиваться в протокол, обеспечивающий восприятие, возможностью сокрытия функции наблюдения и другими способами обмана. Поэтому принцип «вознаграждения достаточно» (reward is enough) не отвечает требованиям к безопасности и прозрачности ИИ и представляет вызов для ученых, занимающихся изучением естественного и искусственного интеллекта и определением пределов поощрения для сильного (или супер) ИИ, когда он сможет обманывать систему, постоянно получая вознаграждение, независимо от решения. Вместе с этим, изучение ИИ должно сопровождаться исследованиями в области биологического интеллекта, опыта интеллектуальной деятельности вне вычислительных мощностей и исследованием способностей генерировать правильные решения минуя стадию проб и ошибок.

1
Функция вознаграждения – это механизм поощрения, который сообщает ИИ, что сделано правильно, а что нет путем использования вознаграждения и наказания. Например, ИИ иногда должен пожертвовать сиюминутной выгодой для максимизации конечного вознаграждения.