Обзор методов и техник генерации и выявления «дипфейков»

Время на прочтение: 3 мин

Быстрое распространение услуг и контента, а также оперативный и удобный доступ к информации способствуют развитию новых возможностей для неправомерного использования огромного количества данных, включая дипфейки для манипулирования общественным мнением.

Развитие методов глубокого обучения1Методы глубокого обучения обычно складываются из набора более простых моделей машинного обучения и применяют последовательные операции для извлечения внутренней информации из данных позволяет выявлять поддельный контент в нескольких предметных областях, включая манипуляции изображениями и видео. Однако универсальных подходов пока не существует.

Анализ известных методов, проводимый рядом ученых по всему миру, позволяет выявить недостатки и проблемы при обнаружении дипфейков. Так, исследователи из Технологического института им. Сардара Пателя (Индия) предложили обзор методов подделки изображения лиц с использованием генеративных состязательных сетей.

Совместное исследование ученых из Австралии, Кореи и Франции выделили наиболее релевантные подходы к созданию и обнаружению дипфейков .

В статье испанских ученых из лаборатории BiDA при Университете Мадрида (Испания) представили обзор манипуляций с лицом и обнаружения дипфейков.

Китайские исследователи представили работу по взаимосвязи между генерацией и обнаружением дипфейков и дальнейшие перспективы.

На основе проведенного анализа указанных работ предлагается обзор техник генерации и обнаружения дипфейков в видео и изображениях.

Манипулятивные техники включают:

Face2Face (лицо-к-лицу) позволяет передавать выражения лица одного человека другому в режиме реального времени, используя только обычное оборудование. В этом случае выражение лица исходного субъекта, полученное с помощью датчика RGB, передается целевому субъекту;

FaceSwap (изменение лица) предполагает смешивание изображений, оптимизацию, выравнивание и замену лица на основе нейронной сети глубокого выравнивания. Данный алгоритм определяет область лица и ориентиры для входного изображения, подгоняет 3D модели к расположенным ориентирам, визуализирует 3D модель, совмещает рендеринг2Рендеринг – это процесс получения изображения по модели с помощью компьютерной программы. и исходное изображение с помощью альфа-смешения3Альфа-смешение – это техника создания эффекта полупрозрачности путём объединения исходного пикселя с пикселем, уже находящимся во фрейм-буфере. и цветокоррекции;

DeepfakeFaceswap (глубокое изменение лица) – фреймворк, состоящий из набора моделей глубокого обучения на основе кодировщика-декодера для приложений по обмену лицами. После обучения выбранной модели восстановления лиц алгоритм выполняет общее кодирование с наборами исходных лиц и тех, которые будут на изображении, и использует переключаемые декодеры, которые воссоздают лицо А и B и восстанавливают изображение с переставленными лицами (см. рис. 1);

Рис. 1. Работа нейронной сети при генерации лиц

Методы обнаружения дипфейков преимущественно основаны на сверточных нейронных сетях (CNN), генеративно-состязательных сетях (GAN), автоэнкодерах и рекуррентных нейронных сетях.

Сегодня существуют методы, которые могут с достаточной точностью определять, когда лица переставлены местами. Но идентифицировать лица, на которых было изменено только выражение, значительно сложнее.

Ученые из Калифорнийского университета в своей работе показали, что обнаруживают манипуляции с выражением лица с большей точностью, чем другие современные методы. Их метод также работает в случаях, когда лицо было заменено другим. Работа метода основана на разделении задачи на два компонента в рамках глубокой нейронной сети. Первая различает выражения лица и передает информацию об областях, содержащих это выражение, таких как рот, глаза или лоб, во вторую, известную как кодер-декодер. Архитектура кодер-декодер отвечает за обнаружение и локализацию манипуляций. Согласно исследованию «Обнаружение и локализация манипуляций с выражением лица» фреймворк назвали «EMD» (Expression Manipulation Detection). Он может как обнаруживать, так и локализовать определенные области изображения, которые были изменены. Эталонные наборы данных для манипуляций с лицом основаны на обмене выражениями и идентичностями. Один переносит выражения исходного видео в целевое видео без изменения личности человека в целевом видео. Другой меняет личности в одном видео. Эксперименты с двумя сложными наборами данных манипуляций с лицом показывают, что EMD лучше справляется с обнаружением не только манипуляций с выражением лица, но и подменой личности. EMD безошибочно обнаружил 99% обработанных видео. Достигнутый уровень точности метода позволяет обнаруживать любые манипуляции с лицом и, соответственно, может привести к использованию метода при разработке автоматизированных инструментов обнаружения фальшивых видео с пропагандой и дезинформацией.

Таким образом, ведется постоянный поиск и совершенствование методов по выявлению дипфейков, который представляет критическую задачу для предотвращения и прогнозирования политической и социальной нестабильности в онлайн среде.

  • 1
    Методы глубокого обучения обычно складываются из набора более простых моделей машинного обучения и применяют последовательные операции для извлечения внутренней информации из данных позволяет
  • 2
    Рендеринг – это процесс получения изображения по модели с помощью компьютерной программы
  • 3
    Альфа-смешение – это техника создания эффекта полупрозрачности путём объединения исходного пикселя с пикселем, уже находящимся во фрейм-буфере.