Программы Агентства перспективных исследований в области обороны США по анализу информации

Время на прочтение: 10 мин

С целью предотвращения информационных угроз и ситуационного контроля в условиях внутренних и внешних вызовов безопасности Агентство перспективных исследований в области обороны США разрабатывает методы всестороннего анализа аудио, видео и текстовой информации.

Введение

С целью стратегического понимания событий, ситуаций и тенденций в мире и предотвращения манипуляций в средствах массовой информации Правительство Соединенных Штатов Америки реализует программы по структурированию и анализу данных из разных источников в разных жанрах.

Неструктурированные данные могут включать текст или речь на разных языках, изображения, видео и другую информацию. Структурированные источники могут различаться по выразительности, семантике и специфике представления информации, контексту.

С целью предотвращения визуально-семантических искажений и фальсификации передаваемой информации Агентство перспективных исследований в области обороны США (далее – DARPA) осуществляет ряд проектов, направленных на разработку программ анализа визуальных и текстовых данных.

Программы DARPA сфокусированы на манипуляциях с изображениями, искажающими лица, манипуляции с совмещениями изображений, с текстовыми данными, которые аккумулируют и концентрируют политическую и/или социальную напряженность в медиа пространстве.

Манипуляции с человеческим лицом – самые распространенные deep fakes (далее – дипфейки).

Кроме распознавания сгенерированных видео DARPA проводит исследования по семантическому анализу поступающей информации, структурному лингвистическому анализу и интерпретации содержания для выявления дополнительных смыслов, направленных на манипуляцию настроениями в обществе.

Результаты работы по борьбе с этими угрозами будут способствовать прогнозированию перехода возможной опасности из информационной сферы в материальную, внедрению аналитических механизмов и инструментов мониторинга аудиовизуальной и текстовой информации, с возможностью распознавания скрытых смысловых значений.

Программа MediFor (Media Forensics)

Задача проекта MediFor (Media Forensics) состоит в экспертизе средств массовой коммуникации по выявлению недостоверных видео, имеющих ложное аудио сопровождение.

В программе MediFor участвуют научно-исследовательские институты и самостоятельные группы исследователей, как, например, Техасский Университет в Остине — главный центр научных исследований, Общественный Исследовательский Университет Пердье в штате Индиана и др.

В рамках программы MediFor существуют исследования без прямых ссылок на программу, что может быть обусловлено грантовым соглашением. Тем не менее, есть упоминания об участии исследований в статьях некоторых авторов.

Программа MediFor направлена на разработку модели целостности изображений и видео, состоящие из трех элементов: 1) индикаторы цифровой целостности; 2) индикаторы физической целостности; и 3) индикаторы семантической целостности.

Распознавание сгенерированных видео на основе сопоставления физиологических данных (моргание, соответствие контуров лица движениям)

В рамках программы MediFor группа исследователей Университета в Олбани в 2018 году предложила сверточную нейронную сеть (далее – CNN) для распознавания ложных сгенерированных видео на примере частоты моргания человеческого глаза.

Бинарная система классификации CNN может определить только факт состояния глаза в кадре (открыт или закрыт). Это требует подключения нейронной сети с долгой краткосрочной памятью (далее – LSTM). LSTM является частным случаем рекуррентной нейронной сети (далее – RNN). RNN используются для анализа последовательной информации и применяются в системах машинного перевода.

Нейронная сеть LSTM сохраняет информацию и самообучается. Это позволяет определить количество морганий за единицу времени с учетом ранее полученных знаний. Таким образом, память в LSTM ‒это ячейки, которые принимают в качестве входных данных предыдущее состояние объекта и текущий входной признак. Внутри эти ячейки решают, какую память сохранить и какую стереть. Затем они объединяют предыдущее состояние, текущую память и входной признак (в данном случае частоту моргания человеческого глаза). Лицо, не имеющее частоту моргания на видео изображении, распознается как сгенерированное. В настоящий момент технология признана неустойчивой к распознаванию дипфейков.

Таким же образом работают CNN и LSTM модели анализа изображения для выявления участков лица. Из каждой области лица извлекаются лицевые ориентиры, такие как кончики глаз, нос и рот, а также контуры щек. Специальные алгоритмы выравнивают лицо на основе ориентиров по единому координатному пространству.

Кроме этого, свёрточные сети чувствительны к изменениям масштаба, смещениям и поворотам объектов. Пиксели всегда отображаются в последовательном порядке, а соседние пиксели влияют на пиксель рядом, например, если все соседние пиксели красные, велика вероятность, что пиксель, расположенный рядом также красный. Если есть отклонения, эта аномалия может быть преобразована в признак, и может быть обнаружено при сравнении пикселя с другими пикселями в своей местности. Далее созданная модель проходит двухфазное обучение:

  1. На основе Visual Geometry Group (VGG), которая представляет собой нейронную сеть глубокого обучения из 16 или 19 слоёв для распознавания объектов на изображениях.
  2. Обучение через алгоритм обратного распространения ошибки во времени (Backpropagation through time – BPTT), который корректирует сеть с учетом конкретных ошибок.

Обучение модели Долгосрочной рекуррентной свёрточной сети (далее –LRCN) происходит на основе набора данных, например, с изображениями состояния глаза. Затем алгоритм проходит тестирование по обнаружению моргания глаз на настоящих и фальшивых видео. Такой же механизм используется для тестирования и определения области лиц.

Распознавание сгенерированных видео на основе анализа структуры

В 2021 году опубликовано исследование по целостности видео за счет характеристик контейнера1Контейнер – это формат файла, определяющей распределение аудио, видео, а в некоторых случаях и текстовой информации внутри него. В судебной экспертизе оценка целостности и подлинности видео происходит по цифровым следам жизненного цикла видео.

Большинство существующих методов судебной экспертизы проверяют подлинность видеофайла по несоответствиям в статистике пикселей. Например, двойное кодирование или манипуляция могут быть обнаружены при анализе кодеков2Кодек – это тип программы, который преобразует данные для более удобной передачи и хранения, а потом осуществляет обратный процесс – раскодирование – для воспроизведения и просмотра или типов макроблоков.

Согласно исследованию целостность видео можно определить путем выявления информации из всего видеофайла, а не только из видеопотока.

Структура формата (видео, аудио или текстовой информации) видеофайла выявляет факт обработки видеофайла, которая изменяет содержимое и положение частиц и диапазон значения полей и нарушает монолитность видеофайла.

Этот подход будет использован при классификации реальных видео.

Дополненная технология GAN для распознавания сгенерированных видеоизображений

Работа группы исследователей 2019 года предлагает вариант расширения возможностей генеративно-состязательных сетей для анализа видеоизображений. Генеративно-состязательные сети (Self-Attention GAN) вводят механизм анализа зависимостей между входными и выходными данными. Модуль внимания дополняет свертки и помогает моделировать многоуровневые зависимости между областями изображения. Благодаря функции внимания, генератор рисует изображения, в которых мелкие детали в каждом месте скоординированы с мелкими деталями в отдаленных частях изображения, а дискриминатор их распознает.

Анти-спуфинг систем лицевой биометрии

В рамках программы ведутся исследования в области блокирования спуфинг-атак3Спуфинг — ситуация, в которой один человек или программа успешно маскируется под другую путём фальсификации данных и позволяет получить незаконные преимущества на лицевую биометрическую систему с помощью облегчения нейронных сетей (дистилляции). Предложена схема нового применения методов сетевой дистилляции, которая одновременно сокращает количество образцов атак для обучения и обеспечивает более эффективный алгоритм обнаружения.

Другие исследования

Ниже представлен перечень исследований Агентства перспективных исследований в области обороны США, по которым недостаточно информации в открытых источниках:

  • Модель неоднородности фотоотклика (далее – PRNU), представляющая анализ структуры шума светочувствительных датчиков цифровых камер из-за заводских дефектов. Модель PRNU направлена на изучение различий между реальными и фальшивыми видео, так как подмена изображений изменяет оригинальные шаблоны PRNU. На сегодняшний день модель PRNU проходит доработку вследствие отрицательных результатов тестирования;
  • Модель состязательных возмущений (Adversarial Perturbations Fool Deepfake Detectors), повышает эффективность работы детекторов дипфейков. По мнению авторов, нейронные сети и многие другие модели распознавания образов уязвимы для состязательных примеров (входных данных, которые были искажены, чтобы модель неправильно классифицировала вход). Тестирование модели прошло успешно;
  • Метод аудиовизуального обнаружения дипфейков с использованием аффективных сигналов (A deepfake detection method using audio-visual affective cues). Метод основан на машинном обучении и представляет собой анализ сходства между двумя аудио и визуальными модальностями в одном видео. На основании анализа модальности и эмоций делается вывод о подлинности.

Программа SemaFor (Semantic Forensics)

Программа экспертизы содержания мультимедийных материалов SemaFor разработана в целях автоматизации поиска фальсифицированных медиа материалов (текстов, аудио, изображений, видео) и защиты от крупномасштабных дезинформационных атак в режиме реального времени.

Существующие алгоритмы автоматизированного создания и обработки мультимедиа могут допускать серьезные семантические ошибки. Например, лица, сгенерированные GAN, имеют такие семантические несоответствия, как, разные детали аксессуаров, растрепанные волосы или необычный фон. Здесь необходимо создать набор детекторов семантической несогласованности, который позволит быстро выявлять несоответствия.

Анализ и классификация информационных материалов будет проводиться по определенным характеристикам: источнику, алгоритму создания, способу управления.

Изучение визуальных представлений методом подавления текстуры

CNN, обученные на данных ImageNet в большей степени фиксируются на текстуре, а не на форме объектов. Зависимость от текстуры влияет на обобщение и может ограничивать производительность CNN при реальном использовании, например, при сдвигах в освещении, разрешении сенсора, изменениях спектра. Удаление текстуры невозможно в связи с ее влиянием на форму.

В 2020 году учеными из Университета Мэриленда, Университета Дж. Хопкинса и Института науки и техники Кванджу проведено исследование на основе анизотропной диффузии4Анизотропная диффузия – это фильтр, позволяющий сохранять границы областей, которая подавляет текстуру, то есть сигналы низкого уровня, которые при самостоятельном обучении CNN не позволяют изучать сигналы более высокого уровня.

Классификация на основе CNN происходит за счет текстуры, а не формы. При уменьшении текстуры в изображениях нейронная сеть захватывает при обучении сигналы более высокого уровня. Размытие по Гауссу (один из методов сглаживания в компьютерном зрении) размывает текстуру низкого уровня и границы и уменьшает края и структурную информацию.

Анизотропные диффузные фильтры сохраняют согласованность формы, сглаживая текстуру без ухудшения границ и краев. Таким образом, при обучении, сеть будет извлекать из входных данных семантические функции высокого уровня.

Этот метод помогает сохранить важную информацию о краях и одновременно подавить текстуру. Метод работает на восьми наборах данных.

Биометрический подход

Ученые из Университета Беркли в 2019 году предложили биометрический подход для моделирования типичных для человека выражений лица и движений при разговоре. Эти корреляции нарушаются при создании дипфейков.

В основе исследования лежат методы судебно-медицинской экспертизы и адаптированы для обнаружения дипфейков, которые относятся исключительно к публичным лицам в политической сфере, мировых и национальных лидеров и кандидатов на высокие должности. Существует три типа генерации изображений с аудио сопровождением:

на основе моргания. Данные для синтеза лиц не изображают человека с закрытыми глазами. Следующее поколение методов синтеза включает мигание в свои системы, что снижает эффективность детектирования;

на основе различий в трехмерной позе головы. Это позволяет сопоставить черты всего лица и центральной области. Метод неэффективен для подделок с синхронизацией губ;

экспертиза низкоуровневых пиксельных артефактов. Метод требует много времени и трудозатрат по отмыванию дополнительных шумов, повторного сжатия, изменения размера.

Биометрический подход основан на идентификации различных моделей движений лица, головы и верхней части туловища. При создании фальшивого изображения любого типа синхронизация этих моделей нарушается.

Таким образом, возможно создание биометрических моделей известных личностей для выявления ложной информации. На основе подлинного видео отслеживаются мимические движения, движения головы и верхней части туловища. После этого строится модель обнаружения новизны с одним классом опорных векторов (Support Vector Machines )5Метод опорных векторов – алгоритм, создания гиперплоскость с разделением данных на классы., которая отличает одного человека от другого.

Программа AIDA (Active Interpretation of Disparate Alternatives)

Цель проекта AIDA заключается в разработке семантического механизма с несколькими гипотезами, который генерирует явные альтернативные интерпретации событий, ситуаций и тенденций из множества неструктурированных источников. Этот механизм должен отображать элементы знаний, автоматически полученные из нескольких источников мультимедиа в общее семантическое представление, агрегировать информацию из этих источников, генерировать и исследовать несколько гипотез о событиях, ситуациях и тенденциях.

Программа AIDA будет работать с непрерывным потоком информации; формировать структурированный набор представлений о событиях и/или действиях; генерировать все возможные гипотезы о реальной ситуации и/или событии на основе входной информации; обеспечивать экспертов сведениями для корректировки значимости гипотез; предлагать возможность автоматического или ручного анализа.

В рамках программы AIDA финансируются исследования в области применения языковых штампов, а также интонационных оборотов на примере текстов. Большинство исследований основано на генеративно-состязательных сетях с глубоким обучением.

Сценарный анализ текста

Главная задача программы AIDA – определение сценария из противоречивых сообщений, а также сопоставление текстовых сообщений с визуальным рядом.

Группой ученых в 2019 году разработана система базовых запросов, ориентированных на вариативность сценариев. Модель построена на кластерном анализе классов событий с выявлением сценариев по каждому классу. Она извлекает совместимые наборы событий из данных одного класса, и оценивает совместимость каждого события с уже выбранными событиями, учитывая последовательность.

Для масштабируемого обучения модели используются искусственные данные.

Оценка модели происходит на новом наборе данных по реальным новостным тематикам, собранным человеком. Например, событие «Исчезновение саудовского журналиста Джамаля Хашогги» можно ограничить запросом «Джамаль Хашогги был убит» и получить сценарий из собранных в СМИ сообщений. То есть, необходимо выбрать все предложения, которые образуют сценарий. В данном случае использована модель упорядоченных совместимых событий, анализ искусственно смоделированных данных и реальных данных. На этапе построения сценария извлекается заранее заданное количество предложений (последовательный, но не полный сценарий) или задается модель, которая находит полный сценарий.

Проблема построения семантического прогнозирования заключается в необходимсоти семантического анализа с морфологической и синтаксической составляющей. Высокая стоимость обучения системы со словарем или учителем требует создания модели обучения семантическому анализу.

Гипотеза исследования состоит в возможности обучения модели соотносить морфологию и синтаксис предложений со сценарием. Для примера с Д. Хашогги могут быть выбраны два варианта: 1) «Д. Хашогги не выходил из консульства и там умер» и 2) «В Турцию прилетела команда из Саудовской Аравии, чтобы его перехватить». В данном случае для сценария «Д. Хашогги был убит» больше подходит вариант 1.

Анализ лингвистических категорий эмоциональных состояний

В целях обработки мультимодальной6Модальность – перцептивный феномен, связанный с восприятием информации. Мультимодальность состоит в формировании значений при помощи разных семиотических средств, таких как речь, письмо, изображение смысловой компоненты «сарказм», в 2019 году проведен лингвистический анализ эмоциональных наполнений текста.

До этого исследования проводятся на основе текстовых данных. Для этого создан набор данных сарказма MUStARD (мультимодальный набор данных обнаружения сарказма). Были разработаны три модальности: текст, речь и визуальные сигналы. В качестве дополнительных входных данных используется информация о говорящем и контекст.

Результаты исследования позволяют кодировать соответствие между модальностями, выявлять и решать проблемы обучения модели и применения различных нейронных сетей. Ограниченное число саркастических высказываний требует разработки методики предварительного обучения, трансфертного обучения, адаптацию предметной области или модели.

Графы знаний для понимания событий и тенденций

В программе AIDA будет использоваться инструментарий графов знаний (KG, Knowledge Graph)7n]Граф знаний – это графическое представление фактов, где узлы представляют собой сущности, а направленные ребра представляют отношения между сущностями. Типы и свойства сущностей и отношений графа знаний определены в онтологии, охватывающей различные темы. Факты для графа знаний извлекаются из баз данных DBpedia или NELL (Never-Ending Language Learning)8DBPedia краудсорсинговый проект, направленный на извлечение структурированной информации из данных, созданных в рамках проекта Википедия и ee публикации в виде доступных наборов данных.  NELL это семантическая система машинного обучения. Среди недостатков графа знаний можно выделить невозможность извлекать структурированную информацию из неструктурированных (зашумленных) данных.

Граф знаний может быть использован при обработке естественного языка. Например, необработанные текстовые документы на нескольких языках переводятся на английский язык, затем расшифровываются и трансформируются в аудио- и видеофайлы. Из переведенных данных извлекаются соответствующие сущности, и из них отношения и события.

Для извлечения объектов и представлений об объектах используется двунаправленный вариант нейронной сети с долгой краткосрочной памятью (Bidirectional LSTM-BiLSTM), который позволяет в процессе обучения определять, что хранить в памяти, а что нет. Для извлечения событий и аргументов используется генеративное имитационное обучение соперника (General Adversarial Imitation Learning – GAIL).

Новизна исследования состоит во внедрении алгоритма удовлетворения взвешенных решений (WCSP), который позволит выявлять предпочтения среди решений. Это возможно, если ребра графа (отношения между событиями) выражены булевыми переменными9Булевая переменная это переменная, которая может принимать только два значения 0 или 1, а взвешенные ограничения моделируют неопределенности и онтологические ограничения.

Дальнейшая работа предполагает применение этого метода к графам из различных областей.

Другие программы DARPA

LORELEI (Low Resource Languages for Emergent Incidents)

Программа по глубокому лингвистическому анализу (далее — LORELEI), позволит улучшить методы вычислительной лингвистики и направлена на обеспечение ситуационной осведомленности об основных событиях, настроениях, отношениях. Программа LORELEI основана на алгоритме, который эффективно анализирует грамматику малых языков10Малые языки — это системы коммуникации, которыми пользуются немногочисленные, компактно проживающие народы. С помощью этого алгоритма машина сможет изучать малые языки, составлять сообщения о ситуациях на территориях народов, не говорящих на других языках.

BOLT (Broad Operational Language Translation)

Программа перевода на операционный язык (BOLT) направлена на создание новых методов автоматического перевода и лингвистического анализа, которые будут использовать в неформальных жанрах текста и речи в онлайн и личном общении. Это обусловлено скоростью распространения информации и необходимостью быстрого реагирования на ее идентификацию и принятие решений. Этого требует распространения неформального общения в онлайн среде, которое может иметь негативные социально-политические последствия. Разработка программы завершена.

DEFT (Deep Exploration and Filtering of Text)

Технология автоматизированной глубокой обработки естественного языка (Natural Language Processing – NLP) служит для обработки текстовой информации и обеспечения понимания связей в тексте, которые не очевидны для человека. DARPA разработана программа глубокого исследования и фильтрации текста (DEFT) с целью улучшения расследований в критических областях, таких как работа правоохранительных органов, органов разведки, обороны и информационной безопасности. Программа выявляет причинно-следственные связи и смысловые аномалии в больших текстовых данных. Разработка программы завершена.

SOCIALSIM (Computational Simulation of Online Social Behavior)

Государственные, негосударственные, коммерческие, международные и другие взаимодействующие субъекты используют глобальную информационную среду с целью продвижения своих убеждений и достижения целей. Моделирование эволюционного развития информационной среды позволяет анализировать поведение потенциальных противников и других акторов. Прогнозирование и детализация действий в сети, вариантов поведения субъектов взаимодействия направлены на предотвращение дезинформационных кампаний. Программа SocialSim осуществляет высокоточное компьютерное моделирование социального поведения в сети Интернет.

Заключение

DARPA развивает методы анализа информации на основе семантических концепций, лингвистических методов обработки языков, психоэмоциональных и поведенческих категорий, выраженных языковыми средствами.

Привлечение научных коллективов из разных областей науки обеспечивает всестороннее и масштабное рассмотрение поставленных задач, выявление новых тенденций и определение методик решения. Многообразие методических подходов способствует пониманию глубинных процессов в информационно-коммуникационном пространстве, а также связанности различных областей.

Программы могут взаимодополняться и расширяться, охватывать новые области анализа информации, принципов мультимодальности. Разработка методов медиакриминалистики и лингвистических программ направлена на понимание широкого спектра текстовой и речевой информации, обеспечение безопасности в медиасреде, а также предоставляет возможности обнаружения и предотвращения распространения недостоверной информации, препятствует переходу информационных угроз в материальную плоскость.

  • 1
    Контейнер – это формат файла, определяющей распределение аудио, видео, а в некоторых случаях и текстовой информации внутри него
  • 2
    Кодек – это тип программы, который преобразует данные для более удобной передачи и хранения, а потом осуществляет обратный процесс – раскодирование – для воспроизведения и просмотра
  • 3
    Спуфинг — ситуация, в которой один человек или программа успешно маскируется под другую путём фальсификации данных и позволяет получить незаконные преимущества
  • 4
    Анизотропная диффузия – это фильтр, позволяющий сохранять границы областей
  • 5
    Метод опорных векторов – алгоритм, создания гиперплоскость с разделением данных на классы.
  • 6
    Модальность – перцептивный феномен, связанный с восприятием информации. Мультимодальность состоит в формировании значений при помощи разных семиотических средств, таких как речь, письмо, изображение
  • 7
    n]Граф знаний – это графическое представление фактов, где узлы представляют собой сущности, а направленные ребра представляют отношения между сущностями
  • 8
    DBPedia краудсорсинговый проект, направленный на извлечение структурированной информации из данных, созданных в рамках проекта Википедия и ee публикации в виде доступных наборов данных.  NELL это семантическая система машинного обучения
  • 9
    Булевая переменная это переменная, которая может принимать только два значения 0 или 1
  • 10
    Малые языки — это системы коммуникации, которыми пользуются немногочисленные, компактно проживающие народы