Государственные программы США анализа медиаматериалов Агентства передовых исследований в сфере разведки (IARPA)

Агентство передовых исследований в сфере разведки IARPA было создано в 2007 году с целью выполнения научных исследований для разведывательного сообщества США. IARPA осуществляет исследования в четырех направлениях: сбор данных, обработка данных, анализ информации, прогнозирование.

Введение

Программы делятся на несколько типов: распознавание речи (универсальные переводчики, транскрипции); квантовое машинное обучение; геопространственные разведданные; искусственный интеллект; прогнозирование событий; распознавание лиц, биометрия и др.

IARPA осуществляет разработку восьми программ по обработке текстовой, аудио и фото/видеоинформации. Результаты и опыт внедрения в открытых источниках не доступны.

Программа BETTER (Better Extraction from Text Towards Enhanced Retrieval)

Особенность языка средств массовой информации заключается в наличии социальной оценки. Это связано с функцией оказания влияния на аудиторию. Для этого СМИ используют широкий набор оценочных средств для отображения событий.

Программа BETTER направлена на извлечение сложной неструктурированной семантической информации из множества текстов на различных языках. В частности для обнаружения и сортировки документов с этой информацией из большого массива данных. Источниками текстовой информации могут быть средства массовой информации, социальные сети, веб-сайты. Программа также рекомендует документы для анализа с учетом запросов пользователей.

Принцип работы методов построен на вопросах кто? что? с кем? когда? где делал, и на возможности учитывать смысл человеческих суждений об информации.

В рамках программы BETTER в 2020 году группой ученых из Университета в Орегоне совместно с Adobe Research проведен ряд исследований по анализу текстовой информации.

Для целевого извлечения слов-мнений (Targeted Opinion Word Extraction, далее – TOWE) в модели глубокого обучения введены синтаксические структуры предложений. Это составляет часть аспектно-ориентированного анализа тональности (Aspect Based sentiment Analysis, далее – ABSA)1ABSA позволяет найти слова-мнения для конкретного термина в предложении. Модель искусственного интеллекта ТOWE идентифицирует слова в предложении, которые выражают отношение автора к объекту, представленному целевым словом. Например, в предложении «Все гарантии, соблюдаемые компанией «Х», которую я считал уважаемой компанией, разочаровывают». Слово «разочаровывает» – это слово-мнение для целевого слова «гарантии», а для целевого слова «компания» слово-мнение будет включать «уважаемый».

Для каждого предложения может быть выстроено дерево зависимости, что позволяет провести целевой анализ настроений и обобщений мнений.

На основе деревьев синтаксической зависимости предлагаются две основы синтаксической информации для глубокого обучения TOWE – это оценки вероятности мнений, основанные на синтаксисе и синтаксические связи слов. Слова, расположенные ближе к целевому слову в дереве зависимостей входного предложения имеют больше шансов стать словами-мнениями для TOWE. Например, в предложении, приведенном выше слово-мнение «разочаровывают» последовательно далеко от целевого слова «гарантии». Однако в дереве зависимостей, «разочарование» напрямую связано с «гарантиями», что уменьшает расстояние между «разочаровывают» и «гарантиями». Таким образом, длина соединяющего пути в дереве зависимостей является целевой функцией для TOWE. Расстояние между словами и целевым словом в деревьях зависимостей показывает, насколько вероятно слово является словом-мнением для TOWE (так называемые, оценки возможностей на основе синтаксиса). Затем эти оценки возможностей вводятся в модели глубокого обучения TOWE.

В рамках программы проведено исследование в области обнаружения событий (Event Detection, далее – ED) путем извлечения информации при обработке естественного языка.

Задача исследования состоит в определении элементов событий, представленных в тексте. Для каждого события существует слово-триггер, которое четко определяет это событие.

Для обнаружения события необходимо идентифицировать все триггеры и классифицировать их по определенным группам. Например, в предложениях: «They will be fired on at the crossing» и «She is on her way to get fired» идеальная модель обнаружения событий должна в первом случае распознавать слово fired как триггер для события «атака», и как «новая позиция» во втором. Сложность заключается в сохранении лишней информации в свёрточных нейронных сетях (далее – GCN), которая не имеет отношения к словам-кандидатам в триггеры. Решение этой проблемы подразумевает ввод фильтров для лишней (зашумленной) информации в скрытых векторах GCN.

В предложенной модели каждое слово в предложении оценивается и ранжируется по важности. Оценка важности производится на основе графа для каждого слова, в зависимости от его расстояния до кандидата в триггер. Эти оценки важности включаются в модель обнаружения событий.

Таким образом, предложенная модель ИИ представляет собой сложный механизм фильтрации текста на основе GCN.

Программа MATERIAL (Machine translation for englich retrieval in any language)

Программа MATERIAL представляет методы поиска речевого и текстового контента на языках с ограниченными ресурсами2Языки с ограниченными ресурсами – редкие языки, которые отвечают предметно-контекстным запросам на английском языке. Такие методы должны использовать минимум обучающих данных и быстро экстраполироваться на новые языки. Ответ на контекстный запрос должен охватывать различные источники и предоставлять краткое резюме на английском языке.

Инструментарий программы учитывает фонетику, морфологию, порядок слов и социолингвистические особенности, включая диалектологию, стандартизацию письменности, грамотность и диалектологию.

Форматы запросов в виде входных данных ограничиваются сферой применения, например, «правительство» и «образ жизни», и тематической информацией, например, «вакцина против полиомиелита».

Таким образом, выходные данные соответствующие заданной теме и сфере могут выглядеть следующим образом: «В ответ Министерство здравоохранения Армении призвало всех сирийских армян младше 15 лет произвести вакцинацию против полиовируса». Возможны также необычные конструкции запросов для поиска специфической информации с использованием расширенных филологических и лингвистических методов. Для этого используется: семантическое расширение (поиск и анализ дополнительных ключевых слов, относящихся к запросу); устранение неоднозначности (выбор определенного смысла слов исходя из их контекста); категориальная принадлежность (взаимосвязь между субъектом и действием); морфологическое ограничение (контекстная связь субъекта и действия).

Программа должна распознавать запросы в различных жанрах, учитывать формальный и неформальный язык, языковые несоответствия в предметной области, культурный компонент.

Для обучения используется 75% текстовой информации и 25% разговорной речи.

Программа JANUS

Цель программы JANUS заключается в улучшении инструментов распознавания лиц за счет объединения обширной пространственной, временной и контекстной информации, доступной из множества изображений, полученных СМИ из случайных источников.

Программа построена на наборах данных для идентификации голосовой и лицевой модальностей. Наборы данных анализируются с помощью мультиалгоритмических и мультимодальных методов смешивания биометрических характеристик одной из модальностей. Среди основных методов обработки видео выделяют метод диаризации (diarization), то есть процесс разделения входящего аудиопотока на однородные сегменты в соответствии с принадлежностью аудиопотока определенному спикеру; метод распознавания рукописного текста (handwritten recognition, далее – HWR), то есть оптического попиксельного распознавания на основе вектора графических признаков; метод распознавания речи; метод обнаружения событий (ED). Эти методы направлены на распознавание человека в мультимедийных данных.

Новизна метода заключается в распознавании человека по одному из признаков – по голосу или видео, если этот признак имеет метку в наборе данных. Распознавание происходит на автоматически помеченных данных. Программа JANUS включает метки, как для голоса, так и для лица, с постоянным увеличением наборов данных.

Результатом разработок должны стать репрезентативные модели ИИ, способные кодировать форму, текстуру и динамику лица, распознавать голос при наличии постороннего шума. Таким образом, эти модели решат проблемы распознавания объекта из-за старения, позы, освещения и выражения экспрессии объекта, используя все доступные изображения. Программа состоит из четырех наборов данных.

Набор данных Janus Multimedia – расширенный набор данных, который добавляет метки для голоса к уже существующим меткам лица и состоит из нескольких наборов данных. Тестирование программы JANUS Multimedia показало значительное увеличение производительности по распознаванию. Для интеграции изображений и голосов в программе используются несколько вспомогательных баз данных.

Набор данных «говорящий в дикой природе» (Speakers in the Wild, далее – SITW) обеспечивает сложные условия для распознавания голоса в различных видеозаписях, но не поддерживает мультимодальную обработку3Мультимодальная обработка в данном случае – это возможность совмещения признаков, например, лица и голоса с целью распознавания личности. База данных распознавания речи SITW содержит образцы речи, аннотированные вручную из открытых источников. Это позволяет распознавать говорящего и/или говорящих на аудио, полученной в «диких» условиях независимо от текста. База данных состоит из записей 299 спикеров, в среднем по восемь различных сессий на человека. Отличие от существующих баз данных заключается в сохранении естественных условий записи, содержащих реальный шум, реверберацию4Реверберация — это процесс постепенного уменьшения интенсивности звука при его многократных отражениях, артефакты сжатия5 Артефакты сжатия – это заметные искажения звука, например, звон, эхо и пр.

Набор данных VoxCeleb – набор данных с фрагментами высказываний для более чем тысячи публичных личностей представляет собой идентификатор для видео, собранный с помощью автоматической маркировки говорящих по сопоставлению лиц и произносимых слов. Это позволяет определить говорящего по произнесенному высказыванию и/или определить совпадение между заданным высказыванием и моделью. Этот набор данных представляет ценность для мультимодального распознавания.

Наборы данных по распознаванию лиц из YouTubeFace и Labeled Faces in the Wild представляют наборы данных в виде отдельных сегментов видео и/или ключевых кадров из видеороликов или из аннотированных трейлеров фильмов или телевизионных эпизодов.

На основе этих наборов данных программа JANUS непрерывно расширяет собственную базу данных распознавания лиц, голосов, мимики, географических районов и пр.

В последнюю редакцию под названием IarpaJanusBenchmark – C (далее – IJB-C) вошли 31334 отдельных изображений, 3531 людей (примерно 6 снимков на 1 изображение), 11779 видео, 117542 кадров. В основе методологии обнаружения лиц, верификации, распознавания и кластеризации лежат принципы последовательного анализа нейросетевых признаков. Все объекты в наборе данных обязательно появляются как минимум в двух неподвижных изображениях и одном видео. Все ограничивающие прямоугольники и метки метаданных помечены с помощью краудсорсинговой платформы Amazon Mechanical Turk (далее – AMT).

Отличие базы данных IJB-C заключается в наличии субъектов с полной вариативностью позы; наличии субъектов с различными видами деятельности (не только публичных лиц); аннотировании метаданных для конкретных изображений и кадров, включая информацию о закрытых областях лица; работе биометрического распознавания в двух режимах – проверка 1:1 (система проверяет только один биометрический профиль, поэтому проверка называется «один к одному» или соответствие 1:1.), 1:N (система сравнивает лицо со всеми изображениями в базе данных и находит совпадения, поэтому проверка называется «один ко многим» 1:N); кластеризации и сквозной оценки системы; обеспечении высокой точности с помощью алгоритма компьютерного зрения State-Off-The-Shelf6Метод компьютерного зрения, который можно напрямую применить к данным без предварительной обработки и настройки процедуры учения и современных алгоритмов распознавания лиц, которые используют глубокие нейронные сети; в стабильности загруженных изображений, которые остаются неизменными с течением времени (в отличие от наборов данных, которые состоят из ссылок); соблюдении права на распространение через систему лицензирования Creative Commons.

Кроме этого, существует набор данных IARPA Janus Benchmark – S (IJB – S), который состоит из изображений и видеонаблюдений, собранных в учебном центре Министерства обороны. Каждое видео аннотировано экспертами в предметной области с целью создания подлинной идентичности. В общей сложности для набора данных собрано более 10 миллионов аннотаций.

Система CLIR (Cross-language Information Retrieval)

Система CLIR позволяет извлекать релевантный контент на языке отличном от запроса.

Для функционирования системы машинного перевода необходимо определить оптимальное сочетание языков для обучения и тестирования системы. При выборе языков учитываются два наиболее существенных фактора: типологическое разнообразие, измеряемое различными фонологическими, морфологическими и синтаксическими свойствами, и доступность ресурсов.

Идентификация запросов должна производиться без дополнительного обучения исходному языку.

В этой связи собранные и аннотированные языки должны присутствовать в сети Интернет. В мае 2020 было представлено шесть языков: тагальский (TGL), суахили (SWA), сомалийский (SOM), болгарский (BUL), литовский (LIT), пуштунский (PUS).

Производительность системы CLIR определяется взвешенным значением вопроса (Actual Query Weight Value, далее – AQWV). Данная переменная построена на основе значения веса термина (Actual Term Weight Value, далее – ATWV), который использовался в программе IARPA Babel. Это позволяет обрабатывать все запросы, независимо от количества аннотированных документов. Формула релевантности документа запросу построена на априорных вероятностях, которые изменяются при разных условиях, но остаются постоянными для всех описанных данных.

Программа MATERIAL также предоставила около шестисот переведенных документов в виде данных для анализа распознавания речи и машинного перевода (далее – MT) с использованием показателей Word Error Rate (далее – WER) и Bilingual Evaluation Understudy (далее – BLEU)7 BLEU – алгоритм измерения различий между автоматическим переводом и одним или несколькими эталонными переводами. WER – показатель ошибок распознавания слов.. Для выявления степени корреляции с производительностью обработки естественного языка (Natural Language Processing, далее – NLP) были выбраны переменные из Всемирного атласа языковых структур (World Atlas of Language Structures, далее – WALS).

Таким образом, система CLIR позволяет определить, какие языковые параметры наиболее важны при обработке естественного языка. Также доказано, что некоторые типологические параметры, которые интуитивно кажутся значимыми не коррелируют с приложениями NLP.

Система CLS (Cross-language summarization)

Увеличение цифрового контента требует быстрой адаптации технологий NLP к новым языкам, жанрам подачи информации и сферам распространения.

Система CLS предоставляет пользователю возможность оценить релевантность извлеченных документов на иностранном языке без знания языка этих документов.

Для глубокого обучения недостаточно обучающих данных для языков с ограниченными ресурсами.

Другие программы IARPA

Программа ODIN

Спрос на надежную и автоматическую аутентификацию личности привел к развитию биометрических систем, в том числе национальных и международных инициатив, такие как программа UniqueID в Индии или программа SmartBorder Европейской Комиссии.

Эти инициативы направлены на распознавание атака на биометрические параметры. В частности, создаются инструменты атаки на биометрическое предъявление (Presentation attack instruments, далее – PAI), которые не требуют знаний в области функционирования устройства биометрического захвата. Цель атак может заключаться в присвоении чужой личности или сокрытии собственной. Методы обнаружения атак на основе презентации (Presentation attack detector, далее – PAD) представлены в программе IARPA Odin.

Программа Odin выявляет атаки на системы безопасности с помощью двух компонентов Thor и Loki и сосредоточена на защите трех основных биометрических параметрах: лицо, отпечаток пальца и радужная оболочка глаза.

Для обнаружения PAI в программе Odin используются два компонента Thor и Loki. Thor разрабатывает технологию обнаружения атак, а Loki тестирует Thor. Тем не менее, обученная нейронная сеть при тестировании неизвестных видов PAI допустила в шесть раз больше ошибок в отношении точности обнаружения по сравнению с известными атаками.

Для обеспечения устойчивости к неизвестным атакам используются мультиспектральные технологии в ближней инфракрасной области (Near infrared spectroscopy, NIR) для распознавания лиц и отпечатков пальцев. Задача исследования состоит в создании алгоритма, основанного на отличии кожи от других материалов. Множественность цветов кожи преодолевается за счет коротковолнового инфракрасного диапазона (Short wave infrared, далее – SWIR). Кожа проявляет свойства ремиссии для многоспектральных длин волн SWIR, которые не зависят от возраста, пола или типа кожи. Программа будет способна отличать человеческие параметры от других материалов, например кожу от силикона, стекло от человеческого глаза.

В рамках исследовательской программы Odin создана база данных, которая включает 35 видов PAI.

Программа OSI (Open Source Indicators)

В 2013 году IARPA запустила программу Индикаторы открытых источников (OSI), которая осуществляет разработку методов непрерывного и автоматизированного анализа публично доступных данных с целью распознавания и/или заблаговременного выявления политических кризисов, очагов эпидемий, экономической нестабильности, дефицита ресурсов и природных бедствий.

Программа будет обрабатывать метафоры на четырех языках: английском, русском, фарси и испанском.

Современные формы коммуникации (социальные сети, микроблоги) способствуют разработке новых методов понимания и прогнозирования событий. Анализ активности населения с помощью «массивных пассивных» данных позволяет прогнозировать формирование массовых общественных движений.

EMBERS (Early model based event regognition using surrogates)

EMBERS ‒ это интеллектуальная система прогнозирования значимых социальных явлений. Система использовала индикаторы открытых источников, таких как новости, блоги, твиты, цены на продовольствие, курсы валют и другую открытую информацию в режиме 24/7.

Прогнозы разделены по регионам: Латинская Америка, Северная Африка и Ближний Восток и ежемесячно сравниваются с данными корпорации MITRE, которые называются Отчет Золотого Стандарта (Gold Standard Report, далее – GSR). Это делается для сопоставления прогнозов, сделанных программой и людьми.

Система EMBERS генерирует прогнозы для нескольких классов событий: гриппоподобные заболевания; редкие заболевания; выборы; внутриполитические кризисы; и гражданские беспорядки.

В работе системы апробировались реальные события, для которых EMBERS нашла индикаторы в контенте социальных сетей и составила прогнозы, которые соответствовали времени событий, и их траектории с точки зрения размера и интенсивности. Два ключевых примера связаны с серией протестов в Бразилии в 2013г. и протестов студентов в Венесуэле в 2014 г.

Система EMBERS состоит из четырех основных компонентов обработки данных: прием данных, обогащение данных, аналитическое моделирование и синтезировании прогнозов. Основной режим обработки заключается в анализе потоковых данных. Также система может производить пакетную обработку, агрегирование и хранение прошлых данных. Потоковая обработка данных осуществляется как агрегация статистики (например, количество слов) или как создание скользящих окон данных (например, для обработки временных рядов).

В системе EMBERS происходит одновременно несколько взаимодействующих процессов, которые обрабатывают несколько потоков данных одновременно. Это позволяет непрерывно поставлять данные для моделей генерации прогнозов.

Для каждого элемента входных данных компоненты системы EMBERS выполняют определенные действия, например, токенизация текста8 Токенизация – случайно сгенерированное буквенно-цифровое значение (токен) заменяющее важную информацию , нормализация дат, геокодирование сообщений. Выходные данные этого действия добавляются в структуру данных. Таким образом, могут составляться новые типологии для маршрутизации и новые компоненты в работающую систему.

Облегченная передача сообщений и открытые форматы данных позволяют экспериментировать с различными инструментами и источниками данных и интегрировать их в систему. Это позволяет добавлять новые этапы обработки или параллельные пути обработки данных без нарушения существующих потоков. Каждое сообщение в системе EMBERS помечено глобальным уникальным идентификатором и меткой времени.

Цепочка сообщений, которая приводит к прогнозу, может быть разобрана на составные части исходного сообщения, например, текст в твите, новость, статью, что позволяет добавлять и/или удалять источники данных, определять их влияние на сгенерированный системой прогноз и проверять достоверность. Разработка программы OSI завершена в 2016 году.

Программа Aladdin Video (Automated Low-level Analysis and Description of Diverse Intelligence Video)

Цель программы заключается в автоматическом мониторинге больших массивов визуальной информации, создании алгоритмов скоростной видеообработки и технологий поиска по аналогии.

Программа объединяет различные подходы к обработке и анализу видео и включает методы классификации видео на основе свёрточных нейронных сетей, рекуррентных нейронных сетей, анализ видео по субтитрам. Субтитры предоставляют возможность моделирования визуального понимания и языкового описания видео.

В программу Aladdin включены такие направления исследований, как специальный поиск видео (Ad-hoc Video Search, AVS); поиск экземпляра (Instance Search, INS);  обнаружение мультимедийных событий (Multimedia Event Detection, MED); обнаружение событий наблюдения (Surveillance Event Detection, SED); гиперссылка на видео (Video Hyperlinking, LNK); видео в текстовое описание (Video of Text Description, VTT).

Заключение

Научно-разведывательные программы IARPA ориентированы на практическое применение. Цели проанализированных программ заключаются в автоматической обработке любой поступающей информации из средств массовой информации: текст, аудио, фото, видео. В рамках программ разрабатываются инструменты для структурирования поступающей информации на любом языке для прогнозирования событий и влияния на международную обстановку.

Это подтверждаются определенным набором языков для лингвистических программ, акцентом на извлечение культурной специфики, разработкой методов быстро дополняемых данных, требующих минимальных временных затрат, непрерывном обучении систем.

  • 1
    ABSA позволяет найти слова-мнения для конкретного термина в предложении
  • 2
    Языки с ограниченными ресурсами – редкие языки
  • 3
    Мультимодальная обработка в данном случае – это возможность совмещения признаков, например, лица и голоса с целью распознавания личности
  • 4
    Реверберация — это процесс постепенного уменьшения интенсивности звука при его многократных отражениях
  • 5
    Артефакты сжатия – это заметные искажения звука, например, звон, эхо и пр
  • 6
    Метод компьютерного зрения, который можно напрямую применить к данным без предварительной обработки и настройки процедуры учения
  • 7
    BLEU – алгоритм измерения различий между автоматическим переводом и одним или несколькими эталонными переводами. WER – показатель ошибок распознавания слов.
  • 8
    Токенизация – случайно сгенерированное буквенно-цифровое значение (токен) заменяющее важную информацию
Поделиться