Методы выявления потенциально опасных событий в социальных сетях

Время на прочтение: 3 мин

В середине 2022 года MDPI опубликовал статью о тенденциях и методах обнаружения событий в социальных сетях. Развитие направления по обнаружению (опасных) событий в социальных сетях способствуют пониманию состояния общества и изучению социально опасных для общества событий.

Сегодня необходимо развивать методы обнаружения событий, совместимые с разнородными данными, например, языком и платформой.

По данным статьи, в 2021 году около 4,48 миллиарда человек используют социальные сети. Это означает, что пользователи социальных сетей составляют 57% население мира. Это позволяет авторам сравнить социальные сети с «самым большим виртуальным датчиком».

Системы обнаружения событий из данных социальных сетей фиксируют различные события в режиме реального времени, или события, которые могут произойти в будущем. Таким образом, они позволяют понять какое именно событие, где и когда может произойти. При этом вариативность событий включает политические, культурные, религиозные, спортивные и пр.

Анализ социальных сетей позволяет типологизировать следующие виды событий:

природные явления включают стихийные бедствия, землетрясения, метеорологические события, обнаружение осадков;

подозрительные события включают преступления, насильственные действия, протестные действия, террористическое поведение;

события здравоохранения включают заболеваемость, наркотики, оздоровительные события;

сопутствующие события включают чрезвычайные происшествия, кризисные ситуации, обнаружение слухов, обнаружение кибер-атак;

обнаружение событий дорожного движения. Эти события могут превращаться в разрушительные пространственно-временные события;

другие события включают спортивные события, суб-события, события в реальном времени.

Сложность анализа социальных сетей заключается в разнообразии типов данных – текст, изображения, видео. Это требует набора определенных методов, которые характеризуют общую модель анализа – сбор данных, предварительную обработку, обработку, классификацию, визуализацию.

Таким образом, сбор данных осуществляется из API1API (application programming interface, или программный интерфейс приложения) — набор функций, который помогает приложениям, сервисам и прочему программному обеспечению обмениваться данными, с помощью краулера2Программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика, сравнительного анализа данных, ручного сбора данных аналитиками. Далее осуществляется предварительная обработка данных и извлечение признаков. После этого происходит классификация, выявление и прогнозирование события. Для этого используют методы неглубокого машинного обучения (k-ближайший сосед3Метод k-ближайший сосед – один из наиболее простых алгоритмов классификации для задач классификации и регрессии, метод опорных векторов4Метод опорных векторов – простой метод классификации и регрессии., наивный Байесовский классификатор5Наивный Байесовский классификатор – это то алгоритм машинного обучения, предназначенный для многоклассовой классификации данных с независимыми признаками. За один проход вычисляется условная вероятность каждого признака, затем применяется теорема Байеса для нахождения распределения вероятности наблюдений, случайный лес6Метод случайного леса – это ансамблевый метод из большого количества деревьев решений. Каждое дерево в случайном лесу возвращает прогноз класса, и класс с наибольшим количеством голосов становится прогнозом леса, дерево решений7Алгоритм дерева решений – это простой алгоритм описания, классификации и нахождения зависимости между данными, логистическая регрессия8Логистическая регрессия – это прогнозирование вероятности возникновения некоторого события путём его сравнения с логистической кривой, которая моделирует кривую роста вероятности определенного события). Эти методы представляют контролируемые методы обучения. То есть, характеристики события в них предопределены, а события обнаруживаются или прогнозируются с использованием предопределенных меток или характеристик. Таким образом, они подходят только для определенных событий, например, празднования, протеста, религиозных событий, стихийных бедствий;

методы глубокого машинного обучения (долгая краткосрочная память9Долгая краткосрочная память – это архитектура, которая сохраняет информацию и имеет обратные связи, BERT10Модель BERT – это модель, которая улавливает связь в двух предложениях, идущих подряд, и определяет зависимость между ними, глубокая нейронная сеть11Глубокая нейронная сеть для выявления событий позволяет определить результат по набору входных данных, свёрточная нейронная сеть12Свёрточные нейронные сети – это основной инструмент для классификации и распознавания объектов, лиц на фотографиях, распознавания речи). Эти методы представляют неконтролируемые подходы, то есть, обучение на предоставленных данных для классификации различных событий и тем в разных областях. При использовании этих методов нет необходимости задавать характеристики событий заранее. Это экономит время и упрощает расчеты. Вместе с этим, события могут быть неправильно идентифицированы или определены в неправильный кластер. Это требует большого количества обучающих данных;

методы на основе правил представляют набор правил, созданных человеком по хранению и обработке данных в системах для имитации человеческого интеллекта. То есть, для каждой задачи необходим отдельный набор правил, который обеспечивает способ обнаружения событий в конкретной области. Однако эти методы не позволяют обнаружить множественные события или подходы к кластеризации, поскольку правила не генерируются динамически. Следовательно, широкий диапазон обнаружения событий невозможен без предварительных данных;

другие методы включают наибольшую общую подпоследовательность, которая представляет алгоритм для программ сравнения файлов; графовый подход, предлагающий изучение сложных неочевидных зависимостей между сущностями; техники обработки естественного языка, включая лемматизацию/стемминг13Приведение слова к канонической форме, мешок слов14Техника извлечения признаков, то есть конвертация текста в набор цифр. и др.; слабоконтролируемую систему обучения, которая подразумевает оценку эталонных данных в тексте.

Выводы

Авторами статьи предложена типологизация событий в социальных сетях и методов обнаружения. Для оценки эффективности классификаторов использовались метрики обнаружения аномалий для задач двоичной классификации – TP (true positive), FP (false positive), TN (true negative), FN (false negative). Кроме этого, авторы выявили, что разные модели работают для обнаружения разных событий. Например, для обнаружения протеста лучше всего работает байесовский классификатор; для обнаружения катастроф лучше работают модели bi-LSTM15Bi-LSTM – двунаправленная сеть долгой краткосрочной памяти и свёрточные нейронные сети; для обнаружения болезней и землетрясений – метод опорных векторов; для обнаружения насильственных событий – модель логической регрессии.

Параллельно, авторы отмечают отсутствие мультиплатформенной системы сбора и анализа данных, отсутствие эффективных систем работы в режиме реального времени и служб быстрого реагирования.

  • 1
    API (application programming interface, или программный интерфейс приложения) — набор функций, который помогает приложениям, сервисам и прочему программному обеспечению обмениваться данными
  • 2
    Программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика
  • 3
    Метод k-ближайший сосед – один из наиболее простых алгоритмов классификации для задач классификации и регрессии
  • 4
    Метод опорных векторов – простой метод классификации и регрессии.
  • 5
    Наивный Байесовский классификатор – это то алгоритм машинного обучения, предназначенный для многоклассовой классификации данных с независимыми признаками. За один проход вычисляется условная вероятность каждого признака, затем применяется теорема Байеса для нахождения распределения вероятности наблюдений
  • 6
    Метод случайного леса – это ансамблевый метод из большого количества деревьев решений. Каждое дерево в случайном лесу возвращает прогноз класса, и класс с наибольшим количеством голосов становится прогнозом леса
  • 7
    Алгоритм дерева решений – это простой алгоритм описания, классификации и нахождения зависимости между данными
  • 8
    Логистическая регрессия – это прогнозирование вероятности возникновения некоторого события путём его сравнения с логистической кривой, которая моделирует кривую роста вероятности определенного события
  • 9
    Долгая краткосрочная память – это архитектура, которая сохраняет информацию и имеет обратные связи
  • 10
    Модель BERT – это модель, которая улавливает связь в двух предложениях, идущих подряд, и определяет зависимость между ними
  • 11
    Глубокая нейронная сеть для выявления событий позволяет определить результат по набору входных данных
  • 12
    Свёрточные нейронные сети – это основной инструмент для классификации и распознавания объектов, лиц на фотографиях, распознавания речи
  • 13
    Приведение слова к канонической форме
  • 14
    Техника извлечения признаков, то есть конвертация текста в набор цифр. и др
  • 15
    Bi-LSTM – двунаправленная сеть долгой краткосрочной памяти