О рисках распространения «обезличенных» данных

Бесплатное антивирусное ПО чешского производства Avast и AVG годами отслеживало все действия пользователя, как выяснилось в 2019 году. Собранные данные включают в себя всё, что люди искали и нажимали, от страниц в LinkedIn до поиска на PornHub и покупок на Amazon. Затем данные отправлялись в дочернюю компанию Avast, которая продавала информацию. Avast оправдывалась тем, что данные были обезличены.

Между тем национальные законы о защите данных не рассматривают обезличенные данные как персональные. Это, возможно, упущение: «обезличивание» не избавляет обладателя персональных данных (ПД) от риска утратить сетевую анонимность.

У профессионалов эти объяснения сочувствия не вызвали. Mozilla немедленно запретила расширения браузера Firefox от Avast и AVG, Google также запретил эти расширения для браузера Chrome.

Из истории обезличивания данных

В 1790 году состоялась первая общенациональная перепись населения США, она потребовалась для пропорционального распределения между штатами 435 мест в палате представителей Конгресса. Следующие полвека переписи населения, а они проводились каждые 10 лет, не уделяли никакого внимания вопросам защиты ПД. Но при переписи 1850 года собирались сведения о домовладениях, налогообложении, религии граждан и т.п. Статистику об уровне доходов стали использовать для изучения потребительского спроса, выбора мест для строительства магазинов, организации общественных работ для безработных. Это порождало риски, связанные с неправомерным использованием ПД, и начиная с 1850 года из публикуемой информации статистического бюро США ПД стали удалять.

Быстро выяснилось, что чем больше ограничений накладывается на информацию, содержащуюся в наборах данных, тем меньше остаётся областей, где можно применить полученные сведения. Возникла идея «обезличивать» данные, т.е. модифицировать их определённым образом, так, чтобы затруднить или сделать невозможным выяснение личности гражданина, к кому относится запись.

Для обезличивания данных с помощью компьютеров в 60-х годах применялись (и применяются) такие методы, как округление чисел, добавление случайных отклонений в реальную выборку, агрегация родственных данных с общими признаками, публикация производных вместо оригинальных данных (например, полученных путём вычитания или сложения) и др.

Однако есть ряд исследований, которые показывают, что обезличивание собираемой информации — это далеко не гарантия защиты от т.н. ре-идентификации, то есть раскрытия личности человека по данным, имеющимся в обезличенном наборе. Сбор ПД, как бы их не обезличивали, всё равно несёт потенциальную угрозу для пользователей. Особенно серьёзной эта угроза становится в случае объединения наборов информации, полученных из разных источников.

Объединение наборов данных

Считать, что личная информация, будучи «обезличенной», находится в безопасности, будет ошибкой. Главный риск заключается в том, что набор данных из одного источника легко связать с другим через поле, которое присутствует в обоих наборах.

Исследование, проведённое в MIT (Массачусетский технологический институт) в 2018 году, показало, что для того, чтобы с вероятностью 95% деанонимизировать человека в Сингапуре, достаточно 11 недель накапливать два набора данных «низкой плотности»: 1) отметок об использовании мобильного устройства в поездках на общественном транспорте (такими данными располагают сотовые операторы) и 2) данных о поездках в общественном транспорте с фиксацией времени (эти данные собирает служба общественного транспорта).

Термин «низкая плотность» означает, что фиксируются далеко не каждая поездка и далеко не каждое наблюдение за использованием смартфона. Если взять пользователей, имеющих от 30 до 49 записей о поездках и около 1000 записей их мобильного оператора, вероятность успешной идентификации составляет около 90%.

В случае объединения двух наборов данных с третьим – метками GPS, которые регулярно собираются приложениями для смартфонов, идентификация человека с вероятностью 95% возможна менее чем за неделю наблюдений.

Это значит, что у типичного абонента сети сотовой связи, пользующегося общественным транспортом, и подвергающегося хотя и нечастым, но регулярным наблюдениям, нет шансов сохранить анонимность.

Студенты Инженерной школы и прикладных наук Гарвардского университета в 2020 году создали программный продукт, анализирующий большие массивы наборов пользовательских данных, которые размещены в открытом доступе либо попали в открытый доступ в результате небрежности, взлома или другого рода утечек. Для работы программа использует информацию, объединенную из 959 наборов данных, начиная с 2015 года, таких, как сведения из бюро кредитных историй Experian, социальной сети LinkedIn, генеалогического сервиса MyHeritage и других ресурсов, включая порносайты. Получив на входе e-mail, имя, никнейм человека или их сочетание, программа, выявив единственное совпадение по одному из исходных данных, с высокой вероятностью способна идентифицировать человека.

В 2016 году немецкие журналисты совместно со специалистами на основании обезличенного набора данных, содержащего историю просмотров сайтов (9 миллиардов записей) 3 миллионов граждан Германии, идентифицировали политиков, раскрыв их медицинскую информацию и сексуальные предпочтения.

Подобных примеров множество.

Исследование Imperial College London

Эксперты по контролю за раскрытием статистической информации и некоторые компании оспаривают опасность, утверждают, что, поскольку всегда остаётся вероятность ошибочной идентификации на основе наборов обезличенных данных, для жертвы деанонимизации всегда возможно и «веское правдоподобное отрицание». Некоторые эксперты считают даже, что таким образом можно аргументировать соответствие систем обработки обезличенных данных строгому европейскому регламенту (GDPR).

Однако в исследовании 2019 года учёные Imperial College London (Имперский колледж Лондона) представили модель машинного обучения, которая способна правильно идентифицировать 99,98% американцев в любом обезличенном наборе данных, используя не более 15 демографических атрибутов (таких, как дата рождения, пол, раса, возраст, семейное положение, количество детей и пр.).

Результаты исследования показывают, что «обезличивание» открытых наборов данных несёт практические риски, и что «веское правдоподобное отрицание» не спасёт жертву деанонимизации.

Для иллюстрации исследователи приводят пример: страховая компания организует конкурс по прогнозированию раковых заболеваний с помощью искусственного интеллекта (ИИ) и публикует ограниченный набор обезличенных данных (выборка составляет 1 тысячу записей из 100 тысяч застрахованных) о людях с подтверждёнными диагнозами. Что, если работодатель увидит в этом наборе запись о неизлечимо больном человеке, данные которого (дата рождения, пол, место проживания, антропометрические данные и пр.) полностью совпадают с данными одного из его работников? В этом случае аргумент страховой компании «это просто совпадение, ваш знакомый может быть любым из 99 тысяч здоровых людей, не попавших в выборку», никому не поможет – последствия равны тому, что страховая компания выдала медицинскую тайну.

О распространении данных из ГИС

Государственные органы используют в своей деятельности в том числе персональные данные, обрабатываемые в государственных информационных системах (ГИС). Эти данные защищены – ввод в действие ГИС осуществляется только после проведения аттестации ГИС на соответствие требованиям по защите информации, проводимой в соответствии с положениями ряда документов, включая ГОСТы. Аттестация ГИС может проводиться только организацией – лицензиатом ФСТЭК России.

В настоящее время в РФ реализуется ряд программ в области развития искусственного интеллекта. В рабочей группе «Искусственный интеллект» АНО «Цифровая экономика» эксперты обсуждают порядок, предусматривающий предоставление федеральными органами исполнительной власти и государственными внебюджетными фондами в рамках программ цифровой трансформации доступа к обезличенным наборам данных для обучения ИИ-систем.

После обезличивания и передачи наборов данных широкому кругу лиц их обработка и хранение могут осуществляться без соблюдения требований, предъявляемых к ГИС. Фактически полученные наборы обезличенных данных из ГИС различных государственных органов не будут отличаться от данных, полученных из других источников. Это вызовет риски применения к полученным данным методов деанонимизации.

Выводы

Существует ряд исследований и значительное количество примеров, подтверждающих возможность идентификации человека по набору обезличенных данных, особенно в случае объединения информации из нескольких источников. Достоверность и простота идентификации значительно возрастают с увеличением количества источников данных и расширения атрибутов (полей данных) в записях каждого набора данных.

Вследствие этого распространение обезличенных данных, в том числе из ГИС, несёт неиллюзорные риски деанонимизации таких данных третьими лицами и дальнейшего использования их в противоправных целях: публикации чувствительной информации в открытых источниках, вмешательства в личную жизнь, компрометации публичных лиц, шантажа, а также преступлений в финансовой и компьютерной сферах с использованием методов социальной инженерии.

Надёжные методы обезличивания ПД, возможно, существуют. Но их существование пока не доказано. Напротив, методы деанонимизации обезличенных наборов ПД разработаны и с успехом применяются на практике.

Поделиться