Доверие к моделям машинного обучения

Время на прочтение: 2 мин

Приближение искусственного интеллекта (далее – ИИ) к уровню человека стало возможным благодаря достижениям в области машинного и глубокого обучения.

Глубокое обучение – это статистический метод классификации шаблонов с использованием больших наборов обучающих данных и многоуровневых нейронных сетей. Каждая искусственная нейронная единица связана с другими такими же единицами, а их связи могут быть статистически усилены или ослаблены на основе данных для обучения.

Задачи для машинного обучения имеют несколько критериев. В частности, наличие больших наборов данных с четко определенными парами ввода и вывода по обучению классификаторов машинного обучения. Например, помеченные изображения вида животных или двуязычные пары документов для алгоритмов машинного перевода.

Проблема доверия возникает из-за сложности объяснения методов предсказания машинного обучения. Они основаны на корректировании числовых весов, которые связывают огромное количество искусственных нейронов и сильно отличаются от методов, которые использует человек. Точность прогноза, создаваемого ИИ напрямую зависит от объема набора обучающих данных, но чем больше объем, тем сложнее объяснить, как был сделан прогноз.

В рамках онлайн-семинара профессора Стэнфордского университета К. Гестрина «Как доверять машинному обучению?» представлена основа для доверия ИИ, которая состоит из ясности, компетентности и согласованности. Сегодня модели машинного обучения представляют «черные ящики». Для принятия решения на основе прогнозов МО или преобразования ненадежной модели МО в надежную необходимо понимание причин, которые лежат в основе прогнозов.

Особенно важно доверять моделям в медицине, вынесении приговоров, обнаружении терроризма и других приложениях в которых требуется суждение человека.

При этом, кроме доверия к отдельным прогнозам, необходимо доверие к модели в целом для ее развертывания в реальных условиях. Здесь пользователи могут столкнуться с проблемами в работе модели на реальных данных.

Объяснение прогноза предполагает представление текстовых или визуальных артефактов, которые позволяют понимать взаимосвязь между компонентами, например, между словами в тексте или участками изображения и прогнозом модели. Такой метод получил название LIME (Local Interpretable Model-agnostic Explanations). Он предполагает построение локальных рассеянных линейных моделей вокруг каждого прогноза.

С помощью LIME возможно аппроксимировать поведение модели машинного обучения любой сложности при помощи более простых локальных моделей. Выбирая локальные модели и искажая или изменяя входные данные можно увидеть как меняются прогнозы и выбрать те локальные модели, чьи прогнозы ближе к прогнозам исходной модели. Локальные модели проще и понятнее человеку. Эффективное объяснение модели должно иметь четыре ключевых характеристики:

интерпретируемость обеспечивает качественное и понятное понимание между входными данными и итоговым прогнозом. При этом, должны учитываться ограничения пользователей и целевая аудитория. Например, если прогноз основан на тысячах функций, пользователь не сможет понять сделанный прогноз по нескольким отдельным весам;

локальная точность измеряет степень соответствия объяснения и прогноза. Это означает, что объяснение должно быть максимально приближено к прогнозу модели для подмножества данных;

независимость от модели предполагает, что исходная модель рассматривается как «черный ящик»;

глобальная перспектива предполагает объяснение нескольких сделанных прогнозов в рамках исходной модели.

Таким образом, метод LIME позволяет объяснить прогноз любого классификатора МО и соответственно повысить уровень доверия и понимания к модели.