Будущий ИИ: модельно-ориентированный или датацентричный

27.07.2023 Дарья Каспарьянц

Время на прочтение: 2 мин

В июне 2023 года было опубликовано исследование ученых из Университета Райса и Техасского Университета A&M (США) о новом направлении в развитии ИИ, ориентированном на данные.

Последние два десятилетия достигнут значительный прогресс в развитии систем ИИ. Одним из наиболее интересных направлений стало появлении ИИ, ориентированного на данные.

Данные – это ключевой элемент развития ИИ, включая большие данные, расширенную аналитику, машинное и глубокое обучение, базовые модели, большие языковые модели и генеративные технологии ИИ. Наиболее крупные прорывы в области ИИ, по мнению авторов, происходят в следствии наличия доступа к нужным обучающим данным.

Сегодня системы ИИ можно разделить на две большие группы: ориентированные на модели и на данные для обучения моделей.

Задача систем, ориентированных на модели, заключается в увеличении производительности путем внесения изменений в модели для улучшения точности прогнозов. При этом обучающие данные остаются в основном неизменными. То есть, в данном случае усилия направлены на усовершенствование моделей. При этом, данные остаются практически неизменными. Соответственно сохраняются недостатки данных, такие как пропущенные значения, неправильные метки и аномалии. Здесь наблюдаются проблемы с качеством данных.

Системы ИИ, ориентированные на данные, смещают акцент с моделей на сами данные. Данные рассматриваются не только как вспомогательный элемент для ИИ, но и как определяющий фактор общего качества системы для решения сложных задач реального мира. В таких системах производится систематическая обработка данных.

В рамках исследования представлен общий обзор ИИ, ориентированного на данные и обозначены потенциальные направления для развития. Авторы выделяют четыре ключевых вопроса, связанных с датацентричностью ИИ.

Задачи для создания датацентричного ИИ. В перечень необходимых задач входит разработка обучающих данных и логических выводов, поддержание актуальности. Кроме этого, необходимы:

очистка, маркировка, подготовка, сокращение и дополнение обучающих данных;

создание данных о распределении для оценки или подсказки по настройке для достижения результатов;

создание эффективной инфраструктуры для понимания, организации и отладки данных.

Автоматизация для разработки и обслуживания данных. Растущий объем данных и его доступность требуют автоматизированных алгоритмов оптимизации процесса разработки обслуживания данных. В частности, сегодня существуют такие алгоритмы, которые работают на различных уровнях автоматизации – от программной автоматизации на основе процессов до автоматизации на основе машинного обучения и конвейера непрерывного развертывания.

Необходимость участия человека в системах ИИ, ориентированных на данные. Участие требуется для задач по маркировке данных и задач по разработке логических данных. При этом разные методы требуют разной степени участия человека.

Сегодняшнее состояние систем ИИ, ориентированных на данные. Несмотря на то, что датацентричный ИИ является достаточно новой концепцией, во многих задачах достигнут значительный прогресс и продолжаются исследования по таким направлениям, как разработка данных для обучения, разработка данных для обслуживания данных.

Авторы также отмечают, что оба направления могут развиваться симметрично и дополнять друг друга, поэтому в производственных сценариях данные и модели имеют тенденцию альтернативно развиваться в постоянно меняющейся среде. Параллельно ценность данных была широко признана в различных отраслях. Многие крупные технологические компании создали инфраструктуру для организации, понимания и отладки данных для создания систем ИИ. Эти усилия по созданию обучающих данных, данных логического вывода и инфраструктуры для хранения данных способствуют достижениям в области искусственного интеллекта.