О развитии базовых моделей ИИ

15.07.2022 Дарья Каспарьянц

Время на прочтение: 2 мин

В последнее время некоторые системы ИИ сравнялись или превзошли человеческий уровень производительности в ряде конкретных задач, таких как распознавание изображений и речи, классификация и обнаружение различных видов рака и в сложных играх.

Это стало возможно благодаря глубокому обучению (далее – ГО), которое основано на сетевой структуре нейронов головного мозга. В настоящее время направление продолжает доминировать в этой области развития ИИ.

Основное отличие систем ГО состоит в том, что они не программируются в строгом смысле этого слова, а обучаются на миллиардах текстов, изображений и других данных. Такие модели ГО основаны на обучении с учителем. То есть, предполагают тщательную маркировку обучающих данных, например, «кошка-не кошка». Временные и финансовые затраты для этих моделей, особенно для узкоспециализированных, поставили под сомнение их производительность.

Отличие базовых моделей (foundation models) заключается в возможности их повторного использования и масштабируемости, которые широко используются как в операционных системах IOS и Android, так и в растущем разнообразии интернет-платформ.

По оценке О. Этциони¹, более 80% исследований ИИ в настоящее время сосредоточено на базовых моделях, а инвестиции венчурных фондов в компании по ИИ составили в 2020 году 115 млрд долл. (7 трлн руб.²). В Китае эта область развития также стоит в национальных приоритетах.

Параллельно, согласно отчету Центра исследований возможностей и рисков базовых моделей, при Стэнфордском Институте ИИ, происходит смена парадигмы развития ИИ на модели, которые обучаются на огромных объемах неразмеченных данных, а потом адаптируются к широкому кругу задач с минимальной тонкой настройкой.

В качестве примеров базовых моделей сегодня выступают большие языковые модели – GPT-3 и BERT. В частности, GPT-3 может генерировать предложения и абзацы в различных стилях, но и имеет навыки написания программных кодов. Это стало возможно благодаря тому, что обучающие данные включали примеры компьютерного программирования с описаниями кодов. Таким образом, GPT-3 научился программировать. Вместе с этим, GPT-3 может генерировать юридические документы, например, лицензионные соглашения или ряд других документов. Однако, по данным Отчета, их характеристики еще плохо изучены. Основной недостаток таких моделей как GPT-3 заключается в невозможности отделить вредоносную составляющую обучающих данных, например, расистские, экстремистские и другие схожие данные.

Возможности базовых моделей построены на двух ключевых достижениях: передаче обучения и масштабировании. То есть, эти модели используют знания, полученные при обучении одной задаче и применяют их к решению другой. Например, обучение по распознаванию объектов на изображении может использоваться для распознавания действий в видео. Или обучении по распознаванию автомобилей может применяться для распознавания грузовиков. При этом, если GPT-2, предшественник GPT-3 обучался на 40 Гб данных, то GPT-3 обучается на 570 Гб данных, включая сеть Интернет, Википедию и цифровые книги.

Ключевыми свойствами базовых моделей, согласно отчету, являются: эмергентность³ и гомогенизация. Оба свойства предлагают как дальнейшие перспективы развития, так и новые риски.

Эмергентность предполагает, что сложные взаимодействия отдельных компонентов приводят к появлению новых неожиданных свойств. Это вызывает обеспокоенность по поводу последствий обучения таких систем в критических областях.

Гомогенизация, в свою очередь, предполагает, что любые улучшения в базовых моделях НЛП приводят к улучшениям во всем НЛП. Однако, это относится и к передаче всех недостатков и/или предубеждений модели.

Таким образом, для решения ключевых вопросов развития базовых моделей необходимо тесное междисциплинарное сотрудничество, включая разработку профессиональных стандартов и кооперацию с бизнесом для их адекватной и безопасной адаптации.

1
Проф. О. Этциони – директор Научно-исследовательского института Аллена по проблемам ИИ allenai.org
2
Здесь и далее сумма в рублях рассчитывалась по курсу ЦБ на 11.07.2022, где $1 был равен 61,26 руб.
3
Эмергентность – наличие у какой-либо системы особых свойств, не присущих её элементам, а также сумме элементов, не связанных особыми системообразующими связями

помеченные Искусственный интеллект, Нейротехнологии

О развитии базовых моделей ИИ

Похожие записи: