О развитии базовых моделей ИИ
В последнее время некоторые системы ИИ сравнялись или превзошли человеческий уровень производительности в ряде конкретных задач, таких как распознавание изображений и речи, классификация и обнаружение различных видов рака и в сложных играх.
Это стало возможно благодаря глубокому обучению (далее – ГО), которое основано на сетевой структуре нейронов головного мозга. В настоящее время направление продолжает доминировать в этой области развития ИИ.
Основное отличие систем ГО состоит в том, что они не программируются в строгом смысле этого слова, а обучаются на миллиардах текстов, изображений и других данных. Такие модели ГО основаны на обучении с учителем. То есть, предполагают тщательную маркировку обучающих данных, например, «кошка-не кошка». Временные и финансовые затраты для этих моделей, особенно для узкоспециализированных, поставили под сомнение их производительность.
Отличие базовых моделей (foundation models) заключается в возможности их повторного использования и масштабируемости, которые широко используются как в операционных системах IOS и Android, так и в растущем разнообразии интернет-платформ.
По оценке О. Этциони1Проф. О. Этциони – директор Научно-исследовательского института Аллена по проблемам ИИ allenai.org, более 80% исследований ИИ в настоящее время сосредоточено на базовых моделях, а инвестиции венчурных фондов в компании по ИИ составили в 2020 году 115 млрд долл. (7 трлн руб.2Здесь и далее сумма в рублях рассчитывалась по курсу ЦБ на 11.07.2022, где $1 был равен 61,26 руб.). В Китае эта область развития также стоит в национальных приоритетах.
Параллельно, согласно отчету Центра исследований возможностей и рисков базовых моделей, при Стэнфордском Институте ИИ, происходит смена парадигмы развития ИИ на модели, которые обучаются на огромных объемах неразмеченных данных, а потом адаптируются к широкому кругу задач с минимальной тонкой настройкой.
В качестве примеров базовых моделей сегодня выступают большие языковые модели – GPT-3 и BERT. В частности, GPT-3 может генерировать предложения и абзацы в различных стилях, но и имеет навыки написания программных кодов. Это стало возможно благодаря тому, что обучающие данные включали примеры компьютерного программирования с описаниями кодов. Таким образом, GPT-3 научился программировать. Вместе с этим, GPT-3 может генерировать юридические документы, например, лицензионные соглашения или ряд других документов. Однако, по данным Отчета, их характеристики еще плохо изучены. Основной недостаток таких моделей как GPT-3 заключается в невозможности отделить вредоносную составляющую обучающих данных, например, расистские, экстремистские и другие схожие данные.
Возможности базовых моделей построены на двух ключевых достижениях: передаче обучения и масштабировании. То есть, эти модели используют знания, полученные при обучении одной задаче и применяют их к решению другой. Например, обучение по распознаванию объектов на изображении может использоваться для распознавания действий в видео. Или обучении по распознаванию автомобилей может применяться для распознавания грузовиков. При этом, если GPT-2, предшественник GPT-3 обучался на 40 Гб данных, то GPT-3 обучается на 570 Гб данных, включая сеть Интернет, Википедию и цифровые книги.
Ключевыми свойствами базовых моделей, согласно отчету, являются: эмергентность3Эмергентность – наличие у какой-либо системы особых свойств, не присущих её элементам, а также сумме элементов, не связанных особыми системообразующими связями и гомогенизация. Оба свойства предлагают как дальнейшие перспективы развития, так и новые риски.
Эмергентность предполагает, что сложные взаимодействия отдельных компонентов приводят к появлению новых неожиданных свойств. Это вызывает обеспокоенность по поводу последствий обучения таких систем в критических областях.
Гомогенизация, в свою очередь, предполагает, что любые улучшения в базовых моделях НЛП приводят к улучшениям во всем НЛП. Однако, это относится и к передаче всех недостатков и/или предубеждений модели.
Таким образом, для решения ключевых вопросов развития базовых моделей необходимо тесное междисциплинарное сотрудничество, включая разработку профессиональных стандартов и кооперацию с бизнесом для их адекватной и безопасной адаптации.
- 1Проф. О. Этциони – директор Научно-исследовательского института Аллена по проблемам ИИ allenai.org
- 2Здесь и далее сумма в рублях рассчитывалась по курсу ЦБ на 11.07.2022, где $1 был равен 61,26 руб.
- 3Эмергентность – наличие у какой-либо системы особых свойств, не присущих её элементам, а также сумме элементов, не связанных особыми системообразующими связями