Малые языковые модели (SLM)

Время на прочтение: 2 мин

По мере развития ИИ встают вопросы в его доступности, качестве и интегрированности в технологии для решения не только повседневных задач, но также и более сложных проблем.

Демонстрирующие впечатляющие результаты и обладающие значительными возможностями в работе с данными, большие языковые модели (LLM) являются достаточно ресурсоемкими, что снижает доступность их внедрения и соответственно использования потребителями с недостаточным финансированием, а склонность к галлюционированию требует постоянного мониторинга и корректировки для обеспечения справедливости и точности выдачи результата. По мнению экспертов, в качестве более доступной и в тоже время эффективной в использовании альтернативой большим моделям могут стать малые языковые модели.

Под малыми языковыми моделями (Small Language Models или SLM) понимаются модели, обученные на меньшем количестве параметров (обычно от нескольких миллионов до нескольких миллиардов) по сравнению с большими языковыми моделями и требующие значительно меньше вычислительных мощностей для разработки. Небольшой размер и при этом эффективность SLM достигаются с помощью различных методов, включая дистилляцию знаний, обрезку и квантование. Дистилляция знаний переносит данные от предварительно обученных LLM к модели меньшего размера. При обрезке удаляются менее полезные части модели, а квантование корректирует ее веса, что позволяет снизить размер модели и требования к ресурсам.

Таким образом, по итогам многоступенчатой обработки данных создается менее универсальная, но более адаптированная для конкретных областей и узкоспециализированных задач модель, способная превосходить по производительности (эффективности и скорости) LLM, что особенно значимо в задачах, требующих быстрого принятия решений и в условиях, где гибкость имеет первостепенное значение. При этом, ввиду более низких требований к программно-аппаратным мощностям SLM имеют большую доступность для применения в условиях с ограниченными вычислительными ресурсами, что позволяет их использовать на небольших устройствах и для периферийных вычислительных сред.

Кроме того, к одному из основных преимуществ SLM относят возможность функционирования в автономном режиме, что позволяет использовать возможности ИИ в условиях отсутствия сети Интернет, а также обладать большей устойчивостью в части безопасности и конфиденциальности информации.  Благодаря меньшим кодовым базам и обработке информации на устройстве понижается их уязвимость к вредоносным атакам, сводя к минимуму потенциальные возможности для взломов системы безопасности.

В последнее время явно видна тенденция к увеличению распространения SLM, все больше крупнейших корпораций создают уменьшенные версии своих LLM:

GPT-Neo и GPT-J – это уменьшенные версии GPT-моделей (125 млн и 6 млрд параметров соответственно) от OpenAI.

Gemma 2B и 7B – уменьшенные версии Gemini (2 млрд и 7 млрд соответственно) от Google,

Phi 2 и Phi-3 Mini – это SLM от Microsoft, содержит 2,7 млрд и 3,8 млрд параметров соответственно.

При этом, представители экспертного сообщества отмечают, что набирающие популярность SLM не являются переходом от большого к малому, это переход от отдельной категории моделей к портфелю моделей, где потребители получают возможность принимать решение о том, какая модель лучше всего подходит для их сценария.

Как LLM, так и SLM имеют уникальные преимущества. Возможности масштабирования LLM позволяет генерировать более сложные языковые шаблоны, связный и контекстуально релевантный текст, в то время как SLMS обеспечивают быстрые и точные решения для конкретных областей, делая продвинутый ИИ более доступным и экономичным.

LLM и SLM выполняют разные и взаимодополняющие роли в развивающемся ландшафте искусственного интеллекта, интеграция данных технологий может повысить производительность, эффективность и открыть новые возможности в различных областях.