LLM: большие языковые модели, их значение, перспективы развития

Время на прочтение: 2 мин

В эпоху стремительного развития цифровых технологий разработки в области искусственного интеллекта и их дальнейшее внедрение приобретает все большие масштабы. Одним из наиболее востребованных направлений в области искусственного интеллекта последнее время становятся большие языковые модели (Large Language Model, LLM).

Большие языковые модели — это нейросетевые модели, использующие алгоритмы машинного обучения, позволяющие обобщать, прогнозировать, генерировать человеческие языки на основе больших наборов текстовых данных. Принцип работы таких моделей основан на определении вероятностного сочетания слов и их значений в заданном контексте с использованием определенных алгоритмов вычислений.

В настоящее время основное применение LLM находят в чат-ботах, написании статей, маркетинговых текстов, электронных писем, переводах текстов, используются поисковыми системами и т.д.

К наиболее известным LLM относят:

GPT-3 (производитель – OpenAI). Является одной из крупнейших языковых моделей, обученной на огромном количестве разнообразных наборов данных и 175 млрд параметров. Модель умеет писать тексты (статьи, стихи и т.д.), переводить, отвечать на вопросы по тексту. Архитектура модели transformer1Архитектура модели transformer – архитектура глубоких нейронных сетей, основанная на поиске взаимосвязей между частями входных и выходных данных без использования рекуррентных нейронных сетей.

LaMDA (производитель – Google). Относится к разговорным нейросетевым моделям. Построенная на архитектуре transformer и обученная также на текстовых наборах данных модель способна вести диалог.

BERT (производитель – Google). Данная нейросетевая модель в большей степени используется в поисковых запросах. Модель обучена в целях увеличения эффективности процесса понимания контекста запроса пользователя для выдачи релевантного результата. Архитектура модели transformer.

BLOOM (Исследовательская группа BigScience). На текущий момент является самой большой многоязычной нейросетевой моделью. Обученная на огромных объемах текстовых данных и 176 млрд параметров с использованием вычислительных ресурсов промышленного масштаба модель способна генерировать текст на 46 языках и 13 языках программирования.

Стоит отметить, что технологии искусственного интеллекта в области LLM в РФ также не стоят на месте, хотя темпы их развития несколько отстают от зарубежных. Так, компания Яндекс летом текущего года анонсировала выход собственной языковой модели YaLM  100B — нейросеть для генерации и обработки текстов на русском и английском языках. Модель содержит 100 млрд параметров и является самой большой из существующих для русского языка. В ходе обучения YaLM 100B обработала около 2 ТБ текстов из наборов данных и интернета на английском и русском языках. Яндекс уже использует данную модель в более чем 20 проектах.

LLM – достаточно мощный инструмент, однако перспективы их повсеместного применения в настоящее время и в дальнейшем довольно туманны, ввиду недостаточной изученности и наличия разного рода неточностей, выявленных в их работе. Имеющиеся на текущий момент знания и опыт в применении моделей демонстрируют не только большие достижения, но также и огромное количество проблем, только усиливающих скептицизм к использованию LLM. Так, например, у многих моделей была выявлена склонность к генерации некачественного, провокационного и даже оскорбительного контента.

Специалисты в области языковых моделей также расходятся во мнении о возможном позитивном развитии данного направления искусственного интеллекта в дальнейшем. Одни утверждают, что предел развития LLM практически достигнут, по мнению других – масштабирование LLM будет способствовать формированию более умных моделей. Однако, текущее положение показывает, что использование LLM сейчас видится в большей степени в качестве вспомогательного инструмента, без всецелого полагания на результат, а применение в особо значимых сферах деятельности человека может привести к необратимым последствиям.

Кроме того, нельзя не учитывать тот факт, что существующие LLM могут быть серьезным инструментом, способным оказывать манипулятивное воздействие деструктивного характера на сознание человека, используя не только прямые способы влияния, но также и скрытые (косвенные), что в современных условиях информационного противостояние в мире особенно актуально.

  • 1
    Архитектура модели transformer – архитектура глубоких нейронных сетей, основанная на поиске взаимосвязей между частями входных и выходных данных без использования рекуррентных нейронных сетей.