Чат-боты. Идеи их использования. Плюсы и минусы

Время на прочтение: 2 мин

В 2023 г. усиление присутствия ИИ почти во всех сферах деятельности сопровождалось революционными технологическими достижениями и глубокими этическими спорами.

По оценкам Statista, объем мирового рынка программного обеспечения для искусственного интеллекта в 2025 г. вырастет до 118,6 млрд долларов США.

В действительности прорывными технологиями стали большие языковые модели (далее – LLM), вызвавшие волну инноваций и повышенный интерес к ИИ, которые распространились на весь 2023 г. При этом, наибольший отклик имели чат-боты, в частности ChatGPT от OpenAI (LLM GPT-3,5). Технически запущенный в ноябре 2022 г. ChatGPT достиг своего первого миллиона пользователей всего за 5 дней, а уже в январе 2023 г. превысил 100 млн активных пользователей. Сейчас этот показатель приближается к 200 млн. По данным SimilarWeb основную часть аудитории составляют пользователи из США, на которых приходится более 15% от общего числа пользователей платформы, Индия – 8,18%, Колумбия – 4,01%, Филиппины – 3,65%, Япония – 3,14%.

Технология большой языковой модели, используемая ChatGPT,  стала основой для появления многих чат-ботов, включая Bing Chat от Microsoft (LLM GPT-4), YandexGPT, работающая на базе LLM YaLM (основана на решениях GPT-3). Существуют и разработки основой для которых являются другие LLM, например, прямой конкурент Bard от Google  (LLM LaMDA), Ernie Bot от Baidu (LLM Ernie 3.0-Titan). Согласно данным, представленным Statista, объем рынка чат-ботов в 2025 г. достигнет примерно 1,25 млрд долларов США, что значительно больше по сравнению с объемом рынка в 2016 г., который составлял 190,8 млн долларов США.

Таким образом, развитие LLM стремительно продолжается, а направление их применения все больше смещается от сферы развлечений в сторону практического использования для бизнеса. Возникает необходимость в усилении таких технологий через технологическую конвергенцию.

Интеграция больших языковых моделей с компьютерным зрением знаменует собой важную веху в развитии искусственного интеллекта и может способствовать появлению технологии искусственного интеллекта следующего поколения, когда машины обучаются видеть и сообщать нам, что видят. Такая коллаборация может облегчить классификацию данных, генерировать подсказки для визуального контента и предлагать индивидуальную информацию для принятия решений. К технологиям такого типа можно отнести мультимодальные большие языковые модели.

Мультимодальные большие языковые модели (MLLM) — это передовые системы искусственного интеллекта, которые объединяют различные типы информации, такие как текст, изображения, видео, аудио и сенсорные данные, для понимания и генерации языка, подобного человеческому. MLLM могут понимать и обрабатывать язык более комплексным и контекстно-ориентированным образом. 

К примерам MLLM можно отнести: OpenAI GPT-4 (обрабатывает тексы, изображения), Microsoft Kosmos-1 (обрабатывает тексы, изображения, аудио- и видео информацию), Google PaLM-E (описание изображений, обнаружение объектов, классификация сцен, языковые задачи), GigaChat (обрабатывает тексы, изображения), Google Gemini (обрабатывает тексы, изображения, аудио- и видео информацию). Обученные на большом количестве параметров названные модели демонстрируют впечатляющие результаты и их использование может оказать существенное влияние на различные отрасли, привести к радикальным изменениям в диагностике, повысить точность и свести к минимуму человеческие ошибки и предвзятость, например: в системах видеонаблюдения в целях повышения безопасность, контроле качества производства, рекламе и др. И если в такого вида направлениях частичное использование MLLM уже возможно, то про их использование в чувствительных отраслях на текущий момент говорить сложно, ввиду отсутствия логическое мышление у MLLM и склонность к «галлюционированию».

Таким образом, 2023 г. стал прорывным в области генеративного ИИ. Набирающие популярность у исследователей мирового сообщества MLLM продолжают совершенствоваться, осваивая новые модальности, влекущих за собой появление вопросов, связанных с плавным объединением этих модальностей в процессе генерации, что как следствие может стать одним из наиболее важных вопросов в части продолжения развитие ИИ в текущем году.