Название базовой системы (платформы): | YaLM 100B (нейросеть) |
Разработчики: | Яндекс (Yandex) |
Дата премьеры системы: | август 2022 г |
Отрасли: | Интернет-сервисы |
2022: Запуск сервиса
В конце августа 2022 года «Яндекс» запустил двуязычную версию генератора текстов «Балабоба». Пользователю можно написать одно-два слова на русском или английском языках и выбрать один из стилей — и «Балабоба» создаст осмысленный текст на любую тему, похожий на тексты из интернета, на которых училась модель.
Чтобы текст получился связным и грамматически правильным, модель генерирует его последовательно по словам и оценивает, насколько предсказанное слово корректно. Например, может ли после «Мама мыла...» идти слово «бегать» или слово «раму».
«Балабоба» может написать короткую историю, придумать рецепт, инструкцию или народную мудрость. А если ввести название фильма, «Балабоба» напишет к нему сюжет. Тексты можно использовать по своему усмотрению. Например, описать товары в интернет-магазине, создать текст для рекламы и т. п.
«Балабоба» генерирует тексты с помощью языковой модели «Яндекса» YaLM, которая решает задачи, связанные с обработкой естественного языка. Например, модели YaLM помогают «Алисе» поддерживать беседу, определяют темы вопросов в «Кью», улучшают описания заказов на «Услугах», генерируют карточки для быстрых ответов в поисковике. Также языковые модели YaLM ищут ключевые моменты видео, генерируют рекламные объявления и описания сайтов (сниппеты).Как DevOps-сервис помогает «разгрузить» высоконагруженные системы BPMSoft
Запоминать правила языка и подбирать подходящие слова «Балабобе» позволяют заложенные внутри модели параметры, которые меняются в зависимости от того, правильно или неправильно предсказывается слово. В семействе языковых моделей YaLM может быть от 1 млрд до 100 млрд параметров.
Самую большую двуязычную модель YaLM 100B на 100 млрд параметров «Яндекс» ранее в 2022 году выложил в открытый доступ. В «Балабобе» используется её облегчённая версия на 3 млрд параметров. Модель обучалась на терабайтах текстов англоязычного и русскоязычного интернета в равной пропорции.