Разработчики: | SberDevices (СалютДевайсы, ранее СберДевайсы) |
Дата премьеры системы: | 2024/04/08 |
Дата последнего релиза: | 2024/12/13 |
Технологии: | Речевые технологии |
Содержание |
Основные статьи:
2024
*Поддержка дообучения и инференса с Flash Attention
13 декабря 2024 года Сбербанк сообщил о том, что семейство open source моделей машинного обучения для распознавания речи и эмоций GigaAM (Giga Acoustic Model) получило большое обновление.
Как рассказал технический директор GigaChat Федор Минькин, в обновленной версии акустических моделей GigaAM улучшены подготовка данных и технология предобучения базовой модели. За счёт этого удалось значительно снизить количество ошибок в словах (Word Error Rate) при распознавании русскоязычных запросов. Для самой сильной модели семейства GigaAM-RNNT этот показатель улучшен на 25% относительно предыдущей версии и на 56% превосходит OpenAI-Whisper-large-v3.CIO девелопера Tekta Group Антон Солорев — о переходе с ERP Microsoft на «1С» и особенностях цифровизации в строительстве
Кроме того, за счёт перехода на другое позиционное кодирование, обновлённая линейка моделей GigaAM поддерживает дообучение и инференс с Flash Attention, что дает существенное ускорение на современных видеокартах, отметили в Сбере. Для повышения доступности использования моделей команда упростила код, снизила число зависимостей и подготовила конвертацию в формат ONNX (открытая библиотека программного обеспечения). Обновленные модели публикуются с лицензией MIT, что допускает их коммерческое использование.
Представление GigaAM
Компания SberDevices 8 апреля 2024 года представила GigaAM — семейство open source моделей машинного обучения для распознавания речи и эмоций.
Эти акустические модели можно использовать для подготовки дипломных работ и научных статей.
GigaAM — Audio Foundation Model, предобученная на разнообразной русской речи. Она отлично подходит для адаптации под различные задачи работы со звуком, включая распознавание речи и эмоций, определение диктора и другие.
GigaAM-CTC — открытая модель для распознавания русскоязычных запросов. Как показала оценка качества на 7 срезах данных (от запросов в умные колонки до записей из телефонного канала), модель допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с такими популярными решениями, как NeMo-Conformer-RNNT и Whisper-Large-v3.
GigaAM-Emo — акустическая модель для определения эмоций. Она продемонстрировала лучший результат на датасете Dusha среди известных моделей. Все модели размещены в открытом доступе с некоммерческой лицензией и могут быть использованы для подготовки дипломных работ и научных статей.
Улучшенные версии этих моделей бизнесу доступны на нашей платформе для синтеза и распознавания речи SaluteSpeech API, а физические лица также могут ими воспользоваться в приложении SaluteSpeech App.
Подрядчики-лидеры по количеству проектов


















Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
























Распределение систем по количеству проектов, не включая партнерские решения

















