Разработчики: | ElevenLabs |
Дата премьеры системы: | февраль 2025 г. |
Отрасли: | Информационные технологии |
Содержание |
История
2025: Анонс продукта
В конце февраля 2025 года компания ElevenLabs представила открытую модель искусственного интеллекта Scribe v1, предназначенную для преобразования речи в текст. По заявлениям разработчиков, нейросеть обеспечивает очень высокую точность, превосходя по данному показателю многие аналоги.
Scribe v1 поддерживает 99 языков, включая русский. Самый высокий уровень точности с показателем ошибок менее 5% достигается для 25 языков, в число которых входят английский (заявленная точность — 97%), французский, немецкий, хинди, индонезийский, японский, каннада, малаялам, польский, португальский, испанский и вьетнамский. Все прочие языки разделены на группы с высоким (от 5% до 10% ошибок), хорошим (от 10% до 20% ошибок) и средним (от 25% до 50% ошибок) уровнями точности. Компания ElevenLabs заявляет, что ИИ-модель Scribe v1 превзошла Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках в тестах FLEURS и Common Voice.
![]() | Scribe v1 не просто преобразовывает голосовую информацию в текстовую — она понимает аудиопоток. ИИ-модель может обнаруживать невербальные события, такие как смех, звуковые эффекты, музыку и фоновый шум, и анализировать длинные аудиоконтексты для точной диаризации (разделения дикторов) даже в самых сложных условиях, — говорит Флавио Шнайдер (Flavio Schneider), ведущий исследователь ElevenLabs. | ![]() |
Модель Scribe v1 может добавлять временные метки на уровне слов для субтитров и производить автоматическую маркировку звуковых событий, таких как смех аудитории. Утверждается, что в одном аудиопотоке ИИ может распознавать до 32 говорящих людей. Компания ElevenLabs предоставляет клиентам возможность напрямую транскрибировать видеоконтент. Разработчики могут использовать Scribe v1 через программный интерфейс (API). Ссылка на сервис.[1]