Scribe (нейросеть)

Продукт

Разработчики:	ElevenLabs
Дата премьеры системы:	февраль 2025 г.
Отрасли:	Информационные технологии

Содержание

История
- 2025: Анонс продукта
Примечания

История

2025: Анонс продукта

В конце февраля 2025 года компания ElevenLabs представила открытую модель искусственного интеллекта Scribe v1, предназначенную для преобразования речи в текст. По заявлениям разработчиков, нейросеть обеспечивает очень высокую точность, превосходя по данному показателю многие аналоги.

Scribe v1 поддерживает 99 языков, включая русский. Самый высокий уровень точности с показателем ошибок менее 5% достигается для 25 языков, в число которых входят английский (заявленная точность — 97%), французский, немецкий, хинди, индонезийский, японский, каннада, малаялам, польский, португальский, испанский и вьетнамский. Все прочие языки разделены на группы с высоким (от 5% до 10% ошибок), хорошим (от 10% до 20% ошибок) и средним (от 25% до 50% ошибок) уровнями точности. Компания ElevenLabs заявляет, что ИИ-модель Scribe v1 превзошла Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках в тестах FLEURS и Common Voice.

Запущена открытая ИИ-модель для преобразования речи в текст

Scribe v1 не просто преобразовывает голосовую информацию в текстовую — она понимает аудиопоток. ИИ-модель может обнаруживать невербальные события, такие как смех, звуковые эффекты, музыку и фоновый шум, и анализировать длинные аудиоконтексты для точной диаризации (разделения дикторов) даже в самых сложных условиях, — говорит Флавио Шнайдер (Flavio Schneider), ведущий исследователь ElevenLabs.

Модель Scribe v1 может добавлять временные метки на уровне слов для субтитров и производить автоматическую маркировку звуковых событий, таких как смех аудитории. Утверждается, что в одном аудиопотоке ИИ может распознавать до 32 говорящих людей. Компания ElevenLabs предоставляет клиентам возможность напрямую транскрибировать видеоконтент. Разработчики могут использовать Scribe v1 через программный интерфейс (API). Ссылка на сервис.^[1]