Whisper STT
Расшифровка речи
Пайплайн распознавания речи на модели Whisper — расшифровка аудио и видео в текст.A speech-recognition pipeline on the Whisper model — transcribing audio and video into text.Пайплайн розпізнавання мовлення на моделі Whisper — розшифрування аудіо та відео в текст.
О проектеOverviewПро проєкт
Набор скриптов вокруг модели распознавания речи Whisper от OpenAI. На вход — аудио или видео, на выходе — текст того, что было сказано.
В проекте есть несколько режимов: обычная обработка и ускоренная (faster), отдельная обработка видео и пакетный прогон целых папок с роликами. Можно расшифровывать как одиночные файлы, так и архивы записей.
Полезный практический инструмент: расшифровать лекцию, интервью или голосовое сообщение получается куда быстрее, чем прослушивать. Рядом стоит мой WhisperBot — та же модель, но в виде Telegram-бота.
A set of scripts around OpenAI's Whisper speech-recognition model. Audio or video in, the text of what was said out.
The project has several modes: regular processing and a faster one, separate video processing and batch runs over whole folders of clips. You can transcribe single files or whole archives of recordings.
A genuinely useful practical tool: transcribing a lecture, interview or voice message is much faster than listening to it. Alongside it sits my WhisperBot — the same model but as a Telegram bot.
Набір скриптів навколо моделі розпізнавання мовлення Whisper від OpenAI. На вхід — аудіо чи відео, на виході — текст.
Є кілька режимів: звичайна обробка та прискорена, обробка відео й пакетний прогін цілих папок.
Корисний практичний інструмент. Поруч — мій WhisperBot, та сама модель у вигляді Telegram-бота.
ОсобенностиFeaturesОсобливості
- Распознавание речи моделью Whisper от OpenAI
- Обработка аудио и видео в текст
- Обычный и ускоренный режимы
- Пакетный прогон целых папок с записями
- Speech recognition with OpenAI's Whisper model
- Audio and video transcription to text
- Regular and faster processing modes
- Batch runs over whole folders of recordings
- Розпізнавання мовлення моделлю Whisper від OpenAI
- Обробка аудіо та відео в текст
- Звичайний і прискорений режими
- Пакетний прогін цілих папок із записами