Нейросети и машинное обучениеNeural networks & MLНейромережі та ML ЗавершёнCompletedЗавершений 2025

Whisper STT

Расшифровка речи

Пайплайн распознавания речи на модели Whisper — расшифровка аудио и видео в текст.A speech-recognition pipeline on the Whisper model — transcribing audio and video into text.Пайплайн розпізнавання мовлення на моделі Whisper — розшифрування аудіо та відео в текст.

Исходники не опубликованыSources not publishedВихідники не опубліковані

Python

О проектеOverviewПро проєкт

Набор скриптов вокруг модели распознавания речи Whisper от OpenAI. На вход — аудио или видео, на выходе — текст того, что было сказано.

В проекте есть несколько режимов: обычная обработка и ускоренная (faster), отдельная обработка видео и пакетный прогон целых папок с роликами. Можно расшифровывать как одиночные файлы, так и архивы записей.

Полезный практический инструмент: расшифровать лекцию, интервью или голосовое сообщение получается куда быстрее, чем прослушивать. Рядом стоит мой WhisperBot — та же модель, но в виде Telegram-бота.

A set of scripts around OpenAI's Whisper speech-recognition model. Audio or video in, the text of what was said out.

The project has several modes: regular processing and a faster one, separate video processing and batch runs over whole folders of clips. You can transcribe single files or whole archives of recordings.

A genuinely useful practical tool: transcribing a lecture, interview or voice message is much faster than listening to it. Alongside it sits my WhisperBot — the same model but as a Telegram bot.

Набір скриптів навколо моделі розпізнавання мовлення Whisper від OpenAI. На вхід — аудіо чи відео, на виході — текст.

Є кілька режимів: звичайна обробка та прискорена, обробка відео й пакетний прогін цілих папок.

Корисний практичний інструмент. Поруч — мій WhisperBot, та сама модель у вигляді Telegram-бота.

ОсобенностиFeaturesОсобливості

Распознавание речи моделью Whisper от OpenAI
Обработка аудио и видео в текст
Обычный и ускоренный режимы
Пакетный прогон целых папок с записями
Speech recognition with OpenAI's Whisper model
Audio and video transcription to text
Regular and faster processing modes
Batch runs over whole folders of recordings
Розпізнавання мовлення моделлю Whisper від OpenAI
Обробка аудіо та відео в текст
Звичайний і прискорений режими
Пакетний прогін цілих папок із записами

Whisper STT

О проектеOverviewПро проєкт

ОсобенностиFeaturesОсобливості

Похожие проектыRelated projectsСхожі проєкти

MangaColoring

MiniGPT

Captcha OCR