Все проектыAll projectsУсі проєкти
Нейросети и машинное обучениеNeural networks & MLНейромережі та ML ЗавершёнCompletedЗавершений 2025

Whisper STT

Расшифровка речи

Пайплайн распознавания речи на модели Whisper — расшифровка аудио и видео в текст.A speech-recognition pipeline on the Whisper model — transcribing audio and video into text.Пайплайн розпізнавання мовлення на моделі Whisper — розшифрування аудіо та відео в текст.

Исходники не опубликованыSources not publishedВихідники не опубліковані
Python

О проектеOverviewПро проєкт

Набор скриптов вокруг модели распознавания речи Whisper от OpenAI. На вход — аудио или видео, на выходе — текст того, что было сказано.

В проекте есть несколько режимов: обычная обработка и ускоренная (faster), отдельная обработка видео и пакетный прогон целых папок с роликами. Можно расшифровывать как одиночные файлы, так и архивы записей.

Полезный практический инструмент: расшифровать лекцию, интервью или голосовое сообщение получается куда быстрее, чем прослушивать. Рядом стоит мой WhisperBot — та же модель, но в виде Telegram-бота.

A set of scripts around OpenAI's Whisper speech-recognition model. Audio or video in, the text of what was said out.

The project has several modes: regular processing and a faster one, separate video processing and batch runs over whole folders of clips. You can transcribe single files or whole archives of recordings.

A genuinely useful practical tool: transcribing a lecture, interview or voice message is much faster than listening to it. Alongside it sits my WhisperBot — the same model but as a Telegram bot.

Набір скриптів навколо моделі розпізнавання мовлення Whisper від OpenAI. На вхід — аудіо чи відео, на виході — текст.

Є кілька режимів: звичайна обробка та прискорена, обробка відео й пакетний прогін цілих папок.

Корисний практичний інструмент. Поруч — мій WhisperBot, та сама модель у вигляді Telegram-бота.

ОсобенностиFeaturesОсобливості

  • Распознавание речи моделью Whisper от OpenAI
  • Обработка аудио и видео в текст
  • Обычный и ускоренный режимы
  • Пакетный прогон целых папок с записями
  • Speech recognition with OpenAI's Whisper model
  • Audio and video transcription to text
  • Regular and faster processing modes
  • Batch runs over whole folders of recordings
  • Розпізнавання мовлення моделлю Whisper від OpenAI
  • Обробка аудіо та відео в текст
  • Звичайний і прискорений режими
  • Пакетний прогін цілих папок із записами

Похожие проектыRelated projectsСхожі проєкти

Нейросети и машинное обучениеNeural networks & MLНейромережі та ML

MangaColoring

Архитектура нейросети, которая автоматически раскрашивает чёрно-белые страницы манги.A neural-network architecture that automatically colours black-and-white manga pages.Архітектура нейромережі, що автоматично розфарбовує чорно-білі сторінки манги.

Нейросети и машинное обучениеNeural networks & MLНейромережі та ML

MiniGPT

Минимальная реализация языковой модели в стиле GPT, написанная с нуля для понимания трансформеров.A minimal GPT-style language model written from scratch to understand transformers.Мінімальна реалізація мовної моделі в стилі GPT, написана з нуля для розуміння трансформерів.

Нейросети и машинное обучениеNeural networks & MLНейромережі та ML

Captcha OCR

Нейросеть для распознавания текста с простых капч — исследование стойкости защиты.A neural network for reading text from simple captchas — a study of how robust they are.Нейромережа для розпізнавання тексту з простих капч — дослідження стійкості захисту.