Все проектыAll projectsУсі проєкти
Нейросети и машинное обучениеNeural networks & MLНейромережі та ML ЗавершёнCompletedЗавершений 2025

MiniGPT

GPT с нуля

Минимальная реализация языковой модели в стиле GPT, написанная с нуля для понимания трансформеров.A minimal GPT-style language model written from scratch to understand transformers.Мінімальна реалізація мовної моделі в стилі GPT, написана з нуля для розуміння трансформерів.

О проектеOverviewПро проєкт

Чтобы понять, как на самом деле работают большие языковые модели, я собрал маленький GPT с нуля. Реализованы все ключевые части: токенизация, механизм внимания, блоки трансформера, обучение на тексте.

«Минимальный» здесь — принципиально: модель достаточно мала, чтобы её можно было запустить, обучить и потрогать руками на обычной машине, без кластера видеокарт. Можно вмешаться в любой этап и посмотреть, что происходит.

Это тот случай, когда собственная реализация даёт понимание, которого не получить из статей и обзоров — ты буквально видишь, как из внимания и матриц рождается генерация текста.

To understand how large language models really work, I built a tiny GPT from scratch. All the key parts are implemented: tokenization, the attention mechanism, transformer blocks, training on text.

'Minimal' here is on purpose: the model is small enough to run, train and touch by hand on an ordinary machine, with no GPU cluster. You can step into any stage and see what's happening.

It's the case where your own implementation gives understanding you can't get from papers and overviews — you literally see how text generation arises from attention and matrices.

Щоб зрозуміти, як працюють великі мовні моделі, я зібрав маленький GPT з нуля: токенізація, увага, блоки трансформера, навчання.

«Мінімальний» тут принципово: модель можна запустити й навчити на звичайній машині, без кластера відеокарт.

Це той випадок, коли власна реалізація дає розуміння, якого не отримати зі статей.

ОсобенностиFeaturesОсобливості

  • Языковая модель в стиле GPT, написанная с нуля
  • Токенизация, механизм внимания, блоки трансформера
  • Достаточно мала для запуска без кластера GPU
  • Можно вмешаться в любой этап обучения
  • Реализация на PyTorch
  • A GPT-style language model written from scratch
  • Tokenization, attention mechanism, transformer blocks
  • Small enough to run without a GPU cluster
  • You can step into any training stage
  • Implemented in PyTorch
  • Мовна модель у стилі GPT, написана з нуля
  • Токенізація, механізм уваги, блоки трансформера
  • Достатньо мала для запуску без кластера GPU
  • Можна втрутитися в будь-який етап навчання
  • Реалізація на PyTorch

Похожие проектыRelated projectsСхожі проєкти

Нейросети и машинное обучениеNeural networks & MLНейромережі та ML

MangaColoring

Архитектура нейросети, которая автоматически раскрашивает чёрно-белые страницы манги.A neural-network architecture that automatically colours black-and-white manga pages.Архітектура нейромережі, що автоматично розфарбовує чорно-білі сторінки манги.

Нейросети и машинное обучениеNeural networks & MLНейромережі та ML

Captcha OCR

Нейросеть для распознавания текста с простых капч — исследование стойкости защиты.A neural network for reading text from simple captchas — a study of how robust they are.Нейромережа для розпізнавання тексту з простих капч — дослідження стійкості захисту.

Нейросети и машинное обучениеNeural networks & MLНейромережі та ML

GAN Learn

Серия учебных экспериментов с генеративно-состязательными сетями на лицах и цифрах MNIST.A series of learning experiments with generative-adversarial networks on faces and MNIST digits.Серія навчальних експериментів із генеративно-змагальними мережами на обличчях і цифрах MNIST.