Нейросети и машинное обучениеNeural networks & MLНейромережі та ML ЗавершёнCompletedЗавершений 2025

MiniGPT

GPT с нуля

Минимальная реализация языковой модели в стиле GPT, написанная с нуля для понимания трансформеров.A minimal GPT-style language model written from scratch to understand transformers.Мінімальна реалізація мовної моделі в стилі GPT, написана з нуля для розуміння трансформерів.

Открыть на GitHubView on GitHubВідкрити на GitHub

PythonPyTorch

О проектеOverviewПро проєкт

Чтобы понять, как на самом деле работают большие языковые модели, я собрал маленький GPT с нуля. Реализованы все ключевые части: токенизация, механизм внимания, блоки трансформера, обучение на тексте.

«Минимальный» здесь — принципиально: модель достаточно мала, чтобы её можно было запустить, обучить и потрогать руками на обычной машине, без кластера видеокарт. Можно вмешаться в любой этап и посмотреть, что происходит.

Это тот случай, когда собственная реализация даёт понимание, которого не получить из статей и обзоров — ты буквально видишь, как из внимания и матриц рождается генерация текста.

To understand how large language models really work, I built a tiny GPT from scratch. All the key parts are implemented: tokenization, the attention mechanism, transformer blocks, training on text.

'Minimal' here is on purpose: the model is small enough to run, train and touch by hand on an ordinary machine, with no GPU cluster. You can step into any stage and see what's happening.

It's the case where your own implementation gives understanding you can't get from papers and overviews — you literally see how text generation arises from attention and matrices.

Щоб зрозуміти, як працюють великі мовні моделі, я зібрав маленький GPT з нуля: токенізація, увага, блоки трансформера, навчання.

«Мінімальний» тут принципово: модель можна запустити й навчити на звичайній машині, без кластера відеокарт.

Це той випадок, коли власна реалізація дає розуміння, якого не отримати зі статей.

ОсобенностиFeaturesОсобливості

Языковая модель в стиле GPT, написанная с нуля
Токенизация, механизм внимания, блоки трансформера
Достаточно мала для запуска без кластера GPU
Можно вмешаться в любой этап обучения
Реализация на PyTorch
A GPT-style language model written from scratch
Tokenization, attention mechanism, transformer blocks
Small enough to run without a GPU cluster
You can step into any training stage
Implemented in PyTorch
Мовна модель у стилі GPT, написана з нуля
Токенізація, механізм уваги, блоки трансформера
Достатньо мала для запуску без кластера GPU
Можна втрутитися в будь-який етап навчання
Реалізація на PyTorch

MiniGPT

О проектеOverviewПро проєкт

ОсобенностиFeaturesОсобливості

Похожие проектыRelated projectsСхожі проєкти

MangaColoring

Captcha OCR

GAN Learn