MiniGPT
GPT с нуля
Минимальная реализация языковой модели в стиле GPT, написанная с нуля для понимания трансформеров.A minimal GPT-style language model written from scratch to understand transformers.Мінімальна реалізація мовної моделі в стилі GPT, написана з нуля для розуміння трансформерів.
О проектеOverviewПро проєкт
Чтобы понять, как на самом деле работают большие языковые модели, я собрал маленький GPT с нуля. Реализованы все ключевые части: токенизация, механизм внимания, блоки трансформера, обучение на тексте.
«Минимальный» здесь — принципиально: модель достаточно мала, чтобы её можно было запустить, обучить и потрогать руками на обычной машине, без кластера видеокарт. Можно вмешаться в любой этап и посмотреть, что происходит.
Это тот случай, когда собственная реализация даёт понимание, которого не получить из статей и обзоров — ты буквально видишь, как из внимания и матриц рождается генерация текста.
To understand how large language models really work, I built a tiny GPT from scratch. All the key parts are implemented: tokenization, the attention mechanism, transformer blocks, training on text.
'Minimal' here is on purpose: the model is small enough to run, train and touch by hand on an ordinary machine, with no GPU cluster. You can step into any stage and see what's happening.
It's the case where your own implementation gives understanding you can't get from papers and overviews — you literally see how text generation arises from attention and matrices.
Щоб зрозуміти, як працюють великі мовні моделі, я зібрав маленький GPT з нуля: токенізація, увага, блоки трансформера, навчання.
«Мінімальний» тут принципово: модель можна запустити й навчити на звичайній машині, без кластера відеокарт.
Це той випадок, коли власна реалізація дає розуміння, якого не отримати зі статей.
ОсобенностиFeaturesОсобливості
- Языковая модель в стиле GPT, написанная с нуля
- Токенизация, механизм внимания, блоки трансформера
- Достаточно мала для запуска без кластера GPU
- Можно вмешаться в любой этап обучения
- Реализация на PyTorch
- A GPT-style language model written from scratch
- Tokenization, attention mechanism, transformer blocks
- Small enough to run without a GPU cluster
- You can step into any training stage
- Implemented in PyTorch
- Мовна модель у стилі GPT, написана з нуля
- Токенізація, механізм уваги, блоки трансформера
- Достатньо мала для запуску без кластера GPU
- Можна втрутитися в будь-який етап навчання
- Реалізація на PyTorch