Нейросети и машинное обучениеNeural networks & MLНейромережі та ML ЗавершёнCompletedЗавершений 2024

Q-Learning Maze

Обучение с подкреплением

Агент, который учится проходить лабиринт методом обучения с подкреплением Q-Learning.An agent that learns to solve a maze using Q-Learning reinforcement learning.Агент, що вчиться проходити лабіринт методом навчання з підкріпленням Q-Learning.

Исходники не опубликованыSources not publishedВихідники не опубліковані

Python

О проектеOverviewПро проєкт

Классическая задача обучения с подкреплением. Агент оказывается в лабиринте, ничего о нём не зная, и может только двигаться и получать награду за успех или наказание за неудачу.

Алгоритм Q-Learning постепенно строит таблицу ценности действий: для каждой клетки — насколько хорош каждый возможный ход. Со временем из хаоса случайных проб рождается осмысленный кратчайший маршрут к выходу.

Хороший вход в reinforcement learning — направление ML, которое сильно отличается от обычного обучения с учителем: здесь нет готовых правильных ответов, агент добывает их сам.

A classic reinforcement-learning task. The agent finds itself in a maze knowing nothing about it, and can only move and get a reward for success or a penalty for failure.

The Q-Learning algorithm gradually builds an action-value table: for each cell, how good each possible move is. Over time a meaningful shortest route to the exit emerges from the chaos of random trials.

A good entry into reinforcement learning — a branch of ML very different from ordinary supervised learning: there are no ready right answers here, the agent earns them itself.

Класична задача навчання з підкріпленням. Агент опиняється в лабіринті, нічого не знаючи, і може лише рухатися й отримувати нагороду чи покарання.

Алгоритм Q-Learning будує таблицю цінності дій, і з хаосу проб народжується осмислений маршрут.

Гарний вхід у reinforcement learning — напрям ML без готових правильних відповідей.

ОсобенностиFeaturesОсобливості

Агент, обучающийся проходить лабиринт
Алгоритм Q-Learning с таблицей ценности действий
Маршрут рождается из проб и ошибок
Вход в обучение с подкреплением
An agent learning to solve a maze
The Q-Learning algorithm with an action-value table
The route emerges from trial and error
An entry into reinforcement learning
Агент, що вчиться проходити лабіринт
Алгоритм Q-Learning з таблицею цінності дій
Маршрут народжується з проб і помилок
Вхід у навчання з підкріпленням

Q-Learning Maze

О проектеOverviewПро проєкт

ОсобенностиFeaturesОсобливості

Похожие проектыRelated projectsСхожі проєкти

MangaColoring

MiniGPT

Captcha OCR