Q-Learning Maze
Обучение с подкреплением
Агент, который учится проходить лабиринт методом обучения с подкреплением Q-Learning.An agent that learns to solve a maze using Q-Learning reinforcement learning.Агент, що вчиться проходити лабіринт методом навчання з підкріпленням Q-Learning.
О проектеOverviewПро проєкт
Классическая задача обучения с подкреплением. Агент оказывается в лабиринте, ничего о нём не зная, и может только двигаться и получать награду за успех или наказание за неудачу.
Алгоритм Q-Learning постепенно строит таблицу ценности действий: для каждой клетки — насколько хорош каждый возможный ход. Со временем из хаоса случайных проб рождается осмысленный кратчайший маршрут к выходу.
Хороший вход в reinforcement learning — направление ML, которое сильно отличается от обычного обучения с учителем: здесь нет готовых правильных ответов, агент добывает их сам.
A classic reinforcement-learning task. The agent finds itself in a maze knowing nothing about it, and can only move and get a reward for success or a penalty for failure.
The Q-Learning algorithm gradually builds an action-value table: for each cell, how good each possible move is. Over time a meaningful shortest route to the exit emerges from the chaos of random trials.
A good entry into reinforcement learning — a branch of ML very different from ordinary supervised learning: there are no ready right answers here, the agent earns them itself.
Класична задача навчання з підкріпленням. Агент опиняється в лабіринті, нічого не знаючи, і може лише рухатися й отримувати нагороду чи покарання.
Алгоритм Q-Learning будує таблицю цінності дій, і з хаосу проб народжується осмислений маршрут.
Гарний вхід у reinforcement learning — напрям ML без готових правильних відповідей.
ОсобенностиFeaturesОсобливості
- Агент, обучающийся проходить лабиринт
- Алгоритм Q-Learning с таблицей ценности действий
- Маршрут рождается из проб и ошибок
- Вход в обучение с подкреплением
- An agent learning to solve a maze
- The Q-Learning algorithm with an action-value table
- The route emerges from trial and error
- An entry into reinforcement learning
- Агент, що вчиться проходити лабіринт
- Алгоритм Q-Learning з таблицею цінності дій
- Маршрут народжується з проб і помилок
- Вхід у навчання з підкріпленням