diff --git a/lab_6/lab6.ipynb b/lab_6/lab6.ipynb new file mode 100644 index 0000000..7253d6d --- /dev/null +++ b/lab_6/lab6.ipynb @@ -0,0 +1,1192 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Игра «Крестики-нолики».\n", + "\n", + "## Исходный проект: [GitHub](https://github.com/nczempin/gym-tic-tac-toe).\n", + "\n", + "### Описание проекта:\n", + "\n", + "Проект представляет собой реализацию среды для игры в крестики-нолики с использованием библиотеки Gymnasium и модель обучения, в которой два случайно действующих игрока соревнуются в течение множества эпизодов.\n", + "\n", + "**Проект состоит из следующих компонентов:**\n", + "1. **Среда TicTacToeEnv:**
\n", + " Реализует правила игры в крестики-нолики, управление ходами, проверку победных условий и завершения игры. Обеспечивает визуализацию доски (render) и генерацию доступных ходов.\n", + "2. **Игроки:**
\n", + " Два случайных игрока, каждый из которых выбирает ход из доступных с помощью функции random_move.\n", + "3. **Цикл обучения:**
\n", + " Выполняется симуляция игр (эпизодов) между игроками. Учитываются награды, проверяются завершения игр и ведётся статистика (например, средняя награда).\n", + "4. **Параметры обучения:**
\n", + " Задаются переменные (alpha, beta) для возможной адаптации стратегий, хотя в текущей версии они не используются.\n", + "5. **Сбор данных:**
\n", + " Коллекционируются награды и результаты эпизодов для анализа и оценки эффективности случайных стратегий. \n", + "\n", + "---\n", + "\n", + "### Бизнес-цель:\n", + "Разработка платформы для исследования и оптимизации стратегий игры, которая может быть использована в обучении, автоматизации решений, создании игровых приложений или демонстрации алгоритмов искусственного интеллекта.\n", + "\n", + "---\n", + "\n", + "### Технические цели:\n", + "1. Разработать гибкую и расширяемую среду для симуляции игры в крестики-нолики, которая будет легко интегрироваться с различными алгоритмами искусственного интеллекта (AI), включая классические методы обучения с подкреплением, такие как Q-learning.\n", + "2. Реализовать и оптимизировать алгоритмы обучения с подкреплением для создания агентов, которые могут адаптироваться и улучшать свои стратегии с течением времени. Это включает внедрение таких методов, как Q-learning, для оптимизации принятия решений агентами.\n", + "3. Оценить эффективность различных стратегий, путем обучения агентов с различными параметрами, такими как коэффициенты обучения и коэффициенты дисконтирования, и выявить наилучшие подходы для разных игровых ситуаций.\n", + "4. Разработать механизмы автоматизированного тестирования и оптимизации стратегий игры. Это включает реализацию автоматической генерации и оценки множества стратегий с использованием методов оптимизации и обучения с подкреплением.\n", + "5. Встроить функционал для сравнения различных стратегий по меткам, таким как количество побед, ничьих и полученные награды, что будет полезно для исследований и разработки более эффективных игровых стратегий.\n", + "6. Реализовать возможность визуализации и подробной статистики для отслеживания эффективности выбранных стратегий и анализа поведения алгоритмов.\n", + "\n", + "---" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Реализация среды:\n", + "\n", + "**Среда (environment)** – среда, в которой объект выполняет действия для решения задачи.\n", + "\n", + "Класс TicTacToeEnv реализует среду для игры в крестики-нолики с использованием библиотеки gymnasium. Он предоставляет интерфейс для двух игроков, которые по очереди делают ходы, стремясь выстроить три символа в ряд (по горизонтали, вертикали или диагонали).\n", + "\n", + "Среда определяет пространство действий (action_space), состоящее из 9 дискретных значений, соответствующих номерам клеток на доске, и пространство наблюдений (observation_space), описывающее текущее состояние игры. Начальное состояние доски задаётся с помощью метода reset, где доска очищается, а первым ходит игрок 1 (крестики).\n", + "\n", + "Основной метод step обрабатывает действия игроков, проверяет их легальность (например, нельзя занять уже занятую клетку или сделать ход не в свою очередь), обновляет состояние доски и проверяет условия завершения игры: победу одного из игроков или ничью. Если ход незаконный, игра завершается, а противнику начисляется награда. Легальный ход обновляет состояние доски, переключает текущего игрока и проверяет наличие трёх одинаковых символов в одной линии.\n", + "\n", + "Метод render визуализирует состояние игры, показывая текущего игрока и доску в текстовом формате. Также реализован метод move_generator, который возвращает список возможных ходов для текущего игрока, исключая уже занятые клетки." + ] + }, + { + "cell_type": "code", + "execution_count": 62, + "metadata": {}, + "outputs": [], + "source": [ + "import gymnasium as gym\n", + "from gymnasium import spaces\n", + "\n", + "\n", + "class TicTacToeEnv(gym.Env):\n", + " metadata = {'render.modes': ['human']}\n", + " \n", + " symbols = ['O', ' ', 'X'];\n", + "\n", + " def __init__(self) -> None:\n", + " super().__init__()\n", + " self.action_space = spaces.Discrete(9)\n", + " self.observation_space = spaces.Discrete(9*3*2) # flattened\n", + " self.reset()\n", + " \n", + " def step(self, action):\n", + " done = False\n", + " reward = 0\n", + "\n", + " p, square = action\n", + " \n", + " # check move legality\n", + " board = self.state['board']\n", + " proposed = board[square]\n", + " om = self.state['on_move']\n", + " \n", + " if proposed != 0: # wrong player, not empty\n", + " print(\"illegal move \", action, \". (square occupied): \", square)\n", + " done = True\n", + " reward = -1 * om # player who did NOT make the illegal mov\n", + " if p != om: # wrong player, not empty\n", + " print(\"illegal move \", action, \" not on move: \", p)\n", + " done = True\n", + " reward = -1 * om # player who did NOT make the illegal move\n", + " else:\n", + " board[square] = p\n", + " self.state['on_move'] = -p\n", + "\n", + " # check game over\n", + " for i in range(3):\n", + " # horizontals and verticals\n", + " if ((board[i * 3] == p and board[i * 3 + 1] == p and board[i * 3 + 2] == p)\n", + " or (board[i + 0] == p and board[i + 3] == p and board[i + 6] == p)):\n", + " reward = p\n", + " done = True\n", + " break\n", + " # diagonals\n", + " if ((board[0] == p and board[4] == p and board[8] == p)\n", + " or (board[2] == p and board[4] == p and board[6] == p)):\n", + " reward = p\n", + " done = True\n", + " \n", + " return self.state, reward, done, {}\n", + " \n", + " def reset(self):\n", + " self.state = {}\n", + " self.state['board'] = [0, 0, 0, 0, 0, 0, 0, 0, 0]\n", + " self.state['on_move'] = 1\n", + " return self.state\n", + " \n", + " def render(self, close=False):\n", + " if close:\n", + " return\n", + " print(\"on move: \" , self.symbols[self.state['on_move']+1])\n", + " for i in range(9):\n", + " print(self.symbols[self.state['board'][i]+1], end=\" \")\n", + " if i % 3 == 2:\n", + " print()\n", + " print()\n", + " \n", + " def move_generator(self):\n", + " moves = []\n", + " for i in range(9):\n", + " if self.state['board'][i] == 0:\n", + " p = self.state['on_move']\n", + " m = [p, i]\n", + " moves.append(m)\n", + " return moves" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Реализация основного цикла обучения:\n", + "\n", + "Основной цикл обучения выполняет симуляцию игры в крестики-нолики между двумя случайно действующими игроками в течение заданного числа эпизодов (num_episodes). Каждая игра моделируется как последовательность ходов, пока один из игроков не победит, не будет сделан незаконный ход или не наступит ничья.\n", + "\n", + "**Описание логики цикла:**\n", + "1. **Инициализация:**
\n", + " Перед началом эпизодов задаются параметры обучения: коэффициенты alpha и beta, общее количество эпизодов (num_episodes), список для накопления наград (collected_rewards), и переменная oom для указания начального игрока.\n", + "2. **Начало эпизода:**\n", + " - Сбрасывается среда с помощью env.reset(), что очищает доску и задаёт начального игрока.\n", + " - Счётчик наград total_reward обнуляется, а флаги (done) и очередность хода (om) обновляются.\n", + "3. **Цикл ходов в одном эпизоде:**\n", + " - Генерируется список доступных ходов с помощью move_generator. Если нет доступных ходов, игра заканчивается.\n", + " - Если доступен только один возможный ход, он выполняется. В противном случае выбирается случайный ход с помощью функции random_move.\n", + " - Выполняется выбранный ход методом step, который возвращает новое состояние среды, награду, индикатор завершения игры и дополнительные данные.\n", + " - Суммируется полученная награда, обновляется текущее состояние, а очередь хода передаётся другому игроку (om = -om).\n", + " - Если игра завершена (done = True), цикл прерывается.\n", + "4. **Сбор статистики:**\n", + " - Награда за эпизод сохраняется в список collected_rewards.\n", + " - Каждые 50 эпизодов выводится информация о прогрессе: рендерится текущая доска, печатается общий выигрыш за эпизод и средняя награда за все предыдущие эпизоды.\n", + "5. **Повторение:**
\n", + " Цикл продолжается до завершения заданного количества эпизодов. После каждого эпизода накапливаются данные для анализа и настройки параметров, если необходимо." + ] + }, + { + "cell_type": "code", + "execution_count": 63, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "on move: O\n", + " \n", + "X \n", + " \n", + "\n", + "on move: X\n", + " \n", + "X \n", + " O \n", + "\n", + "on move: O\n", + " \n", + "X \n", + "X O \n", + "\n", + "on move: X\n", + " \n", + "X O \n", + "X O \n", + "\n", + "on move: O\n", + " X \n", + "X O \n", + "X O \n", + "\n", + "on move: X\n", + " X \n", + "X O O \n", + "X O \n", + "\n", + "on move: O\n", + "X X \n", + "X O O \n", + "X O \n", + "\n", + "Episode 50, Total Reward: 1\n", + "Average Reward: 0.32\n", + "\n", + "on move: O\n", + " \n", + " \n", + "X \n", + "\n", + "on move: X\n", + "O \n", + " \n", + "X \n", + "\n", + "on move: O\n", + "O \n", + " \n", + "X X \n", + "\n", + "on move: X\n", + "O \n", + " O \n", + "X X \n", + "\n", + "on move: O\n", + "O \n", + "X O \n", + "X X \n", + "\n", + "on move: X\n", + "O O \n", + "X O \n", + "X X \n", + "\n", + "on move: O\n", + "O O \n", + "X X O \n", + "X X \n", + "\n", + "on move: X\n", + "O O O \n", + "X X O \n", + "X X \n", + "\n", + "Episode 100, Total Reward: -1\n", + "Average Reward: 0.35\n", + "\n", + "on move: O\n", + " \n", + "X \n", + " \n", + "\n", + "on move: X\n", + " \n", + "X \n", + " O \n", + "\n", + "on move: O\n", + " \n", + "X X \n", + " O \n", + "\n", + "on move: X\n", + " \n", + "X X O \n", + " O \n", + "\n", + "on move: O\n", + "X \n", + "X X O \n", + " O \n", + "\n", + "on move: X\n", + "X \n", + "X X O \n", + " O O \n", + "\n", + "on move: O\n", + "X \n", + "X X O \n", + "X O O \n", + "\n", + "Episode 150, Total Reward: 1\n", + "Average Reward: 0.30666666666666664\n", + "\n", + "on move: O\n", + " \n", + " X \n", + " \n", + "\n", + "on move: X\n", + "O \n", + " X \n", + " \n", + "\n", + "on move: O\n", + "O \n", + " X \n", + " X \n", + "\n", + "on move: X\n", + "O O \n", + " X \n", + " X \n", + "\n", + "on move: O\n", + "O O \n", + "X X \n", + " X \n", + "\n", + "on move: X\n", + "O O \n", + "X X \n", + "O X \n", + "\n", + "on move: O\n", + "O O \n", + "X X X \n", + "O X \n", + "\n", + "Episode 200, Total Reward: 1\n", + "Average Reward: 0.295\n", + "\n", + "on move: O\n", + " \n", + " X \n", + " \n", + "\n", + "on move: X\n", + " \n", + " X \n", + " O \n", + "\n", + "on move: O\n", + " \n", + " X \n", + "X O \n", + "\n", + "on move: X\n", + " \n", + " X \n", + "X O O \n", + "\n", + "on move: O\n", + " \n", + " X X \n", + "X O O \n", + "\n", + "on move: X\n", + " O \n", + " X X \n", + "X O O \n", + "\n", + "on move: O\n", + " O \n", + "X X X \n", + "X O O \n", + "\n", + "Episode 250, Total Reward: 1\n", + "Average Reward: 0.276\n", + "\n", + "on move: O\n", + " \n", + " \n", + "X \n", + "\n", + "on move: X\n", + " O \n", + " \n", + "X \n", + "\n", + "on move: O\n", + " O \n", + "X \n", + "X \n", + "\n", + "on move: X\n", + " O \n", + "X \n", + "X O \n", + "\n", + "on move: O\n", + " O \n", + "X X \n", + "X O \n", + "\n", + "on move: X\n", + " O O \n", + "X X \n", + "X O \n", + "\n", + "on move: O\n", + " O O \n", + "X X \n", + "X O X \n", + "\n", + "on move: X\n", + " O O \n", + "X O X \n", + "X O X \n", + "\n", + "Episode 300, Total Reward: -1\n", + "Average Reward: 0.2833333333333333\n", + "\n" + ] + } + ], + "source": [ + "import random\n", + "\n", + "\n", + "def random_move(moves):\n", + " m = random.choice(moves)\n", + " return m\n", + "\n", + "\n", + "env = TicTacToeEnv()\n", + "\n", + "alpha = 0.01\n", + "beta = 0.01\n", + "\n", + "num_episodes = 300\n", + "\n", + "collected_rewards = []\n", + "oom = 1\n", + "\n", + "for i in range(num_episodes):\n", + " state = env.reset()\n", + " \n", + " total_reward = 0\n", + " \n", + " done = False\n", + " om = oom;\n", + "\n", + " for j in range(9):\n", + " moves = env.move_generator()\n", + " if not moves:\n", + " break\n", + " \n", + " if len(moves) == 1:\n", + " # only a single possible move\n", + " move = moves[0]\n", + " else:\n", + " move = random_move(moves)\n", + " \n", + " next_state, reward, done, info = env.step(move)\n", + " total_reward += reward\n", + " state = next_state\n", + " \n", + " if (i + 1) % 50 == 0: \n", + " env.render()\n", + " \n", + " if done:\n", + " break\n", + " \n", + " om = -om\n", + "\n", + " collected_rewards.append(total_reward)\n", + " \n", + " if (i + 1) % 50 == 0: \n", + " print(f\"Episode {i+1}, Total Reward: {total_reward}\")\n", + " average_reward = sum(collected_rewards) / len(collected_rewards)\n", + " print(f\"Average Reward: {average_reward}\\n\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Обновлённая реализация проекта.\n", + "\n", + "### Описание проекта:\n", + "\n", + "Проект представляет собой обновленную реализацию среды для игры в крестики-нолики с использованием библиотеки Gymnasium и модели обучения с подкреплением, где агент обучается с помощью метода Q-learning.\n", + "\n", + "**Проект состоит из следующих компонентов:**\n", + "1. **Среда TicTacToeEnv:**
\n", + " Реализует правила игры, управление ходами, проверку победных условий и завершения игры, а также визуализацию доски и генерацию доступных ходов.\n", + "2. **Агент TicTacToeAgent:**
\n", + " Использует метод Q-learning для обучения, обновляя свою Q-таблицу на основе полученных наград. Агент выбирает ход с помощью epsilon-greedy стратегии, балансируя между исследованием и эксплуатацией.\n", + "3. **Цикл обучения:**
\n", + " Выполняется симуляция игр (эпизодов), где агент играет против себя, обучаясь на основе своих действий. Ведется сбор статистики по победам, ничьим и общей награде для анализа эффективности обучения.\n", + "4. **Параметры обучения:**
\n", + " Задаются параметры Q-learning (learning_rate, discount_factor, epsilon), которые регулируют процесс обучения агента.\n", + "5. **Сбор данных:**
\n", + " Сохраняется статистика по каждому эпизоду, включая награды, победы и ничьи, для анализа прогресса обучения и улучшения стратегии агента.\n", + "\n", + "**Основные изменения в новой реализации:**\n", + "1. **Использование Q-learning для обучения агента:**
\n", + " В отличие от предыдущей реализации, где игроки действовали случайным образом, теперь используется агент, обучающийся методом Q-learning. Агент обновляет свою Q-таблицу на основе наград и выбирает действия с использованием стратегии epsilon-greedy.\n", + "2. **Добавление класса TicTacToeAgent:**
\n", + " В проект добавлен новый класс TicTacToeAgent, который реализует логику выбора действий на основе обучения с подкреплением. Агент выбирает ход с учетом предыдущего опыта и обновляет свою стратегию по мере игры.\n", + "3. **Цикл обучения с накоплением статистики:** \n", + " В новом цикле обучения агент обучается, играя против себя, с отслеживанием статистики по победам, ничьим и наградам за каждый эпизод. Это позволяет оценивать прогресс обучения и эффективность стратегии.\n", + "4. **Параметры обучения:** \n", + " Введены параметры обучения для настройки метода Q-learning (скорость обучения, коэффициент дисконтирования и вероятность случайного выбора действия), что позволяет гибко управлять процессом обучения агента.\n", + "5. **Рендеринг и вывод прогресса:** \n", + " Добавлена визуализация результатов симуляции всех эпизодов (победы игрока X, победы игрока O, ничьи) в виде графика.\n", + "\n", + "---" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Реализация среды:\n", + "\n", + "**Среда (environment)** – среда, в которой объект выполняет действия для решения задачи.\n", + "\n", + "Класс TicTacToeEnv представляет собой обновлённую реализацию среды для игры в крестики-нолики с использованием библиотеки Gymnasium. Среда предоставляет интерфейс для двух игроков, которые поочерёдно совершают ходы, стремясь выстроить три символа в ряд (по горизонтали, вертикали или диагонали). В новой версии упрощена структура представления состояния, улучшена обработка правил игры и повышена совместимость с алгоритмами обучения с подкреплением.\n", + "\n", + "Пространство действий (action_space) остаётся неизменным и представляет собой 9 дискретных значений, соответствующих клеткам игрового поля. Пространство наблюдений (observation_space) обновлено: теперь оно представлено одномерным массивом из 9 значений (np.ndarray), где 1 соответствует символу X, -1 – символу O, а 0 обозначает пустую клетку. Эта структура делает состояние более понятным и удобным для обработки.\n", + "\n", + "Игра начинается с вызова метода reset, который очищает доску (заполняет её нулями) и назначает первым ход игроку X (1). Метод step обрабатывает действия игроков, проверяя их легальность: попытка занять уже занятую клетку приводит к штрафу для текущего игрока, но игра продолжается. При успешном ходе состояние доски обновляется, проверяется наличие победной комбинации или ничьей. Победитель получает награду 1 (или -1), ничья приносит награду 0 для обоих игроков, после чего игра завершается.\n", + "\n", + "Метод check_winner проверяет наличие трёх одинаковых символов на одной из выигрышных линий (горизонталей, вертикалей или диагоналей). Если игрок выигрывает, возвращается соответствующий результат. Для визуализации состояния игры используется метод render, который выводит доску в текстовом формате как сетку из символов X, O и пробелов.\n", + "\n", + "**Основные изменения в новой реализации:**\n", + "- Упрощённое представление состояния доски через массив, что делает её более совместимой с алгоритмами обучения с подкреплением.\n", + "- Обновлённая логика обработки нелегальных ходов: вместо завершения игры игрок получает штраф, а игра продолжается.\n", + "- Вынесение проверки победы в отдельный метод check_winner, что улучшает читаемость и модульность кода.\n", + "- Удалён метод move_generator, так как доступные ходы обрабатываются напрямую внутри step.\n", + "\n", + "Эти изменения делают среду более универсальной, удобной для использования в проектах с обучением агентов и более гибкой в плане настроек игрового процесса." + ] + }, + { + "cell_type": "code", + "execution_count": 64, + "metadata": {}, + "outputs": [], + "source": [ + "import numpy as np\n", + "import gymnasium as gym\n", + "from gymnasium import spaces\n", + "\n", + "\n", + "class TicTacToeEnv(gym.Env):\n", + " \"\"\"\n", + " Класс, реализующий среду для игры в крестики-нолики.\n", + " \n", + " Атрибуты:\n", + " action_space (spaces.Discrete): Пространство действий, где доступно 9 клеток.\n", + " observation_space (spaces.Box): Пространство наблюдений, представляющее состояние доски.\n", + " symbols (dict[int, str]): Словарь для отображения символов игроков (1 — \"X\", -1 — \"O\", 0 — пусто).\n", + " current_player (int): Игрок, который совершает текущий ход (1 для X, -1 для O).\n", + " board (np.ndarray): Состояние доски (1D массив из 9 элементов).\n", + " \n", + " Методы:\n", + " reset: Сбросить игру, вернув начальное состояние доски.\n", + " step: Сделать ход, обновив состояние игры.\n", + " check_winner: Проверить, есть ли победитель.\n", + " render: Отобразить текущую доску в консоли.\n", + " \"\"\"\n", + " \n", + " metadata: dict[str, list[str]] = {\"render_modes\": [\"ansi\"]}\n", + "\n", + " def __init__(self) -> None:\n", + " \"\"\"\n", + " Инициализация среды для игры в крестики-нолики.\n", + " Настройка пространства действий, пространства наблюдений и начальных значений.\n", + " \"\"\"\n", + " self.action_space = spaces.Discrete(9) # 9 клеток (от 0 до 8)\n", + " self.observation_space = spaces.Box(low=-1, high=1, shape=(9,), dtype=int) # 9 значений, от -1 до 1 (игроки X и O)\n", + " self.symbols: dict[int, str] = {1: \"X\", -1: \"O\", 0: \" \"} # Символы игроков и пустой символ\n", + "\n", + " self.reset()\n", + "\n", + " def reset(self, seed: int | None = None) -> np.ndarray:\n", + " \"\"\"\n", + " Сбросить состояние игры и начать новую партию.\n", + "\n", + " Параметры:\n", + " seed (int, optional): Сеед для случайных чисел (если используется).\n", + "\n", + " Возвращает:\n", + " np.ndarray: Начальное состояние доски (массив из 9 элементов).\n", + " \"\"\"\n", + " super().reset(seed=seed)\n", + " self.board = np.zeros(9, dtype=int) # Пустое поле\n", + " self.current_player = 1 # Ход первого игрока (X)\n", + " return self.board\n", + "\n", + " def step(self, action: int) -> tuple[np.ndarray, int, bool, bool]:\n", + " \"\"\"\n", + " Совершить ход в игре.\n", + "\n", + " Параметры:\n", + " action (int): Индекс клетки, в которую игрок хочет поставить свой символ.\n", + "\n", + " Возвращает:\n", + " tuple: \n", + " - np.ndarray: Обновленное состояние доски.\n", + " - int: Награда за ход (1, -1, или 0).\n", + " - bool: Флаг, указывающий на завершение игры.\n", + " - bool: Дополнительный флаг (не используется, всегда False).\n", + " \"\"\"\n", + " if self.board[action] != 0:\n", + " # Нелегальный ход (клетка уже занята)\n", + " reward: int = -self.current_player # Штраф за нелегальный ход: награду получает тот, кто НЕ совершил ошибку\n", + " self.current_player: int = -self.current_player # Смена хода к следующему игроку\n", + " return self.board, reward, False, False\n", + "\n", + " # Совершение хода\n", + " self.board[action] = self.current_player\n", + "\n", + " # Проверка на победу\n", + " if self.check_winner(self.current_player):\n", + " reward = self.current_player\n", + " terminated = True\n", + " elif np.all(self.board != 0):\n", + " # Ничья\n", + " reward = 0\n", + " terminated = True\n", + " else:\n", + " # Продолжение игры\n", + " reward = 0\n", + " terminated = False\n", + " self.current_player = -self.current_player # Смена хода\n", + "\n", + " return self.board, reward, terminated, False\n", + "\n", + " def check_winner(self, player: int) -> bool:\n", + " \"\"\"\n", + " Проверить, есть ли победитель для указанного игрока.\n", + "\n", + " Параметры:\n", + " player (int): Игрок, для которого проверяется победа (1 — X, -1 — O).\n", + "\n", + " Возвращает:\n", + " bool: True, если игрок выиграл, иначе False.\n", + " \"\"\"\n", + " winning_positions: list[tuple[int, int, int]] = [\n", + " (0, 1, 2), (3, 4, 5), (6, 7, 8), # Горизонтали\n", + " (0, 3, 6), (1, 4, 7), (2, 5, 8), # Вертикали\n", + " (0, 4, 8), (2, 4, 6), # Диагонали\n", + " ]\n", + " for positions in winning_positions:\n", + " if all(self.board[pos] == player for pos in positions):\n", + " return True\n", + " return False\n", + "\n", + " def render(self) -> None:\n", + " \"\"\"\n", + " Отобразить текущую доску в виде строк с символами X, O или пустыми клетками.\n", + " \"\"\"\n", + " board = self.board.reshape(3, 3)\n", + " print(\"\\n\".join(\" | \".join(self.symbols[cell] for cell in row) for row in board), end='\\n\\n')" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Реализация агента:\n", + "\n", + "**Агент (agent)** – объект обучения, который выполняет действия в некоторой среде для получения вознаграждения, принимая решения на основе своих целей и информации, которую он получает.\n", + "\n", + "Класс TicTacToeAgent представляет собой агента для игры в крестики-нолики, использующего метод Q-learning для обучения и улучшения своей стратегии. Агент накапливает знания в процессе взаимодействия со средой, обновляя Q-таблицу, которая хранит оценки для каждой пары \"состояние-действие\". Он выбирает действия с использованием стратегии epsilon-greedy, что позволяет балансировать между исследованием новых возможностей и эксплуатацией уже известных действий с высокой наградой.\n", + "\n", + "**Основные компоненты агента:**\n", + "1. **Q-таблица** (q_table): Хранит значения для пар \"состояние-действие\", которые оценивают, насколько выгодно выполнить определённое действие в конкретном состоянии.\n", + "2. **Параметры обучения**:\n", + " - learning_rate (α): Скорость обновления Q-значений.\n", + " - discount_factor (γ): Коэффициент дисконтирования, определяющий важность будущих наград.\n", + " - epsilon: Вероятность случайного выбора действия, обеспечивающая баланс между исследованием и эксплуатацией.\n", + " \n", + "**Методы агента:**\n", + "- get_state_key: Преобразует текущее состояние доски в ключ для Q-таблицы.\n", + "- select_action: Реализует стратегию epsilon-greedy для выбора действия, либо случайного, либо с максимальным Q-значением.\n", + "- update: Обновляет Q-значения на основе полученной награды, используя формулу Q-learning.\n", + "\n", + "В отличие от предыдущей реализации, где игроки выбирали ходы случайным образом без обучения, новая версия с агентом использует Q-learning для улучшения своей стратегии. Агент адаптируется к среде, минимизируя ошибки и максимизируя долгосрочные награды. Он также сохраняет информацию о прошлых действиях через Q-таблицу и использует её для более эффективных решений в будущем. В то время как предыдущая версия игры не включала механизма обучения и все ходы были случайными, обновлённая реализация позволяет агенту развивать стратегию и достигать лучших результатов за счет обучения на основе полученного опыта." + ] + }, + { + "cell_type": "code", + "execution_count": 65, + "metadata": {}, + "outputs": [], + "source": [ + "class TicTacToeAgent:\n", + " \"\"\"\n", + " Агент для игры в крестики-нолики, использующий метод Q-learning для обучения.\n", + " \n", + " Атрибуты:\n", + " q_table (dict): Q-таблица для хранения значений (состояние, действие) и их оценок.\n", + " learning_rate (float): Скорость обучения (альфа).\n", + " discount_factor (float): Коэффициент дисконтирования (гамма).\n", + " epsilon (float): Вероятность случайного выбора действия (для баланса между исследованием и эксплуатацией).\n", + " \n", + " Методы:\n", + " get_state_key: Преобразует состояние в ключ для Q-таблицы.\n", + " select_action: Выбирает действие на основе epsilon-greedy стратегии.\n", + " update: Обновляет Q-значение с помощью Q-learning.\n", + " \"\"\"\n", + " \n", + " def __init__(self, learning_rate: float = 0.1, discount_factor: float = 0.9, epsilon: float = 0.1):\n", + " \"\"\"\n", + " Инициализация агента для игры в крестики-нолики.\n", + " \n", + " Параметры:\n", + " learning_rate (float): Скорость обучения (по умолчанию 0.1).\n", + " discount_factor (float): Коэффициент дисконтирования (по умолчанию 0.9).\n", + " epsilon (float): Вероятность случайного выбора действия (по умолчанию 0.1).\n", + " \"\"\"\n", + " self.q_table: dict[tuple, float] = {} # Q-таблица для хранения значений (состояние, действие)\n", + " self.learning_rate = learning_rate # Скорость обучения\n", + " self.discount_factor = discount_factor # Коэффициент дисконтирования\n", + " self.epsilon = epsilon # Вероятность случайного выбора действия (для epsilon-greedy)\n", + "\n", + " def get_state_key(self, state) -> tuple:\n", + " \"\"\"\n", + " Преобразует состояние (список из 9 элементов) в ключ для Q-таблицы.\n", + " \n", + " Параметры:\n", + " state: Текущее состояние игры (состояние доски).\n", + "\n", + " Возвращает:\n", + " tuple: Ключ для Q-таблицы, представляющий состояние.\n", + " \"\"\"\n", + " return tuple(state)\n", + "\n", + " def select_action(self, state, possible_actions: list[int]) -> int:\n", + " \"\"\"\n", + " Выбирает действие с использованием epsilon-greedy стратегии.\n", + "\n", + " Параметры:\n", + " state: Текущее состояние игры (состояние доски).\n", + " possible_actions (list[int]): Список возможных действий (клеток, куда можно поставить символ).\n", + "\n", + " Возвращает:\n", + " int: Индекс выбранного действия (клетки).\n", + " \"\"\"\n", + " state_key: tuple = self.get_state_key(state)\n", + "\n", + " # Исследование (с вероятностью epsilon) или эксплуатация (выбор действия с максимальным Q-значением)\n", + " if np.random.rand() < self.epsilon or state_key not in self.q_table:\n", + " # Исследование: случайный ход\n", + " return np.random.choice(possible_actions)\n", + " # Эксплуатация: выбор действия с максимальным Q-значением\n", + " return max(possible_actions, key=lambda a: self.q_table.get((state_key, a), 0))\n", + " \n", + " def update(self, state, action: int, reward: int, next_state, possible_actions: list[int], terminated: bool) -> None:\n", + " \"\"\"\n", + " Обновляет Q-таблицу на основе выполненного хода с использованием Q-learning.\n", + "\n", + " Параметры:\n", + " state: Текущее состояние игры (состояние доски).\n", + " action (int): Действие (выбранная клетка).\n", + " reward (int): Награда, полученная за выполнение хода.\n", + " next_state: Состояние доски после выполнения хода.\n", + " possible_actions (list[int]): Список возможных действий для следующего состояния.\n", + " terminated (bool): Флаг, указывающий на завершение игры.\n", + " \"\"\"\n", + " state_key: tuple = self.get_state_key(state)\n", + " next_state_key: tuple = self.get_state_key(next_state)\n", + "\n", + " # Инициализация Q-значения для (состояние, действие), если его нет в таблице\n", + " if (state_key, action) not in self.q_table:\n", + " self.q_table[(state_key, action)] = 0\n", + "\n", + " # Если игра завершена, будущая награда равна 0\n", + " if terminated:\n", + " future_reward = 0\n", + " else:\n", + " # Для текущего состояния находим максимальное Q-значение среди возможных действий в следующем состоянии\n", + " future_reward: float = max(self.q_table.get((next_state_key, a), 0) for a in possible_actions)\n", + "\n", + " # Формула для обновления Q-значения (TD-ошибка)\n", + " td_target: float = reward + self.discount_factor * future_reward\n", + " td_error: float = td_target - self.q_table[(state_key, action)]\n", + " self.q_table[(state_key, action)] += self.learning_rate * td_error" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Реализация основного цикла обучения:\n", + "\n", + "Основной цикл обучения выполняет симуляцию игры в крестики-нолики между агентом, использующим метод Q-learning, и средой в течение заданного числа эпизодов (episodes). В процессе обучения агент учится выбирать действия, ориентируясь на полученные награды и обновления своей Q-таблицы. Целью является улучшение стратегии игры на основе предыдущего опыта.\n", + "\n", + "**Описание логики цикла:**\n", + "1. **Инициализация:**
\n", + " Перед началом эпизодов задаются параметры обучения: скорость обучения (learning_rate), коэффициент дисконтирования (discount_factor), вероятность случайного выбора действия (epsilon), и общее количество эпизодов (episodes). Также создаются объекты среды (env) и агента (agent), которые будут взаимодействовать друг с другом. Для отслеживания результатов создаются метрики статистики (например, количество побед и ничьих).\n", + "2. **Начало эпизода:**\n", + " - Каждый эпизод начинается с вызова метода env.reset(), который сбрасывает игровое поле и устанавливает начальное состояние.\n", + " - Для каждого эпизода инициализируются переменные для подсчета общей награды (total_reward), количества побед и ничьих. Флаг завершенности игры (done) устанавливается в False.\n", + "3. **Цикл ходов в одном эпизоде:**\n", + " - Для каждого хода агент выбирает действие, используя стратегию epsilon-greedy, что означает баланс между случайным выбором действия (для исследования) и выбором действия, которое на данный момент кажется оптимальным (эксплуатация).\n", + " - После выбора действия вызывается метод env.step(), который обновляет состояние игры, возвращает новую награду и флаг завершения игры (terminated).\n", + " - Агент обновляет свою Q-таблицу с помощью метода agent.update(), используя полученные награду и новое состояние.\n", + " - Если игра завершена (флаг terminated установлен в True), цикл завершения игры прерывается, и сохраняются данные для статистики.\n", + "4. **Сбор статистики:**\n", + " - В конце каждого эпизода сохраняются данные о общей награде, количестве побед и ничьих для игроков X и O в соответствующие списки статистики.\n", + " - Каждые 50 эпизодов выводится информация о текущем прогрессе, включая отображение доски через метод env.render(), а также выводится средняя награда за все эпизоды на текущий момент.\n", + "5. **Повторение:**
\n", + " Цикл продолжается до завершения заданного количества эпизодов. По мере прохождения эпизодов агент постепенно улучшает свою стратегию игры, накапливая опыт и корректируя свои действия в соответствии с полученными результатами.\n", + "\n", + "**Основные изменения в новой реализации:**\n", + "1. **Использование Q-learning:** В новой версии агент обучается с помощью Q-learning, обновляя свою Q-таблицу на основе полученных наград, что позволяет улучшать стратегию игры.\n", + "2. **Стратегия выбора хода:** Агент использует **epsilon-greedy** стратегию для выбора ходов, что позволяет балансировать между исследованием новых ходов и эксплуатацией оптимальных действий.\n", + "3. **Обновление Q-таблицы:** Каждый ход агента сопровождается обновлением Q-значений на основе полученной награды и информации о будущем состоянии, улучшая стратегию игры.\n", + "4. **Отслеживание статистики:** Ведется подробная статистика по каждому эпизоду (победы, ничьи, общая награда), что позволяет отслеживать прогресс обучения." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " | | \n", + "X | | \n", + " | | \n", + "\n", + "O | | \n", + "X | | \n", + " | | \n", + "\n", + "O | | \n", + "X | | \n", + "X | | \n", + "\n", + "O | | \n", + "X | | \n", + "X | | O\n", + "\n", + "O | | X\n", + "X | | \n", + "X | | O\n", + "\n", + "O | | X\n", + "X | | O\n", + "X | | O\n", + "\n", + "O | | X\n", + "X | | O\n", + "X | X | O\n", + "\n", + "O | O | X\n", + "X | | O\n", + "X | X | O\n", + "\n", + "O | O | X\n", + "X | X | O\n", + "X | X | O\n", + "\n", + "Эпизод 50, Общая награда: 1\n", + "Средняя награда: 0.18\n", + "\n", + " | | \n", + " | X | \n", + " | | \n", + "\n", + " | | \n", + "O | X | \n", + " | | \n", + "\n", + " | | X\n", + "O | X | \n", + " | | \n", + "\n", + "O | | X\n", + "O | X | \n", + " | | \n", + "\n", + "O | | X\n", + "O | X | \n", + " | X | \n", + "\n", + "O | | X\n", + "O | X | \n", + "O | X | \n", + "\n", + "Эпизод 100, Общая награда: -1\n", + "Средняя награда: 0.35\n", + "\n", + " | | X\n", + " | | \n", + " | | \n", + "\n", + " | | X\n", + " | O | \n", + " | | \n", + "\n", + " | X | X\n", + " | O | \n", + " | | \n", + "\n", + " | X | X\n", + " | O | \n", + "O | | \n", + "\n", + " | X | X\n", + " | O | \n", + "O | | X\n", + "\n", + " | X | X\n", + " | O | O\n", + "O | | X\n", + "\n", + "X | X | X\n", + " | O | O\n", + "O | | X\n", + "\n", + "Эпизод 150, Общая награда: 1\n", + "Средняя награда: 0.35333333333333333\n", + "\n", + " | | \n", + " | | X\n", + " | | \n", + "\n", + " | | \n", + " | O | X\n", + " | | \n", + "\n", + " | | \n", + "X | O | X\n", + " | | \n", + "\n", + "O | | \n", + "X | O | X\n", + " | | \n", + "\n", + "O | | \n", + "X | O | X\n", + "X | | \n", + "\n", + "O | | O\n", + "X | O | X\n", + "X | | \n", + "\n", + "O | | O\n", + "X | O | X\n", + "X | | X\n", + "\n", + "O | O | O\n", + "X | O | X\n", + "X | | X\n", + "\n", + "Эпизод 200, Общая награда: -1\n", + "Средняя награда: 0.405\n", + "\n", + " | | \n", + " | | X\n", + " | | \n", + "\n", + "O | | \n", + " | | X\n", + " | | \n", + "\n", + "O | | \n", + " | | X\n", + "X | | \n", + "\n", + "O | | \n", + " | O | X\n", + "X | | \n", + "\n", + "O | | \n", + "X | O | X\n", + "X | | \n", + "\n", + "O | | \n", + "X | O | X\n", + "X | O | \n", + "\n", + "O | X | \n", + "X | O | X\n", + "X | O | \n", + "\n", + "O | X | \n", + "X | O | X\n", + "X | O | O\n", + "\n", + "Эпизод 250, Общая награда: -1\n", + "Средняя награда: 0.408\n", + "\n", + " | | \n", + " | | \n", + " | | X\n", + "\n", + " | | \n", + "O | | \n", + " | | X\n", + "\n", + " | | \n", + "O | X | \n", + " | | X\n", + "\n", + " | O | \n", + "O | X | \n", + " | | X\n", + "\n", + "X | O | \n", + "O | X | \n", + " | | X\n", + "\n", + "Эпизод 300, Общая награда: 1\n", + "Средняя награда: 0.38666666666666666\n", + "\n" + ] + } + ], + "source": [ + "# Параметры обучения\n", + "learning_rate: float = 0.1 # Скорость обучения (alpha)\n", + "discount_factor: float = 0.9 # Коэффициент дисконтирования (gamma)\n", + "epsilon: float = 0.1 # Вероятность случайного выбора действия для исследования (epsilon)\n", + "episodes: int = 300 # Количество эпизодов обучения\n", + "\n", + "# Инициализация среды и агента\n", + "env: TicTacToeEnv = TicTacToeEnv() # Создание экземпляра среды для игры в крестики-нолики\n", + "agent: TicTacToeAgent = TicTacToeAgent(learning_rate, discount_factor, epsilon) # Создание агента для игры с Q-learning\n", + "\n", + "# Инициализация метрик для отслеживания прогресса\n", + "statistics: dict[str, list[int]] = {\n", + " \"Episode\": [], # Номер эпизода\n", + " \"Total Reward\": [], # Общая награда за эпизод\n", + " \"Wins_X\": [], # Количество побед для игрока X\n", + " \"Wins_O\": [], # Количество побед для игрока O\n", + " \"Draws\": [], # Количество ничьих\n", + "}\n", + "\n", + "# Основной цикл обучения\n", + "for episode in range(episodes):\n", + " state = env.reset() # Сброс среды (начало нового эпизода)\n", + " done: bool = False # Флаг, который указывает, завершена ли игра\n", + " total_reward: int = 0 # Переменная для хранения общей награды за эпизод\n", + " wins_X: int = 0 # Переменная для подсчета побед игрока X\n", + " wins_O: int = 0 # Переменная для подсчета побед игрока O\n", + " draws: int = 0 # Переменная для подсчета ничьих\n", + "\n", + " while not done: # Пока игра не завершена\n", + " # Получаем список возможных действий (пустые клетки на доске)\n", + " possible_actions: list[int] = [i for i in range(9) if state[i] == 0]\n", + " \n", + " # Агент выбирает действие с использованием epsilon-greedy стратегии\n", + " action: int = agent.select_action(state, possible_actions)\n", + "\n", + " # Совершаем ход в среде, получаем новое состояние, награду и статус завершенности игры\n", + " next_state, reward, terminated, truncated = env.step(action)\n", + "\n", + " # Обновление Q-таблицы агента на основе выполненного хода\n", + " agent.update(state, action, reward, next_state, possible_actions, terminated)\n", + "\n", + " # Обновление статистики\n", + " total_reward += reward # Суммируем награду за ход\n", + " if reward == 1: # Победа для игрока X\n", + " wins_X += 1\n", + " elif reward == -1: # Победа для игрока O\n", + " wins_O += 1\n", + " elif reward == 0 and terminated: # Ничья\n", + " draws += 1\n", + "\n", + " # Обновляем состояние для следующего шага\n", + " state = next_state\n", + " done = terminated # Игра завершается, если флаг \"terminated\" равен True\n", + " \n", + " # Выводим отображение игры каждые 50 эпизодов\n", + " if (episode + 1) % 50 == 0:\n", + " env.render()\n", + "\n", + " # Сохраняем статистику по эпизоду\n", + " statistics[\"Episode\"].append(episode + 1) # Номер эпизода\n", + " statistics[\"Total Reward\"].append(total_reward) # Общая награда за эпизод\n", + " statistics[\"Wins_X\"].append(wins_X) # Победы для игрока X\n", + " statistics[\"Wins_O\"].append(wins_O) # Победы для игрока O\n", + " statistics[\"Draws\"].append(draws) # Ничьи\n", + "\n", + " # Выводим прогресс каждые 50 эпизодов\n", + " if (episode + 1) % 50 == 0:\n", + " print(f\"Эпизод {episode + 1}, Общая награда: {total_reward}\")\n", + " # Рассчитываем среднюю награду\n", + " average_reward: float = sum(statistics[\"Total Reward\"]) / len(statistics[\"Total Reward\"])\n", + " print(f\"Средняя награда: {average_reward}\\n\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Итоги:\n", + "\n", + "**Описание графика:**
\n", + "График демонстрирует кумулятивный подсчет побед для игроков X и O, а также количество ничьих по мере прохождения обучающих эпизодов игры в крестики-нолики. Каждая линия на графике отражает количество побед или ничьих, накопленное за всё время обучения, что позволяет отслеживать прогресс и эффективность стратегии каждого игрока.\n", + "\n", + "- **Красная линия (Победы X):** Показывает кумулятивное количество побед игрока X (крестики) за каждый эпизод. Это отражает, как стратегия игрока X улучшалась или стабилизировалась по мере обучения.\n", + "- **Синяя линия (Победы O):** Показывает кумулятивное количество побед игрока O (нолики), отображая успешность его стратегии.\n", + "- **Зеленая линия (Ничьи):** Показывает количество ничьих, что помогает оценить, как часто игры заканчивались без победителя.\n", + "\n", + "График позволяет визуально оценить:\n", + "1. **Эффективность обучения:** Как меняется количество побед для каждого игрока с каждым эпизодом. Это может показать, насколько хорошо агент учится и насколько улучшилась его стратегия.\n", + "2. **Равновесие игры:** Наличие линий, которые растут с похожей скоростью, может указывать на сбалансированность игры между игроками X и O. Преобладание одной из линий может свидетельствовать о доминировании одной из стратегий.\n", + "3. **Показатели ничьих:** Анализ линии ничьих помогает оценить, насколько часто игра заканчивается без победителя, что может быть результатом сбалансированных стратегий обоих игроков.\n", + "\n", + "**Итоги выполненной работы:**\n", + "1. **Разработка и обучение агентов:** Создан агент, использующий метод Q-learning для игры в крестики-нолики, который обучается на основе взаимодействия с игровой средой. Агенты оптимизируют свои стратегии для достижения победы или ничьей. \n", + "2. **Реализация среды для игры:** Разработана среда для игры в крестики-нолики с использованием библиотеки Gymnasium. Среда включает в себя управление состоянием игры, проверку победных условий и обработку действий игроков.\n", + "3. **Анализ эффективности стратегий:** Для каждого эпизода отслеживается количество побед и ничьих, что помогает в анализе прогресса обучения и эффективности стратегий обоих игроков.\n", + "4. **Визуализация прогресса обучения:** Построен кумулятивный график, который демонстрирует, как с каждым эпизодом увеличивается количество побед для игроков и ничьих. График позволяет увидеть, насколько эффективно развивается стратегия агентов и их производительность в процессе обучения.\n", + "5. **Использование обучения с подкреплением:** В проекте применен алгоритм Q-learning, который позволил агентам развивать свои стратегии через опыт, обновляя свою Q-таблицу на основе получаемых наград." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import matplotlib.pyplot as plt\n", + "\n", + "\n", + "# Построение кумулятивного графика\n", + "plt.figure(figsize=(12, 6))\n", + "\n", + "episodes_range = statistics[\"Episode\"]\n", + "wins_X = np.cumsum(statistics[\"Wins_X\"])\n", + "wins_O = np.cumsum(statistics[\"Wins_O\"])\n", + "draws = np.cumsum(statistics[\"Draws\"])\n", + "\n", + "plt.plot(episodes_range, wins_X, label=\"Победы X\", color=\"red\")\n", + "plt.plot(episodes_range, wins_O, label=\"Победы O\", color=\"blue\")\n", + "plt.plot(episodes_range, draws, label=\"Ничьи\", color=\"green\")\n", + "\n", + "plt.xlabel(\"Эпизоды\")\n", + "plt.ylabel(\"Кумулятивный подсчет\")\n", + "plt.title(\"Кумулятивная производительность по эпизодам\")\n", + "plt.legend()\n", + "plt.grid()\n", + "\n", + "plt.tight_layout()\n", + "plt.show()" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "aimenv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.5" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/lab_6/requirements.txt b/lab_6/requirements.txt new file mode 100644 index 0000000..b1e3c0e Binary files /dev/null and b/lab_6/requirements.txt differ