lab3

2023-11-29 19:36:57 +04:00 · 2023-11-29 19:36:57 +04:00 · a4aa458bc5
commit a4aa458bc5
parent a8c58683dd
3 changed files with 11026 additions and 0 deletions
--- a/simonov_nikita_lab_3/lab3.py
+++ b/simonov_nikita_lab_3/lab3.py
@ -0,0 +1,38 @@
+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.tree import DecisionTreeClassifier
+from sklearn.metrics import accuracy_score, classification_report
+
+# Загрузка данных
+data = pd.read_csv("train_bikes.csv", sep=',').dropna()
+
+# Подготовка данных
+# Здесь определяются пороги для категорий спроса
+low_demand_threshold = 100  # Порог для "Низкого спроса"
+medium_demand_threshold = 300  # Порог для "Среднего спроса"
+
+# Создание новой категориальной переменной на основе порогов
+data['demand_category'] = pd.cut(data['count'], bins=[0, low_demand_threshold, medium_demand_threshold, float('inf')],
+                                 labels=["Low Demand", "Medium Demand", "High Demand"])
+
+# Выделение признаков и целевой переменной
+X = data.drop(['count', 'demand_category', 'datetime'], axis=1)  # Удаление ненужных столбцов
+y = data['demand_category']
+
+# Разделение данных на обучающий и тестовый наборы
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
+
+# Создание и обучение модели дерева решений
+clf = DecisionTreeClassifier(random_state=42)
+clf.fit(X_train, y_train)
+
+# Предсказание категорий спроса на тестовом наборе
+y_pred = clf.predict(X_test)
+
+# Оценка качества модели
+accuracy = accuracy_score(y_test, y_pred)
+print(f"Accuracy: {accuracy:.2f}")
+
+# Вывод отчета о классификации
+report = classification_report(y_test, y_pred)
+print(report)
--- a/simonov_nikita_lab_3/readme.md
+++ b/simonov_nikita_lab_3/readme.md
@ -0,0 +1,101 @@
+# Лабораторная работа №3.
+
+## Задание
+
+Общее задание: Решите с помощью библиотечной реализации дерева решений задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету «Методы искусственного интеллекта» на 99% ваших данных. Проверьте работу модели на оставшемся проценте, сделайте вывод.
+
+По данным курсовой работы с помощью дерева решений решить выбранную задачу классификации: Прогнозирование использования велосипедов в зависимости от времени и погодных условий.
+
+## Содержание
+- [Лабораторная работа №3.](#лабораторная-работа-3)
+  - [Задание](#задание)
+  - [Содержание](#содержание)
+  - [Введение](#введение)
+  - [Зависимости](#зависимости)
+  - [Запуск приложения](#запуск-приложения)
+  - [Описание кода](#описание-кода)
+  - [Заключение](#заключение)
+    - [Оценка работы моделей](#оценка-работы-моделей)
+    - [Общий вывод](#общий-вывод)
+
+## Введение
+
+Данный код демонстрирует, прогнозирование спроса на основе классификатора дерева решений. Модель обучается на наборе данных `train_bikes.csv`, содержащем информацию о прокате велосипедов, а целевая переменная - категория спроса, классифицированная как "Низкий спрос", "Средний спрос" или "Высокий спрос".
+
+## Зависимости
+
+Для работы этого приложения необходимы следующие библиотеки Python:
+
+- pandas
+- scikit-learn
+- NumPy
+
+Вы можете установить их с помощью pip:
+
+```bash
+pip install numpy scikit-learn pandas
+```
+
+## Запуск приложения
+
+Чтобы запустить эту программу, выполните следующую команду:
+
+```bash
+python lab3.py
+```
+В консоль выведется резудьтат.
+
+## Описание кода
+
+- Считывает данные о прокате велосипедов из CSV-файла `train_bikes.csv` и обрабатывает отсутствующие значения, удаляя соответствующие строки.
+
+- Подготовка данных: Задает пороги для категорий спроса (`low_demand_threshold` и `medium_demand_threshold`) и создает новую категориальную переменную `demand_category` на основе этих порогов.
+
+```python
+data['demand_category'] = pd.cut(data['count'], bins=[0, low_demand_threshold, medium_demand_threshold, float('inf')],
+                                 labels=["Low Demand", "Medium Demand", "High Demand"])
+```
+
+- Извлекает признаки и целевую переменную. Признаки включают различные атрибуты, связанные с прокатом велосипедов, а целевая переменная - категория спроса.
+
+```python
+X = data.drop(['count', 'demand_category', 'datetime'], axis=1)  # Удаление ненужных столбцов
+y = data['demand_category']
+```
+
+- Разбивает набор данных на обучающий и тестовый наборы с использованием функции `train_test_split` из библиотеки `scikit-learn`.
+
+- Создает классификатор дерева решений `DecisionTreeClassifier` и обучает его на обучающих данных.
+
+- Прогнозирование: Использует обученную модель для прогнозирования категорий спроса на тестовом наборе.
+
+- Оценка модели: Рассчитывает точность модели с использованием функции `accuracy_score` и предоставляет подробный отчет о классификации, включая точность, полноту и F1-меру для каждой категории спроса.
+
+## Заключение
+
+### Оценка работы моделей
+
+Обученный классификатор дерева решений достиг точности 0.99 на тестовом наборе данных. Отчет о классификации предоставляет детальное описание производительности модели для каждой категории спроса:
+
+```bash
+               precision    recall  f1-score   support
+
+  High Demand       0.99      0.98      0.99       483
+   Low Demand       0.99      1.00      1.00       852
+Medium Demand       0.99      0.99      0.99       843
+
+     accuracy                           0.99      2178
+    macro avg       0.99      0.99      0.99      2178
+ weighted avg       0.99      0.99      0.99      2178
+
+```
+
+
+
+### Общий вывод
+
+- Модель показывает высокую точность, recall и F1-score для всех категорий спроса, что свидетельствует о хорошем качестве предсказаний.
+
+- Precision, recall и F1-score близки к 1 для каждой категории, что указывает на эффективность модели в каждом классе.
+
+- Общая точность (accuracy) модели также высока (99%), что свидетельствует о ее общей эффективности в предсказании категорий спроса на велосипеды.
--- a/simonov_nikita_lab_3/train_bikes.csv
+++ b/simonov_nikita_lab_3/train_bikes.csv