simonov_nikita_lab4

2023-11-29 19:50:53 +04:00 · 2023-11-29 19:50:53 +04:00 · a115455d74
commit a115455d74
parent a8c58683dd
4 changed files with 11067 additions and 0 deletions
--- a/simonov_nikita_lab_4/lab4.py
+++ b/simonov_nikita_lab_4/lab4.py
@ -0,0 +1,34 @@
+import pandas as pd
+from sklearn.cluster import KMeans
+from sklearn.preprocessing import StandardScaler
+import matplotlib.pyplot as plt
+
+# Загрузка данных
+data = pd.read_csv("train_bikes.csv", sep=',').dropna()
+
+# Выделение признаков (временные интервалы и количество аренды)
+X = data[['datetime', 'count']].copy()  # Создаем копию DataFrame
+
+# Преобразование формата времени
+X['datetime'] = pd.to_datetime(X['datetime'])
+X['hour'] = X['datetime'].dt.hour
+
+# Выполнение кластеризации
+features = ['hour', 'count']
+X_cluster = X[features]
+scaler = StandardScaler()
+X_scaled = scaler.fit_transform(X_cluster)
+
+# Используйтся .loc для избежания SettingWithCopyWarning
+X.loc[:, 'cluster'] = KMeans(n_clusters=3, random_state=42, n_init=10).fit_predict(X_scaled)
+
+# Визуализация результатов
+plt.scatter(X['hour'], X['count'], c=X['cluster'], cmap='viridis')
+plt.xlabel('Hour of Day')
+plt.ylabel('Bike Rentals')
+plt.title('Clustering of Time Intervals based on Bike Rentals')
+plt.show()
+
+# Анализ результатов
+cluster_summary = X.groupby('cluster')['count'].describe()
+print(cluster_summary)
--- a/simonov_nikita_lab_4/readme.md
+++ b/simonov_nikita_lab_4/readme.md
@ -0,0 +1,146 @@
+# Лабораторная работа №4 Вариант 25.
+
+## Задание
+
+Общее задание: Использовать алгоритм кластеризации `K-means`, самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной задачи.
+
+Задача кластеризации: Можно ли выделить группы временных интервалов с разными уровнями активности аренды.
+
+Ссылка на набор даных: [kaggle-bike-sharing-system](https://www.kaggle.com/datasets/itssuru/bike-sharing-system-washington-dc/?select=train_bikes.csv)
+
+## Содержание
+- [Лабораторная работа №4 Вариант 25.](#лабораторная-работа-4-вариант-25)
+  - [Задание](#задание)
+  - [Содержание](#содержание)
+  - [Введение](#введение)
+  - [Зависимости](#зависимости)
+  - [Запуск приложения](#запуск-приложения)
+  - [Описание кода](#описание-кода)
+  - [Заключение](#заключение)
+    - [Оценка работы моделей](#оценка-работы-моделей)
+    - [На основе предоставленных кластеров, мы можем сделать  выводы:](#на-основе-предоставленных-кластеров-мы-можем-сделать--выводы)
+
+## Введение
+
+Данный код демонстрирует, кластеризацию временных интервалов аренды велосипедов с использованием алгоритма K-means. Целью является выделение групп временных интервалов с разными уровнями активности аренды. Скрипт использует набор данных train_bikes.csv, который включает информацию о прокате велосипедов в Вашингтоне, округ Колумбия.
+
+## Зависимости
+
+Для работы этого приложения необходимы следующие библиотеки Python:
+
+- pandas
+- scikit-learn
+- NumPy
+- Matplotlib
+
+Вы можете установить их с помощью pip:
+
+```bash
+pip install numpy scikit-learn pandas matplotlib
+```
+
+## Запуск приложения
+
+Чтобы запустить эту программу, выполните следующую команду:
+
+```bash
+python lab4.py
+```
+Откроется визуализация данных и в консоль выведется резудьтат.
+
+## Описание кода
+
+- Считывает данные о прокате велосипедов из CSV-файла `train_bikes.csv` и обрабатывает отсутствующие значения, удаляя соответствующие строки.
+
+- Извлечение признаков: Извлекает необходимые признаки, включая дату и время, а также количество арендованных велосипедов. Создает копию DataFrame для избежания предупреждения `SettingWithCopyWarning`.
+
+```python
+X = data[['datetime', 'count']].copy()
+```
+
+- Преобразование времени: Преобразует признак даты и времени в часы дня, что является важным для кластеризации на основе временных интервалов.
+
+```python
+X['datetime'] = pd.to_datetime(X['datetime'])
+X['hour'] = X['datetime'].dt.hour
+```
+
+- Предварительная обработка данных: Масштабирует признаки с использованием `StandardScaler` для обеспечения их схожести.
+
+- Кластеризация: Использует алгоритм K-means для разделения временных интервалов на три группы на основе часа дня и количества аренды. Явно устанавливает параметр n_init, чтобы избежать предупреждения о будущих изменениях.
+
+```python
+X.loc[:, 'cluster'] = KMeans(n_clusters=3, random_state=42, n_init=10).fit_predict(X_scaled)
+```
+
+- Визуализация: Строит точечную диаграмму для визуализации результатов кластеризации. Каждая точка представляет временной интервал и окрашена в цвет, соответствующий присвоенному кластеру.
+
+- Выводит в консоль сводку кластеров, вычисляя описательные статистики для количества аренды в каждом кластере.
+
+## Заключение
+
+### Оценка работы моделей
+
+Точечная диаграмма и сводка кластеров предоставляют представление о различных паттернах активности аренды велосипедов в течение дня. Анализ этих кластеров может помочь выявить пиковые часы спроса и адаптировать стратегии распределения ресурсов или маркетинговые действия.
+
+![](result.png)
+
+<table>
+    <thead>
+        <tr>
+            <th>Кластер</th>
+            <th>Количество наблюдений</th>
+            <th>Среднее кол-во аренд велосипедов</th>
+            <th>Стандартное отклонение</th>
+            <th>Минимум аренды</th>
+            <th>25-й перцентиль</th>
+            <th>Медиана</th>
+            <th>75-й перцентиль</th>
+            <th>Максимум аренды</th>
+        </tr>
+    </thead>
+    <tbody>
+        <tr>
+            <td>0</td>
+            <td>4193</td>
+            <td>171.52</td>
+            <td>81.48</td>
+            <td>4</td>
+            <td>106</td>
+            <td>171</td>
+            <td>235</td>
+            <td>356</td>
+        </tr>
+        <tr>
+            <td>1</td>
+            <td>2328</td>
+            <td>474.83</td>
+            <td>139.73</td>
+            <td>272</td>
+            <td>367</td>
+            <td>441</td>
+            <td>555</td>
+            <td>977</td>
+        </tr>
+        <tr>
+            <td>2</td>
+            <td>4365</td
+            ><td>59.77</td>
+            <td>67.05</td>
+            <td>1</td>
+            <td>9</td>
+            <td>30</td>
+            <td>94</td>
+            <td>301</td>
+        </tr>
+    </tbody>
+</table>
+
+### На основе предоставленных кластеров, мы можем сделать  выводы:
+
+1. **Утренний период (Кластер 2):**
+- Низкий уровень аренды: Утренний период (вероятно, от раннего утра до полудня) характеризуется низким уровнем аренды велосипедов. Это может быть связано с тем, что люди предпочитают другие виды транспорта или не активно пользуются велосипедами в этот период.
+2. **Пиковый период (Кластер 1):**
+- Высокий спрос в пиковый час: В это время наблюдается высокий уровень аренды велосипедов, вероятно, в часы пик, когда люди двигаются в/из работы или в другие места активности. Бизнес может сфокусироваться на предоставлении дополнительных услуг, улучшении инфраструктуры или рекламе в это время.
+3. **Вечерний период (Кластер 0):**
+- Умеренный уровень аренды: Вечерний период (возможно, с послеполуденной до вечера) характеризуется умеренным уровнем аренды велосипедов. В это время бизнес может продолжать предоставлять услуги велопроката, а также улучшать комфорт и безопасность пользователей.
--- a/simonov_nikita_lab_4/result.png
+++ b/simonov_nikita_lab_4/result.png
--- a/simonov_nikita_lab_4/train_bikes.csv
+++ b/simonov_nikita_lab_4/train_bikes.csv