faskhutdinov_idris_lab_4 is ready

2024-01-14 20:54:07 +04:00 · 2024-01-14 20:54:07 +04:00 · e4edd7a112
commit e4edd7a112
parent 2cc422ae74
4 changed files with 46100 additions and 0 deletions
--- a/faskhutdinov_idris_lab_4/Clean
+++ b/faskhutdinov_idris_lab_4/Clean
--- a/faskhutdinov_idris_lab_4/Readme.md
+++ b/faskhutdinov_idris_lab_4/Readme.md
@ -0,0 +1,45 @@
 # Лабораторная работа №4. Кластеризация
 ## 2 вариант(27 % 2 = 2)
 ### Задание:
 Использовать метод кластеризации по варианту для данных из таблицы
 1 по варианту (таблица 9), самостоятельно сформулировав задачу.
 Интерпретировать результаты и оценить, насколько хорошо он подходит для
 решения сформулированной вами задачи.
 Используемый метод: linkage
 В моем случае данными является датасет о продаже автомобилей. В датасете представлены следующие столбцы:
 * id
 * Company Name
 * Model Name
 * Price
 * Model Year
 * Location
 * Mileage
 * Engine Type
 * Engine Capacity
 * Color
 * Assembly
 * Body Type
 * Transmission Type
 * Registration Status
 ### Как запустить лабораторную
 1. Запустить файл main.py
 ### Используемые технологии
 1. Библиотека matplotlib
 2. Библиотека scikit-learn
 3. Библиотека pandas
 3. Python
 4. IDE PyCharm
 ### Описание лабораторной работы
 Программа выполняет кластеризацию данных методом linkage, используя для своей работы признаки "Стоимость" и "Пробег"
 Для работы программы выбирается часть данных(Ввиду того, что работы программы на полном объеме данных требует больших вычислительных мощностей), после чего они стандартизируются,
 а затем к ним применяется кластеризация. После чего строится график, который показывается на экране, а так же сохраняется в папке проекта.
 Скриншот работы программы представлен в папке проекта.
 ### Результат
 Кластеризация представленного датасета позволяет увидеть схожие пары "Стоимость"-"Пробег", что позволяет выделить более или менее схожие автомобили.
--- a/faskhutdinov_idris_lab_4/linkage.png
+++ b/faskhutdinov_idris_lab_4/linkage.png
--- a/faskhutdinov_idris_lab_4/main.py
+++ b/faskhutdinov_idris_lab_4/main.py
@ -0,0 +1,32 @@
 import pandas as pd
 from sklearn.cluster import AgglomerativeClustering
 from sklearn.preprocessing import StandardScaler
 import matplotlib.pyplot as plt
 # Чтение данных из датасета
 data = pd.read_csv("Clean Data_pakwheels.csv")
 # Уменьшение размера данных для оптимизации работы программы
 data = data.sample(frac=.01)
 # Для кластеризации выбираются признаки "Стоимость" и "Пробег"
 features = ['Price','Mileage']
 cluster_data = data[features]
 X = data[features]
 # Стандартизация данных
 standartSc = StandardScaler()
 X_scaled = standartSc.fit_transform(X)
 # Кластеризация с разделением на 4 кластера
 cluster = AgglomerativeClustering(n_clusters=4, linkage='ward')
 data['cluster'] = cluster.fit_predict(X_scaled)
 # Построение графика
 plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=data['cluster'])
 plt.xlabel('Стоимость')
 plt.ylabel('Пробег')
 plt.title('Кластеризация')
 plt.savefig(f"linkage.png")
 plt.show()