4 changed files with 46100 additions and 0 deletions
--- a/faskhutdinov_idris_lab_4/Clean
+++ b/faskhutdinov_idris_lab_4/Clean
--- a/faskhutdinov_idris_lab_4/Readme.md
+++ b/faskhutdinov_idris_lab_4/Readme.md
@ -0,0 +1,45 @@
+# Лабораторная работа №4. Кластеризация
+## 2 вариант(27 % 2 = 2)
+### Задание:
+Использовать метод кластеризации по варианту для данных из таблицы
+1 по варианту (таблица 9), самостоятельно сформулировав задачу.
+Интерпретировать результаты и оценить, насколько хорошо он подходит для
+решения сформулированной вами задачи.
+
+Используемый метод: linkage
+
+В моем случае данными является датасет о продаже автомобилей. В датасете представлены следующие столбцы:
+* id
+* Company Name
+* Model Name
+* Price
+* Model Year
+* Location
+* Mileage
+* Engine Type
+* Engine Capacity
+* Color
+* Assembly
+* Body Type
+* Transmission Type
+* Registration Status
+
+### Как запустить лабораторную
+1. Запустить файл main.py
+
+### Используемые технологии
+1. Библиотека matplotlib
+2. Библиотека scikit-learn
+3. Библиотека pandas
+3. Python
+4. IDE PyCharm
+
+### Описание лабораторной работы
+Программа выполняет кластеризацию данных методом linkage, используя для своей работы признаки "Стоимость" и "Пробег"
+Для работы программы выбирается часть данных(Ввиду того, что работы программы на полном объеме данных требует больших вычислительных мощностей), после чего они стандартизируются,
+а затем к ним применяется кластеризация. После чего строится график, который показывается на экране, а так же сохраняется в папке проекта.
+
+Скриншот работы программы представлен в папке проекта.
+### Результат
+
+Кластеризация представленного датасета позволяет увидеть схожие пары "Стоимость"-"Пробег", что позволяет выделить более или менее схожие автомобили.
--- a/faskhutdinov_idris_lab_4/linkage.png
+++ b/faskhutdinov_idris_lab_4/linkage.png
--- a/faskhutdinov_idris_lab_4/main.py
+++ b/faskhutdinov_idris_lab_4/main.py
@ -0,0 +1,32 @@
+import pandas as pd
+from sklearn.cluster import AgglomerativeClustering
+from sklearn.preprocessing import StandardScaler
+import matplotlib.pyplot as plt
+
+# Чтение данных из датасета
+data = pd.read_csv("Clean Data_pakwheels.csv")
+# Уменьшение размера данных для оптимизации работы программы
+data = data.sample(frac=.01)
+
+
+# Для кластеризации выбираются признаки "Стоимость" и "Пробег"
+features = ['Price','Mileage']
+cluster_data = data[features]
+
+X = data[features]
+
+# Стандартизация данных
+standartSc = StandardScaler()
+X_scaled = standartSc.fit_transform(X)
+
+# Кластеризация с разделением на 4 кластера
+cluster = AgglomerativeClustering(n_clusters=4, linkage='ward')
+data['cluster'] = cluster.fit_predict(X_scaled)
+
+# Построение графика
+plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=data['cluster'])
+plt.xlabel('Стоимость')
+plt.ylabel('Пробег')
+plt.title('Кластеризация')
+plt.savefig(f"linkage.png")
+plt.show()