faskhutdinov_idris_lab_4 is ready #307

Open
CptNemo wants to merge 2 commits from faskhutdinov_idris_lab_4 into main
4 changed files with 46100 additions and 0 deletions
Showing only changes of commit e4edd7a112 - Show all commits

File diff suppressed because it is too large Load Diff

View File

@ -0,0 +1,45 @@
# Лабораторная работа №4. Кластеризация
## 2 вариант(27 % 2 = 2)
### Задание:
Использовать метод кластеризации по варианту для данных из таблицы
1 по варианту (таблица 9), самостоятельно сформулировав задачу.
Интерпретировать результаты и оценить, насколько хорошо он подходит для
решения сформулированной вами задачи.
Используемый метод: linkage
В моем случае данными является датасет о продаже автомобилей. В датасете представлены следующие столбцы:
* id
* Company Name
* Model Name
* Price
* Model Year
* Location
* Mileage
* Engine Type
* Engine Capacity
* Color
* Assembly
* Body Type
* Transmission Type
* Registration Status
### Как запустить лабораторную
1. Запустить файл main.py
### Используемые технологии
1. Библиотека matplotlib
2. Библиотека scikit-learn
3. Библиотека pandas
3. Python
4. IDE PyCharm
### Описание лабораторной работы
Программа выполняет кластеризацию данных методом linkage, используя для своей работы признаки "Стоимость" и "Пробег"
Для работы программы выбирается часть данных(Ввиду того, что работы программы на полном объеме данных требует больших вычислительных мощностей), после чего они стандартизируются,
а затем к ним применяется кластеризация. После чего строится график, который показывается на экране, а так же сохраняется в папке проекта.
Скриншот работы программы представлен в папке проекта.
### Результат
Кластеризация представленного датасета позволяет увидеть схожие пары "Стоимость"-"Пробег", что позволяет выделить более или менее схожие автомобили.

Binary file not shown.

After

Width:  |  Height:  |  Size: 24 KiB

View File

@ -0,0 +1,32 @@
import pandas as pd
from sklearn.cluster import AgglomerativeClustering
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
# Чтение данных из датасета
data = pd.read_csv("Clean Data_pakwheels.csv")
# Уменьшение размера данных для оптимизации работы программы
data = data.sample(frac=.01)
# Для кластеризации выбираются признаки "Стоимость" и "Пробег"
features = ['Price','Mileage']
cluster_data = data[features]
X = data[features]
# Стандартизация данных
standartSc = StandardScaler()
X_scaled = standartSc.fit_transform(X)
# Кластеризация с разделением на 4 кластера
cluster = AgglomerativeClustering(n_clusters=4, linkage='ward')
data['cluster'] = cluster.fit_predict(X_scaled)
# Построение графика
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=data['cluster'])
plt.xlabel('Стоимость')
plt.ylabel('Пробег')
plt.title('Кластеризация')
plt.savefig(f"linkage.png")
plt.show()