faskhutdinov_idris_lab_4 is ready
This commit is contained in:
parent
2cc422ae74
commit
e4edd7a112
46023
faskhutdinov_idris_lab_4/Clean Data_pakwheels.csv
Normal file
46023
faskhutdinov_idris_lab_4/Clean Data_pakwheels.csv
Normal file
File diff suppressed because it is too large
Load Diff
45
faskhutdinov_idris_lab_4/Readme.md
Normal file
45
faskhutdinov_idris_lab_4/Readme.md
Normal file
@ -0,0 +1,45 @@
|
|||||||
|
# Лабораторная работа №4. Кластеризация
|
||||||
|
## 2 вариант(27 % 2 = 2)
|
||||||
|
### Задание:
|
||||||
|
Использовать метод кластеризации по варианту для данных из таблицы
|
||||||
|
1 по варианту (таблица 9), самостоятельно сформулировав задачу.
|
||||||
|
Интерпретировать результаты и оценить, насколько хорошо он подходит для
|
||||||
|
решения сформулированной вами задачи.
|
||||||
|
|
||||||
|
Используемый метод: linkage
|
||||||
|
|
||||||
|
В моем случае данными является датасет о продаже автомобилей. В датасете представлены следующие столбцы:
|
||||||
|
* id
|
||||||
|
* Company Name
|
||||||
|
* Model Name
|
||||||
|
* Price
|
||||||
|
* Model Year
|
||||||
|
* Location
|
||||||
|
* Mileage
|
||||||
|
* Engine Type
|
||||||
|
* Engine Capacity
|
||||||
|
* Color
|
||||||
|
* Assembly
|
||||||
|
* Body Type
|
||||||
|
* Transmission Type
|
||||||
|
* Registration Status
|
||||||
|
|
||||||
|
### Как запустить лабораторную
|
||||||
|
1. Запустить файл main.py
|
||||||
|
|
||||||
|
### Используемые технологии
|
||||||
|
1. Библиотека matplotlib
|
||||||
|
2. Библиотека scikit-learn
|
||||||
|
3. Библиотека pandas
|
||||||
|
3. Python
|
||||||
|
4. IDE PyCharm
|
||||||
|
|
||||||
|
### Описание лабораторной работы
|
||||||
|
Программа выполняет кластеризацию данных методом linkage, используя для своей работы признаки "Стоимость" и "Пробег"
|
||||||
|
Для работы программы выбирается часть данных(Ввиду того, что работы программы на полном объеме данных требует больших вычислительных мощностей), после чего они стандартизируются,
|
||||||
|
а затем к ним применяется кластеризация. После чего строится график, который показывается на экране, а так же сохраняется в папке проекта.
|
||||||
|
|
||||||
|
Скриншот работы программы представлен в папке проекта.
|
||||||
|
### Результат
|
||||||
|
|
||||||
|
Кластеризация представленного датасета позволяет увидеть схожие пары "Стоимость"-"Пробег", что позволяет выделить более или менее схожие автомобили.
|
BIN
faskhutdinov_idris_lab_4/linkage.png
Normal file
BIN
faskhutdinov_idris_lab_4/linkage.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 24 KiB |
32
faskhutdinov_idris_lab_4/main.py
Normal file
32
faskhutdinov_idris_lab_4/main.py
Normal file
@ -0,0 +1,32 @@
|
|||||||
|
import pandas as pd
|
||||||
|
from sklearn.cluster import AgglomerativeClustering
|
||||||
|
from sklearn.preprocessing import StandardScaler
|
||||||
|
import matplotlib.pyplot as plt
|
||||||
|
|
||||||
|
# Чтение данных из датасета
|
||||||
|
data = pd.read_csv("Clean Data_pakwheels.csv")
|
||||||
|
# Уменьшение размера данных для оптимизации работы программы
|
||||||
|
data = data.sample(frac=.01)
|
||||||
|
|
||||||
|
|
||||||
|
# Для кластеризации выбираются признаки "Стоимость" и "Пробег"
|
||||||
|
features = ['Price','Mileage']
|
||||||
|
cluster_data = data[features]
|
||||||
|
|
||||||
|
X = data[features]
|
||||||
|
|
||||||
|
# Стандартизация данных
|
||||||
|
standartSc = StandardScaler()
|
||||||
|
X_scaled = standartSc.fit_transform(X)
|
||||||
|
|
||||||
|
# Кластеризация с разделением на 4 кластера
|
||||||
|
cluster = AgglomerativeClustering(n_clusters=4, linkage='ward')
|
||||||
|
data['cluster'] = cluster.fit_predict(X_scaled)
|
||||||
|
|
||||||
|
# Построение графика
|
||||||
|
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=data['cluster'])
|
||||||
|
plt.xlabel('Стоимость')
|
||||||
|
plt.ylabel('Пробег')
|
||||||
|
plt.title('Кластеризация')
|
||||||
|
plt.savefig(f"linkage.png")
|
||||||
|
plt.show()
|
Loading…
Reference in New Issue
Block a user