.. | ||
Clean Data_pakwheels.csv | ||
linkage.png | ||
main.py | ||
Readme.md |
Лабораторная работа №4. Кластеризация
2 вариант(27 % 2 = 2)
Задание:
Использовать метод кластеризации по варианту для данных из таблицы 1 по варианту (таблица 9), самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.
Используемый метод: linkage
В моем случае данными является датасет о продаже автомобилей. В датасете представлены следующие столбцы:
- id
- Company Name
- Model Name
- Price
- Model Year
- Location
- Mileage
- Engine Type
- Engine Capacity
- Color
- Assembly
- Body Type
- Transmission Type
- Registration Status
Как запустить лабораторную
- Запустить файл main.py
Используемые технологии
- Библиотека matplotlib
- Библиотека scikit-learn
- Библиотека pandas
- Python
- IDE PyCharm
Описание лабораторной работы
Программа выполняет кластеризацию данных методом linkage, используя для своей работы признаки "Стоимость" и "Пробег" Для работы программы выбирается часть данных(Ввиду того, что работы программы на полном объеме данных требует больших вычислительных мощностей), после чего они стандартизируются, а затем к ним применяется кластеризация. После чего строится график, который показывается на экране, а так же сохраняется в папке проекта.
Скриншот работы программы представлен в папке проекта.
Результат
Кластеризация представленного датасета позволяет увидеть схожие пары "Стоимость"-"Пробег", что позволяет выделить более или менее схожие автомобили.