.. | ||
economica.csv | ||
main.py | ||
README.md | ||
result.png |
IIS_2023_1
Задание
Использовать метод кластеризации по варианту для данных из таблицы 1 по варианту(таблица 9),самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.
Задание по варианту и сформированное задание
7(2). linkage Будем кластеризировать данные методом linkage, используя два выбранных признака ('gdppercent' (процент ВВП) и 'oil_prices').
Способ запуска лабораторной работы
Выполнить скрипт verina_daria_lab_4/main.py
Стек технологий
Pandas
- библиотека, которая позволяет работать с двумерными и многомерными таблицами, строить сводные таблицы, выделять колонки, использовать фильтры по параметрам, выполнять группировку по параметрам, запускать функции (сложение, нахождение медианы, среднего, минимального, максимального значений), объединять таблицы и многое другоеSklearn
- предоставляет ряд инструментов для моделирования данных, включая классификацию, регрессию, кластеризацию и уменьшение размерности.Matplotlib
- это библиотека для визуализации данных в Python, предоставляющая инструменты для создания статических, анимированных и интерактивных графиков и диаграмм.
Описание кода
Этот код выполняет кластеризацию данных методом linkage, используя два выбранных признака ('gdppercent' - это процент ВВП и 'oil_prices'). Процесс включает в себя предварительную обработку данных (заполнение пропущенных значений и стандартизацию), а затем применение агломеративной кластеризации. Результаты визуализируются на графике, который сохраняется в папке проекта под названием 'result.png'.
График:
Вывод
Кластеризация в данном случае позволяет достаточно эффективно ыделить группы схожих наблюдений, основываясь на уровне ВВП и ценах на нефть. Кластеризация данных по уровню ВВП и цене на нефть позволяет выделить группы стран с схожими экономическими характеристиками, что может быть полезным для анализа и сравнения экономических трендов.