IIS_2023_1/verina_daria_lab_4/README.md
2023-11-23 01:32:17 +04:00

25 lines
3.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# IIS_2023_1
### Задание
Использовать метод кластеризации по варианту для данных из таблицы 1 по варианту(таблица 9),самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.
### Задание по варианту и сформированное задание
7(2). linkage
Будем кластеризировать данные методом linkage, используя два выбранных признака ('gdppercent' (процент ВВП) и 'oil_prices').
### Способ запуска лабораторной работы
Выполнить скрипт `verina_daria_lab_4/main.py`
### Стек технологий
* `Pandas` - библиотека, которая позволяет работать с двумерными и многомерными таблицами, строить сводные таблицы, выделять колонки, использовать фильтры по параметрам, выполнять группировку по параметрам, запускать функции (сложение, нахождение медианы, среднего, минимального, максимального значений), объединять таблицы и многое другое
* `Sklearn` - предоставляет ряд инструментов для моделирования данных, включая классификацию, регрессию, кластеризацию и уменьшение размерности.
* `Matplotlib` - это библиотека для визуализации данных в Python, предоставляющая инструменты для создания статических, анимированных и интерактивных графиков и диаграмм.
### Описание кода
Этот код выполняет кластеризацию данных методом linkage, используя два выбранных признака ('gdppercent' - это процент ВВП и 'oil_prices'). Процесс включает в себя предварительную обработку данных (заполнение пропущенных значений и стандартизацию), а затем применение агломеративной кластеризации. Результаты визуализируются на графике, который сохраняется в папке проекта под названием 'result.png'.
График:
![result.png](result.png)
### Вывод
Кластеризация в данном случае позволяет достаточно эффективно ыделить группы схожих наблюдений, основываясь на уровне ВВП и ценах на нефть. Кластеризация данных по уровню ВВП и цене на нефть позволяет выделить группы стран с схожими экономическими характеристиками, что может быть полезным для анализа и сравнения экономических трендов.