25 lines
3.5 KiB
Markdown
25 lines
3.5 KiB
Markdown
|
# IIS_2023_1
|
|||
|
### Задание
|
|||
|
Использовать метод кластеризации по варианту для данных из таблицы 1 по варианту(таблица 9),самостоятельно сформулировав задачу. Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.
|
|||
|
### Задание по варианту и сформированное задание
|
|||
|
7(2). linkage
|
|||
|
Будем кластеризировать данные методом linkage, используя два выбранных признака ('gdppercent' (процент ВВП) и 'oil_prices').
|
|||
|
|
|||
|
|
|||
|
### Способ запуска лабораторной работы
|
|||
|
Выполнить скрипт `verina_daria_lab_4/main.py`
|
|||
|
|
|||
|
### Стек технологий
|
|||
|
* `Pandas` - библиотека, которая позволяет работать с двумерными и многомерными таблицами, строить сводные таблицы, выделять колонки, использовать фильтры по параметрам, выполнять группировку по параметрам, запускать функции (сложение, нахождение медианы, среднего, минимального, максимального значений), объединять таблицы и многое другое
|
|||
|
* `Sklearn` - предоставляет ряд инструментов для моделирования данных, включая классификацию, регрессию, кластеризацию и уменьшение размерности.
|
|||
|
* `Matplotlib` - это библиотека для визуализации данных в Python, предоставляющая инструменты для создания статических, анимированных и интерактивных графиков и диаграмм.
|
|||
|
|
|||
|
### Описание кода
|
|||
|
Этот код выполняет кластеризацию данных методом linkage, используя два выбранных признака ('gdppercent' - это процент ВВП и 'oil_prices'). Процесс включает в себя предварительную обработку данных (заполнение пропущенных значений и стандартизацию), а затем применение агломеративной кластеризации. Результаты визуализируются на графике, который сохраняется в папке проекта под названием 'result.png'.
|
|||
|
|
|||
|
График:
|
|||
|
|
|||
|
![result.png](result.png)
|
|||
|
|
|||
|
### Вывод
|
|||
|
Кластеризация в данном случае позволяет достаточно эффективно ыделить группы схожих наблюдений, основываясь на уровне ВВП и ценах на нефть. Кластеризация данных по уровню ВВП и цене на нефть позволяет выделить группы стран с схожими экономическими характеристиками, что может быть полезным для анализа и сравнения экономических трендов.
|