60 lines
5.6 KiB
Markdown
60 lines
5.6 KiB
Markdown
Общее задание:
|
||
Использовать метод кластеризации к данным из курсовой работы, самостоятельно сформулировав задачу.
|
||
Интерпретировать результаты и оценить, насколько хорошо он подходит для решения сформулированной вами задачи.
|
||
|
||
Задание по вариантам:
|
||
Тема: Анализ данных игр Epic Games Store
|
||
Датасет: Epic Games Store Dataset
|
||
Ссылки:
|
||
https://www.kaggle.com/datasets/mexwell/epic-games-store-dataset?select=games.csv,
|
||
|
||
Задача для кластарезации:
|
||
Кластеризация игр на основе их характеристик (например: жанра, цены, платформы, компаний-разработчиков) для выявления схожих групп игр.
|
||
Переменные: Жанр(ACTION,RPG; ACTION; INDIE,PUZZLE; SHOOTER,FPS; ACTION,FIGHTING,STEALTH), цена(1999, 1499, 999), платформа(Windows; Windows,Mac; Windows,Mac,Win32), компания-разработчик(Ubisoft, Traveller's Tales, 2D Boy)
|
||
|
||
Запуск приложения осуществляется запуском файла app.py
|
||
|
||
Использованные технологии:
|
||
Среда программирования Pycharm
|
||
Версия языка python: 3.11
|
||
Flask: Flask - это фреймворк для создания веб-приложений на Python. Он обрабатывает запросы, управляет маршрутами и взаимодействием с клиентом.
|
||
|
||
Pandas: Pandas - это библиотека для анализа данных. Она используется для загрузки данных из файла games.csv и для подготовки данных для кластеризации.
|
||
|
||
scipy: SciPy - это библиотека для научных вычислений в Python. В вашем приложении она используется для выполнения иерархической кластеризации и построения дендрограммы.
|
||
|
||
seaborn: Seaborn - это библиотека для визуализации данных. Она используется для создания и отображения дендрограммы на основе данных иерархической кластеризации.
|
||
|
||
HTML и шаблоны: Для создания веб-страницы и отображения данных используются HTML и шаблоны Flask, например, dendrogram.html, который определяет структуру страницы и вставляет изображение дендрограммы.
|
||
|
||
Краткое описание работы программы:
|
||
Загрузка данных: Программа загружает данные из CSV-файла "games.csv"
|
||
|
||
Flask приложение запускается и начинает прослушивать локальный порт 5000.
|
||
|
||
Программа загружает данные из файла games.csv, в котором содержатся характеристики видеоигр, такие как жанр, цена, платформа и компания-разработчик.
|
||
|
||
Данные из файла обрабатываются с использованием библиотеки Pandas, чтобы подготовить их для кластеризации.
|
||
|
||
Используя библиотеку scipy, программа выполняет иерархическую кластеризацию данных и строит дендрограмму, которая представляет собой дерево, отображающее связи между видеоиграми.
|
||
|
||
После построения дендрограммы, программа создает изображение дендрограммы с помощью библиотек Seaborn и Matplotlib.
|
||
|
||
Изображение дендрограммы сохраняется в формате PNG и преобразуется в строку base64.
|
||
|
||
Веб-приложение использует Flask для отображения этой изображения дендрограммы на веб-странице.
|
||
|
||
Пользователь может открыть веб-страницу в своем браузере и увидеть отображенную дендрограмму, которая помогает выявить схожие группы видеоигр на основе их характеристик.
|
||
|
||
Пример входных данных:
|
||
Данные из файла "games.csv" Цена игры (Price of game), Жанры (Genres), Платформы (Platform), компаний-разработчиков (Developer)
|
||
|
||
Название игры Жанр Цена Платформа Разработчик
|
||
Игра 1 Action 19.99 Windows Ubisoft
|
||
Игра 2 RPG 29.99 Windows, Mac Electronic Arts
|
||
Игра 3 Puzzle 9.99 Windows, Mac 2D Boy
|
||
Игра 4 Action 14.99 Windows Ubisoft
|
||
Игра 5 Shooter 24.99 Windows, Win32 Electronic Arts
|
||
|
||
Пример выходных данных:
|
||
дендрограмма, которая показывает как видеоигры группируются в зависимости от их схожести в отношении выбранных характеристик (жанры, цены, платформы и компаний-разработчиков) |