2024-10-20 17:30:51 +04:00

165 KiB
Raw Blame History

Начало лабораторной работы №1

Набор данных для анализа продуктов Jio Mart

Выгрузка данных из CSV файла в датафрейм

In [22]:
import pandas as pd
import matplotlib.pyplot as plt

# Загрузка данных
df = pd.read_csv("..//static//csv//jio_mart_items.csv")

# Срез данных, первые 15000 строк
df = df.iloc[:15000]

# Вывод столбцов
df.head()
Out[22]:
category sub_category href items price
0 Groceries Fruits & Vegetables https://www.jiomart.com/c/groceries/fruits-veg... Fresh Dates (Pack) (Approx 450 g - 500 g) 109.0
1 Groceries Fruits & Vegetables https://www.jiomart.com/c/groceries/fruits-veg... Tender Coconut Cling Wrapped (1 pc) (Approx 90... 49.0
2 Groceries Fruits & Vegetables https://www.jiomart.com/c/groceries/fruits-veg... Mosambi 1 kg 69.0
3 Groceries Fruits & Vegetables https://www.jiomart.com/c/groceries/fruits-veg... Orange Imported 1 kg 125.0
4 Groceries Fruits & Vegetables https://www.jiomart.com/c/groceries/fruits-veg... Banana Robusta 6 pcs (Box) (Approx 800 g - 110... 44.0

Построение диаграмм

Соотношение количества подкатегорий

In [24]:
subcategory_counts = df['sub_category'].value_counts()
plt.figure(figsize=(8, 8))
subcategory_counts.plot(kind='pie', autopct='%1.1f%%', startangle=30)
plt.title('Соотношение количества подкатегорий')
plt.ylabel('')
plt.axis('equal')
plt.show()
No description has been provided for this image

Данная диаграмма отображает соотношение количества подкатегорий в датасете, представленный в виде круговой диаграммы. Каждый сектор диаграммы показывает процентное соотношение каждой подкатегории к общему количеству. Это позволяет сделать вывод о том, какие подкатегории являются наиболее распространёнными, а также выявить менее популярные подкатегории.

Количество продуктов по подкатегориям

In [25]:
category_counts = df['sub_category'].value_counts()
plt.figure(figsize=(12, 6))
category_counts.plot(kind='bar', color='orange', edgecolor='black')
plt.title('Количество продуктов по подкатегориям')
plt.xlabel('Подкатегория')
plt.ylabel('Количество продуктов')
plt.xticks(rotation=45)
plt.grid(axis='y')
plt.show()
No description has been provided for this image

Данная диаграмма отображает количество продуктов по подкатегориям, представленное в виде столбчатой диаграммы. Из диаграммы можно сделать вывод о том, что распределение продуктов по подкатегориям неравномерно, что может указывать на предпочтения потребителей или ассортимент, представленный в магазине.

Цены товаров в подкатегориях

In [26]:
df_subset = df.iloc[:2000] 

plt.figure(figsize=(10, 6))
plt.scatter(df_subset['price'], df_subset['sub_category'], c='green', alpha=0.5)
plt.title('Цены товаров в подкатегориях')
plt.xlabel('Цена')
plt.ylabel('Подкатегория')
plt.tight_layout()
plt.show()
No description has been provided for this image

Данная диаграмма отображает распределение цен товаров по подкатегориям, что позволяет сделать вывод о том, что существуют значительные различия в ценах среди различных подкатегорий. Данная диаграмма позволяет сделать вывод о том, что существует разнообразие цен в разных подкатегориях товаров, а также может помочь выявить тенденции, такие как наличие более дорогих или дешевых товаров в определенных подкатегориях.