AIM-PIbd-32-Fedorenko-G-Y/lab_1/lab1.ipynb
2024-10-26 11:45:35 +04:00

147 KiB
Raw Permalink Blame History

Выгрузка данных из csv файла в датафрейм

In [63]:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv(".//static//csv//jio_mart_items.csv").head(20000)
print(df.columns)
Index(['category', 'sub_category', 'href', 'items', 'price'], dtype='object')

1. Гистограмма распределения цен товаров

In [64]:
plt.figure(figsize=(10,6))
df['price'].plot.hist(bins=100, edgecolor='black', color='skyblue')
plt.title('Распределение цен товаров')
plt.xlabel('Цена')
plt.ylabel('Частота')
plt.grid(True)
plt.show()
No description has been provided for this image
Большая часть товаров дешевле 2000

2. Столбчатая диаграмма количества товаров в каждой категории

In [65]:
category_counts = df['sub_category'].value_counts()
plt.figure(figsize=(10, 6))
wedges, texts, autotexts = plt.pie(category_counts, autopct='%1.1f%%', startangle=140, colors=plt.cm.Paired.colors)
plt.title('Количество товаров в каждой категории')
plt.legend(wedges, category_counts.index, title="Категории", loc="center left", bbox_to_anchor=(1, 0, 0.5, 1))
plt.show()
No description has been provided for this image
Больше всего товаров в категориях Snacks & Branded Foods и Staples, меньше всего - в категориях Fruits & Vegetables и Premium Fruits

3. Столбчатая диаграмма на срезе данных (1-я по 30-я строка), показывающая цены товаров

In [66]:
average_prices = df.groupby('sub_category')['price'].mean().reset_index()
plt.figure(figsize=(12, 8))
plt.bar(average_prices['sub_category'], average_prices['price'], edgecolor='black', color='skyblue')
plt.title('Средняя цена товаров по категориям (с 1-й по 30-ю строку)')
plt.xlabel('Категория')
plt.ylabel('Средняя цена')
plt.xticks(rotation=90)
plt.grid(True)
plt.show()
No description has been provided for this image
Наиболее дорогие товары из категории Dairy & Bakery, а наиболее дешевые - из категории Fruits & Vegetables