116 KiB
116 KiB
In [1]:
import pandas as pd
df = pd.read_csv(".//static//csv//Diamonds Prices2022.csv")
print(df.columns)
print(df.iloc[5])
grouped_by_cut = df.groupby('cut').size()
print("Группировка по огранке (cut):")
print(grouped_by_cut)
линейная диаграмма
In [3]:
import matplotlib.pyplot as plt
df_subset = df.head(30)
plt.figure(figsize=(8, 5))
plt.plot(df_subset['price'], df_subset['carat'], marker='o', linestyle='-', color='blue')
plt.title('Зависимость цены от веса бриллианта (первые 30 строк)')
plt.xlabel('Цена')
plt.ylabel('Вес')
plt.grid(True)
plt.show()
Вывод: На данной диаграмме отображается зависимость цены бриллиантов от их веса для первых 30 записей из набора данных. Судя по диаграмме, можно увидеть, что с цена не зависит от веса.
круговая диаграмма
In [6]:
color_counts = df['color'].value_counts()
plt.figure(figsize=(5, 5))
plt.pie(color_counts, labels=color_counts.index, autopct='%1.1f%%', colors=plt.cm.Paired(range(len(color_counts))))
plt.title('Распределение бриллиантов по цветам')
plt.show()
Вывод: Из данной диаграммы можем сделать вывод о том, что бриллиантов цвета G самое большое колличество, а с цветом J - самое маленькое.
стобчатая диаграмма
In [7]:
grouped_by_cut = df.groupby('cut').size()
plt.figure(figsize=(7, 3))
plt.bar(grouped_by_cut.index, grouped_by_cut.values, color='blue')
plt.title('Количество бриллиантов по cut')
plt.xlabel('cut')
plt.ylabel('Количество бриллиантов')
plt.show()
Вывод: На данной диаграмме видно, что бриллиантов с огранкой "Ideal cut" больше всего, а бриллиантов с огранкой "Fair" - меньше всего.