132 KiB
132 KiB
Выгрузка в датафрейм¶
In [23]:
import pandas as pn
import matplotlib.pyplot as plt
import matplotlib
import matplotlib.ticker as ticker
df = pn.read_csv(".//static//csv//car_price_prediction.csv").head(15000)
print(df.columns)
По диаграмме видно, что большинство авто были выпущены последние 20 лет
In [8]:
# Диаграмма рассеяния: Цена vs Год выпуска
plt.figure(figsize=(10, 6))
df.plot.scatter(x='Prod. year', y='Price', alpha=0.5)
plt.title('Зависимость цены автомобиля от года выпуска')
plt.xlabel('Год выпуска')
plt.ylabel('Цена')
plt.grid(True)
plt.show()
Большая чать машин дешевле 50000
In [30]:
plt.figure(figsize=(10, 6))
df['Price'].plot.hist(bins=100, edgecolor='black')
plt.title('Распределение цен на автомобили')
plt.xlabel('Цена')
plt.ylabel('Количество автомобилей')
plt.grid(True)
# Увеличение количества делений на оси X
plt.xticks(rotation=20)
plt.show()
На данном срезе авто марки "Хёндай" в среднем самые дорогие.
In [31]:
# Срез данных: с 1-й по 30-ю строку
df_slice = df.iloc[:30]
# Группировка по производителю и расчет средней цены
avg_price_by_manufacturer = df_slice.groupby('Manufacturer')['Price'].mean().sort_values(ascending=False)
# Столбчатая диаграмма: Средняя цена по производителям
plt.figure(figsize=(12, 8))
avg_price_by_manufacturer.plot(kind='bar', color='salmon')
plt.title('Средняя цена автомобилей по производителям (с 1-й по 30-ю строку)')
plt.xlabel('Производитель')
plt.ylabel('Средняя цена')
plt.grid(True)
plt.show()