MII/lab1.ipynb

151 KiB
Raw Blame History

Начинаем работу...

Выгрузка данных будет проводиться с помощью Pandas из cvs файла (Данные по продажам домов). Выгрузим-ка данные из cvs файла в датафрейм:

In [31]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Загрузка данных
df = pd.read_csv(".//static//csv//kc_house_data.csv")

# Вывод столбцов
print(df.columns)
Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15'],
      dtype='object')

Ураа мы справились с выводом данных

Помимо вывода, подсоединили дополнительные библиотеки, которые помогут построить графики :)

Приступим к построению диаграмм...

In [32]:
# 1. Диаграмма распределения цен (гистограмма)
plt.figure(figsize=(10,6))
sns.histplot(df['price'], bins=50, kde=True)
plt.title('Распределение цен на недвижимость')
plt.xlabel('Цена')
plt.ylabel('Частота')
plt.show
Out[32]:
<function matplotlib.pyplot.show(close=None, block=None)>
No description has been provided for this image

Диаграмма №1 (Гистограмма)

Данная круговая диаграмма отображает распределение цен на недвижимость. Bins позволяет установить интервальность исследования, так на графике заданы 50 интервалов, для более детального отображения распределения цен. Это позволяет сделать вывод о том, что большинство объектов недвижимости находится в более низком ценовом сегменте и дорогая недвижимость встречается реже.

In [33]:
# 2. Связь между площадью жилья и ценой
plt.figure(figsize=(10, 6))
plt.scatter(x='sqft_living', y='price', data=df)
plt.title('Связь между площадью жилья и ценой')
plt.xlabel('Площадь жилья (кв. футы)')
plt.ylabel('Цена')
plt.show()
No description has been provided for this image

Диаграмма №2 (Точечная диаграмма)

Данная точечная диаграмма отображает связь между площадью жилья и ценой. Массовое скопление точек в нижней части графика сообщает о том, что большинство объектов недвижимости находятся в доступном ценовом сегменте с умеренной жилой площадью. Площадь влияет на цену недвижимости (с увеличением жилой площади возрастает и цена). Таким образом, наблюдается прямолинейная, положительная корреляция между ценой и площадью жилья.

In [34]:
# 3. Круговая диаграмма, показыващая состояние домов
plt.figure(figsize=(8, 8))
df['condition'].value_counts().plot.pie(autopct='%1.1f%%', startangle=90, cmap='Accent', wedgeprops={'edgecolor' : 'black'})
plt.title('Доля домов по их техническому состоянию')
plt.ylabel('')
plt.show()
No description has been provided for this image

Диаграмма №3 (Круговая диаграмма)

Данная круговая диаграмма позволяет отслеживать в каких состояниях объекты недвижимости находятся. Значения варьируются от 1 до 5, где 1-2 - это плохое и ужасное состояния, 3 - среднее, а 4-5 хорошее и отличное. Преобладающее большинство недвижимости находится в удовлетворительном состоянии (где потребовался бы небольшой ремонт). В плохом и ужасном состоянии доля недвижимости состовляет < 1%, что является очень хорошим показателем.

Урааа, всё вроде получилось, теперь будем пушиться :)

P.S. Markdown и правда прикольная и нужная вещь. Однако, почему по началу работы проект не видел, две установленные библиотечки, а после того как пересоздали полностью весь проект, всё прошло без особых проблем...