AIM-PIbd-32-Smirnov-A-A/lab1.ipynb at main

spacyboy/AIM-PIbd-32-Smirnov-A-A

Fork 0

Anton a014ef7081 lab 1 end

2024-10-26 14:00:22 +04:00

124 KiB

Raw Permalink Blame History

Начало лабораторной¶

Выгрузка данных из csv файла в датафрейм

In [11]:

import pandas as pd
import numpy as np

df = pd.read_csv("..//..//static//csv//marketing_campaign.csv", sep="\t")

print (df.columns)

Index(['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome',
       'Teenhome', 'Dt_Customer', 'Recency', 'MntWines', 'MntFruits',
       'MntMeatProducts', 'MntFishProducts', 'MntSweetProducts',
       'MntGoldProds', 'NumDealsPurchases', 'NumWebPurchases',
       'NumCatalogPurchases', 'NumStorePurchases', 'NumWebVisitsMonth',
       'AcceptedCmp3', 'AcceptedCmp4', 'AcceptedCmp5', 'AcceptedCmp1',
       'AcceptedCmp2', 'Complain', 'Z_CostContact', 'Z_Revenue', 'Response'],
      dtype='object')

Эта вывод датасета по столбцам "Year_Birth", "Marital_Status", "Income".

In [12]:

data = df[["Year_Birth", "Marital_Status", "Income"]].copy()
print(data)

      Year_Birth Marital_Status   Income
0           1957         Single  58138.0
1           1954         Single  46344.0
2           1965       Together  71613.0
3           1984       Together  26646.0
4           1981        Married  58293.0
...          ...            ...      ...
2235        1967        Married  61223.0
2236        1946       Together  64014.0
2237        1981       Divorced  56981.0
2238        1956       Together  69245.0
2239        1954        Married  52869.0

[2240 rows x 3 columns]

Данная столбчатая диаграмма отображает распределение количества клиентов по годам их рождения. На оси X указаны конкретные годы рождения, а на оси Y — количество клиентов, родившихся в соответствующем году. Анализируя диаграмму, можно сделать выводы о возрастной структуре клиентской базы. Видно, что пик рождаемости среди клиентов приходится на период с 1950 по 1980 годы, что может указывать на преобладание клиентов среднего возраста.

In [16]:

import matplotlib.pyplot as plt

year_counts = data["Year_Birth"].value_counts().sort_index()

plt.figure(figsize=(12, 6))
year_counts.plot(kind="bar", color="skyblue", edgecolor="black")
plt.title("Количество клиентов по годам рождения")
plt.xlabel("Год рождения")
plt.ylabel("Количество клиентов")
plt.show()

No description has been provided for this image

Данная гистограмма отображает распределение доходов среди клиентов. На оси X указаны значения доходов, разбитые на 50 интервалов, что позволяет увидеть, как доходы распределены по разным уровням. На оси Y указано количество записей (частота) в каждом интервале дохода. Анализируя гистограмму "Income", можно сделать вывод о том, как варьируются доходы. Например, мы можем увидеть, что большинство клиентов имеют доход в пределах определенного диапазона, и только небольшая часть имеет более высокий доход.

In [48]:

import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
data["Income"].plot.hist(bins=50, color='skyblue', edgecolor='black')
plt.title("Распределение доходов среди клиентов")
plt.show()

Данная круговая диаграмма отображает распределение клиентов по их семейному положению. На ней представлены различные категории семейного положения, такие как Married, Together, Single, Divorced и Widow, каждая из которых окрашена в отдельный цвет и подписана соответствующим процентом от общего числа клиентов. Анализируя эту диаграмму, можно сделать вывод о том, что наибольшую долю клиентов составляют Married (38.7%) и Together (26.0%), что указывает на преобладание семейных или живущих вместе клиентов.

In [45]:

filtered_data = data[data["Marital_Status"].isin(["Married", "Together", "Single", "Divorced", "Widow"])]

plt.figure(figsize=(8, 8))  
filtered_data["Marital_Status"].value_counts().plot(
    kind="pie", 
    autopct='%1.1f%%', 
    colors=['salmon', 'skyblue', 'lightgreen', 'orange', 'purple'], 
)
plt.title("Распределение клиентов по семейному положению (без YOLO и Absurd)")
plt.ylabel("")  
plt.show()

124 KiB Raw Permalink Blame History Unescape Escape

Начало лабораторной¶

124 KiB

Raw Permalink Blame History