163 KiB
163 KiB
Начало лабораторной¶
Выгрузка данных из csv файла в датафрейм
In [1]:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv(".//static//csv//ds_salaries.csv")
print(df.columns)
Посмотрим краткое содержание датасета. Видим, что датасет состоит из 3755 строк и 11 столбцов
In [2]:
df.info()
df.head()
Out[2]:
Построение диаграмм
In [6]:
experience_counts = df['experience_level'].value_counts()
plt.figure(figsize=(8, 8))
experience_counts.plot(kind='pie', autopct='%1.1f%%', colors=['lightcoral', 'lightgreen', 'lightblue', 'gold'])
plt.title('Распределение уровня опыта')
plt.ylabel('')
plt.show()
Данная диаграмма отображает распределения уровня опыта
In [7]:
salary_by_company_size = df.groupby(['work_year', 'company_size'])['salary_in_usd'].mean().unstack()
salary_by_company_size.plot(kind='line', figsize=(14, 8), marker='o')
plt.title('Средняя зарплата по размеру компании')
plt.xlabel('Год')
plt.ylabel('Средняя зарплата USD')
plt.xticks(rotation=0)
plt.legend(title='Размер компании')
plt.grid(True)
plt.show()
Данная диаграмма показывает средние зарплаты исходя из размеров компании по годам
In [9]:
df_slice = df.iloc[1:3753]
last_years = df_slice['work_year'].max()
df_filtr = df_slice[df_slice['work_year'] == last_years]
salary_by_employment_type = df_filtr.groupby('employment_type')['salary_in_usd'].max()
plt.figure(figsize=(10, 6))
salary_by_employment_type.plot(kind='bar', color='purple')
plt.title(f'Максимальная зарплата по типу занятости {last_years}')
plt.xlabel('Тип занятости')
plt.ylabel('Зарплата USD')
plt.xticks(rotation=0)
plt.show()
Данная диаграмма показывает максимальную зарплату исходя из типа занятости за последний год (не учитывая первую и последнюю строки датасета)