Готово описание для первого датасета

This commit is contained in:
Никита Потапов 2024-11-23 14:48:54 +04:00
parent 9f74dc5b7a
commit 8a0a44b188

104
lab_2/lab2.ipynb Normal file
View File

@ -0,0 +1,104 @@
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Датасет 1. Зарплата специалистов по обработке данных в 2023 году\n",
"https://www.kaggle.com/datasets/henryshan/2023-data-scientists-salary\n",
"## Анализ сведений\n",
"### Краткое описание\n",
"Этот датасет посвящен анализу факторов, влияющих на уровень заработных плат специалистов в области Data Science. Включенные данные позволяют исследовать взаимосвязь между различными характеристиками сотрудников и их доходами.\n",
"### Проблемная область\n",
"Датасет касается анализа факторов, влияющих на заработную плату специалистов в области Data Science, что является важным аспектом для понимания экономических и профессиональных тенденций на рынке труда в этой сфере. Проблемная область включает:\n",
"- Анализ влияния опыта, типа занятости, географического положения и других факторов на размер заработной платы специалистов.\n",
"- Определение ключевых факторов, влияющих на рост зарплаты в профессии Data Scientist.\n",
"- Выявление тенденций, которые могут помочь работодателям и специалистам принимать решения о карьере, зарплате и условиях работы.\n",
"\n",
"### Актуальность\n",
"- **Рост профессии**: Data Science — это одна из самых востребованных и динамично развивающихся областей на рынке труда. Понимание факторов, влияющих на зарплату, важно для профессионалов и компаний.\n",
"- **Тенденции на рынке труда**: В условиях глобализации и удаленной работы важно понять, как тип занятости и местоположение компании влияют на оплату труда.\n",
"- **Оптимизация карьерных решений**: Анализ данных поможет специалистам принимать обоснованные решения при выборе карьерных путей, а работодателям — разрабатывать конкурентоспособные предложения по зарплате и условиям работы.\n",
"\n",
"### Объекты наблюдений\n",
"Объектами наблюдения являются **Data Scientists**, то есть специалисты, занимающиеся анализом данных. Каждый объект представляет собой запись, которая отражает характеристики работы конкретного специалиста в определенный год.\n",
"\n",
"### Атрибуты объектов\n",
"Каждый объект имеет следующие атрибуты:\n",
"- **work_year** — год, в котором была выплачена зарплата. Позволяет отслеживать изменения зарплат в разные годы.\n",
"- **experience_level** — уровень опыта сотрудника (Entry-level, Mid-level, Senior-level, Executive-level). Это важный атрибут, который влияет на зарплату.\n",
"- **employment_type** — тип занятости (Part-time, Full-time, Contract, Freelance). Определяет, является ли работа постоянной или временной.\n",
"- **job_title** — должность, занимаемая сотрудником. Важно для анализа различий между зарплатами для разных специализаций.\n",
"- **salary** — общая сумма заработной платы.\n",
"- **salary_currency** — валюта, в которой выплачена зарплата.\n",
"- **salaryinusd** — зарплата в долларах США. Этот атрибут используется для стандартизации данных.\n",
"- **employee_residence** — страна проживания сотрудника. Влияет на размер зарплаты и может быть важным для анализа глобальных различий.\n",
"- **remote_ratio** — доля работы, выполняемой удаленно. Важно для анализа влияния удаленной работы на уровень зарплаты.\n",
"- **company_location** — страна, где находится основная офисная локация компании. Это атрибут, который позволяет анализировать региональные различия в зарплатах.\n",
"- **company_size** — размер компании, выраженный через медиану числа сотрудников. Размер компании может влиять на оплату труда, так как крупные компании часто предлагают более высокие зарплаты.\n",
"\n",
"### Связь между объектами\n",
"Связь между объектами заключается в том, что все атрибуты в совокупности описывают профессиональную деятельность и условия работы каждого специалиста. Например:\n",
"- **experience_level** и **job_title** могут быть взаимосвязаны, так как более высокие должности (например, Senior или Executive) соответствуют большему опыту.\n",
"- **salary** напрямую зависит от **experience_level**, **employment_type**, **employee_residence**, **company_location**, и **company_size**, а также от уровня удаленности работы (**remote_ratio**).\n",
"- **salaryinusd** служит для нормализации и сопоставления зарплат между различными странами и валютами.\n",
"- **employee_residence** и **company_location** могут быть связаны с различиями в заработной плате, так как зарплаты могут варьироваться в зависимости от страны проживания и местоположения компании.\n",
"\n",
"## Качество набора данных\n",
"### Информативность\n",
"Датасет содержит разнообразные атрибуты, которые предоставляют полезную информацию для анализа факторов, влияющих на зарплату специалистов в области Data Science. Включенные переменные, такие как **уровень опыта**, **тип занятости**, **зарплата**, **географическое расположение** и **удаленная работа**, позволяют провести многогранный анализ и выявить значимые закономерности. Однако, отсутствие информации о дополнительной квалификации или навыках специалистов (например, знание конкретных технологий или инструментов) может ограничить глубину анализа.\n",
"\n",
"### Степень покрытия\n",
"Датасет охватывает достаточно широкий спектр факторов, влияющих на зарплату, включая географические данные (страна проживания, местоположение компании) и рабочие условия (удаленная работа, тип занятости). Однако степень покрытия может быть ограничена:\n",
"- Данные охватывают только одну профессиональную категорию (Data Science), что не позволяет делать выводы о других областях.\n",
"- Пропущенные данные по некоторым атрибутам могут снизить полноту информации (например, отсутствие данных по размеру компании или типу работы для некоторых записей).\n",
"\n",
"### Соответствие реальным данным\n",
"Датасет в целом отражает реальные условия рынка труда для специалистов в области Data Science. Он содержит важные атрибуты, такие как уровень опыта и зарплата, которые широко используются в исследованиях зарплат. Однако стоит учитывать, что в реальной жизни могут существовать дополнительные переменные, которые не учтены в наборе данных, такие как текущее состояние отрасли или специфические тренды (например, спрос на специалистов в определенных областях).\n",
"\n",
"### Согласованность меток\n",
"Метки в датасете, такие как **experience_level** (уровень опыта), **employment_type** (тип занятости), и **company_size** (размер компании), имеют четкие и логичные категории, что способствует легкости их интерпретации. Однако для некоторых меток могут возникнуть проблемы с точностью классификации, например:\n",
"- В разных странах или компаниях могут существовать различные способы определения уровней опыта, и это может не всегда совпадать с метками в датасете.\n",
"- Некоторые метки могут требовать дополнительного пояснения, например, категориальные значения для **remote_ratio** или **job_title** могут быть варьироваться в зависимости от контекста.\n",
"\n",
"## Бизнес-цели\n",
"### 1. **Определение конкурентоспособных уровней зарплат для специалистов в области Data Science**\n",
"\n",
"**Эффект на бизнес:**\n",
"Датасет поможет компаниям, работающим в сфере Data Science, определять конкурентоспособные уровни зарплат для специалистов в зависимости от уровня опыта, типа занятости и географического положения. Это способствует привлечению и удержанию талантливых специалистов, улучшая стратегию найма и оптимизируя расходы на оплату труда.\n",
"\n",
"**Примеры целей технического проекта:**\n",
"- **Цель проекта:** Создание модели для предсказания конкурентоспособных зарплат для специалистов по Data Science в зависимости от их уровня опыта и местоположения.\n",
" - **Что поступает на вход:** Данные о годе работы, уровне опыта, типе занятости, местоположении компании и специалиста.\n",
" - **Целевой признак:** Прогнозируемая зарплата (в долларах США или эквивалент в локальной валюте).\n",
"\n",
"### 2. **Определение факторов, влияющих на рост зарплат в сфере Data Science**\n",
"\n",
"**Эффект на бизнес:**\n",
"Анализ факторов, влияющих на рост зарплат, позволит компаниям лучше понимать, какие характеристики (например, удаленная работа, опыт работы в крупных компаниях) способствуют повышению заработной платы. Это может помочь в построении программ карьерного роста и мотивации для сотрудников.\n",
"\n",
"**Примеры целей технического проекта:**\n",
"- **Цель проекта:** Разработка модели для анализа факторов, которые влияют на рост зарплат в сфере Data Science.\n",
" - **Что поступает на вход:** Данные о годе работы, уровне опыта, типе занятости, удаленной работе, размере компании и других характеристиках.\n",
" - **Целевой признак:** Изменение зарплаты за год (прибавка к зарплате или её снижение).\n",
"\n",
"### 3. **Улучшение стратегии удаленной работы и гибких условий занятости**\n",
"\n",
"**Эффект на бизнес:**\n",
"Датасет поможет компаниям понять, как удаленная работа или гибкие условия занятости влияют на уровень зарплаты специалистов. Это даст возможность оптимизировать политику гибкости в работе и предложить лучшие условия для сотрудников, что повышает их удовлетворенность и снижает текучесть кадров.\n",
"\n",
"**Примеры целей технического проекта:**\n",
"- **Цель проекта:** Создание модели для анализа влияния удаленной работы и типа занятости на уровень зарплаты в сфере Data Science.\n",
" - **Что поступает на вход:** Данные о проценте удаленной работы, типе занятости (фриланс, контракт, полная или частичная занятость).\n",
" - **Целевой признак:** Зарплата в зависимости от удаленности работы и типа занятости (фиксированная сумма или разница в зарплатах для разных типов занятости)."
]
}
],
"metadata": {
"language_info": {
"name": "python"
}
},
"nbformat": 4,
"nbformat_minor": 2
}