{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Датасет 1. Зарплата специалистов по обработке данных в 2023 году\n", "https://www.kaggle.com/datasets/henryshan/2023-data-scientists-salary\n", "## Анализ сведений\n", "### Краткое описание\n", "Этот датасет посвящен анализу факторов, влияющих на уровень заработных плат специалистов в области Data Science. Включенные данные позволяют исследовать взаимосвязь между различными характеристиками сотрудников и их доходами.\n", "### Проблемная область\n", "Датасет касается анализа факторов, влияющих на заработную плату специалистов в области Data Science, что является важным аспектом для понимания экономических и профессиональных тенденций на рынке труда в этой сфере. Проблемная область включает:\n", "- Анализ влияния опыта, типа занятости, географического положения и других факторов на размер заработной платы специалистов.\n", "- Определение ключевых факторов, влияющих на рост зарплаты в профессии Data Scientist.\n", "- Выявление тенденций, которые могут помочь работодателям и специалистам принимать решения о карьере, зарплате и условиях работы.\n", "\n", "### Актуальность\n", "- **Рост профессии**: Data Science — это одна из самых востребованных и динамично развивающихся областей на рынке труда. Понимание факторов, влияющих на зарплату, важно для профессионалов и компаний.\n", "- **Тенденции на рынке труда**: В условиях глобализации и удаленной работы важно понять, как тип занятости и местоположение компании влияют на оплату труда.\n", "- **Оптимизация карьерных решений**: Анализ данных поможет специалистам принимать обоснованные решения при выборе карьерных путей, а работодателям — разрабатывать конкурентоспособные предложения по зарплате и условиям работы.\n", "\n", "### Объекты наблюдений\n", "Объектами наблюдения являются **Data Scientists**, то есть специалисты, занимающиеся анализом данных. Каждый объект представляет собой запись, которая отражает характеристики работы конкретного специалиста в определенный год.\n", "\n", "### Атрибуты объектов\n", "Каждый объект имеет следующие атрибуты:\n", "- **work_year** — год, в котором была выплачена зарплата. Позволяет отслеживать изменения зарплат в разные годы.\n", "- **experience_level** — уровень опыта сотрудника (Entry-level, Mid-level, Senior-level, Executive-level). Это важный атрибут, который влияет на зарплату.\n", "- **employment_type** — тип занятости (Part-time, Full-time, Contract, Freelance). Определяет, является ли работа постоянной или временной.\n", "- **job_title** — должность, занимаемая сотрудником. Важно для анализа различий между зарплатами для разных специализаций.\n", "- **salary** — общая сумма заработной платы.\n", "- **salary_currency** — валюта, в которой выплачена зарплата.\n", "- **salaryinusd** — зарплата в долларах США. Этот атрибут используется для стандартизации данных.\n", "- **employee_residence** — страна проживания сотрудника. Влияет на размер зарплаты и может быть важным для анализа глобальных различий.\n", "- **remote_ratio** — доля работы, выполняемой удаленно. Важно для анализа влияния удаленной работы на уровень зарплаты.\n", "- **company_location** — страна, где находится основная офисная локация компании. Это атрибут, который позволяет анализировать региональные различия в зарплатах.\n", "- **company_size** — размер компании, выраженный через медиану числа сотрудников. Размер компании может влиять на оплату труда, так как крупные компании часто предлагают более высокие зарплаты.\n", "\n", "### Связь между объектами\n", "Связь между объектами заключается в том, что все атрибуты в совокупности описывают профессиональную деятельность и условия работы каждого специалиста. Например:\n", "- **experience_level** и **job_title** могут быть взаимосвязаны, так как более высокие должности (например, Senior или Executive) соответствуют большему опыту.\n", "- **salary** напрямую зависит от **experience_level**, **employment_type**, **employee_residence**, **company_location**, и **company_size**, а также от уровня удаленности работы (**remote_ratio**).\n", "- **salaryinusd** служит для нормализации и сопоставления зарплат между различными странами и валютами.\n", "- **employee_residence** и **company_location** могут быть связаны с различиями в заработной плате, так как зарплаты могут варьироваться в зависимости от страны проживания и местоположения компании.\n", "\n", "## Качество набора данных\n", "### Информативность\n", "Датасет содержит разнообразные атрибуты, которые предоставляют полезную информацию для анализа факторов, влияющих на зарплату специалистов в области Data Science. Включенные переменные, такие как **уровень опыта**, **тип занятости**, **зарплата**, **географическое расположение** и **удаленная работа**, позволяют провести многогранный анализ и выявить значимые закономерности. Однако, отсутствие информации о дополнительной квалификации или навыках специалистов (например, знание конкретных технологий или инструментов) может ограничить глубину анализа.\n", "\n", "### Степень покрытия\n", "Датасет охватывает достаточно широкий спектр факторов, влияющих на зарплату, включая географические данные (страна проживания, местоположение компании) и рабочие условия (удаленная работа, тип занятости). Однако степень покрытия может быть ограничена:\n", "- Данные охватывают только одну профессиональную категорию (Data Science), что не позволяет делать выводы о других областях.\n", "- Пропущенные данные по некоторым атрибутам могут снизить полноту информации (например, отсутствие данных по размеру компании или типу работы для некоторых записей).\n", "\n", "### Соответствие реальным данным\n", "Датасет в целом отражает реальные условия рынка труда для специалистов в области Data Science. Он содержит важные атрибуты, такие как уровень опыта и зарплата, которые широко используются в исследованиях зарплат. Однако стоит учитывать, что в реальной жизни могут существовать дополнительные переменные, которые не учтены в наборе данных, такие как текущее состояние отрасли или специфические тренды (например, спрос на специалистов в определенных областях).\n", "\n", "### Согласованность меток\n", "Метки в датасете, такие как **experience_level** (уровень опыта), **employment_type** (тип занятости), и **company_size** (размер компании), имеют четкие и логичные категории, что способствует легкости их интерпретации. Однако для некоторых меток могут возникнуть проблемы с точностью классификации, например:\n", "- В разных странах или компаниях могут существовать различные способы определения уровней опыта, и это может не всегда совпадать с метками в датасете.\n", "- Некоторые метки могут требовать дополнительного пояснения, например, категориальные значения для **remote_ratio** или **job_title** могут быть варьироваться в зависимости от контекста.\n", "\n", "## Бизнес-цели\n", "### 1. **Определение конкурентоспособных уровней зарплат для специалистов в области Data Science**\n", "\n", "**Эффект на бизнес:**\n", "Датасет поможет компаниям, работающим в сфере Data Science, определять конкурентоспособные уровни зарплат для специалистов в зависимости от уровня опыта, типа занятости и географического положения. Это способствует привлечению и удержанию талантливых специалистов, улучшая стратегию найма и оптимизируя расходы на оплату труда.\n", "\n", "**Примеры целей технического проекта:**\n", "- **Цель проекта:** Создание модели для предсказания конкурентоспособных зарплат для специалистов по Data Science в зависимости от их уровня опыта и местоположения.\n", " - **Что поступает на вход:** Данные о годе работы, уровне опыта, типе занятости, местоположении компании и специалиста.\n", " - **Целевой признак:** Прогнозируемая зарплата (в долларах США или эквивалент в локальной валюте).\n", "\n", "### 2. **Определение факторов, влияющих на рост зарплат в сфере Data Science**\n", "\n", "**Эффект на бизнес:**\n", "Анализ факторов, влияющих на рост зарплат, позволит компаниям лучше понимать, какие характеристики (например, удаленная работа, опыт работы в крупных компаниях) способствуют повышению заработной платы. Это может помочь в построении программ карьерного роста и мотивации для сотрудников.\n", "\n", "**Примеры целей технического проекта:**\n", "- **Цель проекта:** Разработка модели для анализа факторов, которые влияют на рост зарплат в сфере Data Science.\n", " - **Что поступает на вход:** Данные о годе работы, уровне опыта, типе занятости, удаленной работе, размере компании и других характеристиках.\n", " - **Целевой признак:** Изменение зарплаты за год (прибавка к зарплате или её снижение).\n", "\n", "### 3. **Улучшение стратегии удаленной работы и гибких условий занятости**\n", "\n", "**Эффект на бизнес:**\n", "Датасет поможет компаниям понять, как удаленная работа или гибкие условия занятости влияют на уровень зарплаты специалистов. Это даст возможность оптимизировать политику гибкости в работе и предложить лучшие условия для сотрудников, что повышает их удовлетворенность и снижает текучесть кадров.\n", "\n", "**Примеры целей технического проекта:**\n", "- **Цель проекта:** Создание модели для анализа влияния удаленной работы и типа занятости на уровень зарплаты в сфере Data Science.\n", " - **Что поступает на вход:** Данные о проценте удаленной работы, типе занятости (фриланс, контракт, полная или частичная занятость).\n", " - **Целевой признак:** Зарплата в зависимости от удаленности работы и типа занятости (фиксированная сумма или разница в зарплатах для разных типов занятости)." ] } ], "metadata": { "language_info": { "name": "python" } }, "nbformat": 4, "nbformat_minor": 2 }