{ "cells": [ { "attachments": {}, "cell_type": "markdown", "metadata": {}, "source": [ "Вот как можно переделать текст под ваш датасет, учитывая его особенности:\n", "\n", "**Регрессия**\n", "\n", "- Прогнозирование цены бриллианта:\n", " Цель: Используя такие параметры, как караты, огранка, цвет, чистота, глубина, таблица, размеры (x, y, z), можно предсказать цену бриллиантов.\n", "\n", "**Классификация**\n", "\n", "- Распределение бриллиантов по категориям чистоты:\n", " Цель: Распределить бриллианты по различным категориям чистоты (например, IF, VVS1, VVS2 и т.д.) с использованием данных о каратах, огранке, цвете, глубине, таблице и размерах." ] }, { "cell_type": "code", "metadata": { "ExecuteTime": { "end_time": "2025-01-19T15:30:36.844706Z", "start_time": "2025-01-19T15:30:36.697706Z" } }, "source": [ "import pandas as pd\n", "from sklearn import set_config\n", "\n", "set_config(transform_output=\"pandas\")\n", "\n", "random_state = 9\n", "\n", "file_path = 'data/Diamonds Prices2022.csv'\n", "df = pd.read_csv(file_path)\n", "\n", "# Функция для преобразования типа огранки (cut)\n", "def Cut_Type(value):\n", " if value == \"Fair\":\n", " return 0\n", " elif value == \"Good\":\n", " return 1\n", " elif value == \"Very Good\":\n", " return 2\n", " elif value == \"Premium\":\n", " return 3\n", " elif value == \"Ideal\":\n", " return 4\n", "\n", "df['Cut_Type'] = df['cut'].map(Cut_Type)\n", "\n", "df\n" ], "outputs": [ { "data": { "text/plain": [ " Unnamed: 0 carat cut color clarity depth table price x \\\n", "0 1 0.23 Ideal E SI2 61.5 55.0 326 3.95 \n", "1 2 0.21 Premium E SI1 59.8 61.0 326 3.89 \n", "2 3 0.23 Good E VS1 56.9 65.0 327 4.05 \n", "3 4 0.29 Premium I VS2 62.4 58.0 334 4.20 \n", "4 5 0.31 Good J SI2 63.3 58.0 335 4.34 \n", "... ... ... ... ... ... ... ... ... ... \n", "53938 53939 0.86 Premium H SI2 61.0 58.0 2757 6.15 \n", "53939 53940 0.75 Ideal D SI2 62.2 55.0 2757 5.83 \n", "53940 53941 0.71 Premium E SI1 60.5 55.0 2756 5.79 \n", "53941 53942 0.71 Premium F SI1 59.8 62.0 2756 5.74 \n", "53942 53943 0.70 Very Good E VS2 60.5 59.0 2757 5.71 \n", "\n", " y z Cut_Type \n", "0 3.98 2.43 4 \n", "1 3.84 2.31 3 \n", "2 4.07 2.31 1 \n", "3 4.23 2.63 3 \n", "4 4.35 2.75 1 \n", "... ... ... ... \n", "53938 6.12 3.74 3 \n", "53939 5.87 3.64 4 \n", "53940 5.74 3.49 3 \n", "53941 5.73 3.43 3 \n", "53942 5.76 3.47 2 \n", "\n", "[53943 rows x 12 columns]" ], "text/html": [ "
\n", " | Unnamed: 0 | \n", "carat | \n", "cut | \n", "color | \n", "clarity | \n", "depth | \n", "table | \n", "price | \n", "x | \n", "y | \n", "z | \n", "Cut_Type | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "1 | \n", "0.23 | \n", "Ideal | \n", "E | \n", "SI2 | \n", "61.5 | \n", "55.0 | \n", "326 | \n", "3.95 | \n", "3.98 | \n", "2.43 | \n", "4 | \n", "
1 | \n", "2 | \n", "0.21 | \n", "Premium | \n", "E | \n", "SI1 | \n", "59.8 | \n", "61.0 | \n", "326 | \n", "3.89 | \n", "3.84 | \n", "2.31 | \n", "3 | \n", "
2 | \n", "3 | \n", "0.23 | \n", "Good | \n", "E | \n", "VS1 | \n", "56.9 | \n", "65.0 | \n", "327 | \n", "4.05 | \n", "4.07 | \n", "2.31 | \n", "1 | \n", "
3 | \n", "4 | \n", "0.29 | \n", "Premium | \n", "I | \n", "VS2 | \n", "62.4 | \n", "58.0 | \n", "334 | \n", "4.20 | \n", "4.23 | \n", "2.63 | \n", "3 | \n", "
4 | \n", "5 | \n", "0.31 | \n", "Good | \n", "J | \n", "SI2 | \n", "63.3 | \n", "58.0 | \n", "335 | \n", "4.34 | \n", "4.35 | \n", "2.75 | \n", "1 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
53938 | \n", "53939 | \n", "0.86 | \n", "Premium | \n", "H | \n", "SI2 | \n", "61.0 | \n", "58.0 | \n", "2757 | \n", "6.15 | \n", "6.12 | \n", "3.74 | \n", "3 | \n", "
53939 | \n", "53940 | \n", "0.75 | \n", "Ideal | \n", "D | \n", "SI2 | \n", "62.2 | \n", "55.0 | \n", "2757 | \n", "5.83 | \n", "5.87 | \n", "3.64 | \n", "4 | \n", "
53940 | \n", "53941 | \n", "0.71 | \n", "Premium | \n", "E | \n", "SI1 | \n", "60.5 | \n", "55.0 | \n", "2756 | \n", "5.79 | \n", "5.74 | \n", "3.49 | \n", "3 | \n", "
53941 | \n", "53942 | \n", "0.71 | \n", "Premium | \n", "F | \n", "SI1 | \n", "59.8 | \n", "62.0 | \n", "2756 | \n", "5.74 | \n", "5.73 | \n", "3.43 | \n", "3 | \n", "
53942 | \n", "53943 | \n", "0.70 | \n", "Very Good | \n", "E | \n", "VS2 | \n", "60.5 | \n", "59.0 | \n", "2757 | \n", "5.71 | \n", "5.76 | \n", "3.47 | \n", "2 | \n", "
53943 rows × 12 columns
\n", "