Merge pull request 'Лабораторная работа 3' (#186) from orlov_artem_lab_3 into main

Reviewed-on: http://student.git.athene.tech/Alexey/IIS_2023_1/pulls/186
2023-12-05 23:17:06 +04:00
parent 8b39205604 53818e12e5
commit 0ce6657922
4 changed files with 2562 additions and 0 deletions
--- a/orlov_artem_lab_3/app.py
+++ b/orlov_artem_lab_3/app.py
@@ -0,0 +1,85 @@
+# app.py
+
+from flask import Flask, render_template, request
+import pandas as pd
+from sklearn.tree import DecisionTreeClassifier
+from sklearn.model_selection import train_test_split
+from sklearn.metrics import accuracy_score
+from sklearn.preprocessing import LabelEncoder
+
+app = Flask(__name__)
+
+# Загрузите данные из файла
+restaurants_data = pd.read_csv("top_240_restaurants_recommended_in_los_angeles_2.csv")
+
+# Создайте целевую переменную (успех ресторана)
+restaurants_data["Success"] = restaurants_data["StarRating"].apply(lambda x: 1 if x > 4 else 0)
+
+# Преобразуйте столбец "Style" в бинарные признаки (one-hot encoding)
+styles_encoded = restaurants_data['Style'].str.get_dummies(sep=';')
+restaurants_data = pd.concat([restaurants_data, styles_encoded], axis=1)
+
+# Преобразуйте столбец "Address" с использованием Label Encoding
+address_encoder = LabelEncoder()
+restaurants_data["AddressEncoded"] = address_encoder.fit_transform(restaurants_data["Address"])
+
+# Определите признаки и целевую переменную
+features = ["NumberOfReviews", "AddressEncoded"] + list(styles_encoded.columns)
+X = restaurants_data[features]
+y = restaurants_data["Success"]
+
+# Разделите данные на обучающий и тестовый наборы
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.01, random_state=42)
+
+# Создайте и обучите модель дерева решений
+model = DecisionTreeClassifier()
+model.fit(X_train, y_train)
+
+# Оцените модель на тестовом наборе данных
+y_pred = model.predict(X_test)
+accuracy = accuracy_score(y_test, y_pred)
+
+# Получите важности признаков
+feature_importances = model.feature_importances_
+
+@app.route("/", methods=["GET", "POST"])
+def index():
+    if request.method == "POST":
+        # Получите данные из запроса
+        reviews = int(request.form["reviews"])
+        styles_input = request.form["styles"]
+        address = request.form["address"]
+
+        # Получите бинарные признаки стилей на основе введенных данных
+        styles_encoded_input = pd.DataFrame(styles_input.split(';'), columns=["style"])
+        styles_encoded_input = styles_encoded_input['style'].str.get_dummies()
+
+        # Преобразуйте введенный адрес с использованием Label Encoding
+        address_encoded = address_encoder.transform([address])[0]
+
+        # Создайте пустой DataFrame с теми же признаками, что и X_train
+        input_data = pd.DataFrame(columns=X_train.columns)
+
+        # Заполните введенные данные
+        input_data["NumberOfReviews"] = [reviews]
+        input_data["AddressEncoded"] = [address_encoded]
+
+        # Заполните one-hot закодированные стили
+        for style in styles_encoded_input.columns:
+            input_data[style] = styles_encoded_input[style].values
+
+        # Выполните классификацию ресторана
+        prediction = model.predict(input_data)[0]
+
+        # Определите результат
+        result = "Хороший" if prediction == 1 else "Плохой"
+
+        return render_template("index.html", accuracy=accuracy, good_count=sum(y_test),
+                               bad_count=len(y_test) - sum(y_test), feature_importances=feature_importances,
+                               prediction_result=result, X=X)
+
+    return render_template("index.html", accuracy=accuracy, good_count=sum(y_test), bad_count=len(y_test) - sum(y_test),
+                           feature_importances=feature_importances, X=X)
+
+if __name__ == "__main__":
+    app.run(host="localhost", port=5000)
--- a/orlov_artem_lab_3/readme.md
+++ b/orlov_artem_lab_3/readme.md
@@ -0,0 +1,53 @@
+Общее задание:
+Решите с помощью библиотечной реализации дерева решений задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету 
+«Методы искусственного интеллекта» на 99% ваших данных. Проверьте работу модели на оставшемся проценте, сделайте вывод.
+
+Задание по вариантам:
+Тема: Анализ данных Top 240 Recommended Restaurants in L.A. 2023
+Ссылка на датасет:
+https://www.kaggle.com/datasets/lorentzyeung/top-240-recommended-restaurants-in-la-2023?resource=download&select=top+240+restaurants+recommanded+in+los+angeles+2.csv
+
+Задача для древа решений: Классификация ресторанов на хорошие и плохие
+
+Признаки: Address, StarRating, Style, NumberOfReviews
+
+Целевая переменная: StarRating
+
+Запуск приложения: запуск файла app.py
+
+Использованные технологии:
+Flask: Микрофреймворк для создания веб-приложений на языке Python. В данном коде Flask используется для обработки HTTP-запросов и отображения веб-страниц.
+
+Pandas: Библиотека для анализа данных, используется для работы с табличными данными. В коде Pandas используется для создания DataFrame и обработки данных.
+
+Scikit-learn: Библиотека для машинного обучения. В данном коде Scikit-learn используется для обучения модели классификации (RandomForestClassifier) на основе данных о ресторанах.
+
+HTML и Jinja2: HTML используется для создания структуры веб-страницы, а Jinja2 — для вставки динамических данных в HTML-шаблоны. В коде HTML и Jinja2 используются для отображения формы ввода данных и вывода результата предсказания.
+
+Numpy: Библиотека для работы с массивами данных. В коде Numpy используется для работы с массивами при вычислении важности признаков.
+
+RandomForestClassifier: Алгоритм машинного обучения, использующий ансамбль деревьев решений для задач классификации. В данном коде этот классификатор обучается на данных о ресторанах и используется для предсказания, является ли ресторан хорошим или плохим на основе введенных пользователем данных.
+
+Описание работы программы:
+Данные о ресторанах загружаются в Pandas DataFrame.
+
+Создаются бинарные признаки для стилей ресторанов и закодированы адреса.
+
+Модель RandomForestClassifier обучается на этих данных.
+
+Flask запускает веб-сервер.
+
+Пользователь может ввести данные о ресторане через веб-страницу.
+
+Введенные данные подаются на вход модели, и результат (хороший или плохой ресторан) отображается на веб-странице, а также выводится точность модели.
+
+Пример входных данных:
+Данные из файлов "top_240_restaurants_recommended_in_los_angeles_2.csv"
+Address: 8701 Beverly Blvd West Hollywood, CA 90048
+Style: American (New), Cocktail Bars
+NumberOfReviews: 2672
+
+Пример выходных данных:
+результат классификации, точность модели, важность признаков.
+
+Ресторан классифицирован как: Хороший
--- a/orlov_artem_lab_3/templates/index.html
+++ b/orlov_artem_lab_3/templates/index.html
@@ -0,0 +1,42 @@
+<!DOCTYPE html>
+<html lang="en">
+<head>
+    <meta charset="UTF-8">
+    <title>Классификация ресторанов</title>
+</head>
+<body>
+    <h1>Классификация ресторанов</h1>
+
+    <!-- Форма для ввода данных -->
+    <form method="POST">
+        <label for="reviews">Количество отзывов:</label>
+        <input type="text" name="reviews" id="reviews" required>
+        <br>
+        <label for="styles">Стили ресторана:</label>
+        <input type="text" name="styles" id="styles" required>
+        <br>
+        <label for="address">Адрес ресторана:</label>
+        <input type="text" name="address" id="address" required>
+        <br>
+        <button type="submit">Выполнить</button>
+    </form>
+
+    <!-- Результат классификации -->
+    {% if prediction_result %}
+        <h2>Результат классификации:</h2>
+        <p>Ресторан классифицирован как: {{ prediction_result }}</p>
+    {% endif %}
+
+    <!-- Другие результаты (точность, количество хороших и плохих ресторанов, важности признаков) -->
+    <h2>Другие результаты:</h2>
+    <p>Точность модели: {{ "%.4f"|format(accuracy) }}</p>
+    <p>Количество хороших ресторанов: {{ good_count }}</p>
+    <p>Количество плохих ресторанов: {{ bad_count }}</p>
+    <p>Средняя важность признаков:</p>
+    <ul>
+        <li>Стили ресторана: {{ "%.4f"|format(feature_importances[0]) }}</li>
+        <li>Адрес ресторана: {{ "%.4f"|format(feature_importances[1]) }}</li>
+        <li>Количество отзывов: {{ "%.4f"|format(feature_importances[2]) }}</li>
+    </ul>
+</body>
+</html>
--- a/orlov_artem_lab_3/top_240_restaurants_recommended_in_los_angeles_2.csv
+++ b/orlov_artem_lab_3/top_240_restaurants_recommended_in_los_angeles_2.csv