11 changed files with 138369 additions and 0 deletions
--- a/faskhutdinov_idris_lab_3/Clean_Data_pakwheels.csv
+++ b/faskhutdinov_idris_lab_3/Clean_Data_pakwheels.csv
--- a/faskhutdinov_idris_lab_3/Readme.md
+++ b/faskhutdinov_idris_lab_3/Readme.md
@ -0,0 +1,84 @@
 # Лабораторная работа №3. Деревья решений
 ## 6 вариант
 ### Задание:
 Решите с помощью библиотечной реализации дерева решений
 задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету
 «Методы искусственного интеллекта» на 99% ваших данных. Проверьте
 работу модели на оставшемся проценте, сделайте вывод
 В моем случае данными является датасет о продаже автомобилей. В датасете представлены следующие столбцы:
 * id
 * Company Name
 * Model Name
 * Price
 * Model Year
 * Location
 * Mileage
 * Engine Type
 * Engine Capacity
 * Color
 * Assembly
 * Body Type
 * Transmission Type
 * Registration Status
 ### Как запустить лабораторную
 1. Запустить файл main.py
 ### Используемые технологии
 1. Библиотека pandas
 2. Библиотека scikit-learn
 3. Python
 4. IDE PyCharm
 ### Описание лабораторной работы
 Программа загружает данные из файла Clean_Data_pakwheels.csv, после чего выбирает необходимые для создания модели столбцы.
 Выбранные столбцы разделяются на целевую переменную (Y) и признаки (X). Некоторые столбцы в датасете представлены в виде текстовых значений, поэтому мы представляем их как численные значения
 Затем программа обучает модель, выполняет прогнозы и оценивает точность. В консоль выводятся признаки по их важности
 Целевой признак - Registration Status
 ### Результат
 Accuracy: 0.9327548806941431
 *                        Признак  Важность
 * 1                       Mileage  0.332722
 * 2                         Price  0.332358
 * 0                    Model Year  0.175522
 * 34  Transmission Type_Automatic  0.086699
 * 13           Company Name_Honda  0.021243
 * 31          Company Name_Toyota  0.015743
 * 30          Company Name_Suzuki  0.008819
 * 10        Company Name_Daihatsu  0.007749
 * 25          Company Name_Nissan  0.007616
 * 4             Company Name_Audi  0.003018
 * 23        Company Name_Mercedes  0.001886
 * 22           Company Name_Mazda  0.001800
 * 18             Company Name_KIA  0.001416
 * 24      Company Name_Mitsubishi  0.001044
 * 29          Company Name_Subaru  0.000787
 * 5              Company Name_BMW  0.000458
 * 19            Company Name_Land  0.000407
 * 27           Company Name_Range  0.000332
 * 26         Company Name_Porsche  0.000331
 * 35     Transmission Type_Manual  0.000050
 * 20           Company Name_Lexus  0.000000
 * 21            Company Name_MINI  0.000000
 * 9           Company Name_Daewoo  0.000000
 * 8             Company Name_DFSK  0.000000
 * 14          Company Name_Hummer  0.000000
 * 7        Company Name_Chevrolet  0.000000
 * 11             Company Name_FAW  0.000000
 * 17            Company Name_Jeep  0.000000
 * 28       Company Name_SsangYong  0.000000
 * 16          Company Name_Jaguar  0.000000
 * 6            Company Name_Chery  0.000000
 * 15         Company Name_Hyundai  0.000000
 * 32          Company Name_United  0.000000
 * 33           Company Name_Volvo  0.000000
 * 3             Company Name_Adam  0.000000
 * 12            Company Name_Fiat  0.000000
 ### Вывод
 Исходя из результатов работы программы можно сделать вывод, что наиболее важным признаком, отвечающим за
 то, зарегистрирована машина или нет, является её пробег, а так же её цена на рынке. Точность модели составляет 93%, что говорит о том,
 что она классифицирует данные при заданных условиях с высокой точностью.
--- a/faskhutdinov_idris_lab_3/main.py
+++ b/faskhutdinov_idris_lab_3/main.py
@ -0,0 +1,39 @@
 import pandas as pd
 from sklearn.model_selection import train_test_split
 from sklearn.tree import DecisionTreeClassifier
 from sklearn.metrics import accuracy_score
 def main():
    # Чтение данных из csv файла
    data = pd.read_csv("Clean_Data_pakwheels.csv")
    # Выбор необходимых для создания модели столбцов
    selected_columns = ['Company Name', 'Model Year', 'Mileage', 'Transmission Type', 'Price', 'Registration Status']
    data = data[selected_columns]
    # Разделение данных на признаки (X) и целевую переменную (y), целевая переменная в данном случае Registration Status
    y = data['Registration Status']
    data = data.drop(columns=['Registration Status'])
    # В связи с тем, что некоторые столбцы представляют из себя текстовые значения, мы представляем их в виде числовых значений
    X = pd.get_dummies(data)
    # Тестовый набор в данном случае - 1%, обучающий - 99%
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.01)
    model = DecisionTreeClassifier()
    model.fit(X_train, y_train)
    # Предсказание на тестовом наборе
    y_pred = model.predict(X_test)
    # Оценка точности модели
    accuracy = accuracy_score(y_test, y_pred)
    print(f"Accuracy: {accuracy}")
    # Важность признаков
    importance = pd.DataFrame({'Признак': X.columns, 'Важность': model.feature_importances_})
    importance = importance.sort_values(by='Важность', ascending=False)
    print(importance)
 main()
--- a/faskhutdinov_idris_lab_4/Clean
+++ b/faskhutdinov_idris_lab_4/Clean
--- a/faskhutdinov_idris_lab_4/Readme.md
+++ b/faskhutdinov_idris_lab_4/Readme.md
@ -0,0 +1,45 @@
 # Лабораторная работа №4. Кластеризация
 ## 2 вариант(27 % 2 = 2)
 ### Задание:
 Использовать метод кластеризации по варианту для данных из таблицы
 1 по варианту (таблица 9), самостоятельно сформулировав задачу.
 Интерпретировать результаты и оценить, насколько хорошо он подходит для
 решения сформулированной вами задачи.
 Используемый метод: linkage
 В моем случае данными является датасет о продаже автомобилей. В датасете представлены следующие столбцы:
 * id
 * Company Name
 * Model Name
 * Price
 * Model Year
 * Location
 * Mileage
 * Engine Type
 * Engine Capacity
 * Color
 * Assembly
 * Body Type
 * Transmission Type
 * Registration Status
 ### Как запустить лабораторную
 1. Запустить файл main.py
 ### Используемые технологии
 1. Библиотека matplotlib
 2. Библиотека scikit-learn
 3. Библиотека pandas
 3. Python
 4. IDE PyCharm
 ### Описание лабораторной работы
 Программа выполняет кластеризацию данных методом linkage, используя для своей работы признаки "Стоимость" и "Пробег"
 Для работы программы выбирается часть данных(Ввиду того, что работы программы на полном объеме данных требует больших вычислительных мощностей), после чего они стандартизируются,
 а затем к ним применяется кластеризация. После чего строится график, который показывается на экране, а так же сохраняется в папке проекта.
 Скриншот работы программы представлен в папке проекта.
 ### Результат
 Кластеризация представленного датасета позволяет увидеть схожие пары "Стоимость"-"Пробег", что позволяет выделить более или менее схожие автомобили.
--- a/faskhutdinov_idris_lab_4/linkage.png
+++ b/faskhutdinov_idris_lab_4/linkage.png
--- a/faskhutdinov_idris_lab_4/main.py
+++ b/faskhutdinov_idris_lab_4/main.py
@ -0,0 +1,32 @@
 import pandas as pd
 from sklearn.cluster import AgglomerativeClustering
 from sklearn.preprocessing import StandardScaler
 import matplotlib.pyplot as plt
 # Чтение данных из датасета
 data = pd.read_csv("Clean Data_pakwheels.csv")
 # Уменьшение размера данных для оптимизации работы программы
 data = data.sample(frac=.01)
 # Для кластеризации выбираются признаки "Стоимость" и "Пробег"
 features = ['Price','Mileage']
 cluster_data = data[features]
 X = data[features]
 # Стандартизация данных
 standartSc = StandardScaler()
 X_scaled = standartSc.fit_transform(X)
 # Кластеризация с разделением на 4 кластера
 cluster = AgglomerativeClustering(n_clusters=4, linkage='ward')
 data['cluster'] = cluster.fit_predict(X_scaled)
 # Построение графика
 plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=data['cluster'])
 plt.xlabel('Стоимость')
 plt.ylabel('Пробег')
 plt.title('Кластеризация')
 plt.savefig(f"linkage.png")
 plt.show()
--- a/faskhutdinov_idris_lab_5/Clean
+++ b/faskhutdinov_idris_lab_5/Clean
--- a/faskhutdinov_idris_lab_5/Readme.md
+++ b/faskhutdinov_idris_lab_5/Readme.md
@ -0,0 +1,45 @@
 # Лабораторная работа №5. Регрессия
 ## 2 вариант(27 % 5 = 2)
 ### Задание:
 Использовать регрессию по варианту для данных из таблицы 1 по
 варианту (таблица 10), самостоятельно сформулировав задачу. Оценить,
 насколько хорошо она подходит для решения сформулированной вами задачи.
 Используемый метод: Логистическая регрессия
 В моем случае данными является датасет о продаже автомобилей. В датасете представлены следующие столбцы:
 * id
 * Company Name
 * Model Name
 * Price
 * Model Year
 * Location
 * Mileage
 * Engine Type
 * Engine Capacity
 * Color
 * Assembly
 * Body Type
 * Transmission Type
 * Registration Status
 ### Как запустить лабораторную
 1. Запустить файл main.py
 ### Используемые технологии
 1. Библиотека matplotlib
 2. Библиотека scikit-learn
 3. Библиотека pandas
 3. Python
 4. IDE PyCharm
 ### Описание лабораторной работы
 Программа выполняет решение задачи регрессии методом логистической регрессии, используя для своей работы признаки "Registration Status", 'Model Year', 'Mileage'. Предсказывается вероятность регистрации автомобиля на основе данных о его пробеге и годе выпуска.
 Для работы программы выбирается часть данных(Ввиду того, что работы программы на полном объеме данных требует больших вычислительных мощностей), затем строковые значения преобразуются в числовые. Данные разделяются на тестовый и тренировочный наборы, 
 строится модель логистической регрессии, после чего оценивается её качество. 
 После чего строится график, который показывается на экране, а так же сохраняется в папке проекта.
 Точность: 0.04852728150651859
 Скриншот работы программы представлен в папке проекта.
 ### Результат
 Модель логистической регрессии показала весьма низкие результаты, в связи с этим можно сделать вывод ,что она не подходит для решения сформулированной задачи.
--- a/faskhutdinov_idris_lab_5/image.png
+++ b/faskhutdinov_idris_lab_5/image.png
--- a/faskhutdinov_idris_lab_5/main.py
+++ b/faskhutdinov_idris_lab_5/main.py
@ -0,0 +1,55 @@
 from sklearn.linear_model import LogisticRegression
 from sklearn.preprocessing import StandardScaler, LabelEncoder
 from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
 import matplotlib.pyplot as plt
 import pandas as pd
 from sklearn.model_selection import train_test_split
 def main():
    # Чтение данных из датасета
    data = pd.read_csv('Clean Data_pakwheels.csv')
    # Выбор переменных для модели
    features = ['Registration Status', 'Model Year', 'Mileage']
    # Выбор лишь части значений для оптимизации работы программы
    data = data.sample(frac=.1)
    # Отбор нужных столбцов
    df = data[features]
    # Преобразование строковых значений о регистрации авто в числовые
    labelencoder = LabelEncoder()
    df['Registration Status'] = labelencoder.fit_transform(df['Registration Status'])
    # Разделение на признаки и целевую переменную, представленную как Mileage
    X = df.drop('Mileage', axis=1)
    y = df['Mileage']
    # Разделение данных на тренировочный и тестовый наборы
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.9, random_state=0)
    # Создание и обучение логистической регрессии
    model = LogisticRegression()
    model.fit(X_train, y_train)
    # Предсказание на тестовом наборе
    y_pred = model.predict(X_test)
    # Оценка качества модели
    accuracy = accuracy_score(y_test, y_pred)
    class_report = classification_report(y_test, y_pred)
    print(f'Точность: {accuracy}')
    print(f'Классификация:\n{class_report}')
    # Визуализация результатов
    plt.scatter(X_test['Registration Status'], y_test, color='red', label='Actual')
    plt.scatter(X_test['Registration Status'], y_pred, color='green', label='Predicted', marker='x')
    plt.xlabel('Registration Status')
    plt.ylabel('Mileage')
    plt.legend()
    plt.savefig(f"image.png")
    plt.show()
 main()