89 lines
7.2 KiB
Markdown
89 lines
7.2 KiB
Markdown
|
Вариант 2
|
|||
|
|
|||
|
Задание:
|
|||
|
Использовать регрессию по варианту для данных из таблицы 1 по варианту(таблица 10), самостоятельно сформулировав задачу. Оценить, насколько хорошо она подходит для решения сформулированной вами задачи
|
|||
|
|
|||
|
Вариант 2 Логистическая регрессия
|
|||
|
|
|||
|
Предсказание медианной стоимости жилья на основе всех доступных признаков.
|
|||
|
|
|||
|
|
|||
|
Данные:
|
|||
|
Данный набор данных использовался во второй главе недавней книги Аурелиена Жерона "Практическое машинное обучение с помощью Scikit-Learn и TensorFlow". Он служит отличным введением в реализацию алгоритмов машинного обучения, потому что требует минимальной предварительной обработки данных, содержит легко понимаемый список переменных и находится в оптимальном размере, который не слишком мал и не слишком большой.
|
|||
|
|
|||
|
Данные содержат информацию о домах в определенном районе Калифорнии и некоторую сводную статистику на основе данных переписи 1990 года. Следует отметить, что данные не прошли предварительную очистку, и для них требуются некоторые этапы предварительной обработки. Столбцы включают в себя следующие переменные, их названия весьма наглядно описывают их суть:
|
|||
|
|
|||
|
долгота longitude
|
|||
|
|
|||
|
широта latitude
|
|||
|
|
|||
|
средний возраст жилья median_house_value
|
|||
|
|
|||
|
общее количество комнат total_rooms
|
|||
|
|
|||
|
общее количество спален total_bedrooms
|
|||
|
|
|||
|
население population
|
|||
|
|
|||
|
домохозяйства households
|
|||
|
|
|||
|
медианный доход median_income
|
|||
|
|
|||
|
Запуск:
|
|||
|
Запустите файл lab5.py
|
|||
|
|
|||
|
Описание программы:
|
|||
|
|
|||
|
Загрузка данных:
|
|||
|
|
|||
|
1. Используется библиотека pandas для чтения данных из CSV-файла "housing.csv" и создания DataFrame.
|
|||
|
Выбор признаков и целевой переменной:
|
|||
|
|
|||
|
2. Определяются признаки (X) и целевая переменная (y), где целевой переменной является "median_house_value", а признаками — все столбцы, за исключением "longitude", "latitude" и "ocean_proximity".
|
|||
|
Обработка пропущенных значений:
|
|||
|
|
|||
|
3. Применяется SimpleImputer с стратегией 'mean' для заполнения пропущенных значений средними значениями в признаках.
|
|||
|
|
|||
|
4. Применяется train_test_split для разбиения данных на обучающий, валидационный и тестовый наборы.
|
|||
|
Создание и обучение модели линейной регрессии:
|
|||
|
|
|||
|
5. Инициализируется и обучается модель LinearRegression на обучающем наборе.
|
|||
|
Вывод коэффициентов и пересечения:
|
|||
|
|
|||
|
6. Выводятся коэффициенты и пересечение линейной регрессии, найденные моделью в процессе обучения.
|
|||
|
Предсказание значений на тестовом наборе:
|
|||
|
|
|||
|
7. Производится предсказание значений целевой переменной на тестовом наборе с использованием обученной модели.
|
|||
|
|
|||
|
Оценка модели:
|
|||
|
|
|||
|
1. Рассчитываются значения R^2 для обучающего, валидационного и тестового наборов для оценки соответствия модели данным.
|
|||
|
Оценка качества предсказаний:
|
|||
|
|
|||
|
2. Рассчитываются среднеквадратичная ошибка (MSE) и корень из среднеквадратичной ошибки (RMSE) для оценки точности предсказаний.
|
|||
|
Визуализация предсказаний:
|
|||
|
|
|||
|
3. Строится график рассеяния для визуального сравнения фактических и предсказанных значений на тестовом наборе.
|
|||
|
|
|||
|
Результаты:
|
|||
|
|
|||
|
![Alt text](1.png)
|
|||
|
|
|||
|
Выводы:
|
|||
|
|
|||
|
Оценка результатов:
|
|||
|
|
|||
|
1. Коэффициенты линейной регрессии:
|
|||
|
|
|||
|
- Полученные коэффициенты для каждого признака показывают, как сильно он влияет на целевую переменную (медианную стоимость жилья). Например, положительные коэффициенты, такие как 1.91e+03 и 1.27e+02, указывают на положительную корреляцию с целевой переменной, тогда как отрицательные, например, -1.89e+01 и -3.25e+01, указывают на отрицательную корреляцию.
|
|||
|
|
|||
|
2. Пересечение линейной регрессии:
|
|||
|
- Значение пересечения (-47499.49) представляет оценку целевой переменной, когда все признаки равны нулю.
|
|||
|
|
|||
|
3. R^2 (коэффициент детерминации):
|
|||
|
- R^2 измеряет, насколько хорошо модель соответствует данным. Значения около 0.56 для обучающего, валидационного и тестового наборов говорят о том, что модель объясняет примерно 56% дисперсии в данных. Это приемлемый результат, но есть пространство для улучшений.
|
|||
|
|
|||
|
4. Среднеквадратичная ошибка (MSE) и корень из среднеквадратичной ошибки (RMSE):
|
|||
|
- MSE составляет 5,931,235,118.49, что является среднеквадратичной разницей между фактическими и предсказанными значениями. RMSE (77014.51) представляет собой среднюю ошибку в предсказаниях в единицах целевой переменной.
|
|||
|
|
|||
|
Общий вывод: Результаты говорят о том, что модель демонстрирует неплохое соответствие данным, но есть возможность для улучшений.
|