- Загружены train/test датасеты.
- Проведён базовый EDA
- Обнаружены строковые числовые признаки (mileage, engine, max_power); преобразованы к числовому формату, удалён torque
- Пропуски заполнены медианами (рассчитанными по train).
- Дубликаты объектов удалены по признакам (без целевой переменной).
- Построена линейная регрессия на исходных и стандартизованных признаках.
- Обучены модели Lasso, ElasticNet и Ridge с подбором гиперпараметров через GridSearchCV.
- Категориальные признаки + seats закодированы через OneHotEncoder.
- Числовые (scaled) и OHE-признаки объединены для обучения Ridge.
- Реализована бизнесовая метрика: доля предсказаний, отличающихся от реальных не более чем на 10%.
-
Создан интерактивный сервис с тремя вкладками:
- EDA-графики
- Прогноз цены (CSV или ручной ввод)
- Визуализация весов модели
-
Подготовлен .pickle с моделью и препроцессингом.
-
Сервис работает автономно через
streamlit run app.py.
- Большинство моделей (линейная, Lasso, ElasticNet) дали R^2 около 0.59 на тесте.
- Модель Ridge с числовыми + категориальными признаками подняла R^2 до около 0.65, что является лучшим результатом.
Best:
Модель Ridge (Числовые + Категориальные) - 0.245
- Явный прирост дала интеграция категориальных признаков через OneHotEncoding.
-
Не получилось корректно обработать столбец "torque". Формат значений не унифицирован (например, "113.75Nm@ 4000rpm" vs "250Nm"). Для качественной обработки требовались бы:
- доменная экспертиза,
- сложный парсинг с regex
- Приложение получилось responsive, slick, awesome texture и fabric.
- Спавн хитмапы под чекбоксом - приятно пользоваться
- Хитмапа, появляющаяся по чекбоксу.
- Барплот с наиболее важными коэффициентами модели.
- При ручном вводе модель просто выводит численное значение цены без объяснения.
- Нет объяснения ("почему модель предсказала именно такую цену").
-
Добавить объяснение прогноза через:
- В выводе предсказаний добавить самые влияющие метрики и какой конкретно вклад они внесли
- Обернуть эту информацию в запрос к API какой-нибудь LLM, чтобы она составила user-friendly summary о том, какие факторы повляли на предсказание цены