Класс реализует базовые операции по очистке и трансформации табличныз данных в формате pandas DataFrame в соответствии с ТЗ.
- Удаление столбцов, в которых доля пропусков больше заданного значения, заполнение пропусков в остальных столбцах средним/медианой/модой.
- One-Hot Encoding строковых столбцов.
- Нормализация числовых столбцов.
- Последовательное применение всех преобразований, параметры настраиваются при вызове.
- Информация о применённых преобразованиях сохраняется в поле stats.
- Базовая обработка ошибок
- Python>=3.10
- numpy
- pandas
- scikit-learn
- pytest
- jupyter notebook, jupyter lab или аналог для просмотра демонстрации
Клонируйте репозиторий и установите зависимости:
git clone https://github.com/rinkkiarsam/severstal_test_task.git
cd severstal_test_task
pip install -r requirements.txt
Чтобы запустить тесты:
pytest ./tests/ -v
Демонстрация работы на датасете titanic находится в файле demo.ipynb.