Skip to content

Comments

feat: Inputng and anomally handlinging#5

Open
DamianRyczko wants to merge 1 commit intomainfrom
experiment/damian-data-imputing-anomalies
Open

feat: Inputng and anomally handlinging#5
DamianRyczko wants to merge 1 commit intomainfrom
experiment/damian-data-imputing-anomalies

Conversation

@DamianRyczko
Copy link
Member

No description provided.

@GregW04
Copy link

GregW04 commented Jan 15, 2026

Code Review:

  1. Po pierwsze jestem naprawdę pod dużym wrażeniem pracy włożonej w analizę oraz tworzeniu klas do preprocessingu tych danych. Duże propsy, właśnie takiego czegoś oczekiwałem od ML Enginerrow w tym projekcie.

  2. Sam kod:

  • Funkcjonalności naprawdę solid +
  • Zmieniłbym stałą 60 która jest używana w liczeniu limitów, na zmienną np limit_minutes_baseline bo jak wybierzemy freq_miutes na więcej niż 60 np.120 to wtedy nam się kruszą limity
  • W SksUsersImputer gdy robisz cols_to_fix = X.select_dtypes(include=[np.number]).columns.tolist() wybierasz wszystkie numeryczne wiec jeżeli nowa kolumna is_open jest numeryczna to tez wpadnie tam (tego byśmy nie chcieli)
  • Dodałbym opcje zmienna interpolating_method dla przyszłych ew. zmian : if interpolating_method := 'linear': X['spaces_left'] = X['spaces_left'].interpolate(method='linear', limit=limit_small)
  • A propos Interpolacji just to KEEP IN MIND, że jeżeli używamy interpolacji to łatwo o przeciek. Np. Robimy interpolacje na cale dane a potem je dzielimy na train-test to wtedy wartości zinterpolowane w train będa miały w sobie info z przyszłości. Wiec jak aplikujemy jakiekolwiek interpolacje i bill() i ffill() to na już podzielonych danych.
  • Jeżeli wykryłeś kolejna anomalie np. (błędna pojemność parkingu) w trakcie notebooku to nie zapomnij zrobić do tego funkcje i potem dodać do końcowego kodu.
  1. Co teraz? Ogarniasz te małe uwagi i oczekiwałbym PR do dev z ładnym kodem podzielonym na klasy/ w oddzielnym pliku .py wywolywane w głównym pliku do tego. Dodaj proszę komentarze gdzie się da oraz Google-Styled Docstrings (ChatGPT lub inny LLM to idealny pomysł do tego). Wytestuj jakie dostajesz outputowe tabelki dla przykładowo podzielonych danych train-val-test.

@GregW04
Copy link

GregW04 commented Jan 15, 2026

@DamianRyczko code review rdy

@GregW04
Copy link

GregW04 commented Feb 13, 2026

@DamianRyczko please provide status we need ready Preprocessing steps before moving forward. Given current PWr parking change of regulations you do not need that attention to detail.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants