Skip to content

Latest commit

 

History

History
238 lines (153 loc) · 5.45 KB

File metadata and controls

238 lines (153 loc) · 5.45 KB

Forberedelser og oppsett

Denne veiledningen dekker alt dere trenger for å komme i gang med workshopen på en ren Mac, Linux eller Windows-maskin.

📦 Installasjon av avhengigheter

macOS

1. Installer Homebrew (pakkebehandler)

Åpne Terminal og kjør:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

2. Installer Python

brew install python@3.13

Verifiser installasjonen:

python3 --version

3. Installer Poetry (Python-pakkebehandler)

curl -sSL https://install.python-poetry.org | python3 -

Legg til Poetry i PATH (legg til i ~/.zshrc eller ~/.bash_profile):

export PATH="$HOME/.local/bin:$PATH"

Last inn endringene:

source ~/.zshrc  # eller source ~/.bash_profile

Verifiser Poetry:

poetry --version

4. Installer gcloud CLI (anbefalt for BigQuery)

Hva er gcloud CLI og bq?

Google Cloud CLI (gcloud) er kommandolinjeverktøyet for å jobbe med Google Cloud Platform. Det inkluderer bq-kommandoen som er spesifikt designet for BigQuery-operasjoner.

bq-kommandoen lar dere:

  • Kjøre SQL-spørringer direkte fra terminalen (bq query)
  • Administrere datasets og tabeller (bq mk, bq ls, bq show)
  • Laste data til BigQuery (bq load)
  • Eksportere data fra BigQuery (bq extract)

Selv om dere kan bruke BigQuery Console (web UI) for alt, gjør bq mange oppgaver raskere og enklere å automatisere. I workshopen vil dere bruke både bq i terminalen og BigQuery Console i nettleseren.

brew install google-cloud-sdk

Linux (Ubuntu/Debian)

1. Oppdater pakkebehandler

sudo apt update && sudo apt upgrade -y

2. Installer Python 3.13

sudo apt install software-properties-common -y
sudo add-apt-repository ppa:deadsnakes/ppa -y
sudo apt update
sudo apt install python3.13 python3.13-venv python3.13-dev -y

Verifiser:

python3 --version

3. Installer Poetry

curl -sSL https://install.python-poetry.org | python3.13 -

Legg til i PATH (~/.bashrc eller ~/.zshrc):

export PATH="$HOME/.local/bin:$PATH"

Last inn:

source ~/.bashrc

Verifiser:

poetry --version

4. Installer gcloud CLI (anbefalt)

Hva er gcloud CLI og bq?

Google Cloud CLI (gcloud) er kommandolinjeverktøyet for å jobbe med Google Cloud Platform. Det inkluderer bq-kommandoen som er spesifikt designet for BigQuery-operasjoner.

bq-kommandoen lar dere:

  • Kjøre SQL-spørringer direkte fra terminalen (bq query)
  • Administrere datasets og tabeller (bq mk, bq ls, bq show)
  • Laste data til BigQuery (bq load)
  • Eksportere data fra BigQuery (bq extract)

I workshopen vil dere bruke både bq i terminalen og BigQuery Console i nettleseren.

curl https://sdk.cloud.google.com | bash
exec -l $SHELL

Windows

NB: For Windows-brukere anbefaler vi å bruke Windows Subsystem for Linux (WSL) hvis dere er komfortable med Linux. WSL gir en bedre utvikleropplevelse og gjør det enklere å følge workshop-instruksjonene. Hvis dere foretrekker native Windows, følg instruksjonene nedenfor.

1. Installer Python 3.13

  1. Last ned Python 3.13 fra python.org
  2. Kjør installasjonsprogrammet
  3. VIKTIG: Huk av "Add Python to PATH"
  4. Velg "Install Now"

Verifiser i PowerShell eller Command Prompt:

python --version

2. Installer Poetry

Åpne PowerShell som administrator og kjør:

(Invoke-WebRequest -Uri https://install.python-poetry.org -UseBasicParsing).Content | python -

Legg til Poetry i PATH:

  1. Søk etter "Environment Variables" i Windows
  2. Rediger "Path" under "User variables"
  3. Legg til: %APPDATA%\Python\Scripts

Restart PowerShell og verifiser:

poetry --version

3. Installer gcloud CLI (anbefalt)

Last ned og installer fra Google Cloud SDK


🚀 Prosjektoppsett

1. Klon eller last ned prosjektet

git clone git@github.com:kantega/loeft.git
cd loeft

2. Installer prosjektavhengigheter

poetry install

Dette installerer:

3. Verifiser installasjonen

Generer et lite testsett med 100 rader:

poetry run python generate_sales_data.py --rows 100 --output test

Dere skal se en rapport som viser at 100 rader ble generert.

✅ Suksesskriterium: Kommandoen skal fullføre uten feil og vise en rapport med "Generated 100 rows".

📊 Se på testdataene:

Åpne filen som ble generert og se på de første linjene:

head -20 test.csv

✅ Suksesskriterium: Dere skal se CSV-data med kolonner som product_id, product_name, sales_timestamp, sales_amount, payment_method.

💡 Reflekter over datakvaliteten:

Ta et øyeblikk for å se på dataene. Legg merke til:

  • Ser dere forskjellige formater for samme type data? (f.eks. datoer, beløp)
  • Finnes det typos eller inkonsistente verdier?
  • Ser dere tomme verdier eller rare tegn?
  • Hvordan ville slike data påvirke analyser?

Dette er et lite utvalg - i workshopen skal dere jobbe med 1 million rader med lignende utfordringer!