Skip to content

taylorteixeira/projeto-ed-satc

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

58 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Projeto Engenharia de Dado UNISATC

pre-commit
Docs

Repositorio para desenvolvimento do projeto final da disciplina de Engenharia de Dados do curso de Engenharia de Software da UNISATC.

Desenho de Arquitetura

Coloque uma imagem do seu projeto, como no exemplo abaixo:

image

Pré-requisitos e ferramentas utilizadas

  • Linguagem: Python 3.11+
  • Gerenciador de dependências: Poetry
  • Banco de Dados: MongoDB
  • Qualidade de código: pre-commit (ruff, black, isort, flake8, mypy)
  • Infraestrutura e Orquestração:
    • Azure Data Lake Storage (ADLS)
    • Azure Data Factory (ADF)
    • Databricks
  • Documentação: MkDocs + mkdocstrings + mkdocs-material

Instalação

1. Clonar o repositório

git clone https://github.com/taylorteixeira/projeto-ed-satc.git
cd projeto-ed-satc

2. Instalar dependências

poetry install

3. Executar localmente

Antes de começar, você precisará ter as seguintes ferramentas instaladas no seu computador:

Além disso, é necessário possuir o MS Learn Sandbox para ativar uma assinatura de testes gratuita.


Passo 1: Inicializar o Azure Data Lake com Terraform

Para levantar o Data Lake, siga os comandos abaixo:

  1. Navegue até a pasta iac/adls:
cd iac/adls
  1. Siga o roteiro do repositório jlsilva01/adls-azure para criar o Azure Data Lake Storage gratuitamente.

Aqui estão os comandos necessários:

1. Efetue login no Azure:

az login

2. Utilize a assinatura gratuita:

az account set --subscription "Concierge Subscription"

3. Ajuste a variável resource_group_name no arquivo variables.tf com o nome do Resource Group usado:

variable "resource_group_name" {
    default = "learn-877e311a-66ab-401b-9372-06326c9bd083"
}

4. Execute os comandos do Terraform na seguinte ordem:

  • Inicializar o Terraform:

    terraform init
  • Validar os arquivos do Terraform:

    terraform validate
  • Ajustar o formato dos arquivos:

    terraform fmt
  • Gerar um plano de implantação:

    terraform plan
  • Implantar na cloud:

    terraform apply

5. Confirme no portal do Azure:

Acesse portal.azure.com para validar a criação do Azure Data Lake Storage Gen2.

6. (Opcional) Para remover os recursos criados após os testes:

terraform destroy

Passo 2: Configurar o pipeline MongoDB

  1. Retorne à raiz do projeto, se necessário, no terminal:

    cd ../../
  2. Rode o pipeline de ETL que configura o banco de dados MongoDB:

    iac/mongo/injector.ipynb

Passo 3: Executar os notebooks no Databricks

  1. Suba os notebooks localizados na pasta:

    iac/databricks
    
  2. Configure e execute os notebooks diretamente no Databricks, conectando ao pipeline e verificando os dados processados.

Documentação (MkDocs)

Toda a documentação está em docs/:
Acesse o site em https://taylorteixeira.github.io/projeto-ed-satc.

Colaboração

  1. Abra uma issue para discutir sua feature ou bug.

  2. Crie um branch:

    git checkout -b feature/nome-da-sua-feature
  3. Faça suas alterações e commit seguindo o Conventional Commits.

  4. Envie um pull request para main.

  5. Aguarde revisão e merge.

Autores

Licença

Este projeto está sob a licença MIT - veja o arquivo LICENSE para detalhes.
License

Referências

About

Este projeto foi desenvolvido para demonstrar as funcionalidades e práticas de Data Engineering por meio da integração eficiente de infraestrutura, ingestão, processamento e análise de dados em larga escala

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors