Repositorio para desenvolvimento do projeto final da disciplina de Engenharia de Dados do curso de Engenharia de Software da UNISATC.
Coloque uma imagem do seu projeto, como no exemplo abaixo:
- Linguagem: Python 3.11+
- Gerenciador de dependências: Poetry
- Banco de Dados: MongoDB
- Qualidade de código: pre-commit (ruff, black, isort, flake8, mypy)
- Infraestrutura e Orquestração:
- Azure Data Lake Storage (ADLS)
- Azure Data Factory (ADF)
- Databricks
- Documentação: MkDocs + mkdocstrings + mkdocs-material
git clone https://github.com/taylorteixeira/projeto-ed-satc.git
cd projeto-ed-satcpoetry install- Azure CLI
- Visual Studio Code
- Terraform
- Poetry
- Uma conta de e-mail Microsoft específica para esta atividade
Além disso, é necessário possuir o MS Learn Sandbox para ativar uma assinatura de testes gratuita.
- Navegue até a pasta
iac/adls:
cd iac/adls- Siga o roteiro do repositório jlsilva01/adls-azure para criar o Azure Data Lake Storage gratuitamente.
az loginaz account set --subscription "Concierge Subscription"3. Ajuste a variável resource_group_name no arquivo variables.tf com o nome do Resource Group usado:
variable "resource_group_name" {
default = "learn-877e311a-66ab-401b-9372-06326c9bd083"
}-
Inicializar o Terraform:
terraform init
-
Validar os arquivos do Terraform:
terraform validate
-
Ajustar o formato dos arquivos:
terraform fmt
-
Gerar um plano de implantação:
terraform plan
-
Implantar na cloud:
terraform apply
| Acesse portal.azure.com para validar a criação do Azure Data Lake Storage Gen2. |
|---|
terraform destroy-
Retorne à raiz do projeto, se necessário, no terminal:
cd ../../ -
Rode o pipeline de ETL que configura o banco de dados MongoDB:
iac/mongo/injector.ipynb
-
Suba os notebooks localizados na pasta:
iac/databricks -
Configure e execute os notebooks diretamente no Databricks, conectando ao pipeline e verificando os dados processados.
Toda a documentação está em docs/:
Acesse o site em https://taylorteixeira.github.io/projeto-ed-satc.
-
Abra uma issue para discutir sua feature ou bug.
-
Crie um branch:
git checkout -b feature/nome-da-sua-feature
-
Faça suas alterações e commit seguindo o Conventional Commits.
-
Envie um pull request para
main. -
Aguarde revisão e merge.
- Taylor Teixeira - dados e população - https://github.com/taylorteixeira
- Eduardo Ribarski - Orquestração e pipeline - https://github.com/ribarski
- Eryc Jacinto - Infraestrutura e banco - https://github.com/ErycMJ
- Edrik Steiner - Injeção e limpeza - https://github.com/edrikfsteiner
- Igor Steiner - Documentação - https://github.com/IgorSteinerS
Este projeto está sob a licença MIT - veja o arquivo LICENSE para detalhes.
- Template para o Projeto - jlsilva01
- alds-azure - jlsilva01
- engenharia-dados-azure-databricks - jlsilva01
