Projeto Engenharia de Dado UNISATC

Repositorio para desenvolvimento do projeto final da disciplina de Engenharia de Dados do curso de Engenharia de Software da UNISATC.

Desenho de Arquitetura

Coloque uma imagem do seu projeto, como no exemplo abaixo:

Pré-requisitos e ferramentas utilizadas

Linguagem: Python 3.11+
Gerenciador de dependências: Poetry
Banco de Dados: MongoDB
Qualidade de código: pre-commit (ruff, black, isort, flake8, mypy)
Infraestrutura e Orquestração:
- Azure Data Lake Storage (ADLS)
- Azure Data Factory (ADF)
- Databricks
Documentação: MkDocs + mkdocstrings + mkdocs-material

Instalação

1. Clonar o repositório

git clone https://github.com/taylorteixeira/projeto-ed-satc.git
cd projeto-ed-satc

2. Instalar dependências

poetry install

3. Executar localmente

Antes de começar, você precisará ter as seguintes ferramentas instaladas no seu computador:

Azure CLI
Visual Studio Code
Terraform
Poetry
Uma conta de e-mail Microsoft específica para esta atividade

Além disso, é necessário possuir o MS Learn Sandbox para ativar uma assinatura de testes gratuita.

Passo 1: Inicializar o Azure Data Lake com Terraform

Para levantar o Data Lake, siga os comandos abaixo:

Navegue até a pasta iac/adls:

cd iac/adls

Siga o roteiro do repositório jlsilva01/adls-azure para criar o Azure Data Lake Storage gratuitamente.

Aqui estão os comandos necessários:

1. Efetue login no Azure:

az login

2. Utilize a assinatura gratuita:

az account set --subscription "Concierge Subscription"

3. Ajuste a variável `resource_group_name` no arquivo `variables.tf` com o nome do Resource Group usado:

variable "resource_group_name" {
    default = "learn-877e311a-66ab-401b-9372-06326c9bd083"
}

4. Execute os comandos do Terraform na seguinte ordem:

Inicializar o Terraform:
```
terraform init
```
Validar os arquivos do Terraform:
```
terraform validate
```
Ajustar o formato dos arquivos:
```
terraform fmt
```
Gerar um plano de implantação:
```
terraform plan
```
Implantar na cloud:
```
terraform apply
```

5. Confirme no portal do Azure:

Acesse portal.azure.com para validar a criação do Azure Data Lake Storage Gen2.

6. (Opcional) Para remover os recursos criados após os testes:

terraform destroy

Passo 2: Configurar o pipeline MongoDB

Retorne à raiz do projeto, se necessário, no terminal:
```
cd ../../
```
Rode o pipeline de ETL que configura o banco de dados MongoDB:
```
iac/mongo/injector.ipynb
```

Passo 3: Executar os notebooks no Databricks

Suba os notebooks localizados na pasta:
```
iac/databricks
```
Configure e execute os notebooks diretamente no Databricks, conectando ao pipeline e verificando os dados processados.

Documentação (MkDocs)

Toda a documentação está em docs/:
Acesse o site em https://taylorteixeira.github.io/projeto-ed-satc.

Colaboração

Abra uma issue para discutir sua feature ou bug.

Crie um branch:

git checkout -b feature/nome-da-sua-feature

Faça suas alterações e commit seguindo o Conventional Commits.
Envie um pull request para main.
Aguarde revisão e merge.

Autores

Taylor Teixeira - dados e população - https://github.com/taylorteixeira
Eduardo Ribarski - Orquestração e pipeline - https://github.com/ribarski
Eryc Jacinto - Infraestrutura e banco - https://github.com/ErycMJ
Edrik Steiner - Injeção e limpeza - https://github.com/edrikfsteiner
Igor Steiner - Documentação - https://github.com/IgorSteinerS

Licença

Este projeto está sob a licença MIT - veja o arquivo LICENSE para detalhes.

Referências

Template para o Projeto - jlsilva01
alds-azure - jlsilva01
engenharia-dados-azure-databricks - jlsilva01

Name		Name	Last commit message	Last commit date
Latest commit History 58 Commits
assets		assets
data		data
docs		docs
iac		iac
projeto_ed_satc		projeto_ed_satc
.gitignore		.gitignore
.python-version		.python-version
LICENSE		LICENSE
README.md		README.md
mkdocs.yml		mkdocs.yml
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projeto Engenharia de Dado UNISATC

Desenho de Arquitetura

Pré-requisitos e ferramentas utilizadas

Instalação

1. Clonar o repositório

2. Instalar dependências

3. Executar localmente

Antes de começar, você precisará ter as seguintes ferramentas instaladas no seu computador:

Passo 1: Inicializar o Azure Data Lake com Terraform

Para levantar o Data Lake, siga os comandos abaixo:

Aqui estão os comandos necessários:

1. Efetue login no Azure:

2. Utilize a assinatura gratuita:

3. Ajuste a variável `resource_group_name` no arquivo `variables.tf` com o nome do Resource Group usado:

4. Execute os comandos do Terraform na seguinte ordem:

5. Confirme no portal do Azure:

6. (Opcional) Para remover os recursos criados após os testes:

Passo 2: Configurar o pipeline MongoDB

Passo 3: Executar os notebooks no Databricks

Documentação (MkDocs)

Colaboração

Autores

Licença

Referências

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Projeto Engenharia de Dado UNISATC

Desenho de Arquitetura

Pré-requisitos e ferramentas utilizadas

Instalação

1. Clonar o repositório

2. Instalar dependências

3. Executar localmente

Antes de começar, você precisará ter as seguintes ferramentas instaladas no seu computador:

Passo 1: Inicializar o Azure Data Lake com Terraform

Para levantar o Data Lake, siga os comandos abaixo:

Aqui estão os comandos necessários:

1. Efetue login no Azure:

2. Utilize a assinatura gratuita:

3. Ajuste a variável resource_group_name no arquivo variables.tf com o nome do Resource Group usado:

4. Execute os comandos do Terraform na seguinte ordem:

5. Confirme no portal do Azure:

6. (Opcional) Para remover os recursos criados após os testes:

Passo 2: Configurar o pipeline MongoDB

Passo 3: Executar os notebooks no Databricks

Documentação (MkDocs)

Colaboração

Autores

Licença

Referências

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

3. Ajuste a variável `resource_group_name` no arquivo `variables.tf` com o nome do Resource Group usado:

Packages