Sistema preditivo de evasão escolar desenvolvido com Machine Learning, utilizando dados públicos do INEP e IBGE.
Este projeto visa desenvolver um sistema capaz de identificar escolas com alto risco de evasão escolar no Ensino Médio, utilizando técnicas de Machine Learning e dados públicos brasileiros.
- Desenvolver um modelo preditivo de evasão escolar
- Criar um dashboard interativo para visualização e predição
- Implementar um chat interativo com NLP básico
- Python: linguagem de programação principal
- Pandas: para manipulação de dados
- Scikit-learn: Machine Learning (Gradient Boosting Classifier)
- Dash: para criação do dashboard interativo
- Plotly: para criação de gráficos e visualização de dados interativos
- Joblib: persistência de modelos
-
INEP - Censo Escolar 2023
- Dados por escola e município (Ensino Médio)
- Taxas de aprovação históricas (2017, 2019, 2021, 2023)
- Notas SAEB (Matemática e Português)
- Indicadores de rendimento
-
INEP - IDEB 2023
- Índice de Desenvolvimento da Educação Básica
-
IBGE
- Dados geográficos municipais
- Renda média municipal (2010)
- Taxa de desemprego local (2010)
- Total de registros: 21.592 escolas
- Features utilizadas: 40 features numéricas
- Variável alvo: Taxa de evasão escolar em 2023 (binarizada: Alta ≥20%, Baixa <20%)
| Métrica | Valor |
|---|---|
| Acurácia | 87.98% |
| Precisão | 82.22% |
| Recall | 61.44% |
| F1-Score | 70.33% |
| Valor Predito | |||
|---|---|---|---|
| Baixa Evasão | Alta Evasão | ||
| Valor Real | Baixa Evasão | 2655 | 105 |
| Alta Evasão | 308 | 492 |
- Taxa de Aprovação 2021 (Série 1) - 22.74%
- Tipo de Rede - 11.91%
- Taxa de Aprovação 2019 (Série 1) - 11.50%
- Taxa de Evasão 2019 - 9.14%
- Microrregião ID - 7.62%
- Python 3.11 ou superior
- pip
- Clone o repositório:
git clone https://github.com/PHCavalcante/AI-Project.git
cd AI-Project- Crie um ambiente virtual:
python3 -m venv .venv
source .venv/bin/activate # Linux/Mac
# ou
.venv\Scripts\activate # Windows- Instale as dependências:
pip install -r requirements.txtExecute o script de coleta de dados:
python3 projeto/src/data_collection.pyIsso irá:
- Processar os arquivos Excel do INEP
- Coletar dados do IBGE
- Processar dados de desemprego e renda
- Salvar os dados brutos em
projeto/data/raw/
Execute o script de processamento:
python3 projeto/src/data_processing.pyIsso irá:
- Limpar e padronizar os dados
- Criar features derivadas (taxas de evasão)
- Integrar dados socioeconômicos
- Salvar os dados processados em
projeto/data/processed/
Execute o pipeline de Machine Learning:
python3 projeto/src/ml_pipeline.pyIsso irá:
- Treinar o modelo Gradient Boosting Classifier
- Avaliar o desempenho
- Salvar o modelo em
projeto/models/
Execute o dashboard:
python3 projeto/src/dashboard.pyAcesse o dashboard em: http://127.0.0.1:8050/
O dashboard permite:
- Visualizar gráficos interativos
- Filtrar dados por estado, rede e taxa de evasão
- Fazer predições em tempo real
- Interagir com chat NLP básico
Execute o notebook Jupyter para análise exploratória:
jupyter notebook projeto/notebooks/eda.ipynbO relatório completo de predição está disponível em:
projeto/reports/prediction_report.pdf
- Histograma: Distribuição da taxa de evasão
- Boxplot: Taxa de evasão por tipo de rede
- Scatter Plot: IDEB vs Taxa de Evasão
- Gráfico de Barras: Evolução histórica da evasão
- Interface para inserir valores de features
- Predição instantânea de risco de evasão
- Exibição de probabilidades
- Processamento de linguagem natural básico
- Respostas sobre estatísticas de evasão
- Análise por estado, rede, IDEB, etc.
- Índice do Desenvolvimento da Educação Básica (IDEB) (INEP): https://www.gov.br/inep/pt-br/areas-de-atuacao/pesquisas-estatisticas-e-indicadores/ideb/resultados
- Taxas de Transição (INEP): https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/indicadores-educacionais/taxas-de-transicao
- Microdados do Censo Escolar (INEP): https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/censo-escolar
- Renda Média Municipal (SIDRA 2010): https://apisidra.ibge.gov.br/values/t/3548/n6/all/v/allxp/p/2010
- Taxa de Desemprego Municipal (DATASUS 2010): http://tabnet.datasus.gov.br/cgi/tabcgi.exe?Ibge/censo/cnv/desemprbr
-
Dados de 2010: As features socioeconômicas (renda e desemprego) são de 2010, podendo estar desatualizadas.
-
Dados históricos: O modelo depende fortemente de dados históricos de aprovação e evasão.
-
Contexto local: Fatores locais específicos não são capturados pelo modelo.
-
Dados inválidos da rede privada: A falha na disponibilização de dados do IDEB para a rede privada acabou inviabilizando o mapeamento das taxas de evasão para escolas privadas e a sua consequente predição.
Este projeto é de código aberto e está disponível para uso educacional e de pesquisa, e está sob a licença MIT.
Este projeto foi desenvolvido como requisito avaliativo da segunda etapa da disciplina de Inteligência Artificial.
Equipe: José Klesley P. Feitosa, Pedro Henrique C. dos Santos e Vinícius Alves F. dos Santos.
Docente: Ronierison Maciel
Centro Universitário do Rio São Francisco (UniRios)
VI Período do Bacharelado em Sistemas de Informação


