Este projeto visa criar uma ferramenta de geração de questões inéditas para vestibulares brasileiros utilizando Large Language Models e sistemas Multiagentes (LLMs). O desenvolvimento conta com o apoio da empresa de educação a distância PICO e explora alternativas à ferramenta de geração de questões já existente na empresa.
O VestAgents implementa quatro estratégias complementares para geração de questões:
- Retrieval-generator: Sistema com RAG (Geração Aumentada por Recuperação) integrado para pesquisar questões semelhantes em uma base vetorial.
- Few-shot: Geração baseada em prompt few-shot com as 5 questões mais semelhantes (derivado do módulo de retrieval).
- Scraping: Realiza busca na web via Serper API e extrai textos com BeautifulSoup como base para a geração.
- Paired Crew: Combina few-shot e scraping em sequência para geração aumentada com múltiplas fontes.
Utiliza embeddings e FAISS para construir e consultar um banco de dados vetorial de questões passadas. Isso permite que o modelo tenha exemplos semanticamente semelhantes como contexto para gerar novas questões.
Extensão do retrieval: após buscar questões semelhantes, constrói-se um prompt few-shot que serve de base para o modelo gerar uma nova questão.
Busca conteúdos relevantes na web sobre o tema solicitado (como "Probabilidade no Enem"), extrai parágrafos de páginas especializadas e os insere como contexto para geração.
Estrutura em duas crews: uma para recuperar exemplos (few-shot), outra para buscar conteúdo online (scraping). Os dois conjuntos são unidos para criar a questão final.
- Python 3.10 a 3.12
- UV como gerenciador de pacotes
pip install uv
crewai install- Entre no diretório do projeto que deseja testar. Exemplo:
cd fewshot_crews- Crie o arquivo
.envcom suaOPENAI_API_KEY. - Configure os agentes em:
src/raia_agents/config/agents.yaml - Configure as tarefas em:
src/raia_agents/config/tasks.yaml - Edite
src/raia_agents/crew.pyesrc/raia_agents/main.pypara customizações.
crewai runEsse comando inicia a crew de agentes conforme definido em main.py.
A avaliação de resultados foi realizada utilizando DeepEval e os critérios utilizados na matriz de referência do Enem.
Resultados finais das métricas para 50 questões:

Enem: Questões reais dos tópicos em vestibulares antigos do Enem; Few shot: Nossa abordagem com agente few shot; Baseline: Questões geradas utilizando o modelo baseline sem agentes.
Resumo: Como podemos observar, o dataset do Enem possui o melhor desempenho geral, seguido de perto pelo nosso modelo Few Shot. As questões do baseline apresentam um desempenho inferior em comparação aos outros dois.
Este gráfico revela que o nosso modelo FewShot apresenta um desempenho muito competitivo em relação às questões do ENEM, superando-o em algumas métricas como "Alternativa correta", “Enunciado" e "Linguagem inclusiva". Ambos, ENEM e FewShot, mostram uma vantagem clara sobre as questões da Pico na maioria das métricas, especialmente em "Exigencia cognitiva", onde o baseline demonstra uma queda mais acentuada.
- Integração com interface gráfica via Streamlit.
- Avaliação com professores parceiros da PICO.
- Implementação de avaliação automática da qualidade da questão gerada.
- Inclusão de suporte a diferentes idiomas e níveis educacionais.
- FAISS - Facebook AI Similarity Search
- Serper API - Busca estruturada na web
- Beautiful Soup - Extração de conteúdo HTML
- CrewAI
- PICO
![]() |
Este projeto foi desenvolvido pelos membros do RAIA (Rede de Avanço de Inteligência Artificial), uma iniciativa estudantil do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP - São Carlos. Somos estudantes que compartilham o objetivo de criar soluções inovadoras utilizando inteligência artificial para impactar positivamente a sociedade. Para saber mais, acesse nosso site ou nosso Instagram! |
|---|
![]() |
Este projeto foi desenvolvido com a Pico, uma plataforma de aprendizado digital com gameficação, que implementa inteligência artificial para estimular o aprendizado. Para saber mais, acesse use Pico |
|---|

