Skip to content

Commit 4cb3898

Browse files
committed
enunciado projeto intermediario
1 parent 0abbeba commit 4cb3898

File tree

5 files changed

+91
-24
lines changed

5 files changed

+91
-24
lines changed
Lines changed: 39 additions & 22 deletions
Original file line numberDiff line numberDiff line change
@@ -1,43 +1,60 @@
11
# Projeto intermediário
22

3-
Segundo a literatura, o Double DQN não super valoriza o valor dos estados futuros. De fato, fornece estimativas mais realistas dos valores de ação. Isto tem algum impacto no aprendizado do agente? O aprendizado converge mais rápido? O aprendizado é mais estável?
3+
Neste semestre, o projeto intermediário da disciplina de Aprendizagem por Reforço terá dois tópicos possíveis:
44

5-
Sendo assim, a proposta desta atividade é **avaliar o impacto do Double DQN no aprendizado do agente**. Para tanto, cada equipe deverá treinar agentes usando os algoritmos DQN e Double DQN nos ambientes `LunarLander-v2` e `CartPole-v1` e comparar os resultados.
5+
1. **AWS DeepRacer**
6+
2. **Uso de Aprendizagem por Reforço em problemas de Coverage Path Planning**
67

7-
### Entrega básica
8+
Ambos os tópicos terão suas entregas finais na primeira semana de maio de 2025, mas as regras e orientações para cada um deles são diferentes.
89

9-
* Implementar o algoritmo Double Deep DQN e comparar os resultados com DQN nos ambientes `LunarLander-v2` e `CartPole-v1`.
10-
* Executar no mínimo 5 treinamentos para cada algoritmo.
11-
* No relatório apresentar:
12-
* a curva de aprendizado na forma de um gráfico.
13-
* os hiperparâmetros utilizados.
14-
* Os artefatos que devem ser entregues são: o código fonte, o relatório (preferencialmente na forma de arquivo `README.md`), o arquivo `requirements.txt` e os modelos treinados.
10+
Abaixo é descrito o escopo de cada um dos tópicos.
1511

16-
Ao fazer isto a equipe terá conceito **B**.
12+
## AWS DeepRacer
1713

18-
### Entrega avançada
14+
O AWS DeepRacer é uma plataforma de aprendizado por reforço que permite treinar e avaliar modelos de condução autônoma em um ambiente simulado. O objetivo do projeto é treinar um agente para dirigir um carro em uma pista, utilizando técnicas de aprendizado por reforço.
1915

20-
Para obter conceito **A+** nesta atividade a equipe deve incluir o treinamento de um agente para o ambiente [Flappy Bird](https://github.com/markub3327/flappy-bird-gymnasium).
16+
Este ambiente é utilizado em competições de aprendizado por reforço, onde os participantes podem treinar seus modelos e competir em corridas virtuais. Neste ano, no congresso da SBC, haverá uma competição de AWS DeepRacer, e o projeto intermediário será uma preparação para essa competição.
2117

22-
A mesma análise feita com os ambientes anteriores deve ser feita com o ambiente Flappy Bird. Para este ambiente a equipe deve prestar atenção especial no espaço de observação e consequentemente na arquitetura da rede neural.
18+
Mais informações sobre a competição podem ser encontradas no site oficial do evento: [AWS DeepRacer na SBC 2025](https://csbc.sbc.org.br/2025/aws-deepracer).
2319

24-
## Deadline
20+
Se o aluno optar por este tópico então ele deve se inscrever na competição e seguir as regras e orientações do evento. Neste caso, o projeto deverá ser individual pois esta é uma regra da competição.
2521

26-
O deadline para a entrega desta atividade é **07 de abril de 2024** às 23:30 horas. Este trabalho deve ser feito em grupo com até 4 integrantes.
22+
Datas importantes:
2723

28-
A entrega deve ser feita via Github Classroom: [https://classroom.github.com/a/Hw222fiZ](https://classroom.github.com/a/Hw222fiZ).
24+
* Workshop 1 – 28/02/2025 (sexta-feira) às 17h30;
25+
* Workshop 2 – 28/03/2025 (sexta-feira) às 10h;
26+
* Workshop 3 - 28/04/2025 (segunda-feira) às 15h;
27+
* Corrida virtual de classificação – 5 a 9 de maio;
28+
* Corridas físicas – 20 a 23 de julho.
2929

30-
## Referências
30+
## Uso de Aprendizagem por Reforço em problemas de Coverage Path Planning
3131

32-
* [Material sobre Double DQN](../../classes/16_double_deep_q_learning/index.md)
32+
Coverage Path Planning (CPP) é um problema de planejamento de trajetória em que um agente deve percorrer uma área de forma a cobrir completamente essa área. O objetivo do projeto é aplicar técnicas de aprendizado por reforço para resolver problemas de CPP, utilizando ambientes simulados.
3333

34-
## Exemplos de projetos completos :new:
34+
O projeto pode ser realizado em grupos de até 2 alunos.
3535

36-
Aqui estão alguns exemplos de projetos completos que podem servir de inspiração:
36+
A equipe pode escolher entre os seguintes ambientes:
3737

38-
* Este é o projeto mais completo entregue: [https://github.com/insper-classroom/projeto-intermediario-ornithopter](https://github.com/insper-classroom/projeto-intermediario-ornithopter). O relatório deste projeto está no arquivo README.md.
38+
* [DSSE - coverage environment](https://pfeinsper.github.io/drone-swarm-search/Documentation/docsCoverage.html#about)
39+
* Criar um [ambiente customizado](https://gymnasium.farama.org/introduction/create_custom_env/) para esta tarefa.
40+
* Adaptar um ambiente já existente (https://github.com/zuoxingdong/mazelab).
3941

40-
* Este projeto não considerou o ambiente Flappy Bird, mas o seu relatório também está muito bem feito e completo: [https://github.com/insper-classroom/projeto-intermediario-mileage](https://github.com/insper-classroom/projeto-intermediario-mileage). O relatório deste projeto está no arquivo README.md.
42+
O objetivo deste projeto é treinar um agente ou um grupo de agentes para resolver o problema de CPP em um ambiente simulado. O agente deve ser capaz de aprender a percorrer a área de forma eficiente, cobrindo toda a área e evitando obstáculos.
4143

44+
Um exemplo de estudo é apresentado neste [artigo](./referencias/FUSION2025_anotado.pdf).
4245

46+
## Prazo para definição do tema
47+
48+
O aluno deve escolher o tema do projeto até o dia 8 de abril de 2025. O aluno deve enviar um e-mail para o professor com o tema escolhido e a equipe (se houver) até essa data.
49+
50+
## Relatório
51+
52+
Para ambos os casos será necessário entregar um relatório técnico com o projeto finalizado. O relatório deve ter no máximo 2 páginas, em formato PDF, e deve ser enviado até 10 de maio de 2025, às 23h59. O relatório deve ser enviado pelo blackboard.
53+
54+
O relatório deve conter os seguintes tópicos:
55+
* Contexto e objetivo do projeto;
56+
* Descrição do método utilizado, e;
57+
* Resultados obtidos.
58+
59+
No dia 12 de maio de 2025 as equipes deverão fazer uma apresentação de 10 minutos sobre o projeto, com 5 minutos para perguntas.
4360

Lines changed: 43 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,43 @@
1+
# Projeto intermediário
2+
3+
Segundo a literatura, o Double DQN não super valoriza o valor dos estados futuros. De fato, fornece estimativas mais realistas dos valores de ação. Isto tem algum impacto no aprendizado do agente? O aprendizado converge mais rápido? O aprendizado é mais estável?
4+
5+
Sendo assim, a proposta desta atividade é **avaliar o impacto do Double DQN no aprendizado do agente**. Para tanto, cada equipe deverá treinar agentes usando os algoritmos DQN e Double DQN nos ambientes `LunarLander-v2` e `CartPole-v1` e comparar os resultados.
6+
7+
### Entrega básica
8+
9+
* Implementar o algoritmo Double Deep DQN e comparar os resultados com DQN nos ambientes `LunarLander-v2` e `CartPole-v1`.
10+
* Executar no mínimo 5 treinamentos para cada algoritmo.
11+
* No relatório apresentar:
12+
* a curva de aprendizado na forma de um gráfico.
13+
* os hiperparâmetros utilizados.
14+
* Os artefatos que devem ser entregues são: o código fonte, o relatório (preferencialmente na forma de arquivo `README.md`), o arquivo `requirements.txt` e os modelos treinados.
15+
16+
Ao fazer isto a equipe terá conceito **B**.
17+
18+
### Entrega avançada
19+
20+
Para obter conceito **A+** nesta atividade a equipe deve incluir o treinamento de um agente para o ambiente [Flappy Bird](https://github.com/markub3327/flappy-bird-gymnasium).
21+
22+
A mesma análise feita com os ambientes anteriores deve ser feita com o ambiente Flappy Bird. Para este ambiente a equipe deve prestar atenção especial no espaço de observação e consequentemente na arquitetura da rede neural.
23+
24+
## Deadline
25+
26+
O deadline para a entrega desta atividade é **07 de abril de 2024** às 23:30 horas. Este trabalho deve ser feito em grupo com até 4 integrantes.
27+
28+
A entrega deve ser feita via Github Classroom: [https://classroom.github.com/a/Hw222fiZ](https://classroom.github.com/a/Hw222fiZ).
29+
30+
## Referências
31+
32+
* [Material sobre Double DQN](../../classes/16_double_deep_q_learning/index.md)
33+
34+
## Exemplos de projetos completos :new:
35+
36+
Aqui estão alguns exemplos de projetos completos que podem servir de inspiração:
37+
38+
* Este é o projeto mais completo entregue: [https://github.com/insper-classroom/projeto-intermediario-ornithopter](https://github.com/insper-classroom/projeto-intermediario-ornithopter). O relatório deste projeto está no arquivo README.md.
39+
40+
* Este projeto não considerou o ambiente Flappy Bird, mas o seu relatório também está muito bem feito e completo: [https://github.com/insper-classroom/projeto-intermediario-mileage](https://github.com/insper-classroom/projeto-intermediario-mileage). O relatório deste projeto está no arquivo README.md.
41+
42+
43+
Binary file not shown.

mkdocs.yml

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -47,8 +47,8 @@ nav:
4747
# - 'Projetos finais':
4848
# - 'classes/19_projects/index.md'
4949
#
50-
# - 'Projetos':
51-
# - 'projects/projeto_intermediario/index.md'
50+
- 'Projetos':
51+
- 'projects/projeto_intermediario/index.md'
5252
# - 'projects/projeto_final/index.md'
5353

5454
- 'Referências': 'references.md'

references/tools.md

Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -4,3 +4,10 @@
44
* https://github.com/ArnaudFickinger/gym-multigrid
55
* https://github.com/lcswillems/rl-starter-files
66
* https://github.com/Farama-Foundation/Minigrid
7+
8+
* https://github.com/omron-sinicx/ShinRL/
9+
* https://github.com/rajcscw/nlp-gym
10+
11+
* https://github.com/arvijj/rl-cpp
12+
13+

0 commit comments

Comments
 (0)