|
1 | 1 | # Projeto intermediário |
2 | 2 |
|
3 | | -Segundo a literatura, o Double DQN não super valoriza o valor dos estados futuros. De fato, fornece estimativas mais realistas dos valores de ação. Isto tem algum impacto no aprendizado do agente? O aprendizado converge mais rápido? O aprendizado é mais estável? |
| 3 | +Neste semestre, o projeto intermediário da disciplina de Aprendizagem por Reforço terá dois tópicos possíveis: |
4 | 4 |
|
5 | | -Sendo assim, a proposta desta atividade é **avaliar o impacto do Double DQN no aprendizado do agente**. Para tanto, cada equipe deverá treinar agentes usando os algoritmos DQN e Double DQN nos ambientes `LunarLander-v2` e `CartPole-v1` e comparar os resultados. |
| 5 | +1. **AWS DeepRacer** |
| 6 | +2. **Uso de Aprendizagem por Reforço em problemas de Coverage Path Planning** |
6 | 7 |
|
7 | | -### Entrega básica |
| 8 | +Ambos os tópicos terão suas entregas finais na primeira semana de maio de 2025, mas as regras e orientações para cada um deles são diferentes. |
8 | 9 |
|
9 | | -* Implementar o algoritmo Double Deep DQN e comparar os resultados com DQN nos ambientes `LunarLander-v2` e `CartPole-v1`. |
10 | | -* Executar no mínimo 5 treinamentos para cada algoritmo. |
11 | | -* No relatório apresentar: |
12 | | - * a curva de aprendizado na forma de um gráfico. |
13 | | - * os hiperparâmetros utilizados. |
14 | | -* Os artefatos que devem ser entregues são: o código fonte, o relatório (preferencialmente na forma de arquivo `README.md`), o arquivo `requirements.txt` e os modelos treinados. |
| 10 | +Abaixo é descrito o escopo de cada um dos tópicos. |
15 | 11 |
|
16 | | -Ao fazer isto a equipe terá conceito **B**. |
| 12 | +## AWS DeepRacer |
17 | 13 |
|
18 | | -### Entrega avançada |
| 14 | +O AWS DeepRacer é uma plataforma de aprendizado por reforço que permite treinar e avaliar modelos de condução autônoma em um ambiente simulado. O objetivo do projeto é treinar um agente para dirigir um carro em uma pista, utilizando técnicas de aprendizado por reforço. |
19 | 15 |
|
20 | | -Para obter conceito **A+** nesta atividade a equipe deve incluir o treinamento de um agente para o ambiente [Flappy Bird](https://github.com/markub3327/flappy-bird-gymnasium). |
| 16 | +Este ambiente é utilizado em competições de aprendizado por reforço, onde os participantes podem treinar seus modelos e competir em corridas virtuais. Neste ano, no congresso da SBC, haverá uma competição de AWS DeepRacer, e o projeto intermediário será uma preparação para essa competição. |
21 | 17 |
|
22 | | -A mesma análise feita com os ambientes anteriores deve ser feita com o ambiente Flappy Bird. Para este ambiente a equipe deve prestar atenção especial no espaço de observação e consequentemente na arquitetura da rede neural. |
| 18 | +Mais informações sobre a competição podem ser encontradas no site oficial do evento: [AWS DeepRacer na SBC 2025](https://csbc.sbc.org.br/2025/aws-deepracer). |
23 | 19 |
|
24 | | -## Deadline |
| 20 | +Se o aluno optar por este tópico então ele deve se inscrever na competição e seguir as regras e orientações do evento. Neste caso, o projeto deverá ser individual pois esta é uma regra da competição. |
25 | 21 |
|
26 | | -O deadline para a entrega desta atividade é **07 de abril de 2024** às 23:30 horas. Este trabalho deve ser feito em grupo com até 4 integrantes. |
| 22 | +Datas importantes: |
27 | 23 |
|
28 | | -A entrega deve ser feita via Github Classroom: [https://classroom.github.com/a/Hw222fiZ](https://classroom.github.com/a/Hw222fiZ). |
| 24 | +* Workshop 1 – 28/02/2025 (sexta-feira) às 17h30; |
| 25 | +* Workshop 2 – 28/03/2025 (sexta-feira) às 10h; |
| 26 | +* Workshop 3 - 28/04/2025 (segunda-feira) às 15h; |
| 27 | +* Corrida virtual de classificação – 5 a 9 de maio; |
| 28 | +* Corridas físicas – 20 a 23 de julho. |
29 | 29 |
|
30 | | -## Referências |
| 30 | +## Uso de Aprendizagem por Reforço em problemas de Coverage Path Planning |
31 | 31 |
|
32 | | -* [Material sobre Double DQN](../../classes/16_double_deep_q_learning/index.md) |
| 32 | +Coverage Path Planning (CPP) é um problema de planejamento de trajetória em que um agente deve percorrer uma área de forma a cobrir completamente essa área. O objetivo do projeto é aplicar técnicas de aprendizado por reforço para resolver problemas de CPP, utilizando ambientes simulados. |
33 | 33 |
|
34 | | -## Exemplos de projetos completos :new: |
| 34 | +O projeto pode ser realizado em grupos de até 2 alunos. |
35 | 35 |
|
36 | | -Aqui estão alguns exemplos de projetos completos que podem servir de inspiração: |
| 36 | +A equipe pode escolher entre os seguintes ambientes: |
37 | 37 |
|
38 | | -* Este é o projeto mais completo entregue: [https://github.com/insper-classroom/projeto-intermediario-ornithopter](https://github.com/insper-classroom/projeto-intermediario-ornithopter). O relatório deste projeto está no arquivo README.md. |
| 38 | +* [DSSE - coverage environment](https://pfeinsper.github.io/drone-swarm-search/Documentation/docsCoverage.html#about) |
| 39 | +* Criar um [ambiente customizado](https://gymnasium.farama.org/introduction/create_custom_env/) para esta tarefa. |
| 40 | +* Adaptar um ambiente já existente (https://github.com/zuoxingdong/mazelab). |
39 | 41 |
|
40 | | -* Este projeto não considerou o ambiente Flappy Bird, mas o seu relatório também está muito bem feito e completo: [https://github.com/insper-classroom/projeto-intermediario-mileage](https://github.com/insper-classroom/projeto-intermediario-mileage). O relatório deste projeto está no arquivo README.md. |
| 42 | +O objetivo deste projeto é treinar um agente ou um grupo de agentes para resolver o problema de CPP em um ambiente simulado. O agente deve ser capaz de aprender a percorrer a área de forma eficiente, cobrindo toda a área e evitando obstáculos. |
41 | 43 |
|
| 44 | +Um exemplo de estudo é apresentado neste [artigo](./referencias/FUSION2025_anotado.pdf). |
42 | 45 |
|
| 46 | +## Prazo para definição do tema |
| 47 | + |
| 48 | +O aluno deve escolher o tema do projeto até o dia 8 de abril de 2025. O aluno deve enviar um e-mail para o professor com o tema escolhido e a equipe (se houver) até essa data. |
| 49 | + |
| 50 | +## Relatório |
| 51 | + |
| 52 | +Para ambos os casos será necessário entregar um relatório técnico com o projeto finalizado. O relatório deve ter no máximo 2 páginas, em formato PDF, e deve ser enviado até 10 de maio de 2025, às 23h59. O relatório deve ser enviado pelo blackboard. |
| 53 | + |
| 54 | +O relatório deve conter os seguintes tópicos: |
| 55 | +* Contexto e objetivo do projeto; |
| 56 | +* Descrição do método utilizado, e; |
| 57 | +* Resultados obtidos. |
| 58 | + |
| 59 | +No dia 12 de maio de 2025 as equipes deverão fazer uma apresentação de 10 minutos sobre o projeto, com 5 minutos para perguntas. |
43 | 60 |
|
0 commit comments