enunciado projeto lunar lander DQN e DDQN

fbarth · fbarth · commit f11c7b017d35 · 2025-03-17T10:35:39.000-03:00
diff --git a/docs/classes/15_deep_q_learning_lunar_lander/index.md b/docs/classes/15_deep_q_learning_lunar_lander/index.md
@@ -31,7 +31,13 @@ Para ter uma nota **A+** neste projeto você precisa:
 
 <img src="./figures/dqn_pseudo_codigo.png"  style="height:600px;"/> 
 
-Preste atenção em alguns pontos: (i) Esta versão do algoritmo faz uso de duas redes (linha 1 e 2); (ii) Toda a escolha de ação acontece usando a *value network $\theta$* (linha 8); (iii) A recompença acumulada é calculada usando a *target network $\overline{\theta}$* (linha 15); (iv) O cálculo da função de perda é feito usando a *value network* (linha 16); O update dos parâmetros a cada episódio acontece somente na *value network $\theta$* (linha 17), e; (v) A *target network* é atualizada a cada $C$ episódios (linha 18) - esta atualização é uma simples cópia dos pesos ($\overline{\theta} \leftarrow \theta$).
+Preste atenção em alguns pontos: 
+
+1. Esta versão do algoritmo faz uso de duas redes (linha 1 e 2); 
+1. Toda a escolha de ação acontece usando a *value network $\theta$* (linha 8); 
+1. A recompença acumulada é calculada usando a *target network $\overline{\theta}$* (linha 15); 
+1. O cálculo da função de perda é feito usando a *value network* (linha 16); O update dos parâmetros a cada episódio acontece somente na *value network $\theta$* (linha 17), e; 
+1. A *target network* é atualizada a cada $C$ episódios (linha 18) - esta atualização é uma simples cópia dos pesos ($\overline{\theta} \leftarrow \theta$).
 
 Espera-se que com o uso de duas redes neurais o aprendizado do agente seja mais estável. Ao utilizar apenas uma rede neural o aprendizado do agente pode ser instável porque a rede neural está estimando a função de valor e ao mesmo tempo está sendo atualizada.
 
@@ -40,17 +46,19 @@ Espera-se que com o uso de duas redes neurais o aprendizado do agente seja mais
 * No projeto você precisa adicionar os scripts que você implementou. 
 * Não esqueça de atualizar o arquivo de `requirements.txt`, se necessário. 
 
-Você deve submeter o seu projeto neste link: [https://classroom.github.com/a/Khj4RN1-](https://classroom.github.com/a/Khj4RN1-) do Github Classroom. 
+Você deve submeter o seu projeto neste link: [https://classroom.github.com/a/UNPTi8Dx](https://classroom.github.com/a/UNPTi8Dx) do Github Classroom. 
 
 ## Deadline
 
-O deadline para a entrega desta atividade é **24 de março de 2024** (domingo) às 23:30 horas. Este trabalho deve ser feito em grupo com até 4 integrantes.
+O deadline para a entrega desta atividade é **20 de março de 2024** (quinta-feira) às 23:30 horas. Este trabalho deve ser feito em grupo com até 4 integrantes.
 
-## Exemplo de entrega completa :new: 
+<!--
 
-O projeto mais completo entregue em 2024/1 fois [este aqui](https://github.com/insper-classroom/08-lunar-lander-droneiros-de-cabreuva).
+## Exemplo de entrega completa :new: 
 
+O projeto mais completo entregue em 2024/1 foi [este aqui](https://github.com/insper-classroom/08-lunar-lander-droneiros-de-cabreuva).
 
+-->
 
 
 
diff --git a/mkdocs.yml b/mkdocs.yml
@@ -35,7 +35,7 @@ nav:
 ###    - 'classes/14_nn_policies/index.md'
     - 'Deep Q-Learning':
       - 'classes/15_deep_q_learning/index.md'
-#      - 'classes/15_deep_q_learning_lunar_lander/index.md'
+      - 'classes/15_deep_q_learning_lunar_lander/index.md'
 ##      - 'classes/15_xx_comments/index.md'
 #      - 'classes/16_double_deep_q_learning/index.md'
 #    - 'Policy Optimization':