Skip to content

Commit f11c7b0

Browse files
committed
enunciado projeto lunar lander DQN e DDQN
1 parent b1653fc commit f11c7b0

File tree

2 files changed

+14
-6
lines changed

2 files changed

+14
-6
lines changed

docs/classes/15_deep_q_learning_lunar_lander/index.md

Lines changed: 13 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -31,7 +31,13 @@ Para ter uma nota **A+** neste projeto você precisa:
3131

3232
<img src="./figures/dqn_pseudo_codigo.png" style="height:600px;"/>
3333

34-
Preste atenção em alguns pontos: (i) Esta versão do algoritmo faz uso de duas redes (linha 1 e 2); (ii) Toda a escolha de ação acontece usando a *value network $\theta$* (linha 8); (iii) A recompença acumulada é calculada usando a *target network $\overline{\theta}$* (linha 15); (iv) O cálculo da função de perda é feito usando a *value network* (linha 16); O update dos parâmetros a cada episódio acontece somente na *value network $\theta$* (linha 17), e; (v) A *target network* é atualizada a cada $C$ episódios (linha 18) - esta atualização é uma simples cópia dos pesos ($\overline{\theta} \leftarrow \theta$).
34+
Preste atenção em alguns pontos:
35+
36+
1. Esta versão do algoritmo faz uso de duas redes (linha 1 e 2);
37+
1. Toda a escolha de ação acontece usando a *value network $\theta$* (linha 8);
38+
1. A recompença acumulada é calculada usando a *target network $\overline{\theta}$* (linha 15);
39+
1. O cálculo da função de perda é feito usando a *value network* (linha 16); O update dos parâmetros a cada episódio acontece somente na *value network $\theta$* (linha 17), e;
40+
1. A *target network* é atualizada a cada $C$ episódios (linha 18) - esta atualização é uma simples cópia dos pesos ($\overline{\theta} \leftarrow \theta$).
3541

3642
Espera-se que com o uso de duas redes neurais o aprendizado do agente seja mais estável. Ao utilizar apenas uma rede neural o aprendizado do agente pode ser instável porque a rede neural está estimando a função de valor e ao mesmo tempo está sendo atualizada.
3743

@@ -40,17 +46,19 @@ Espera-se que com o uso de duas redes neurais o aprendizado do agente seja mais
4046
* No projeto você precisa adicionar os scripts que você implementou.
4147
* Não esqueça de atualizar o arquivo de `requirements.txt`, se necessário.
4248

43-
Você deve submeter o seu projeto neste link: [https://classroom.github.com/a/Khj4RN1-](https://classroom.github.com/a/Khj4RN1-) do Github Classroom.
49+
Você deve submeter o seu projeto neste link: [https://classroom.github.com/a/UNPTi8Dx](https://classroom.github.com/a/UNPTi8Dx) do Github Classroom.
4450

4551
## Deadline
4652

47-
O deadline para a entrega desta atividade é **24 de março de 2024** (domingo) às 23:30 horas. Este trabalho deve ser feito em grupo com até 4 integrantes.
53+
O deadline para a entrega desta atividade é **20 de março de 2024** (quinta-feira) às 23:30 horas. Este trabalho deve ser feito em grupo com até 4 integrantes.
4854

49-
## Exemplo de entrega completa :new:
55+
<!--
5056
51-
O projeto mais completo entregue em 2024/1 fois [este aqui](https://github.com/insper-classroom/08-lunar-lander-droneiros-de-cabreuva).
57+
## Exemplo de entrega completa :new:
5258
59+
O projeto mais completo entregue em 2024/1 foi [este aqui](https://github.com/insper-classroom/08-lunar-lander-droneiros-de-cabreuva).
5360
61+
-->
5462

5563

5664

mkdocs.yml

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -35,7 +35,7 @@ nav:
3535
### - 'classes/14_nn_policies/index.md'
3636
- 'Deep Q-Learning':
3737
- 'classes/15_deep_q_learning/index.md'
38-
# - 'classes/15_deep_q_learning_lunar_lander/index.md'
38+
- 'classes/15_deep_q_learning_lunar_lander/index.md'
3939
## - 'classes/15_xx_comments/index.md'
4040
# - 'classes/16_double_deep_q_learning/index.md'
4141
# - 'Policy Optimization':

0 commit comments

Comments
 (0)