You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Preste atenção em alguns pontos: (i) Esta versão do algoritmo faz uso de duas redes (linha 1 e 2); (ii) Toda a escolha de ação acontece usando a *value network $\theta$* (linha 8); (iii) A recompença acumulada é calculada usando a *target network $\overline{\theta}$* (linha 15); (iv) O cálculo da função de perda é feito usando a *value network* (linha 16); O update dos parâmetros a cada episódio acontece somente na *value network $\theta$* (linha 17), e; (v) A *target network* é atualizada a cada $C$ episódios (linha 18) - esta atualização é uma simples cópia dos pesos ($\overline{\theta} \leftarrow \theta$).
34
+
Preste atenção em alguns pontos:
35
+
36
+
1. Esta versão do algoritmo faz uso de duas redes (linha 1 e 2);
37
+
1. Toda a escolha de ação acontece usando a *value network $\theta$* (linha 8);
38
+
1. A recompença acumulada é calculada usando a *target network $\overline{\theta}$* (linha 15);
39
+
1. O cálculo da função de perda é feito usando a *value network* (linha 16); O update dos parâmetros a cada episódio acontece somente na *value network $\theta$* (linha 17), e;
40
+
1. A *target network* é atualizada a cada $C$ episódios (linha 18) - esta atualização é uma simples cópia dos pesos ($\overline{\theta} \leftarrow \theta$).
35
41
36
42
Espera-se que com o uso de duas redes neurais o aprendizado do agente seja mais estável. Ao utilizar apenas uma rede neural o aprendizado do agente pode ser instável porque a rede neural está estimando a função de valor e ao mesmo tempo está sendo atualizada.
37
43
@@ -40,17 +46,19 @@ Espera-se que com o uso de duas redes neurais o aprendizado do agente seja mais
40
46
* No projeto você precisa adicionar os scripts que você implementou.
41
47
* Não esqueça de atualizar o arquivo de `requirements.txt`, se necessário.
42
48
43
-
Você deve submeter o seu projeto neste link: [https://classroom.github.com/a/Khj4RN1-](https://classroom.github.com/a/Khj4RN1-) do Github Classroom.
49
+
Você deve submeter o seu projeto neste link: [https://classroom.github.com/a/UNPTi8Dx](https://classroom.github.com/a/UNPTi8Dx) do Github Classroom.
44
50
45
51
## Deadline
46
52
47
-
O deadline para a entrega desta atividade é **24 de março de 2024** (domingo) às 23:30 horas. Este trabalho deve ser feito em grupo com até 4 integrantes.
53
+
O deadline para a entrega desta atividade é **20 de março de 2024** (quinta-feira) às 23:30 horas. Este trabalho deve ser feito em grupo com até 4 integrantes.
48
54
49
-
## Exemplo de entrega completa :new:
55
+
<!--
50
56
51
-
O projeto mais completo entregue em 2024/1 fois [este aqui](https://github.com/insper-classroom/08-lunar-lander-droneiros-de-cabreuva).
57
+
## Exemplo de entrega completa :new:
52
58
59
+
O projeto mais completo entregue em 2024/1 foi [este aqui](https://github.com/insper-classroom/08-lunar-lander-droneiros-de-cabreuva).
0 commit comments