|
1 | 1 | --- |
2 | 2 | title: 'Algoritmos de Aprendizaje por Refuerzo: Fundamentos, Aplicaciones y Ejemplos' |
3 | | -image: /assets/img/headers/algoritmos-ia-aprendizaje-por-refuerzo.png |
| 3 | +image: "/assets/img/headers/algoritmos-ia-aprendizaje-por-refuerzo.png" |
4 | 4 | mermaid: true |
5 | 5 | tags: |
6 | | - - Inteligencia Artificial |
7 | | - - Algoritmos |
8 | | - - Aprendizaje por refuerzo |
9 | | - - Q-Learning |
10 | | - - DQN |
11 | | - - Actor-Critic |
| 6 | +- Inteligencia Artificial |
| 7 | +- Algoritmos |
| 8 | +- Aprendizaje por refuerzo |
| 9 | +- Q-Learning |
| 10 | +- DQN |
| 11 | +- Actor-Critic |
12 | 12 | categories: |
13 | | - - Inteligencia Artificial |
14 | | - - Algoritmos |
| 13 | +- Inteligencia Artificial |
| 14 | +- Algoritmos |
15 | 15 | --- |
16 | 16 |
|
17 | 17 | El **aprendizaje por refuerzo** es un paradigma del aprendizaje automático en el que un agente interactúa con su entorno para aprender a tomar decisiones que maximicen una recompensa acumulada. En este post, exploraremos qué son los algoritmos de aprendizaje por refuerzo, cómo funcionan, ejemplos de algoritmos y aplicaciones prácticas, acompañados de diagramas explicativos. |
@@ -56,11 +56,11 @@ El **DQN** extiende el Q-Learning al utilizar redes neuronales para aproximar la |
56 | 56 |
|
57 | 57 | ```mermaid |
58 | 58 | graph LR |
59 | | - A[Estado (Imagen/Vector)] --> B[Red Neuronal] |
60 | | - B --> C[Estimación de Q-Valores] |
61 | | - C --> D[Selección de Acción] |
62 | | - D --> E[Ejecutar Acción y Recibir Recompensa] |
63 | | - E --> F[Actualización de la Red] |
| 59 | + A["Estado (Imagen/Vector)"] --> B["Red Neuronal"] |
| 60 | + B --> C["Estimación de Q-Valores"] |
| 61 | + C --> D["Selección de Acción"] |
| 62 | + D --> E["Ejecutar Acción y Recibir Recompensa"] |
| 63 | + E --> F["Actualización de la Red"] |
64 | 64 | ``` |
65 | 65 |
|
66 | 66 | **Explicación**: |
@@ -96,12 +96,12 @@ El aprendizaje por refuerzo se ha aplicado en videojuegos, donde los agentes apr |
96 | 96 | **Diagrama - Agente en Videojuego:** |
97 | 97 |
|
98 | 98 | ```mermaid |
99 | | -graph LR |
100 | | - A[Estado del Juego] --> B[Agente (RL)] |
101 | | - B --> C[Selección de Acción] |
102 | | - C --> D[Ejecutar Acción] |
103 | | - D --> E[Feedback y Recompensa] |
104 | | - E --> B |
| 99 | + graph LR |
| 100 | + A["Estado del Juego"] --> B["Agente (RL)"] |
| 101 | + B --> C["Selección de Acción"] |
| 102 | + C --> D["Ejecutar Acción"] |
| 103 | + D --> E["Feedback y Recompensa"] |
| 104 | + E --> B |
105 | 105 | ``` |
106 | 106 |
|
107 | 107 | #### 3.2. **Robótica y Control Autónomo** |
|
0 commit comments