diff --git a/chapters/ro/chapter12/3a.mdx b/chapters/ro/chapter12/3a.mdx index 9d4522cb6..f613580d8 100644 --- a/chapters/ro/chapter12/3a.mdx +++ b/chapters/ro/chapter12/3a.mdx @@ -110,7 +110,7 @@ $\text{clip}\left( \frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1 - \e Limitează raportul discutat mai sus să fie în intervalul $[1 - \epsilon, 1 + \epsilon]$ pentru a evita/controla schimbări drastice sau actualizări nebunești și să nu pășească prea departe de politica veche. Cu alte cuvinte, limitează cât de mult poate crește raportul de probabilitate pentru a ajuta la menținerea stabilității prin evitarea actualizărilor care împing modelul nou prea departe de cel vechi. -#### Exemplu $\space \text{să presupunem}(\epsilon = 0.2)$ +#### Exemplu (să presupunem ε = 0.2) Să ne uităm la două scenarii diferite pentru a înțelege mai bine această funcție de tăiere: - **Cazul 1**: dacă noua politică are o probabilitate de 0.9 pentru un răspuns specific și vechea politică are o probabilitate de 0.5, înseamnă că acest răspuns este întărit de noua politică să aibă o probabilitate mai mare, dar într-o limită controlată care este tăierea pentru a-și strânge mâinile să nu devină drastică @@ -144,7 +144,7 @@ Să ne amintim că distanța KL este definită după cum urmează: $$D_{KL}(P || Q) = \sum_{x \in X} P(x) \log \frac{P(x)}{Q(x)}$$ În RLHF, cele două distribuții de interes sunt adesea distribuția versiunii noului model, P(x), și o distribuție a politicii de referință, Q(x). -#### Rolul Parametrului $\beta$ +#### Rolul Parametrului β Coeficientul $\beta$ controlează cât de puternic impunem constrângerea divergenței KL: