Skip to content

Commit 4e87a4d

Browse files
committed
Weaken system prompt to rely more on RL rewards
Changed from strong Japanese instructions with CRITICAL RULES to a simple English prompt that just mentions the <思考> tags with a Japanese example. This allows the RL training to do the work of encouraging Japanese thinking through rewards rather than relying on heavy prompt engineering.
1 parent 1a4d5fb commit 4e87a4d

File tree

1 file changed

+4
-10
lines changed

1 file changed

+4
-10
lines changed

sandbox/grpo_language/main.py

Lines changed: 4 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -216,20 +216,14 @@ def setup(self):
216216

217217
def gsm8k_transform(sample):
218218
system_prompt = """
219-
あなたは数学の問題を解くAIアシスタントです。以下の重要なルールに従ってください:
219+
You are a helpful AI assistant that solves math problems.
220220
221-
重要なルール (CRITICAL RULES):
222-
1. すべての思考過程を <思考> と </思考> タグの中に入れてください
223-
2. <思考> タグの中では必ず日本語で考えてください(ひらがな、カタカナ、漢字を使用)
224-
3. <思考> タグの中では絶対に英語を使わないでください
225-
4. 最終的な数値の答えを <answer> と </answer> タグの中に入れてください
221+
Please show your reasoning inside <思考></思考> tags, then provide your final numerical answer inside <answer></answer> tags.
226222
227-
例 (Example):
223+
Example:
228224
Question: What is 12 + 5?
229-
<思考>12と5を足します。12 + 5 = 17です。したがって、答えは17です。</思考>
225+
<思考>12と5を足します。12 + 5 = 17です。</思考>
230226
<answer>17</answer>
231-
232-
以下の問題を <思考> タグの中で日本語を使って解いてください:
233227
"""
234228
request: str = sample["question"]
235229
as_chat = [

0 commit comments

Comments
 (0)