Skip to content

Model qwen3 8b

hydropix edited this page Dec 23, 2025 · 1 revision

qwen3:8b

Ollama Model ID: qwen3:8b


Summary

Metric Value
Average Score 🟠 5.5/10
Accuracy 6.3/10
Fluency 5.4/10
Style 5.2/10
Languages Tested 19
Total Translations 95
Best Language Chinese (Simplified) (7.4)
Worst Language Hebrew (1.6)

Language Performance

Top Languages

Rank Language Overall Accuracy Fluency Style
1 Chinese (Simplified) 🟡 7.4 7.6 7.4 6.6
2 Portuguese 🟡 7.2 7.8 7.2 7.0
3 French 🟡 7.0 7.4 7.0 6.4
4 Spanish 🟡 7.0 7.8 7.0 6.8
5 Chinese (Traditional) 🟡 7.0 7.4 6.6 6.8
6 Italian 🟠 6.6 7.2 6.6 6.2
7 German 🟠 6.2 7.0 6.0 6.0
8 Vietnamese 🟠 6.2 7.2 6.2 6.0
9 Russian 🟠 6.0 7.0 6.0 5.8
10 Thai 🟠 5.8 6.8 5.8 5.4
View all 19 languages
Rank Language Overall Accuracy Fluency Style
1 Chinese (Simplified) 🟡 7.4 7.6 7.4 6.6
2 Portuguese 🟡 7.2 7.8 7.2 7.0
3 French 🟡 7.0 7.4 7.0 6.4
4 Spanish 🟡 7.0 7.8 7.0 6.8
5 Chinese (Traditional) 🟡 7.0 7.4 6.6 6.8
6 Italian 🟠 6.6 7.2 6.6 6.2
7 German 🟠 6.2 7.0 6.0 6.0
8 Vietnamese 🟠 6.2 7.2 6.2 6.0
9 Russian 🟠 6.0 7.0 6.0 5.8
10 Thai 🟠 5.8 6.8 5.8 5.4
11 Polish 🟠 5.4 6.4 5.4 5.2
12 Japanese 🟠 5.2 6.2 5.2 5.0
13 Korean 🟠 5.2 6.2 5.2 4.8
14 Arabic 🟠 5.2 6.0 5.2 4.8
15 Ukrainian 🔴 4.2 5.2 4.2 4.0
16 Hindi 🔴 4.0 5.0 4.0 3.4
17 Bengali 🔴 4.0 5.0 4.0 3.8
18 Tamil ⚫ 2.8 3.8 2.8 2.4
19 Hebrew ⚫ 1.6 2.4 1.6 1.6

Performance by Category

Asian Languages

Language Overall Accuracy Fluency Style
Chinese (Simplified) 🟡 7.4 7.6 7.4 6.6
Chinese (Traditional) 🟡 7.0 7.4 6.6 6.8
Vietnamese 🟠 6.2 7.2 6.2 6.0
Thai 🟠 5.8 6.8 5.8 5.4
Japanese 🟠 5.2 6.2 5.2 5.0
Korean 🟠 5.2 6.2 5.2 4.8
Hindi 🔴 4.0 5.0 4.0 3.4
Bengali 🔴 4.0 5.0 4.0 3.8
Tamil ⚫ 2.8 3.8 2.8 2.4

Category Average: 🟠 5.3

European Major Languages

Language Overall Accuracy Fluency Style
Portuguese 🟡 7.2 7.8 7.2 7.0
French 🟡 7.0 7.4 7.0 6.4
Spanish 🟡 7.0 7.8 7.0 6.8
Italian 🟠 6.6 7.2 6.6 6.2
German 🟠 6.2 7.0 6.0 6.0
Polish 🟠 5.4 6.4 5.4 5.2

Category Average: 🟠 6.6

Cyrillic Languages

Language Overall Accuracy Fluency Style
Russian 🟠 6.0 7.0 6.0 5.8
Ukrainian 🔴 4.2 5.2 4.2 4.0

Category Average: 🟠 5.1

Semitic Languages

Language Overall Accuracy Fluency Style
Arabic 🟠 5.2 6.0 5.2 4.8
Hebrew ⚫ 1.6 2.4 1.6 1.6

Category Average: 🔴 3.4


Translation Examples

Best Translation

French - Pride and Prejudice Score: 🟡 8.0/10

View Translation

Original:

Translation:

Il est une vérité universellement reconnue, que tout homme célibataire en possession d'une bonne fortune doit nécessairement épouser une femme. Quel que soit le peu de connaissance que l'on ait des sentiments ou des opinions de cet homme lorsqu'il entre dans une communauté, cette vérité est si bien ancrée dans l'esprit des familles voisines qu'on le considère comme la propriété légitime d'une ou l'autre de leurs filles.

Feedback: The translation accurately preserves the meaning and ironic tone of Austen's opening, with natural French phrasing. Minor stylistic adjustments ('nécessairement' adds slight emphasis not in original; 'communauté' is less precise than 'neighbourhood') prevent a perfect score, but the overall effect remains faithful and readable.

Worst Translation

Tamil - A Study in Scarlet Score: ⚫ 1.0/10

View Translation

Original:

Translation:

"ஆபகானிஸ்தானில் இருந்து வந்திருக்கிறார், என்னை உணர்கிறேன்." "ஏன் தெரியும்?" சம்மானம் என்று கேட்டேன். "அதை தவிர்க்கவும்," என்று அவர் தன்னிலையில் சிரித்தார். "இப்போது கேள்வி ஹீமோக்ளோபின் பற்றியது. இந்த கண்டுபிடிப்பின் பொருட்செலவு உணர்கிறீர்களா?" "இது கேமிக்கலில் சுவாசமாக உள்ளது, மறுபடியும் நான் உண்மையாக நீங்கள் இதன் பொருட்செலவு உணர்கிறீர்களா?" என்று கூறினேன், "ஆனால் வேறு பக்கம்—" "ஐயா, இது பல ஆண்டுகளுக்கு பின் மிகவும் பொருட்செலவு மெடிகோ-நீதிமன்றம் கண்டுபிடிப்பு. இது நமக்கு ரத்த பிரிண்டுகளுக்கு தவற

Feedback: This translation is severely flawed with fundamental errors: incorrect pronoun usage (first person instead of second), nonsensical phrases like 'பொருட்செலவு' (expense/cost) used repeatedly where 'significance' is meant, garbled sentence structure making dialogue incomprehensible, and complete loss of the original meaning and tone. The translation appears machine-generated with minimal post-editing and fails to convey even basic meaning.


Score Distribution

Score Range Count Percentage
🟢 Excellent (9-10) 0 0.0%
🟡 Good (7-8) 26 27.4%
🟠 Acceptable (5-6) 47 49.5%
🔴 Poor (3-4) 12 12.6%
⚫ Failed (1-2) 10 10.5%

Performance Metrics

Metric Value
Average Translation Time 6211.0ms
Success Rate 100.0%

← Back to Home | All Models

Clone this wiki locally