Skip to content

Commit 571e088

Browse files
committed
Updated README translations
1 parent f0532a0 commit 571e088

File tree

2 files changed

+148
-62
lines changed

2 files changed

+148
-62
lines changed

readme/README-cmn.md

Lines changed: 72 additions & 29 deletions
Original file line numberDiff line numberDiff line change
@@ -58,8 +58,13 @@
5858
<li><a href="#convert-non-cjk">Convert non-CJK</a></li>
5959
</ul>
6060
</li>
61-
<li><a href="#tokeniser">Tokeniser</a></li>
62-
<li><a href="#其他功能">其他功能</a></li>
61+
<li>
62+
<a href="#tokeniser">Tokeniser</a>
63+
<ul>
64+
<li><a href="#keep-original">Keep original</a></li>
65+
</ul>
66+
</li>
67+
<li><a href="#其他函式">其他函式</a></li>
6368
</ul>
6469
</li>
6570
<li><a href="#例子">例子</a></li>
@@ -94,13 +99,13 @@ $ pip install taibun
9499

95100
### Converter
96101

97-
`Converter` 類別使用開發人員指定的參數將漢字音譯為所選的音譯系統。適用於繁體和簡體字符。
102+
`Converter` 類別使用開發人員指定的參數將中文字音譯為所選的音譯系統。適用於繁體和簡體字符。
98103

99104
```python
100105
# 建構子
101106
c = Converter(system, dialect, format, delimiter, sandhi, punctuation, convert_non_cjk)
102107

103-
# 音譯漢字
108+
# 音譯中文字
104109
c.get(input)
105110
```
106111

@@ -173,9 +178,9 @@ c.get(input)
173178
* `auto` - 對於 `Tongiong`
174179
* `none` - 對於 `Tailo`, `POJ`, `Zhuyin`, `TLPA`, `Pingyim`, `IPA`
175180

176-
| 文本 | none | auto | exc_last | incl_last |
177-
| ---------------- | ------------------------- | -------------------------- | ------------------------- | ------------------------- |
178-
| 這是你的手機仔無 | Tse sī lí ê tshiú-ki-á bô | Tse sì li ē tshiu-kī-á bô? | Tsē sì li ē tshiu-kī-a bô | Tsē sì li ē tshiu-kī-a bō |
181+
| 文本 | none | auto | exc_last | incl_last |
182+
| ---------------- | ----------------------- | ---------------------- | ---------------------- | ---------------------- |
183+
| 這是你的茶桌仔無 | Tse sī lí ê tê-toh-á bô | Tse sì li ē tē-to-á bô | Tsē sì li ē tē-tó-a bô | Tsē sì li ē tē-tó-a bō |
179184

180185
變調規則也會根據所選擇的方言而變化。
181186

@@ -211,24 +216,38 @@ c.get(input)
211216

212217
```python
213218
# 建構子
214-
t = Tokeniser()
219+
t = Tokeniser(keep_original)
215220

216221
# 標記臺灣語句
217222
t.tokenise(input)
218223
```
219224

220-
### 其他功能
225+
#### Keep original
226+
227+
`keep_original` Boolean - 定義是否保留輸入的原始字符。
228+
229+
* `True` (預設) - 保留原始字符
230+
* `False` - 使用資料集中定義的字符替換原始字符
231+
232+
| 文本 | True | False |
233+
| ------------ | -------------------- | -------------------- |
234+
| 臺灣火鸡肉饭 | ['臺灣', '火鸡肉饭'] | ['台灣', '火雞肉飯'] |
235+
236+
### 其他函式
221237

222-
實用的臺灣話 NLP 助手功能。
238+
實用的臺灣話 NLP 助手函式。
239+
240+
`to_traditional` 函式將輸入轉換為繁體字元以便於資料集使用。也可應對繁體字符變體。
241+
242+
`to_simplified` 函式將輸入轉換為簡體字元。
243+
244+
`is_cjk` 函式檢查輸入字串是否完全由中文字符組成。
223245

224246
```python
225-
# 轉換為繁體
226247
to_traditional(input)
227248

228-
# 轉換為簡體
229249
to_simplified(input)
230250

231-
# 檢查字串是否完全由中文字符組成
232251
is_cjk(input)
233252
```
234253

@@ -283,20 +302,20 @@ c.get("先生講,學生恬恬聽。")
283302

284303
## Sandhi
285304
c = Converter() # 在 Tailo 中,sandhi 預設值: none
286-
c.get("這是台灣囡仔")
287-
>> Tse sī Tâi-uân gín-á
305+
c.get("這是你的茶桌仔無")
306+
>> Tse sī lí ê tê-toh-á bô
288307

289308
c = Converter(sandhi='auto')
290-
c.get("這是台灣囡仔")
291-
>> Tse sì Tāi-uān gin-á
309+
c.get("這是你的茶桌仔無")
310+
>> Tse sì li ē tē-to-á bô
292311

293312
c = Converter(sandhi='exc_last')
294-
c.get("這是台灣囡仔")
295-
>> Tsē sì Tāi-uān gin-á
313+
c.get("這是你的茶桌仔無")
314+
>> Tsē sì li ē tē--a bô
296315

297316
c = Converter(sandhi='incl_last')
298-
c.get("這是台灣囡仔")
299-
>> Tsē sì Tāi-uān gin-a
317+
c.get("這是你的茶桌仔無")
318+
>> Tsē sì li ē tē--a bō
300319

301320
## Punctuation
302321
c = Converter() # punctuation 預設值: format
@@ -308,11 +327,11 @@ c.get("太空朋友,恁好!恁食飽未?")
308327
>> thài-khong pîng-iú,lín-hó!lín tsia̍h-pá buē?
309328

310329
## Convert non-CJK
311-
c = Convert(system='Zhuyin') # convert_non_cjk 預設值: False
330+
c = Converter(system='Zhuyin') # convert_non_cjk 預設值: False
312331
c.get("我食pháng")
313332
>> ㆣㄨㄚˋ ㄐㄧㄚㆷ˙ pháng
314333

315-
c = Convert(system='Zhuyin', convert_non_cjk=True)
334+
c = Converter(system='Zhuyin', convert_non_cjk=True)
316335
c.get("我食pháng")
317336
>> ㆣㄨㄚˋ ㄐㄧㄚㆷ˙ ㄆㄤˋ
318337

@@ -324,16 +343,40 @@ t = Tokeniser()
324343
t.tokenise("太空朋友,恁好!恁食飽未?")
325344
>> ['太空', '朋友', '', '恁好', '', '', '食飽', '', '']
326345

346+
## Keep Original
347+
t = Tokeniser() # keep_original 預設值: True
348+
t.tokenise("爲啥物臺灣遮爾好?")
349+
>> ['爲啥物', '臺灣', '遮爾', '', '']
350+
351+
t.tokenise("为啥物台湾遮尔好?")
352+
>> ['为啥物', '台湾', '遮尔', '', '']
353+
354+
t = Tokeniser(False)
355+
t.tokenise("爲啥物臺灣遮爾好?")
356+
>> ['為啥物', '台灣', '遮爾', '', '']
327357

328-
# 其他功能
358+
t.tokenise("为啥物台湾遮尔好?")
359+
>> ['為啥物', '台灣', '遮爾', '', '']
360+
361+
362+
# 其他函式
329363
from taibun import to_traditional, to_simplified, is_cjk
330364

331-
to_traditional("我听无台湾话")
332-
>> 我聽無台灣話
365+
## to_traditional
366+
to_traditional("我听无台语")
367+
>> 我聽無台語
368+
369+
to_traditional("我爱这个个人台面")
370+
>> 我愛這个個人檯面
371+
372+
to_traditional("爲啥物")
373+
>> 為啥物
333374

334-
to_simplified("我聽無臺灣話")
335-
>> 我听无台湾话
375+
## to_simplified
376+
to_simplified("我聽無台語")
377+
>> 我听无台语
336378

379+
## is_cjk
337380
is_cjk('我食麭')
338381
>> True
339382

@@ -377,7 +420,7 @@ is_cjk('我食pháng')
377420
[licence-badge]: https://img.shields.io/github/license/andreihar/taibun?color=000000&style=for-the-badge&label=執照
378421
[licence]: ../LICENSE
379422
[linkedin-badge]: https://img.shields.io/badge/LinkedIn-0077b5?style=for-the-badge&logo=linkedin&logoColor=ffffff
380-
[linkedin]: https://www.linkedin.com/in/andrei-harbachov/
423+
[linkedin]: https://www.linkedin.com/in/andreihar/
381424
[js-badge]: https://img.shields.io/badge/JS_版本-f7df1e?style=for-the-badge&logo=javascript&logoColor=000000
382425
[js-link]: https://github.com/andreihar/taibun.js
383426
[downloads-badge]: https://img.shields.io/pypi/dm/taibun.svg?style=for-the-badge&label=下載

readme/README-oan.md

Lines changed: 76 additions & 33 deletions
Original file line numberDiff line numberDiff line change
@@ -58,8 +58,13 @@
5858
<li><a href="#convert-non-cjk">Convert non-CJK</a></li>
5959
</ul>
6060
</li>
61-
<li><a href="#tokeniser">Tokeniser</a></li>
62-
<li><a href="#其他的功能">其他的功能</a></li>
61+
<li>
62+
<a href="#tokeniser">Tokeniser</a>
63+
<ul>
64+
<li><a href="#keep-original">Keep original</a></li>
65+
</ul>
66+
</li>
67+
<li><a href="#其他的函式">其他的函式</a></li>
6368
</ul>
6469
</li>
6570
<li><a href="#例">例</a></li>
@@ -94,13 +99,13 @@ $ pip install taibun
9499

95100
### Converter
96101

97-
`Converter` 類別使用開發人員指定的參數將漢文音譯為所選的音譯系統。繁體佮簡體攏合用。
102+
`Converter` 類別使用開發人員指定的參數將中文字音譯為所選的音譯系統。繁體佮簡體攏合用。
98103

99104
```python
100105
# 建構仔
101106
c = Converter(system, dialect, format, delimiter, sandhi, punctuation, convert_non_cjk)
102107

103-
# 音譯漢文
108+
# 音譯中文字
104109
c.get(input)
105110
```
106111

@@ -147,7 +152,7 @@ c.get(input)
147152

148153
`delimiter` String - 設定欲放佇詞音節中間的分隔符。
149154

150-
預設值看所選的 `system` 決定
155+
預設值看所選的 `system` 決定:
151156

152157
* `'-'` - 對著 `Tailo`, `POJ`, `Tongiong`
153158
* `''` - 對著 `Pingyim`
@@ -173,15 +178,15 @@ c.get(input)
173178
* `auto` - 對著 `Tongiong`
174179
* `none` - 對著 `Tailo`, `POJ`, `Zhuyin`, `TLPA`, `Pingyim`, `IPA`
175180

176-
| 文本 | none | auto | exc_last | incl_last |
177-
| ---------------- | ------------------------- | -------------------------- | ------------------------- | ------------------------- |
178-
| 這是你的手機仔無 | Tse sī lí ê tshiú-ki-á bô | Tse sì li ē tshiu-kī-á bô? | Tsē sì li ē tshiu-kī-a bô | Tsē sì li ē tshiu-kī-a bō |
181+
| 文本 | none | auto | exc_last | incl_last |
182+
| ---------------- | ----------------------- | ---------------------- | ---------------------- | ---------------------- |
183+
| 這是你的茶桌仔無 | Tse sī lí ê tê-toh-á bô | Tse sì li ē tē-to-á bô | Tsē sì li ē tē-tó-a bô | Tsē sì li ē tē-tó-a bō |
179184

180185
變調規則也會隨著選的方言而有所改變。
181186

182-
| 文本 | 沒有變速 | south | north |
183-
| ---- | -------- | ------- | ------- |
184-
| 台灣 | Tâi-uân | Tāi-uân | Tài-uân |
187+
| 文本 | 無變速 | south | north |
188+
| ---- | ------- | ------- | ------- |
189+
| 台灣 | Tâi-uân | Tāi-uân | Tài-uân |
185190

186191
#### Punctuation
187192

@@ -211,24 +216,38 @@ c.get(input)
211216

212217
```python
213218
# 建構仔
214-
t = Tokeniser()
219+
t = Tokeniser(keep_original)
215220

216221
# 標記台語句
217222
t.tokenise(input)
218223
```
219224

220-
### 其他的功能
225+
#### Keep original
226+
227+
`keep_original` Boolean - 定義保留輸入的原始字符。
228+
229+
* `True` (預設) - 保留原始字符
230+
* `False` - 使用資料集中定義的字符替換原始字符
231+
232+
| 文本 | True | False |
233+
| ------------ | -------------------- | -------------------- |
234+
| 臺灣火鸡肉饭 | ['臺灣', '火鸡肉饭'] | ['台灣', '火雞肉飯'] |
235+
236+
### 其他的函式
221237

222-
實用的台語 NLP 助手功能。
238+
實用的台語 NLP 助手函式。
239+
240+
`to_traditional` 函式共輸入轉換做繁體字元以便佇資料集使用。嘛會當應對繁體字符變體。
241+
242+
`to_simplified` 函式共輸入轉換做簡體字元。
243+
244+
`is_cjk` 函式檢查輸入字串敢是完全由中文字符成做。
223245

224246
```python
225-
# 轉換做繁體
226247
to_traditional(input)
227248

228-
# 轉換做簡體
229249
to_simplified(input)
230250

231-
# 檢查字串是毋是完全由中文字符組成
232251
is_cjk(input)
233252
```
234253

@@ -283,20 +302,20 @@ c.get("先生講,學生恬恬聽。")
283302

284303
## Sandhi
285304
c = Converter() # 佇 Tailo 中,sandhi 預設值: none
286-
c.get("這是台灣囡仔")
287-
>> Tse sī Tâi-uân gín-á
305+
c.get("這是你的茶桌仔無")
306+
>> Tse sī lí ê tê-toh-á bô
288307

289308
c = Converter(sandhi='auto')
290-
c.get("這是台灣囡仔")
291-
>> Tse sì Tāi-uān gin-á
309+
c.get("這是你的茶桌仔無")
310+
>> Tse sì li ē tē-to-á bô
292311

293312
c = Converter(sandhi='exc_last')
294-
c.get("這是台灣囡仔")
295-
>> Tsē sì Tāi-uān gin-á
313+
c.get("這是你的茶桌仔無")
314+
>> Tsē sì li ē tē--a bô
296315

297316
c = Converter(sandhi='incl_last')
298-
c.get("這是台灣囡仔")
299-
>> Tsē sì Tāi-uān gin-a
317+
c.get("這是你的茶桌仔無")
318+
>> Tsē sì li ē tē--a bō
300319

301320
## Punctuation
302321
c = Converter() # punctuation 預設值: format
@@ -308,11 +327,11 @@ c.get("太空朋友,恁好!恁食飽未?")
308327
>> thài-khong pîng-iú,lín-hó!lín tsia̍h-pá buē?
309328

310329
## Convert non-CJK
311-
c = Convert(system='Zhuyin') # convert_non_cjk 預設值: False
330+
c = Converter(system='Zhuyin') # convert_non_cjk 預設值: False
312331
c.get("我食pháng")
313332
>> ㆣㄨㄚˋ ㄐㄧㄚㆷ˙ pháng
314333

315-
c = Convert(system='Zhuyin', convert_non_cjk=True)
334+
c = Converter(system='Zhuyin', convert_non_cjk=True)
316335
c.get("我食pháng")
317336
>> ㆣㄨㄚˋ ㄐㄧㄚㆷ˙ ㄆㄤˋ
318337

@@ -324,16 +343,40 @@ t = Tokeniser()
324343
t.tokenise("太空朋友,恁好!恁食飽未?")
325344
>> ['太空', '朋友', '', '恁好', '', '', '食飽', '', '']
326345

346+
## Keep Original
347+
t = Tokeniser() # keep_original 預設值: True
348+
t.tokenise("爲啥物臺灣遮爾好?")
349+
>> ['爲啥物', '臺灣', '遮爾', '', '']
350+
351+
t.tokenise("为啥物台湾遮尔好?")
352+
>> ['为啥物', '台湾', '遮尔', '', '']
353+
354+
t = Tokeniser(False)
355+
t.tokenise("爲啥物臺灣遮爾好?")
356+
>> ['為啥物', '台灣', '遮爾', '', '']
327357

328-
# 其他的功能
358+
t.tokenise("为啥物台湾遮尔好?")
359+
>> ['為啥物', '台灣', '遮爾', '', '']
360+
361+
362+
# 其他的函式
329363
from taibun import to_traditional, to_simplified, is_cjk
330364

331-
to_traditional("我听无台湾话")
332-
>> 我聽無台灣話
365+
## to_traditional
366+
to_traditional("我听无台语")
367+
>> 我聽無台語
368+
369+
to_traditional("我爱这个个人台面")
370+
>> 我愛這个個人檯面
371+
372+
to_traditional("爲啥物")
373+
>> 為啥物
333374

334-
to_simplified("我聽無臺灣話")
335-
>> 我听无台湾话
375+
## to_simplified
376+
to_simplified("我聽無台語")
377+
>> 我听无台语
336378

379+
## is_cjk
337380
is_cjk('我食麭')
338381
>> True
339382

@@ -377,7 +420,7 @@ is_cjk('我食pháng')
377420
[licence-badge]: https://img.shields.io/github/license/andreihar/taibun?color=000000&style=for-the-badge&label=牌照
378421
[licence]: ../LICENSE
379422
[linkedin-badge]: https://img.shields.io/badge/LinkedIn-0077b5?style=for-the-badge&logo=linkedin&logoColor=ffffff
380-
[linkedin]: https://www.linkedin.com/in/andrei-harbachov/
423+
[linkedin]: https://www.linkedin.com/in/andreihar/
381424
[js-badge]: https://img.shields.io/badge/JS_版本-f7df1e?style=for-the-badge&logo=javascript&logoColor=000000
382425
[js-link]: https://github.com/andreihar/taibun.js
383426
[downloads-badge]: https://img.shields.io/pypi/dm/taibun.svg?style=for-the-badge&label=下載

0 commit comments

Comments
 (0)