5858 <li><a href="#convert-non-cjk">Convert non-CJK</a></li>
5959 </ul>
6060 </li>
61- <li><a href="#tokeniser">Tokeniser</a></li>
62- <li><a href="#其他的功能">其他的功能</a></li>
61+ <li>
62+ <a href="#tokeniser">Tokeniser</a>
63+ <ul>
64+ <li><a href="#keep-original">Keep original</a></li>
65+ </ul>
66+ </li>
67+ <li><a href="#其他的函式">其他的函式</a></li>
6368 </ul>
6469 </li>
6570 <li><a href="#例">例</a></li>
@@ -94,13 +99,13 @@ $ pip install taibun
9499
95100### Converter
96101
97- ` Converter ` 類別使用開發人員指定的參數將漢文音譯為所選的音譯系統 。繁體佮簡體攏合用。
102+ ` Converter ` 類別使用開發人員指定的參數將中文字音譯為所選的音譯系統 。繁體佮簡體攏合用。
98103
99104``` python
100105# 建構仔
101106c = Converter(system, dialect, format , delimiter, sandhi, punctuation, convert_non_cjk)
102107
103- # 音譯漢文
108+ # 音譯中文字
104109c.get(input )
105110```
106111
@@ -147,7 +152,7 @@ c.get(input)
147152
148153` delimiter ` String - 設定欲放佇詞音節中間的分隔符。
149154
150- 預設值看所選的 ` system ` 決定:
155+ 預設值看所選的 ` system ` 決定:
151156
152157* ` '-' ` - 對著 ` Tailo ` , ` POJ ` , ` Tongiong `
153158* ` '' ` - 對著 ` Pingyim `
@@ -173,15 +178,15 @@ c.get(input)
173178* ` auto ` - 對著 ` Tongiong `
174179* ` none ` - 對著 ` Tailo ` , ` POJ ` , ` Zhuyin ` , ` TLPA ` , ` Pingyim ` , ` IPA `
175180
176- | 文本 | none | auto | exc_last | incl_last |
177- | ---------------- | ------------------------- | -------------------------- | ------------------------- | --- ---------------------- |
178- | 這是你的手機仔無 | Tse sī lí ê tshiú-ki -á bô | Tse sì li ē tshiu-kī -á bô? | Tsē sì li ē tshiu-kī -a bô | Tsē sì li ē tshiu-kī -a bō |
181+ | 文本 | none | auto | exc_last | incl_last |
182+ | ---------------- | ----------------------- | ---------------------- | ---------------------- | ---------------------- |
183+ | 這是你的茶桌仔無 | Tse sī lí ê tê-toh -á bô | Tse sì li ē tē-to -á bô | Tsē sì li ē tē-tó -a bô | Tsē sì li ē tē-tó -a bō |
179184
180185變調規則也會隨著選的方言而有所改變。
181186
182- | 文本 | 沒有變速 | south | north |
183- | ---- | -------- | ------- | ------- |
184- | 台灣 | Tâi-uân | Tāi-uân | Tài-uân |
187+ | 文本 | 無變速 | south | north |
188+ | ---- | ------- | ------- | ------- |
189+ | 台灣 | Tâi-uân | Tāi-uân | Tài-uân |
185190
186191#### Punctuation
187192
@@ -211,24 +216,38 @@ c.get(input)
211216
212217``` python
213218# 建構仔
214- t = Tokeniser()
219+ t = Tokeniser(keep_original )
215220
216221# 標記台語句
217222t.tokenise(input )
218223```
219224
220- ### 其他的功能
225+ #### Keep original
226+
227+ ` keep_original ` Boolean - 定義保留輸入的原始字符。
228+
229+ * ` True ` (預設) - 保留原始字符
230+ * ` False ` - 使用資料集中定義的字符替換原始字符
231+
232+ | 文本 | True | False |
233+ | ------------ | -------------------- | -------------------- |
234+ | 臺灣火鸡肉饭 | [ '臺灣', '火鸡肉饭'] | [ '台灣', '火雞肉飯'] |
235+
236+ ### 其他的函式
221237
222- 實用的台語 NLP 助手功能。
238+ 實用的台語 NLP 助手函式。
239+
240+ ` to_traditional ` 函式共輸入轉換做繁體字元以便佇資料集使用。嘛會當應對繁體字符變體。
241+
242+ ` to_simplified ` 函式共輸入轉換做簡體字元。
243+
244+ ` is_cjk ` 函式檢查輸入字串敢是完全由中文字符成做。
223245
224246``` python
225- # 轉換做繁體
226247to_traditional(input )
227248
228- # 轉換做簡體
229249to_simplified(input )
230250
231- # 檢查字串是毋是完全由中文字符組成
232251is_cjk(input )
233252```
234253
@@ -283,20 +302,20 @@ c.get("先生講,學生恬恬聽。")
283302
284303# # Sandhi
285304c = Converter() # 佇 Tailo 中,sandhi 預設值: none
286- c.get(" 這是台灣囡仔 " )
287- >> Tse sī Tâi - uân gín - á
305+ c.get(" 這是你的茶桌仔無 " )
306+ >> Tse sī lí ê tê - toh - á bô
288307
289308c = Converter(sandhi = ' auto' )
290- c.get(" 這是台灣囡仔 " )
291- >> Tse sì Tāi - uān gin - á
309+ c.get(" 這是你的茶桌仔無 " )
310+ >> Tse sì li ē tē - to - á bô
292311
293312c = Converter(sandhi = ' exc_last' )
294- c.get(" 這是台灣囡仔 " )
295- >> Tsē sì Tāi - uān gin - á
313+ c.get(" 這是你的茶桌仔無 " )
314+ >> Tsē sì li ē tē - tó - a bô
296315
297316c = Converter(sandhi = ' incl_last' )
298- c.get(" 這是台灣囡仔 " )
299- >> Tsē sì Tāi - uān gin - a
317+ c.get(" 這是你的茶桌仔無 " )
318+ >> Tsē sì li ē tē - tó - a bō
300319
301320# # Punctuation
302321c = Converter() # punctuation 預設值: format
@@ -308,11 +327,11 @@ c.get("太空朋友,恁好!恁食飽未?")
308327>> thài- khong pîng- iú,lín- hó!lín tsia̍h- pá buē?
309328
310329# # Convert non-CJK
311- c = Convert (system = ' Zhuyin' ) # convert_non_cjk 預設值: False
330+ c = Converter (system = ' Zhuyin' ) # convert_non_cjk 預設值: False
312331c.get(" 我食pháng" )
313332>> ㆣㄨㄚˋ ㄐㄧㄚㆷ˙ pháng
314333
315- c = Convert (system = ' Zhuyin' , convert_non_cjk = True )
334+ c = Converter (system = ' Zhuyin' , convert_non_cjk = True )
316335c.get(" 我食pháng" )
317336>> ㆣㄨㄚˋ ㄐㄧㄚㆷ˙ ㄆㄤˋ
318337
@@ -324,16 +343,40 @@ t = Tokeniser()
324343t.tokenise(" 太空朋友,恁好!恁食飽未?" )
325344>> [' 太空' , ' 朋友' , ' ,' , ' 恁好' , ' !' , ' 恁' , ' 食飽' , ' 未' , ' ?' ]
326345
346+ # # Keep Original
347+ t = Tokeniser() # keep_original 預設值: True
348+ t.tokenise(" 爲啥物臺灣遮爾好?" )
349+ >> [' 爲啥物' , ' 臺灣' , ' 遮爾' , ' 好' , ' ?' ]
350+
351+ t.tokenise(" 为啥物台湾遮尔好?" )
352+ >> [' 为啥物' , ' 台湾' , ' 遮尔' , ' 好' , ' ?' ]
353+
354+ t = Tokeniser(False )
355+ t.tokenise(" 爲啥物臺灣遮爾好?" )
356+ >> [' 為啥物' , ' 台灣' , ' 遮爾' , ' 好' , ' ?' ]
327357
328- # 其他的功能
358+ t.tokenise(" 为啥物台湾遮尔好?" )
359+ >> [' 為啥物' , ' 台灣' , ' 遮爾' , ' 好' , ' ?' ]
360+
361+
362+ # 其他的函式
329363from taibun import to_traditional, to_simplified, is_cjk
330364
331- to_traditional(" 我听无台湾话" )
332- >> 我聽無台灣話
365+ # # to_traditional
366+ to_traditional(" 我听无台语" )
367+ >> 我聽無台語
368+
369+ to_traditional(" 我爱这个个人台面" )
370+ >> 我愛這个個人檯面
371+
372+ to_traditional(" 爲啥物" )
373+ >> 為啥物
333374
334- to_simplified(" 我聽無臺灣話" )
335- >> 我听无台湾话
375+ # # to_simplified
376+ to_simplified(" 我聽無台語" )
377+ >> 我听无台语
336378
379+ # # is_cjk
337380is_cjk(' 我食麭' )
338381>> True
339382
@@ -377,7 +420,7 @@ is_cjk('我食pháng')
377420[ licence-badge ] : https://img.shields.io/github/license/andreihar/taibun?color=000000&style=for-the-badge&label=牌照
378421[ licence ] : ../LICENSE
379422[ linkedin-badge ] : https://img.shields.io/badge/LinkedIn-0077b5?style=for-the-badge&logo=linkedin&logoColor=ffffff
380- [ linkedin ] : https://www.linkedin.com/in/andrei-harbachov /
423+ [ linkedin ] : https://www.linkedin.com/in/andreihar /
381424[ js-badge ] : https://img.shields.io/badge/JS_版本-f7df1e?style=for-the-badge&logo=javascript&logoColor=000000
382425[ js-link ] : https://github.com/andreihar/taibun.js
383426[ downloads-badge ] : https://img.shields.io/pypi/dm/taibun.svg?style=for-the-badge&label=下載
0 commit comments