Thai Language not working properly #12866
atawur
started this conversation in
Language Support
Replies: 1 comment
-
For Thai spacy currently only supports tokenization through the third-party library python -m pip install spacy[th] import spacy
nlp = spacy.blank("th") The languages supported by If you have a working tokenizer, then I think the sentencizer will work for Thai. I'm not sure whether textrank requires further annotation like POS tags that wouldn't be available without additional pipeline components. |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
How to reproduce the behaviour
I want to extract keywords from Thai language. Since there is no specific support for Thai language, I used xx_ent_wiki_sm as multi-language but could not detect anything for Thai language. If we use xx_ent_wiki_sm in other languages then the rank is always 0.
Here is my code:
import spacy
import pytextrank
import json
text = """
ถ้ายังไม่รู้เลยเหรอ.ไม่รู้ด้วยว่าชอบมาโอ้โห.คุณแม่ของพี่ตอนนี้ถือว่าน่าสนใจมาก.
คุณแม่นี่เปรียบเทียบเหมือนน้องนี้ได้เลยนะ.มีเอมโอชกันนะคะ.ขุ่นขาแบบว่า.เพราะแบบว่าขึ้นหมายถึงปกติปุ๊บ.
ไม่รู้เลยว่า.กิจ.หนึ่ง.ปฏิกิริยาแบบผู้ชายมาปฏิกิริยาแบบนี้โดนด่าลูกคนเลยรู้หมดเลยนะคะ.
คุณฉะนั้นเป็นโน่นนี่หรือเปล่าเพราะฉะนั้นเป็นนอมินีหรือเปล่าเอ่ยออกอากาศแล้วนะคะคุณถนัดรู้เลยฉะนั้นจะเก่งมากจับตามองทุกความเคลื่อนไหวเลยทีเดียวนะคะบอกก่อนนะว่ากล้องเรามีทั้งหมด.แปด.
จากกล้าเอ่ยอะไรสําคัญเลย.เรามีทั้งหมด.แปดเก้า.น่ะ.ชอบตัวไหน.จัดได้เลย.ชอบตัวไหนจัดได้เลยค่ะอาจารย์ชอบ.ส่วนข้อแคปไว้หน่อยแล้วเยอะเลย.ไม่ใช่ทําเรื่องภาษา.
ถ้าการกดใส่ตะกร้ารถต้องแจ้งก่อนนะว่ามันไม่ได้เป็นการจัดเก็บราคาสินค้าไม่ให้ราคาเท่านั้นตลอดไปเมื่อลดลงราคาลงลายไปเนี่ยราคามันจะเด้งขึ้นมาประมาณ.หนึ่งร้อย.ถึง.สองร้อย.บาทเลยทีเดียวนะคะแล้วคูปองตรงนี้ก็จะไม่สามารถใช้ได้ด้วยนะคะเพราะอาจารย์เพราะฉะนั้นแล้วราคาดีที่สุดเลยจะเป็นราคาตอนรถอยู่ในไลฟ์จะได้ราคาดีที่สุดเลยค่ะอาจารย์นะเพราะฉันแล้วมาจากซูใช่หรือไม่ใช่ที่ยังอยู่.เพราะว่าผู้ชายน่ะค่ะภาษาที่ยังอยู่กับผู้ชายให้รู้ไว้เลยรายงานเดียว.ใครก็ตามที่ช่วยลดวันนี้นะคะ.ขอให้เป็นบนหลังนั้น.ขอให้ไม่ปวดหัวมัน.ปวดฟันนะคะขอให้มีความสุขอายุยืนหนึ่งพัน.ปีหนึ่งพัน.ปีนะ.โอ้ยอายุยืน.หนึ่งพัน.ปีเลยมาจานะแต่ว่าถ้าเกิดว่าคุณค่าจ้างอยากได้ความปังต้อง.เจ็ดสิบ.หมายจริงเพราะว่ายังไงเขาเป็นรับการศูนย์ไทย.หนึ่งร้อย.ปีเอ้ยงานนี้เลยขอให้นายนะรู้.โอ้ย.สาธุค่ะแม่โอ๋นะคะ.คุณภาษาขอให้.ตามวันนี้นะคะ.บอกเลยนะคะว่าแม่ตื่นมาโอนเงินให้เรียบร้อยแล้วแม่ก็นอนต่อ.แล้วก็เข้ามาดูแลตัวตอนเช่า.โดยแม่เป็นกําลังใจที่ดีมากเลยนะ.จริงจริงคือแบบว่าเข้ามาดูแลตลอดทุกวันเลย.เวลาว่าง.แต่ถ้าไม่ว่างก็ไม่ดูไงถ้ารู้อยู่แล้ว.เรารู้กันอยู่แล้วไงก็ได้.อุ้ยน่ารักมากเลยค่ะ.แมวส่งวันนี้ส่งของวันไหนรับสั่งวันนี้เราส่งให้วันจันทร์แน่นอนนะถ้าเกิดว่าจะได้ของรถแน่ใจว่าจะส่งของวันในขณะที่คลังสินค้า.แต่ว่าขนส่งส่วนใหญ่แล้วจะไม่ทํางานเสาร์.อาทิตย์.เพราะฉะนั้นแล้วว่าจ้างรถขอยืนพื้นเป็นเวลาทําการจันทร์ถึงศุกร์นะกรุงเทพปริมณฑลประมาณ.หนึ่ง.ถึง.สอง.วันต่างจังหวัดขออนุญาต.สอง.วันถึง.สาม.วันนะคะคุณจริงน้า.ถูกต้องไม่เกินวันจันทร์วันอังคารเลยได้รับของแน่นอนนะคะ.เพราะว่าทรงไว้เหมือนติดจรวดเลย.ไม่ใช่บาปกรรมนะคะแต่เป็นเจ็ด.สิบ.หมื่น.ห้า.ภาษาสองวันมันติดจรวดเลยมาจ่าส่งถึงหน้าบ้านคุณนะคะ.เลือกได้เลยว่าจะเจอเรื่องแบบไหน.เก็บเงินปลายทางหรือว่าโอนผ่านธนาคารนะคะหรือว่าเก็บพันธุ์บัตรเครดิตนะคะโดยทุกวันนี้ไว้ได้และมีหลายเพลงได้นะคะต้องทําเลยคุณอาจารย์ฉ่ําเวอร์อยากได้จัดได้มาสามบอกได้เลยว่าวันนี้มีแต่ได้กับได้ได้กับได้ได้โดนนะคะเพราะว่าโดนแน่นะคะอาจารย์นี่เลยจัดไปเลยราคาตัวนี้นะคะรถไปสี่ร้อย.บาทหรือไล่วิ่งมากแล้วรถก็เลยเสียร้อยบาทซื้อวันนี้โคตรคุ้มปกติไม่ค่อยพูดคํานี้นะไม่ค่อยพูดคําว่าโค้ชเท่าไหร่จะพูดคําหยาบคนอื่นแทนนั้นแต่วันนี้ขออนุญาตพูดนิดนึงน้ํามันหลุดปากไปนะคะแต่จริงแล้วคือคุ้มจริงคุณค่าจากหลุมมากเลยซื้อวันนี้นะคุณรู้สึกสุดซึ่งวันนี้ลดสูงสุดถึง.สี่ร้อย.บาทวาจาแล้ว.กล้องมันเป็นกล้องที่ใช้ได้ยาวนานนะถึงแม้ว่าเราจะรับประกันหนึ่งปีเนี่ยก็ถือว่ายาวนานนะแต่กล้องอุ้ยยาวนานกว่านั้นอีก.ไม่มีแบบนี้อยู่ประมาณห้าปี.คุณลูกค้าจ้า.แล้วเขาซื้ออะไรลงมาเข้าซื้อน้อง.ตอนนี้น้องมีอะไรอ่ะ.น้องวันเอสค่ะน้องเขาซื้อน้องวัน.เอสไปแต่ว่าทั้งนี้ทั้งนั้น.รถต้องแจ้งก่อนนะว่าอาจจะขึ้นอยู่กับการใช้งานของคุณ.
"""
load a spaCy model, depending on language, scale, etc.
nlp = spacy.load("xx_ent_wiki_sm")
nlp.add_pipe('sentencizer')
nlp.add_pipe("textrank")
doc = nlp(text)
print(doc._.phrases)
Output
[]
Your Environment
Beta Was this translation helpful? Give feedback.
All reactions