-
-
Notifications
You must be signed in to change notification settings - Fork 4.6k
Closed
Labels
feat / senterFeature: Sentence RecognizerFeature: Sentence Recognizerlang / xxMulti-language data and modelsMulti-language data and modelslang / zhChinese language data and modelsChinese language data and modelsmodelsIssues related to the statistical modelsIssues related to the statistical models
Description
I'm trying xx_sent_ud_sm for sentence segmentation of Chinese texts. It seems the model can never get anything correct. An example is provided below.
The example contains 10 sentences. It is pretty clear that each sentence ends with a "。". But the model absolutely failed to split the sentence. Another model, zh_core_web_sm, works just fine.
text = """
中国人工智能技术的发展正在迅速加速,这一领域的创新正在推动中国经济的发展。中国的AI技术已经在医疗、金融、教育和制造业等领域得到了广泛应用。中国的AI公司正在成为全球领先的技术公司之一,例如百度、腾讯和阿里巴巴等公司。中国政府正在积极推动AI技术的发展,制定了一系列政策和计划,以支持该领域的创新和发展。中国的AI技术正在帮助解决一些社会问题,例如交通拥堵和环境污染等。中国的AI技术还在帮助提高生产效率和降低成本,这对于中国的制造业来说尤为重要。中国的AI技术还在帮助提高医疗保健的质量和效率,这对于中国的老龄化社会来说尤为重要。中国的AI技术还在帮助提高教育的质量和效率,这对于中国的教育系统来说尤为重要。总的来说,中国的AI技术正在成为推动中国经济和社会发展的重要力量。
"""
doc = nlp(text)
for i, sent in enumerate(doc):
print(i, sent.text.strip())
Output:
0
1 中国人工智能技术的发展正在迅速加速,这一领域的创新正在推动中国经济的发展。中国的AI技术已经在医疗、金融、教育和制造业等领域得到了广泛应用。中国的AI公司正在成为全球领先的技术公司之一,例如百度、腾讯和阿里巴巴等公司。中国政府正在积极推动AI技术的发展,制定了一系列政策和计划,以支持该领域的创新和发展。中国的AI技术正在帮助解决一些社会问题,例如交通拥堵和环境污染等。中国的AI技术还在帮助提高生产效率和降低成本,这对于中国的制造业来说尤为重要。中国的AI技术还在帮助提高医疗保健的质量和效率,这对于中国的老龄化社会来说尤为重要。中国的AI技术还在帮助提高教育的质量和效率,这对于中国的教育系统来说尤为重要。总的来说,中国的AI技术正在成为推动中国经济和社会发展的重要力量
2 。
3
For comparison, this is the output from zh_core_web_sm.
0 中国人工智能技术的发展正在迅速加速,这一领域的创新正在推动中国经济的发展。
1 中国的AI技术已经在医疗、金融、教育和制造业等领域得到了广泛应用。
2 中国的AI公司正在成为全球领先的技术公司之一,例如百度、腾讯和阿里巴巴等公司。
3 中国政府正在积极推动AI技术的发展,制定了一系列政策和计划,以支持该领域的创新和发展。
4 中国的AI技术正在帮助解决一些社会问题,例如交通拥堵和环境污染等。
5 中国的AI技术还在帮助提高生产效率和降低成本,这对于中国的制造业来说尤为重要。
6 中国的AI技术还在帮助提高医疗保健的质量和效率,这对于中国的老龄化社会来说尤为重要。
7 中国的AI技术还在帮助提高教育的质量和效率,这对于中国的教育系统来说尤为重要。
8 总的来说,中国的AI技术正在成为推动中国经济和社会发展的重要力量。
9
Metadata
Metadata
Assignees
Labels
feat / senterFeature: Sentence RecognizerFeature: Sentence Recognizerlang / xxMulti-language data and modelsMulti-language data and modelslang / zhChinese language data and modelsChinese language data and modelsmodelsIssues related to the statistical modelsIssues related to the statistical models