Skip to content

xx_sent_ud_sm bad sentence split #12646

@lance0108

Description

@lance0108

I'm trying xx_sent_ud_sm for sentence segmentation of Chinese texts. It seems the model can never get anything correct. An example is provided below.

The example contains 10 sentences. It is pretty clear that each sentence ends with a "。". But the model absolutely failed to split the sentence. Another model, zh_core_web_sm, works just fine.

text = """
中国人工智能技术的发展正在迅速加速,这一领域的创新正在推动中国经济的发展。中国的AI技术已经在医疗、金融、教育和制造业等领域得到了广泛应用。中国的AI公司正在成为全球领先的技术公司之一,例如百度、腾讯和阿里巴巴等公司。中国政府正在积极推动AI技术的发展,制定了一系列政策和计划,以支持该领域的创新和发展。中国的AI技术正在帮助解决一些社会问题,例如交通拥堵和环境污染等。中国的AI技术还在帮助提高生产效率和降低成本,这对于中国的制造业来说尤为重要。中国的AI技术还在帮助提高医疗保健的质量和效率,这对于中国的老龄化社会来说尤为重要。中国的AI技术还在帮助提高教育的质量和效率,这对于中国的教育系统来说尤为重要。总的来说,中国的AI技术正在成为推动中国经济和社会发展的重要力量。
"""

doc = nlp(text)
for i, sent in enumerate(doc):
    print(i, sent.text.strip())

Output:

0 
1 中国人工智能技术的发展正在迅速加速,这一领域的创新正在推动中国经济的发展。中国的AI技术已经在医疗、金融、教育和制造业等领域得到了广泛应用。中国的AI公司正在成为全球领先的技术公司之一,例如百度、腾讯和阿里巴巴等公司。中国政府正在积极推动AI技术的发展,制定了一系列政策和计划,以支持该领域的创新和发展。中国的AI技术正在帮助解决一些社会问题,例如交通拥堵和环境污染等。中国的AI技术还在帮助提高生产效率和降低成本,这对于中国的制造业来说尤为重要。中国的AI技术还在帮助提高医疗保健的质量和效率,这对于中国的老龄化社会来说尤为重要。中国的AI技术还在帮助提高教育的质量和效率,这对于中国的教育系统来说尤为重要。总的来说,中国的AI技术正在成为推动中国经济和社会发展的重要力量
2 。
3 

For comparison, this is the output from zh_core_web_sm.

0 中国人工智能技术的发展正在迅速加速,这一领域的创新正在推动中国经济的发展。
1 中国的AI技术已经在医疗、金融、教育和制造业等领域得到了广泛应用。
2 中国的AI公司正在成为全球领先的技术公司之一,例如百度、腾讯和阿里巴巴等公司。
3 中国政府正在积极推动AI技术的发展,制定了一系列政策和计划,以支持该领域的创新和发展。
4 中国的AI技术正在帮助解决一些社会问题,例如交通拥堵和环境污染等。
5 中国的AI技术还在帮助提高生产效率和降低成本,这对于中国的制造业来说尤为重要。
6 中国的AI技术还在帮助提高医疗保健的质量和效率,这对于中国的老龄化社会来说尤为重要。
7 中国的AI技术还在帮助提高教育的质量和效率,这对于中国的教育系统来说尤为重要。
8 总的来说,中国的AI技术正在成为推动中国经济和社会发展的重要力量。
9 

Metadata

Metadata

Assignees

No one assigned

    Labels

    feat / senterFeature: Sentence Recognizerlang / xxMulti-language data and modelslang / zhChinese language data and modelsmodelsIssues related to the statistical models

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions