Skip to content

参数‘corpus_files’ 和 ‘quality_phrase_files'的使用 #12

@IKIUJK

Description

@IKIUJK

你好,在实践中对参数‘corpus_files’ 和 ‘quality_phrase_files有些疑问。

  1. 如果想for循环地使用AutoPhraseX(例如语料被分为n份,依次对每份语料进行挖掘),corpus_files该参数只能对文件进行操作吗?我试图将该参数换成数组或者字符串,会报错。在不方便将处理过的语料写入txt文件的情况下(即语料被分为n份,n较大),如果想for循环地使用AutoPhraseX,我该怎么做呢?非常感谢!
  2. 当我使用简单的quality_phrase_files='userDic.txt'(例如userDic.txt中包含“知识图谱”),发现挖掘出来的结果中将不出现“知识图谱”,然后尝试将userDic.txt中的“知识图谱”删掉,挖掘结果中则出现“知识图谱”该词。尝试多种例子,产生了quality_phrase_files是停用词表的错觉,不知道是语料较少的问题或是使用方式不对的问题。

实践代码如下:
from autophrasex import *

构造autophrase

autophrase = AutoPhrase(
reader=DefaultCorpusReader(tokenizer=JiebaTokenizer()),
selector=DefaultPhraseSelector(),
extractors=[
NgramsExtractor(N=4),
IDFExtractor(),
EntropyExtractor()
]
)

开始挖掘

predictions = autophrase.mine(
corpus_files=['answers.txt'],
quality_phrase_files='userDic.txt', #quality_phrase_files??像是停用词
callbacks=[
LoggingCallback(),
ConstantThresholdScheduler(),
EarlyStopping(patience=2, min_delta=3)
# EarlyStopping()
]
)

输出挖掘结果

for pred in predictions:
print(pred)

非常感谢大家的帮助,谢谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions