-
Notifications
You must be signed in to change notification settings - Fork 37
Open
Description
你好,在实践中对参数‘corpus_files’ 和 ‘quality_phrase_files有些疑问。
- 如果想for循环地使用AutoPhraseX(例如语料被分为n份,依次对每份语料进行挖掘),corpus_files该参数只能对文件进行操作吗?我试图将该参数换成数组或者字符串,会报错。在不方便将处理过的语料写入txt文件的情况下(即语料被分为n份,n较大),如果想for循环地使用AutoPhraseX,我该怎么做呢?非常感谢!
- 当我使用简单的quality_phrase_files='userDic.txt'(例如userDic.txt中包含“知识图谱”),发现挖掘出来的结果中将不出现“知识图谱”,然后尝试将userDic.txt中的“知识图谱”删掉,挖掘结果中则出现“知识图谱”该词。尝试多种例子,产生了quality_phrase_files是停用词表的错觉,不知道是语料较少的问题或是使用方式不对的问题。
实践代码如下:
from autophrasex import *
构造autophrase
autophrase = AutoPhrase(
reader=DefaultCorpusReader(tokenizer=JiebaTokenizer()),
selector=DefaultPhraseSelector(),
extractors=[
NgramsExtractor(N=4),
IDFExtractor(),
EntropyExtractor()
]
)
开始挖掘
predictions = autophrase.mine(
corpus_files=['answers.txt'],
quality_phrase_files='userDic.txt', #quality_phrase_files??像是停用词
callbacks=[
LoggingCallback(),
ConstantThresholdScheduler(),
EarlyStopping(patience=2, min_delta=3)
# EarlyStopping()
]
)
输出挖掘结果
for pred in predictions:
print(pred)
非常感谢大家的帮助,谢谢!
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels