参数‘corpus_files’ 和 ‘quality_phrase_files'的使用

你好，在实践中对参数‘corpus_files’ 和 ‘quality_phrase_files有些疑问。

1. 如果想for循环地使用AutoPhraseX（例如语料被分为n份，依次对每份语料进行挖掘），corpus_files该参数只能对文件进行操作吗？我试图将该参数换成数组或者字符串，会报错。在不方便将处理过的语料写入txt文件的情况下（即语料被分为n份，n较大），如果想for循环地使用AutoPhraseX，我该怎么做呢？非常感谢！
2. 当我使用简单的quality_phrase_files='userDic.txt'（例如userDic.txt中包含“知识图谱”），发现挖掘出来的结果中将不出现“知识图谱”，然后尝试将userDic.txt中的“知识图谱”删掉，挖掘结果中则出现“知识图谱”该词。尝试多种例子，产生了quality_phrase_files是停用词表的错觉，不知道是语料较少的问题或是使用方式不对的问题。

实践代码如下：
from autophrasex import *
# 构造autophrase
autophrase = AutoPhrase(
    reader=DefaultCorpusReader(tokenizer=JiebaTokenizer()),
    selector=DefaultPhraseSelector(),
    extractors=[
        NgramsExtractor(N=4),
        IDFExtractor(),
        EntropyExtractor()
    ]
)
# 开始挖掘
predictions = autophrase.mine(
    corpus_files=['answers.txt'],
    quality_phrase_files='userDic.txt', #quality_phrase_files？？像是停用词
    callbacks=[
        LoggingCallback(),
        ConstantThresholdScheduler(),
        EarlyStopping(patience=2, min_delta=3)
        # EarlyStopping()
    ]
)
# 输出挖掘结果
for pred in predictions:
    print(pred)

非常感谢大家的帮助，谢谢！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

参数‘corpus_files’ 和 ‘quality_phrase_files'的使用 #12

构造autophrase

开始挖掘

输出挖掘结果

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

参数‘corpus_files’ 和 ‘quality_phrase_files'的使用 #12

Description

构造autophrase

开始挖掘

输出挖掘结果

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions