Skip to content

arXiv-2022-An Analysis of Fusion Functions for Hybrid Retrieval #374

@BrambleXu

Description

@BrambleXu

Summary:

本文分析了文本搜索中混合搜索的融合函数,具体探讨了词汇搜索和语义搜索的融合方法,包括凸结合(Convex Combination, CC)和相互排名融合(Reciprocal Rank Fusion, RRF),并揭示了它们各自的优点和潜在问题。研究发现,RRF对参数敏感,而CC对分数正则化的选择一般不敏感,CC在域内和域外设置中均优于RRF。此外,CC在少量训练例的情况下,能够有效调整目标域唯一参数。

Resource:

  • pdf
  • [code](
  • [paper-with-code](

Paper information:

  • Author:
  • Dataset:
  • keywords:

Notes:

重要要点
混合搜索的重要性:

词汇搜索和语义搜索互为补充,融合可以提高搜索质量。
融合方法的比较:

比较了凸结合(CC)和相互排名融合(RRF)两种融合方法。
CC对分数正则化一般不敏感,而RRF对参数敏感。
CC的优势:

CC在域内和域外设置中均表现出优于RRF的性能。
CC能够在少量训练数据情况下高效调整参数。
RRF的问题:

RRF对参数敏感,尤其在域外数据集上难以泛化。
忽略分数分布,可能丢弃重要信息。
正则化的作用:

在凸结合中,分数正则化很重要,但具体正则化方法选择并不那么重要。
结论
本文详细分析了混合搜索中融合函数的特性,表明凸结合(CC)优于相互排名融合(RRF)。CC对分数正则化选择一般不敏感,能在少量训练例下高效调整,且在域内外数据集中表现一致。而RRF对参数敏感,尤其在域外数据集上难以泛化。本文的分析为混合搜索研究提供了重要见解。

Model Graph:

Result:

Thoughts:

下面是Elasticsearch的文章,提供了CC和RBF两种融合方法

Elasticsearch Hybrid Search

Next Reading:

Metadata

Metadata

Assignees

Labels

SS(T)Semantic Search

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions