搜索-排序

Posted by OAA on October 28, 2024

搜索排序

排序 是整个搜索链路中的最后一个、也是对业务结果影响最直接的阶段。面对召回模块初步筛选出的数千至数万个候选文档,排序系统普遍采用多级级联漏斗架构,以此平衡效率和效果,并为业务需求提供灵活的调整空间。

img

排序系统的整体定位,是承接搜索系统的核心使命,在提升用户体验、确保业务目标、以及系统可扩展性和计算效率的基础上,进行精细的排序优化。

排序的核心定位和具体要求应当如下:

  • 用户体验
    • 排序的最终目的是提供用户最相关且高质量的内容,确保用户在搜索或推荐过程中能快速找到所需信息或产品
      • 相关性:无论是哪种搜索引擎,相关性都是第一要务。对于 Google、百度等综合搜索,排序更强调网页的权威性(E-E-A-T)、质量和语义匹配度;而对于淘宝、抖音等垂类搜索,相关性通常作为排序的“硬约束”(如:搜“苹果”不能出“香蕉”),在此基础上叠加个性化
      • 个性化:结合用户的长短期画像(历史点击、购买、观看行为)、实时上下文(时间、地点)进行精准匹配,实现 “千人千面”
      • 多样性与新鲜度:排序应能平衡内容的剥削与探索(EE问题),避免返回高度同质化的结果。同时,对于新闻或 UGC 社区,需给予新发布、高时效性的内容合理的曝光通道
      • 速度与低延迟:排序的响应时间应尽可能低,尤其是对于实时搜索和高并发场景,保证用户体验流畅
      • 点击率与转化率优化:对于电商或内容平台,排序应当能够优化用户的点击行为和后续转化(如购买、分享、收藏、评论等)。排序系统需要动态地根据不同场景和目标调整排序策略
  • 业务目标
    • 排序系统不仅需要关注用户体验,还需要在符合用户需求的基础上达成业务目标。不同业务场景可能会有不同的排序需求:
      • 商业化目标:对于电商或广告类排序,重点在于优化广告主的曝光和用户的转化,特别是在广告和自然搜索结果的平衡上,避免广告内容影响搜索体验,同时又能有效推广商业产品
      • 内容曝光与流量控制:对于信息流或新闻类搜索,排序系统需要保证内容的多样性和公平性,避免过度曝光某些来源的内容或重复的文章。同时,需要控制某些内容的流量(例如冷启动内容、特定作者、优质新内容等)
      • 防作弊与内容质量控制:排序系统应包含防作弊机制,确保低质量或虚假内容不会通过排序进入前列,防止垃圾信息和恶意内容干扰用户体验
  • 数据反馈与闭环机制
    • 实时在线学习:根据用户几分钟前的最新点击、流失行为,实时更新精排模型的局部权重,捕捉突发热点和短期兴趣变化
    • 实时监控与调优:系统应能够实时监控排序结果,及时发现异常或偏差,调整排序算法和策略,保证排序目标的长期一致性
    • 多维指标评估体系:离线看 AUC、NDCG、MAP 等统计学指标;在线通过 A/B 实验看点击率、转化率、甚至长期留存率等业务指标

排序体系通常分层为粗排、精排、重排、混排,其中:

  • 粗排 (Coarse Rank / Pre-ranking)
    • 定位:目标是从大量召回候选文档中快速筛选出一个较小的候选集。粗排通常会选择计算复杂度低、处理速度快的算法,确保能在较短时间内从大量数据中快速筛选出相关性较强的文档
    • 特征:通常采用计算复杂度极低的算法(如基于向量内积的双塔模型、轻量级树模型或极其简化的 DNN),其核心使命是 “保底” 而非 “求精”,确保没有把高潜力的好结果漏掉
  • 精排 (Fine Ranking)
    • 定位:目标是从用户体验和业务需求的角度,采用相对复杂的模型对粗排给到的候选文档进行精细排序
    • 特征:业界普遍采用多任务学习框架(如 MMoE、PLE)联合预估 CTR、CVR、完播率等多个目标,并融合海量的交叉特征和超长用户行为序列(如 DIN、DIEN),进行 Point-wise 精准打分
  • 重排 (Re-ranking)
    • 定位:对精排结果的进一步调整,精排虽然算得准,但它是孤立地给每个文档打分,重排是全局视角的生态调控。通常结合业务规则、个性化需求、流量控制等进行干预,确保排序结果符合特定的业务目标和用户需求
    • 特征:重排从 Point-wise 转向 List-wise,结合业务规则进行干预。比如同类目打散、同作者打散、价格带平滑、采用 MMR/DPP 等算法保障结果列表的多样性
  • 混排 (Mix-ranking)
    • 定位:将不同类型的内容(如广告和自然搜索结果)或不同业务场景下的内容,按照一定的策略和算法进行统一排序和展示
    • 特征:负责将异构的内容(如:自然搜索结果、商业化广告、推荐卡片、直播入口)在一个页面内进行最优混排。前沿做法会引入强化学习(RL),在不伤害用户长期体验的前提下,实现页面级商业收益的最大化

特别地,对于搜索系统而言,Query-Doc 的相关性是决定用户体验的底线,它不仅作为基础特征贯穿在粗排和精排中,有时还会作为前置的强制过滤策略。本章节将相关性模块单独用一个篇幅深度拆解,粗排、精排、重排、混排分别用四个篇幅介绍。

相关性

粗排

精排

重排

混排