百度搜索展现服务重构:进步与优化

作者 | 瞭东

导读

本文将简单介绍搜索展现服务发展过程,以及当前其面临的三大挑战:研发难度高、架构能力欠缺、可复用性低,最后提出核心解决思路和具体落地方案,期望大家能有所收货和借鉴。

全文4736字,预计阅读时间12分钟。

01 背景

百度搜索展现服务的主要职责是请求检索系统获取结果,并依次进行模板选择、实时摘要补充、数据适配和结果渲染,将检索结果能以丰富多样的形式精准地展示给用户。在初期,这项服务基于C语言进行开发,迭代效率不尽人意。随着产品的迅速迭代和业务的不断拓展,研发效率问题逐渐凸显,为了解决这一瓶颈,搜索展现服务进化为由PHP开发、HHVM运行的服务。目前,搜索展现服务由数十个产品线、上百个研发RD共同参与研发,承载了数百个精细化的业务展现策略。然而,随着搜索业务的日益复杂化和生成式大模型的崛起,搜索展现服务也开始面临研发难度增大、架构能力不足和复用性低等多重挑战。具体表现如下:

【研发难度高】:搜索展现服务基于过程管理,逻辑复杂,多个策略框架分布于代码的各个阶段,不能满足多业务对于简化管理、易于扩展的效率诉求

【架构能力欠缺】:hhvm基础设施已经停止维护,对于异步/多线程等功能的支持较为有限,流式能力的缺失使其无法满足生成式搜索等需求,因而不能满足服务稳定性和新产品需求迭代的要求。

【可复用性低】:搜索展现层主要服务与通用搜索、垂类搜索等。目前,通用搜索和垂类搜索之间目前缺乏合理的架构设计,这导致相同的需求在通用搜索和垂类搜索中都需要进行重复的开发。

02 解决方案

2.1 整体设计

2.1.1 核心思路

降低研发难度:根据展现层特点,通过设计实现图管理引擎,将展现功能以算子的粒度进行拆分,单个算子的逻辑简单清晰、业务方把工作聚焦在功能(算子)和需求,而非应用整体,同时将搜索展现服务的过程处理升级为DAG图处理,降低流程管理的复杂度。通过实现算子->图->需求的层次管理,推动搜索展现服务的过程研发模式从面向过程到面向功能、面向业务。

提升架构能力:从PHP+HHVM转型GO,基于百度内部GO开发框架搭建搜索展现服务,获得更好的性能和更高的并发处理能力。同时对于异步/协程/流式交互能力支持成本更低。

提升可复用性:通过抽象公共算子和实施基础Lib共建,提高代码的可复用性和可维护性。公共算子可以在多个搜索展现服务中复用,避免了重复开发和维护的代价。基础Lib可以提供通用的功能和工具类,方便开发人员快速开发和维护代码,减少重复开发和出错的可能性。

图片

△搜索展现层架构图

2.1.2 基础设施

GDP(Go Develop Platform):百度内部基于go实现的业务开发平台,具备完善的RPC Server和RPC Client能力,主要用于API、Web以及后端服务开发。

ExGraph: 百度搜索展现团队自研图执行引擎。

:设计了一套简单的图描述语言,不借助任何工具,rd可轻松学习并据此了解模块执行逻辑的全貌,降低接手难度

算子:设计简单的接口,屏蔽实现细节,rd实现算子接口即可执行

执行:灵活设计了串行组、并行组、子图、条件算子、switch算子、中断、等待等机制,以适配复杂的业务流程

效率工具:实现了代码生成器、脚手架等效率工具,可快速创建应用

Datahold:百度搜索展现团队自研数据管理器,主要解决模块数据(比如配置、字典)依赖和加载问题。具备如下能力:

  • 支持热加载,后台监听并解析变更文件后切换到前台使用;提供通用字典、配置解析器,同时支持自定义文件解析器

  • 支持通过配置完成数据对象自动注册、加载和解析,有效管理大型服务中配置/字典不可丢、解析出错及时报警感知等

  • 支持rd线下环境一键部署模块依赖远程数据,提升研发阶段环境部署效率

公共lib:此外基础设施层还提供了udai(远程数据统一访问cgo扩展)、百度自有签名等等展现团队公共lib,公共Lib建设有统一准入标准,避免重复造轮子,提升研发效率。

2.1.3 公共算子

将搜索展现通用逻辑抽象为接口,基于图引擎提供公共算子,实现一处开发,通用搜索、垂类搜索等多个应用共同使用。目前已经实现抽样、适配、降级、限流、检索请求、落地页点出、渲染等数十个公共算子,开箱即用,快速支持搜索新展现应用搭建。

2.1.4 应用层

通过公共算子、各服务自有展现算子搭建执行图,实现应用业务逻辑。当前搜索展现服务包含通用搜索展现服务、垂类搜索展现服务、生成式搜索展现服务等。

2.2 详细设计

通用搜索相比垂类搜索等业务更具复杂性,本章节将以通用搜索展现服务为例,具体介绍其重构迁移go的落地方案。

图片

_△通用搜索展现服务重构前后对比图

在重构迁移过程中我们主要面临两个难点:

难点1:前文已提到通用搜索展现服务是一个数十个产品线100+RD共同研发的模块,展现策略组1&2&3共有600+业务展现策略,每天平均有4+策略迭代上线,在重构迁移落地过程中,首要解决的问题就是:如何兼容迁移和现有业务迭代效率?如何协同众多业务线迁移?

难点2:搜索展现服务业务逻辑非常复杂,重构项目如何保障用户效果、商业收入和服务稳定性。

对于难点1,主要通过架构业务解耦、平滑迁移机制这两个手段解决;对于难点2将从研发、测试、上线全流程稳定性保障。接下来将详细介绍这两个部分内容。

2.2.1业务解耦&平滑迁移

保障迁移和现有业务迭代效率,并协同多产品线进行业务展现策略迁移核心手段:解耦架构和业务展现逻辑,架构迁移部分先行迁移go,业务展现策略依旧基于php运行,架构逻辑迁移过程中不阻塞业务迭代,尽量避免php&go两个版本同时开发相同的业务逻辑。设计一套机制支持业务展现策略按业务线独立迁移到基于go的搜索展现服务上,并将整个复杂迁移过程拆分成四个阶段有序进行,最终实现整体项目目标。

图片

第一阶段:架构部分图化迁移go+展现策略服务化

将限流、参数处理、检索请求、广告检索请求、http-header渲染等架构逻辑代码基于GDP+Exgraph图化迁移go,基于go的通用搜索展现服务完成检索数据统一处理之后,再请求基于php的展现策略服务进行业务展现逻辑。这样即可以保证迭代相对不频繁的架构逻辑先行迁移go,为后续展现策略迁移做好基础,同时也能保证迭代频繁的展现策略依旧可以按原有研发模式继续迭代。

第二阶段:异步摘要请求全量迁移

首先回答下异步摘要是什么。

检索系统往往为了考虑计算资源和响应速度,会在各个子系统内部设置cache,cache失效时间至少都是分钟级别,部分场景甚至达到天级别。对于部分需要秒级别就能更新的展现元素,比如搜索结果里需要展现视频播放量、文章点赞数量,以及用户是否对这条结果进行点赞等,cache就没有那么友好了。异步摘要因此诞生,检索请求返回之后基于检索结果请求高时效摘要服务,摘要请求是异步完成的,和普通展现策略并发,既实现了实时摘要补充,又避免了用户响应速度的退化。

为了避免随着展现策略逐渐迁移go,异步摘要请求时间可并行时间缩短,引入旁路系统。异步摘要策略数十个,本身迭代相对普通展现策略较不频繁,请求整体一起迁移go,异步摘要请求成功写入旁路系统,执行完所有普通展现策略(无论是迁移到go执行,还是保留在php上执行),基于PHP的策略服务通过旁路系统获取所有异步摘要并执行实时摘要补充。引入旁路系统本身也需要通信开销,通过以下手段降低:

  • 通过边车化实现旁路服务降低远程通信开销

  • 基于go展现服务不对异步摘要进行解析,将原始序列化结果写入到旁路系统,基于php服务获取数据进行解析。可以有效避免go/php展现重复反序列化数据带来开销。

第三阶段:展现策略迁移

协同各个产线线完成展现策略组1、展现策略组2、展现策略组3迁移到基于go的搜索展现服务。该阶段支持产品线按策略粒度、按业务小流量迁移;同时新展现策略(不包括异步摘要策略)可以直接基于go的搜索展现服务开发。

迁移准则:按展现策略有无依赖分类迁移。依赖常见场景:策略执行依赖其他非本业务的展现策略先执行,这种场景必须被依赖策略先迁移;策略内部依赖了架构能力,但这部分能力没有迁移go等。

迁移优先级:

(1)优先迁移无依赖的展现策略,可以独立迁移开发、实验、推全

(2)对于存在依赖的展现策略,协同被依赖方一起完成迁移

第四阶段:全量迁移

整体完成异步摘要策略迁移、渲染、后置任务迁移。

该部分逻辑迭代也相对不频繁,为什么不提前迁移go?

主要限制因素是响应速度。如果将基于php展现策略服务发回给基于go的展现服务,再进行渲染、后置任务,php->go会再增加一次序列化、反序列化以及通信时间,会造成速度退化,这部分速度退化迁移go之后无法带来速度优化弥补抵消。

2.2.2 全流程稳定性保障

通用搜索展现服务重构项目的用户效果、商业收入和服务稳定性主要通过全流程稳定性保障。全流程稳定性主要包含研发、测试、上线稳定性保障。

研发保障

迁移过程不仅仅是简单功能平迁,通用搜索展现服务已经迭代了数十年,本身存在诸多不合理设计,如数据冗余、历史飞线逻辑较多、代码复用低等,我们基于以上问题进行数据治理、飞线包袱清理、重新抽象设计公共算子等。这些对研发质量提出了更高的要求,一方面通过单元测试和自动化流水线测试(数据diff&UI-DIFF,测试保障介绍)保障代码质量,另一方面通过日志打点分析对历史包袱进行提前下线避免不合理、不必要的迁移。

测试保障

功能测试:

数据Diff:协同qa建设自动化数据diff功能,录制线上请求进行回放,将关键数据如检索请求、广告请求、输出给渲染服务的数据等等进行全面自动化例行数据diff,通过数据diff发现潜在问题,累计发现并消除上万数据diff。

UI-Diff: 搜索结果页结果类型众多,比如天气阿拉丁、股票阿拉丁等等,共有上千个资源类型,每种资源类型都有各个的展现模板。效果回归成本高且难度大,根据资源展现量大小作为优先级,利用ui-diff平台(html页面像素级diff)自动挖掘线上query进行基线和策略线自动化ui-diff,重点关注diff差异超过阈值的效果问题,通过这种方式累计发现并修复40+效果类问题。

端到端测试:数据diff&UI-diff这两个自动化测试手段已经能够覆盖绝大多数效果类场景,除此此外,QA对搜索重点场景比如落地页跳转、翻页、广告效果等人工效果测试回归。通过自动化测试+人工效果测试保障重构改造后的展现效果。

稳定性测试: 通过引流线上流量进行长时间压力测试,模拟线上运行环境,保障服务线上稳定性。

性能测试:通过性能火焰图发现系统性能热点并优化点;通用线上实例峰值qps进行性能测试以及极限压测获取服务极限qps,提前预估线上资源容量是否充足,响应数据是否存在退化。

上线保障

上线阶段稳定性保障主要手段包括:上线前资源/响应时间预估等进行稳定性评审、监控&报警、降级、内测、全网小流量等。

03 总结

本文介绍了搜索展现服务发展过程以及当前面临主要挑战:研发难度高、架构能力不足、可复用性低,然后提出基于图执行引擎+公共算子+重构迁移go方式解决上述问题,最后基于通用搜索展现服务详细阐述了方案的落地。本文旨在通过将搜索展现服务重构思考分享给大家,期望大家有所借鉴和收获,当然也可能存在不足之处,也期望大家留言共同探讨。

搜索技术平台研发部正在招募 AI 研发工程师,欢迎感兴趣的同学投递简历至linzecheng@baidu.com

——END——

推荐阅读

百度APP iOS端包体积50M优化实践(七)编译器优化

百度搜索内容HTAP表格存储系统

大模型时代,“人人可AI”的百度开发者平台长什么样?

数十万QPS,百度热点大事件搜索的稳定性保障实践

百度搜索万亿规模特征计算系统实践

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/219812.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

虚拟化之安全虚拟化

虚拟化首次引入是在Armv7-A架构中。那时,Hyp模式(在AArch32中相当于EL2)仅在非安全状态下可用。当Armv8.4-A引入时,添加了对安全状态下EL2的支持作为一个可选特性。 当处理器支持安全EL2时,需要使用SCR_EL3.EEL2位从E…

module ‘tensorflow‘ has no attribute XXX 报错解决

问题描述: 粘了别人的tensorflow项目,运行总是报错module ‘tensorflow’ has no attribute什么什么 问题解决: 导入tensorflow的代码如下 import tensorflow as tf此时,某个某块报错,比如下面这个 那么就直接把tf.…

2024年【建筑电工(建筑特殊工种)】报名考试及建筑电工(建筑特殊工种)新版试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年建筑电工(建筑特殊工种)报名考试为正在备考建筑电工(建筑特殊工种)操作证的学员准备的理论考试专题,每个月更新的建筑电工(建筑特殊工种)新版试题祝您顺利通过建筑电工(建筑特殊工种)考试。 1、【单…

浏览器的事件循环机制(Event loop)

事件循环 浏览器的进程模型 何为进程? 程序运行需要有它自己专属的内存空间,可以把这块内存空间简单的理解为进程 每个应用至少有一个进程,进程之间相互独立,即使要通信,也需要双方同意。 何为线程? …

UE虚幻引擎项目更改名字怎么操作?

首先找到项目目录,直接更改项目程序的名字,其次点击项目程序右击使用文本打开,然后将Modules模块中的内容删除即可,然后运行程序就好啦!

【已解决】ModuleNotFoundError: No module named ‘taming‘

问题描述 Traceback (most recent call last) <ipython-input-14-2683ccd40dcb> in <module> 16 from omegaconf import OmegaConf 17 from PIL import Image ---> 18 from taming.models import cond_transformer, vqgan 19 import taming.modu…

redis:二、缓存击穿的定义、解决方案(互斥锁、逻辑过期)的优缺点和适用场景、面试回答模板和缓存雪崩

缓存击穿的定义 缓存击穿是一种现象&#xff0c;具体就是某一个数据过期时&#xff0c;恰好有大量的并发请求过来&#xff0c;这些并发的请求可能会瞬间把DB压垮。典型场景就是双十一等抢购活动中&#xff0c;首页广告页面的数据过期&#xff0c;此时刚好大量用户进行请求&…

Axure的交互与情形,事件,动作

交互样式 交互样式是指当用户与原型进行交互时&#xff0c;元素所呈现出的视觉效果。在Axure中&#xff0c;可以通过设置交互样式来调整元素在交互过程中的外观&#xff0c;例如改变颜色、大小、位置等。 交互事件 交互事件是指在用户与原型进行交互时触发的动作。在Axure中&…

云计算:Vmware 安装 FreeNAS

目录 一、实验 1.Vmware 安装 FreeNAS 2.配置Web界面 二、问题 1.iSCSI如何限定名称 2.LUN和LVM的区别 一、实验 1.Vmware 安装 FreeNAS &#xff08;1&#xff09;环境准备 VMware Workstation 17 FreeNAS相关安装部署镜像: 官网地址&#xff1a; https://download…

如何使用Docker进行容器的备份和恢复

一 简介&#xff1a; 在使用Docker进行应用程序的容器化部署时&#xff0c;我们经常需要对容器进行备份和恢复操作。备份容器可以保证数据的安全性&#xff0c;而恢复操作可以帮助我们快速恢复出现问题的容器。本文将介绍如何使用Docker进行容器的备份和恢复&#xff0c;同时提…

【springboot】application配置文件(1)

servlet:multipart:max-file-size: 100MBmax-request-size: 100MB 这些配置是关于servlet的&#xff0c;特别是与文件上传相关的部分。具体来说&#xff0c;它们涉及到multipart的处理&#xff0c;这是处理HTTP的multipart/form-data类型请求的方法&#xff0c;通常用于文件上传…

PostgreSQL常用命令

数据库版本 :9.6.6 注意 :PostgreSQL中的不同类型的权限有 SELECT,INSERT,UPDATE,DELETE,TRUNCATE,REFERENCES,TRIGGER,CREATE,CONNECT,TEMPORARY,EXECUTE 和 USAGE。 1. 登录PG数据库 以管理员身份 postgres 登陆,然后通过 #psql -U postgres #sudo -i -u postgres …

Ansible:模块1

Ansible&#xff1a; 远程操作主机功能 自动化运维&#xff08;playbook 剧本 yaml&#xff09; 是基于python开发的配置管理和应用部署工具。在自动化运维中&#xff0c;现在是一军突起。 Ansible能批量配置&#xff0c;部署&#xff0c;管理上千台主机。类似于xshell的一…

【Hadoop面试】HDFS读写流程

HDFS&#xff08;Hadoop Distributed File System&#xff09;是GFS的开源实现。 HDFS架构 HDFS是一个典型的主/备&#xff08;Master/Slave&#xff09;架构的分布式系统&#xff0c;由一个名字节点Namenode(Master) 多个数据节点Datanode(Slave)组成。其中Namenode提供元数…

黑豹程序员-axios+springmvc传递数组

问题 奇怪的现象&#xff0c;axios在往后台传递数组时&#xff0c;springmvc竟然接收不到 解决 尝试多次无果&#xff0c;突然看一篇文章写vue中的数组不是真正的数组需要强转转化JSON.stringify 将信将疑下测试了一把&#xff0c;还真的传递成功了。 不光要JSON.stringify…

Kotlin 笔记 -- Kotlin 语言特性的理解(一)

函数引用、匿名函数、lambda表达式、inline函数的理解 双冒号对函数进行引用的本质是生成一个函数对象只有函数对象才拥有invoke()方法&#xff0c;而函数是没有这个方法的kotlin中函数有自己的类型&#xff0c;但是函数本身不是对象&#xff0c;因此要引用函数类型就必须通过双…

数据结构 | 堆排序

#include<stdlib.h> #include<iostream.h> /* template<class T>//方法1 void BuildHeap(T* pa,int size) //建堆 {for(int isize/2-1;i>0;i--) //从邻近叶子的第一个非叶子结点至根节点PercolateDown(pa,i,size); //向下调整为堆 }template<class T&…

防止反编译,保护你的SpringBoot项目

ClassFinal-maven-plugin插件是一个用于加密Java字节码的工具&#xff0c;它能够保护你的Spring Boot项目中的源代码和配置文件不被非法获取或篡改。下面是如何使用这个插件来加密test.jar包的详细步骤&#xff1a; 安装并设置Maven&#xff1a; 首先确保你已经在你的开发环境中…

项目篇 | 图书管理系统 | 图像加载与绘制

项目篇 | 图书管理系统 | 图像加载与绘制 基本介绍 首先解释清楚什么叫图像加载与绘制,意思就是说项目中需要用到一些图片资源(各种图标),我们要在图书管理系统中展示这些图片,就需要先导入图片到项目中,再加载图片资源(通过资源路径)、绘制图片(即展示)。 注:如果…

算法——分治

思想&#xff1a;分而治之&#xff0c;将大问题转化为若干个相同或相似的子问题。快排的题目常见的方法是利用三指针法将数组分三块搭配随机选择基准元素的思想 颜色分类&#xff08;分治_快排&#xff09; 颜色分类 题目解析 原地对它们进行排序&#xff0c;使得相同颜色的元…