ElasticSearch学习篇19_《检索技术核心20讲》搜推广系统设计思想

搜索引擎
- 基本模块
- 检索流程
  - 查询分析
  - 查询纠错
广告引擎
- 基于标签倒排索引召回
- 基于向量ANN检索召回
- 打分机制：非精确打分+精准深度学习模型打分
- 索引精简：必要的数据构建索引
推荐引擎
- 基本模块
- 基于内容的召回
- 基于协同过滤的召回
  - 基于用户的协同过滤
  - 基于物品的协同过滤
- 混合召回+分层打分

搜索引擎

搜索引擎的任务是从万亿级别的网页快速查找需要信息，搜索引擎的检索技术是所有基于文本和关键词的检索系统都是可以学习和参考的。

整个检索系统会设计很多技术，比较重要的有网页抓取、文本分析、检索模型、索引技术、链接分析、反作弊、云存储和云计算等，非常复杂。

基本模块

整个检索系统可以按照功能结构分为3部分，分别是爬虫系统、索引系统、检索系统。

爬虫系统：要求能高效爬取数据，并选用高效的存储，如基于LSM的HBase高效的进行写入和读取。
索引系统：为相关文档建立索引，主要包含3个阶段，
- 1是文档的预处理，包括相似网页去重、网页质量分析、分词处理这些工作。
- 2是对文档进行反作弊的处理，来避免一些作弊网页干扰搜索结果。
- 3是生成索引，生成过程包含三个步骤：索引拆分、索引构建、索引更新
  - 索引拆分：文档数据量很大，全部生成索引不太现实，可以根据离线阶段的文档预处理，区分文档质量，比如高质量和低质量，采用分层思想建立索引，另外尽管区分高低质量数据量比较还是比较大需要索引分片。
  - 索引构建：确认了索引的分片机制之后，可以使用Map Reduce服务，为每个索引分片生成对应的任务，然后生成相应的倒排索引文件，每个倒排索引代表一个分片，支持加载到线上服务器。
  - 索引更新：全量索引结合增量索引的机制完成索引更新，一般使用滚动合并法更新。
检索系统：查询分析、查询纠错、查询推荐、召回、打分选取TopK。

检索流程

查询分析

查询词是搜索引擎进行检索的最核心的信息，但是有时候关键词会有错别字，或者是含糊的不精准的，或者查询的关键词不在建立的索引中，如何保证能较准确的检索？

查询分析就是通过输入的查询词理解用户意图，进行查询词纠正，以及对查询意图不明的查询词进行查询推荐，可以分为三个粒度的分析

分词粒度分析：最基础的查询分析，根据查询词按照不同的粒度分词，影响跟索引key匹配的效果，中文搜索中特有的一个环节。一般采用混合粒度分词，也就是标准的分词 + 整个查询词短语来取匹配索引中的key，比如疾风亦有归途，会被分词 [疾风、归途、疾风亦有归途]
属性分析：数据的某些属性、权重
需求分析：语意级别的意图分析等

关键词位置信息关联性窗口

思考：中文短语是如何检索的？比如查询 “疾风亦有归途”，在构建倒排索引的时候并没有把这个词当作key，直接搜索倒排索引的时候就会找不到，按照混合分词粒度，会接着按照 [疾风，归途] 检索，如果只是简单地将这两个关键词检索出来的文档列表求交集合并，那我们最终得到的结果并不一定会包含带有"疾风亦有归途"的文档，比如搜索到了"xxxx疾风来了，xxxx很多字xxxx，归途"，这种并不是期望的结果。

一种解决方案就是记录关键词出现在文档中的位置，取交集的时候判断一下两个关键词在同一个文档中的距离，距离越小相关性就越小。比如就像包含两个关键词的内容划进去一个窗口，窗口越小，那么证明越相关。

思考：如果是一个查询词被分为了三个关键词？多个关键词，使用查询窗口如何保证顺序？

一种解决方案是两两进行多次计算，最后累加得到一个值。

查询纠错

查询词有错别字，使用查询纠错以及查询推荐优化搜索结果集，查询纠错一般分为三个步骤

错误判断，主要有下面两种方式
- 基于规则的错误判断：一般根据人工打标的或者搜索日志进行数据挖掘，得到常见的字典和混淆字典，字典的结构可以是哈希表、前缀树等结构保证高效率检索。按照分词结果，如果无法在字典查到，或者出现在混淆字典里面，那么就认为这个查询词是错误的，需要进行下面的步骤。
- 基于机器学习和语言模型的错误判断，给查询的词一个上下文置信度，置信度低的话判断为错误，需要进行下面的步骤。
候选召回：得到纠错集合，中文的错误一般两种，同音、形近，根据多个同音、形近字典找出多个匹配的key，查询返回候选集合。还有方式是根据编辑距离、根据机器学习等找出候选集的。
打分排序

广告引擎

广告系统是一个典型的高并发低延迟系统，请求量大，对工程和算法有着强烈的依赖，需要做到千人千面。广告系统中负责检索功能的广告引擎架构。

广告引擎处理一个广告请求的过程，本质上就是根据用户的广告请求信息，找出标签匹配的广告设置，并将广告进行排序返回的过程。

广告基本可以分为两类，搜索类广告、展示类广告

搜索类广告：和搜索词关联性比较紧密，类似上面的搜索
展示类广告：请求主要包含手机用户标签，标签和广告匹配，然后投放推送广告。

以展示类广告为例，用户访问网页的时候，这个时候期望在网页推送广告，从用户访问的请求信息能拿到用户ID、网站地址、广告位置ID等，接着广告系统服务端利用之前收集的用户信息标签（喜好、年龄等），从提前分析构建好的标签-具体广告信息设置key-value索引查出相应的广告，然后排序返回，之后就是监测广告的效果如展示、点击等埋点。

基本的流程和上面搜素引擎流程类似，包含构建索引、召回候选集、排序返回TopK，不同的是广告（展示类）没有关键词限制，因此在构建倒排索引上，更加灵活。

基于标签倒排索引召回

按照标签-广告文档构建倒排索引，如某个广告设置的标签是 “地区：开封”，“年龄：25-30”，“性别：男” 这些，那么key就可以为每个标签项设置一个32为ID，前xxx位表示标签名称（定向类型），后xxx为表示标签具体值，这样上面的三个标签以及值分别对应3个32位的ID，可以用作倒排索引的key。