1.开题
最近在学习基于知识图谱的搜索相关知识,发现两个有趣的问题:
1.1. 搜索罗纳尔多
,不同的搜索引擎给出的知识卡片
不尽相同:
1.1.1 google:
会有一个知识卡片
专门展示google的知识图谱搜索结果。
为什么说这个知识卡片
是google的知识图谱的结果,而不简单是从罗纳尔多
的维基百科
页面进行知识抽取的结果呢?
注意看知识卡片包含两个部分:维基百科
的罗纳尔多
的简介和知识图谱
中的各个属性:生于
、身高
、职业生涯
等。
我们首先看第一部分:维基百科
的罗纳尔多
的简介,从下图罗纳尔多
的维基百科
划线部分可以看到,知识卡片这部分直接将划线部分截取,展示出来了(包括图片)。
其次,看一下第二部分:我们首先看一下生于
这个属性,首先在罗纳尔多
的维基百科
中查找出生日期
,可以看到如下的出生日期
和出生地址
,但是没有现年43岁
这个知识点,所以可以推测这部分是google的知识图谱
给出的结果。
另外,点击生于
,还可以跳转到如下图所示的页面,另一方面也说明这部分是知识图谱
结果。
那么第二个问题是:什么搜索关键词会给出知识图谱
搜索结果呢?
1.名词:人名、地名、机构名…
2.动词:走,运动就没有知识卡片
,但是跑有知识卡片
,不过这个是当作名词使用的话才会有。
1.1.2 百度:
没有知识卡片
,百科结果展示应该是做了一定的处理,使得展示的知识更加类似于谷歌的知识卡片
。
但是这部分完全是从百度百科
中提取出来的知识,没有推理与知识图谱的参与,原本以为生涯:足球(已退役)
这个属性是另外推理出来的,看了一下如下图所示的百度百科
里面的资料
可以看到是两个属性拼凑的:
1.1.3 搜狗
没有知识卡片
,展示作用与百度搜索的结果一致,只是将搜狗百科
结果抽取展示到搜索页。
1.1.4 bing
国内版没有知识图谱
,国际版类似于谷歌使用了知识图谱
。(顺便说一下,国外版知识卡片
结果显示的是C罗
,而google的知识卡片
显示的是老罗纳尔多
,是不是可以说bing国际版有点喜新厌旧233)
1.2 对于问题:罗纳尔多和C罗是一个人吗?
哪个搜索引擎给出的结果准确?
首先需要给出背景知识:两个名称具体所指可以参考:[罗纳尔多和C罗],为了验证这个说法,我特地搜索央视网对两个人的称呼:[罗纳尔多] [C罗]验证了这个说法。
1.2.1 百度
这里圈了两个百度知道的问答,标红显示表明两个都是这个搜索的结果:
第一个百度知道
给的最佳答案
给的是:是一个人
明显是错的,点进去可以看到这个回答竟然是回复中排位第一,虽然128赞,比里边正确的答案335赞少了不少,感觉应该是百度知道
答案排序出了问题。
第二个最佳答案
是:不是一个人
才是我们所需要的答案。
另外,感觉百度搜索引擎应该是根据query
与百度知道
的问题
接近程度给出结果的,将C罗
和罗纳尔多
切换一下:C罗和罗纳尔多是一个人吗?
搜索结果如下图所示:
1.2.2 google “被百度知道坑了”
google 的精选摘要
给出的就是那条错误的百度知道
,而且不论C罗
和罗纳尔多
谁在前面结果都一样:
1.2.3 bing
国际版准确给出正确答案
,而且也是从百度,google搜索第一个的百度知道
同一个问题,区别就在于精选摘要
,google和百度应该是把百度知道
该问题下的第一个回答
做精选摘要
了,而bing国际版应该是做了自己的推理之后做精选摘要
:
国内版没有给出有效信息:
1.2.4 搜狗
给出的来自搜狗问问
的精选摘要
: