COMP 6714-Info Retrieval and Web Search笔记week2

在这里插入图片描述
tokenizer:分词器
右半部分:倒排索引
Westlaw
AND(&): 要搜索必须同时出现在文档中的两个或多个词语,请使用 AND(&)。例如,输入 narcotics & warrant,即可检索包含这两个词语的文档。请注意,当你使用 & 连接符时,这些词语可能会出现在文档的不同页面上。
OR(OR): 要搜索替代词语,请使用 OR 连接符,它用空格表示。例如,输入 attorney lawyer counsel,即可检索包含至少一个这些词语的文档。
词根扩展符 ROOT EXPENDER(!):要搜索具有多个词尾的单词,请在词根后使用词根扩展符(!)。例如,输入 object!,即可检索“object”、“objected”、“objection”和“objecting”。
通配符UNIVERSAL CHARACTER(*):要搜索包含可变字符的单词,请使用通配符()。例如,输入 withdrw,即可检索“withdraw”和“withdrew”
精确搜索SEARCH EXACTLY AS TYPED(#) 要完全按照你输入的形式搜索单词,请在单词前使用井号(#)。例如,输入 #damage,即可检索“damage”,而不会检索“damages”。井号会关闭复数形式和等效词(equivalents)的匹配。
短语搜索(“ ”):要搜索一个短语,请使用引号(“ ”)。例如,输入 “res ipsa loquitur”,即可检索该短语。引号表示精确匹配,搜索引擎或查询系统会按照完全相同的顺序来匹配这些词,且不允许在它们之间插入其他词。如果你搜索没有引号的关键词,搜索引擎可能会返回包含这些关键词的所有文档,而不管它们是否是连续出现的

/p:搜索词必须出现在同一段落中
+p:第一个搜索词位于第二个搜索词之前
/s:搜索词必须出现在同一句话中。例如,design /s defect
+s:第一个搜索词必须位于第二个词之前,且两者出现在同一句话中。例如,attorney +s fee

/n:搜索词必须在彼此相隔 n 个词以内,不区分先后顺序,其中 n 是 1 到 255 之间的数字。例如,personal /3 jurisdiction
+n:第一个搜索词必须在 n 个词之内出现在第二个词之前,其中 n 是 1 到 255 之间的数字。例如,capital +3 gain。
排除连接符(%):你可以使用排除连接符(%)在搜索末尾排除包含某些词的文档。Westlaw 会排除搜索中 % 之后的所有词。例如,查询 tax taxation /s income % investment 会检索包含 tax 或 taxation 且与 income 在同一句话中的文档,但排除其中包含 investment 的文档
Westlaw 按以下顺序处理查询中的连接符:

“ ”、空格(OR)、+n、/n、+s、/s、+p、/p、&、%

作业
1.跳表指针(skip pointer)对哪些查询有用?
A. x OR (NOT y)
B. x AND y
C. x AND (NOT y)
D. x OR y
E. NOT x
答:B、C,跳表指针常用于加速合并倒排列表的过程
2.stemming词干提取
减少词汇的大小(size of vocabulary)
提高召回率(recall):因为考虑了不同的单词形式,从而检索到更多相关文档
降低精确率(precision):可能导致检索到一些不相关的文档,这些文档包含了词干相同但语义不同的词,如"run"和"runner"可能会被不恰当的归为同一类
词干提取在索引(indexing time)和查询(processing a query)时都进行,以确保查询中的词项于索引中的词项一致
7. Query (microsoft & google)(microsoft & amazon)
grep命令详解

grep -Ei '(microsoft.*google|microsoft.*amazon)' *
(grep -i 'microsoft' * | grep -i 'google') || (grep -i 'microsoft' * | grep -i 'amazon')

8.microsoft +5 revenue earning

grep -Eio 'microsoft([^ ]+ ){1,5}(revenue|earning)' *

9.“App Store” iOS android /10 mobile game

grep -E -i 'App Store' * | perl -nle 'print if /iOS|android/ && /(?:\b\w+\b\s*){0,10}(mobile|game)/i'

10.(game +8 streaming)(microsoft /s license)
不行了搞不出来了,感觉还是复制到word高级查找吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/436233.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

net core mvc 数据绑定 《2》 bind fromquery,FromRoute,fromform等,自定义模型绑定器

mvc core 模型绑定 控制绑定名称 》》》Bind 属性可以用来指定 模型应该 绑定的前缀 public class MyController : Controller {[HttpPost]public ActionResult Create([Bind(Prefix "MyModel")] Ilist<MyModel> model){// 模型绑定将尝试从请求的表单数据中…

(二)大模型调用

一、基本概念 1.1、Prompt 大模型的所有输入&#xff0c;即&#xff0c;我们每一次访问大模型的输入为一个 Prompt&#xff0c; 而大模型给我们的返回结果则被称为 Completion。 1.2、Temperature LLM 生成是具有随机性的&#xff0c;在模型的顶层通过选取不同预测概率的预测结…

白内障分类数据集 3.4G

用于白内障检测的白内障和正常眼睛图像分类数据集。 名称 白内障分类数据集 规模 数据量&#xff1a;3.4GB图像数量&#xff1a;未明确提供&#xff0c;但通常这类数据集包含数千张图像。 类别 正常眼&#xff1a;无白内障的眼睛早期白内障&#xff1a;轻度白内障的眼睛中…

DC00024基于ssm实验室预约管理系统java web项目web教师预约jsp预约管理系统

1、项目功能演示 DC00024基于web实验室预约管理系统ssm教室预约实验室预约管理系统java web项目MySQL 2、项目功能描述 基于ssm实验室预约管理系统分为用户和系统管理员两个角色。 2.1 系统管理员 1、系统登录 2、用户管理&#xff1a;修改个人信息、修改个人密码、教师管理…

MySql Explain优化命令使用

MySql Explain优化命令使用 truncate table student // 自增id 从 0 开始 delete from student // 自增id 会保留 &#xff0c; 108 区别&#xff1a; 1&#xff1a;自增id 2&#xff1a;delete 可以恢复 truncate 无法恢复 前言 EXPLAIN 是一个用于获取 SQL 语句执行计划的…

nacos client 本地缓存问题

问题&#xff1a; nacos 更新了配置文件&#xff0c;更新了以后重新启动还是旧的配置信息。 NACOS版本&#xff1a; 1.1.4 解决&#xff1a; 配置缓存 Nacos Client 会将从 Nacos 服务器获取的配置信息缓存在本地。这样&#xff0c;即使 Nacos 服务器不可用&#xff0c;客…

Spring IoC笔记

目录 1.什么是 IoC&#xff1f; 2.IoC类注解&#xff08;五大注解&#xff09; 2.1那为什么要这么多类注解&#xff1f; 2.2五大注解是不是可以混用&#xff1f; 2.3程序被spring管理的条件是&#xff1f; 3.bean对象 3.1Bean 命名约定 3.2获取bean对象 4.⽅法注解 B…

汽车总线之----J1939总线

instruction SAE J1939 是由美国汽车工程协会制定的一种总线通信协议标准&#xff0c;广泛应用于商用车&#xff0c;船舶&#xff0c;农林机械领域中&#xff0c;J1939协议是基于CAN的高层协议&#xff0c;我们来看一下两者之间的关系。在J1939 中&#xff0c;物理层和数据链路…

如何在iPad上用Chrome实现无痕浏览

在数字化时代&#xff0c;隐私保护已成为我们日常生活中不可忽视的一部分。特别是在使用移动设备浏览网页时&#xff0c;如何确保个人信息的安全显得尤为重要。本文将详细介绍如何在iPad上使用Chrome浏览器实现无痕浏览&#xff0c;以保护您的在线隐私。 &#xff08;本文由ht…

electron教程(三)窗口设置

在main.js文件中&#xff0c;创建窗口时会设置窗口的大小&#xff0c;其实还有很多其他属性&#xff0c;可以根据实际需求选择设置&#xff0c;但部分属性存在局限性&#xff0c;官网也有明确告知&#xff1a;自定义窗口 | Electron (electronjs.org) 项目文件目录如下&#x…

VisualGLM-6B——原理与部署

VisualGLM-6B技术原理介绍 VisualGLM-6B 是一种多模态预训练模型&#xff0c;它旨在将视觉和语言模型进行结合&#xff0c;使得语言模型能够理解图像信息并与文本对话无缝结合。为了更好地理解 VisualGLM-6B 的内容&#xff0c;我们可以从以下几个方面来解析它的原理、结构、训…

内存占用估算方法

优质博文&#xff1a;IT-BLOG-CN 通过掌握每种数据类型的大小&#xff0c;就可以更准确地预测对象和数据的内存消耗。 一、基础数据类型 Java基础数据类型结构&#xff0c;在64位系统开启指针压缩情况下的内存占用字节数&#xff1a; booleanbytecharshortintlongfloatdoub…

linux下sudo执行的程序会有一个额外的进程的问题

当我们执行一个可执行文件时&#xff0c;有可能需要一些更高的权限&#xff0c;为此我们会用sudo ./test的方法执行&#xff0c;这时候我们通过ps aux | grep ./test去查看进程&#xff0c;会发现多出来一个 sudo ./test 的进程&#xff0c;该进程被杀死后&#xff0c;发现目标…

等保测评:企业数字安全的坚实盾牌

1.1 企业数字化转型的浪潮 在当今时代&#xff0c;企业数字化转型的浪潮正以前所未有的速度席卷全球&#xff0c;据IDC预测&#xff0c;到2023年&#xff0c;全球数字化转型支出将达到惊人的2.3万亿美元。这一趋势不仅重塑了企业的运营模式&#xff0c;更对企业的信息安全提出…

Mac通过ssh连接工具远程登录服务器( Royal TSX安装及使用)

一、Royal TSX软件下载地址 Royal Apps 二、Royal TSX 汉化 汉化包地址&#xff1a;GitCode - 全球开发者的开源社区,开源代码托管平台 三、基础配置 Royal TSX 是一款基于插件的应用&#xff0c;刚安装时还不具备使用条件&#xff0c;需要进行一些基础配置 1 安装基础插件…

【鸿蒙开发】05 登录Demo解析

文章目录 一、功能介绍 在鸿蒙开发中&#xff0c;一个完善的登录功能是许多应用程序的基础需求。本文将详细介绍一个鸿蒙 App 登录 Demo&#xff0c;包括其功能介绍、代码解析以及代码 demo 的下载地址。 本文初始代码从华为开发者网站下载&#xff0c;根据该Demo进行内容调整。…

无人机之数据提取篇

一、无人机平台与传感器 无人机是进行数据采集的基础设施&#xff0c;其稳定性、可靠性、灵活性和负载能力直接影响到数据采集的效果。根据实际需求&#xff0c;需选择适合的无人机类型&#xff0c;如固定翼无人机适合大范围、长时间的数据采集&#xff0c;而多旋翼无人机则更适…

windows系统下Telnet工具的安装步骤

通过控制面板启用Telnet客户端 点击“确定”按钮&#xff0c;按照系统提示完成安装。 打开cmd&#xff0c;输入telnet就可以了

影刀RPA实战:Excel拆分与合并工作表

1.影刀操作excel的优势 Excel&#xff0c;大家都不陌生&#xff0c;它是微软公司推出的一款电子表格软件&#xff0c;它是 Microsoft Office 套件的一部分。Excel 以其强大的数据处理、分析和可视化功能而闻名&#xff0c;广泛应用于商业、教育、科研等领域。可以说&#xff0…

基于Apache和Tomcat的负载均衡实验报告

说明&#xff1a;本实验为浙江科技大学软件工程本科专业课程《软件体系结构》的实验报告。 五、总结 负载均衡的基础是集群&#xff0c;集群就是一组连在一起的计算机&#xff0c;从外部看它是一个系统&#xff0c;各节点可以是不同的操作系统或不同的硬件构成的计算机。负载…