信息检索与数据挖掘 |(一)介绍

文章目录

  • 📚信息检索
    • 🐇概念
    • 🐇结构化与非结构化数据
    • 🐇信息检索的基本假设
    • 🐇信息检索小结
    • 🐇附:IR新课题
  • 📚数据挖掘
    • 🐇定义
    • 🐇数据挖掘 vs 机器学习

📚信息检索

🐇概念

  • 信息检索是从大型集合(通常存储在计算机上)中寻找非结构化(通常是文本)的材料(通常是文档),以满足信息需求。在这里插入图片描述

🐇结构化与非结构化数据

  • 结构化数据倾向于引用“表格”中的信息,通常允许数值范围和精确匹配查询。
    在这里插入图片描述
  • 非结构化数据通常引用自由文本,允许关键字查询(包括操作符)以及更复杂的“概念”查询。它是文本文档检索的经典模型。
  • 结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。
  • 非结构化数据是相对于结构化数据而言的,不方便用数据库二维逻辑表来表现的数据。

🐇信息检索的基本假设

  • 集合:一组文档(假设它目前是静态集合)。
  • 目标:检索与用户信息需求相关的文档,并帮助用户完成任务。
  • 经典搜索模型
    在这里插入图片描述

🐇信息检索小结

在这里插入图片描述


🐇附:IR新课题

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述在这里插入图片描述

📚数据挖掘

🐇定义

在这里插入图片描述

🐇数据挖掘 vs 机器学习

  • AI说:
    • 数据挖掘和机器学习都是处理大数据的方法,它们之间的区别在于目的和方法。
    • 数据挖掘旨在寻找数据中的模式、规律和关系,以从中提取有价值的信息。数据挖掘的方法是使用各种技术和算法,例如聚类、分类、关联规则挖掘等。
    • 机器学习则是一种人工智能技术,在某种程度上可以看做是数据挖掘的一种扩展。机器学习旨在让计算机根据数据自主学习,建立模型,从而预测、分类或识别未来的数据。机器学习的方法包括监督学习、无监督学习和半监督学习等。

  • 数据挖掘是用来理解事物的。

  • 机器学习是用来预测事物的。
    在这里插入图片描述

  • 人工智能是用来生成行动的。


  • Data contains value and knowledge.
  • Data mining around us.

🔥分类
在这里插入图片描述
在这里插入图片描述


在这里插入图片描述
🔥聚类
在这里插入图片描述🔥降维
在这里插入图片描述

  • PCA主成分分析
  • 降维:LDA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/123585.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法训练营day42|动态规划 part04:0-1背包 (01背包问题基础(两种解决方案)、LeetCode 416.分割等和子集)

文章目录 01背包----二维dp数组01背包----滚动数组416.分割等和子集思路分析背包解法思考总结 有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i],得到的价值是value[i] 。每件物品只能用一次,求解将哪些物品装入背包里物品价值总和最…

2.4.3 【MySQL】设置系统变量

2.4.3.1 通过启动选项设置 大部分的系统变量都可以通过启动服务器时传送启动选项的方式来进行设置。如何填写启动选项就是下面两种方式: 通过命令行添加启动选项。 在启动服务器程序时用这个命令: mysqld --default-storage-engineMyISAM --max-conn…

DNS解析

1.DNS介绍 DNS 表示域名系统。此系统实质上是用于整理和识别各个域名的网络电话簿。电话簿将“Acme Pizza”之类的名称转换为要拨打的正确电话号码,而 DNS 将“www.google.com”之类的网络地址转换为托管该网站的计算机的物理 IP 地址,如“74.125.19.147…

最新暴力破解漏洞技术详解

暴力破解漏洞简介 暴力破解漏洞的产生是由于服务器端没有做限制,导致攻击者可以通过暴力的手段破解所需信息,如用户名、密码、短信验证码等。暴力破解的关键在于字典的大小及字典是否具有针对性,如登录时,需要输入4位数字的短信验…

CentOS 安装 Docker

注意:下文的命令使用的是 root 用户登录执行,不是 root 的话所有命令前面要加 sudo。 在安装 docker 之前,先说一下配置,我这里是 Centos7 Linux 内核:官方建议 3.10 以上,3.8 以上貌似也可以。 本文目录 1…

链动2+1天天秒商城商业模式

链动21天天秒商城商业模式 在当今市场,一种名为链动21天天的秒杀商城商业模式正在引发广泛关注。这种创新的商业模式具有快速拓展市场的强大能力,让许多用户和商家都感到非常惊讶。那么,这种模式究竟是什么,它又为何具有如此大的…

leetcode:268. 丢失的数字(python3解法)

难度:简单 给定一个包含 [0, n] 中 n 个数的数组 nums ,找出 [0, n] 这个范围内没有出现在数组中的那个数。 示例 1: 输入:nums [3,0,1] 输出:2 解释:n 3,因为有 3 个数字,所以所有…

TiDB Serverless Branching:通过数据库分支简化应用开发流程

2023 年 7 月 10 日,TiDB Serverless 正式商用。这是一个完全托管的数据库服务平台(DBaaS),提供灵活的集群配置和基于用量的付费模式。紧随其后,TiDB Serverless Branching 的测试版也发布了。 TiDB Serverless Branc…

导出Excel的技术分享-综合篇

导出Excel的技术分享-综合篇 简单的EasyExcel使用 /*** 最简单的写*/public void simpleWrite() {// 注意 simpleWrite在数据量不大的情况下可以使用(5000以内,具体也要看实际情况),数据量大参照 重复多次写入// 写法1 JDK8// s…

Excel文件损坏打不开怎么办?可用这三招解决!

当你的excel文件不可读,或者出现提示“文件已经被损坏,无法打开”,这种情况让人措手不及。而且还会给我们正常的工作带来很多麻烦,文件损坏打不开怎么办?来看看这3招,详细的图文教程,小白也能轻…

2022年09月 C/C++(七级)真题解析#中国电子学会#全国青少年软件编程等级考试

C/C++编程(1~8级)全部真题・点这里 第1题:二叉树的深度 给定一棵二叉树,求该二叉树的深度 二叉树深度定义:从根结点到叶结点依次经过的结点(含根、叶结点)形成树的一条路径,最长路径的节点个数为树的深度 时间限制:1000 内存限制:65535 输入 第一行是一个整数n,表示…

基于vue-cli创建后台管理系统前端页面——element-ui,axios,跨域配置,布局初步,导航栏

目录 引出安装npm install安装element-ui安装axios 进行配置main.js中引入添加jwt前端跨域配置 进行初始布局HomeView.vueApp.vue 新增页面和引入home页面导航栏总结 引出 1.vue-cli创建前端工程,安装element-ui,axios和配置; 2.前端跨域的配…

HTTP介绍:一文了解什么是HTTP

目录 什么是HTTP协议 HTTP的工作流程 HTTP请求报文 HTTP响应报文 HTTP状态码 HTTP基于TCP协议的优点 持久连接与非持久连接: 详谈无状态与状态管理: 总结 HTTP协议(Hypertext Transfer Protocol)是互联网上应用最为广泛的…

CS420 课程笔记 P6 - 游戏逆向中的虚拟内存

文章目录 IntroVirtual memoryExample!Static example Intro 在上个视频中,我们知道有些地址在你重进游戏时就会无效,有的有时有效,我们需要了解称为虚拟内存的东西 记住这些信息:当你双击打开 Squally.exe 游戏时,系…

RabbitMQ:work结构

> 只需要在消费者端,添加Qos能力以及更改为手动ack即可让消费者,根据自己的能力去消费指定的消息,而不是默认情况下由RabbitMQ平均分配了,生产者不变,正常发布消息到默认的exchange > 消费者指定Qoa和手动ack …

前端面试0906

// 请给出输出结果 function foo(){ console.log(a); } function bar(){ var a 3; console.log(this.a); foo(); } var a 2; bar(); 2 2 // 请从下面的问题中挑选3道进行回答 1. 防抖和节流分别是什么,一般用在什么场景? 防抖(Debounc…

富士康曲线救国,iPhone 15 Pro订单较上代有减少,iPhone 15增加

据外媒报道,苹果将于9月13日凌晨举行的秋季新品发布会上推出iPhone 15系列智能手机。然而,令人惊讶的是,这款备受期待的手机在8月份就已开始批量生产,以确保上市初期供应充足。 随着iPhone 15系列发布时间的临近,越来越…

ArcGIS Engine10.2 Setup 报错

00 问题重述 当我尝试安装ArcGIS Engine时弹出错误:ArcGIs 10,2 Engine cannot be installed on your machine.ArcGIs 10,2 Engine requires Microsoft ,NET Framework 3.5sp1, Which has not been found on your system, If you want to download and install Mic…

如何实现的手机实景自动直播,都有哪些功能呢?

手机实景自动直播最近真的太火了,全程只需要一部手机,就能完成24小时直播带货,不需要真人出镜,不需要场地,不需要搭建直播间,只需要一部手机就可以了。真人语音讲解,真人智能回复,实…

论文阅读_扩散模型_DDPM

英文名称: Denoising Diffusion Probabilistic Models 中文名称: 去噪扩散概率模型 论文地址: http://arxiv.org/abs/2006.11239 代码地址1: https://github.com/hojonathanho/diffusion (论文对应代码 tensorflow) 代码地址2: https://github.com/AUTOM…