数据挖掘英语及概念

分类 classify 上涨或跌

回归 regression 描述具体数值

分类模型评估

1.混淆(误差)矩阵 confusion matrix

2.ROC曲线 receiver operating characteristic curve 接收者操作特征曲线

3.AUC面积 area under curve ROC曲线下与坐标轴围成的面积,面积越大越好

DBN:深度信念网络 deep belief network

RBM:restricted Boltzman machine 受限玻尔兹曼机

CNN:卷积神经网络 convolution neural network

SAE:稀疏流自编码 Sparse Auto Encoder

算法 algorithm

拟合 fitting

过拟合 overfitting

欠拟合 underfitting

KDD知识发现 knowledge discovery in database

DM data mining

DL deep learning

ML machine learning

强度挖掘 intension Mining

关联规则挖掘association rule mining

FP-tree Frequent Pattern Tree

朴素贝叶斯:假设样本特征彼此独立,没有相关关系。

先验概率prior probability:根据以往经验和分析得到的概率

后验概率 posterior probability:事情已发生,判断事情发生时由哪个原因引起

联合概率joint probability:两个事情共同发生的概率

————————————————

  • 聚类方法 clustering

基于密度的方法:Density-based approach

围绕中心点划分Partitioning Around Medoids (PAM)

基于模型的方法:Model-based approach

AGNES (AGglomerative NESting): 自底向上凝聚算法

DIANA (Divisive ANAlysis) 算法是典型的 分裂聚类方法 。

DBSCAN : Density-Based Spatial Clustering of Applications with Noise,噪声环境下的密度聚类算法

Web内容挖掘(Web Content Mining) : 对站点的Web页面的各类信息进行集成、概化、分类等,挖掘某类信息所蕴含的知识模式。

Web访问信息挖掘(Web Usage Mining) :Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以 发现潜在用户,增强站点的服务竞争力。

Web结构挖掘(Web Structure Mining): Web结构挖掘是对Web页 面之间的链接结构进行挖掘。在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。 对于给定的Web页面集合,通过结构挖掘可以发现页面之间的关联 信息,页面之间的包含、引用或者从属关系等。

信息检索(Information Retrieval,IR)

1. 给出下列英文缩写或短语的中文名称和简单的含义。

(1) Data Mining

数据挖掘。简单地说就是从大型数据中挖掘所需要的知识。

(2) Artificial Intelligence

人工智能。简单地说就是研究如何应用机器来模拟人类某些智能行为的基本理论、方法和技

术的一门科学。

(3) Machine Learning

机器学习。简单地说就是研究如何使用机器来模拟人类学习活动的一门学科。

(4) Knowledge Engineering

知识工程。简单地说就是研究知识信息处理并探讨开发知识系统的技术。

(5) Information Retrieval

信息检索。简单地说就是研究合适的信息组织并根据用户需求快速而准确地查找信息的技

术。通常指的是计算机信息检索,它以计算机技术为手段,完成电子信息的汇集、存储和查

找等的相关技术。

(6) Data Visualization

数据可视化。简单地说就是运用计算机图形学和图像处理等技术,将数据换为图形或图像在

屏幕上显示出来。它是进行人机交互处理、数据解释以及提高系统可用性的重要手段。

2. 给出下列英文缩写或短语的中文名称和简单的含义。

(1) OLTP( On-Line Transaction Processing)

联机事务处理。指在计算机系统中实时处理大量事务的技术。主要应用于处理日常的交易信

息,如银行转账、网上购物等。

(2) OLAP( On-Line Analytic Processing)

联机分析处理。是一种支持数据分析和决策支持系统的技术,通常用于多维数据分析。OLAP

允许用户从不同角度查询和分析数据,用于复杂的报告和数据挖掘

(3) Decision Support

决策支持。是指为帮助管理人员作出决策而提供的信息、数据分析工具和系统的综合过程。

它包括数据收集、处理和分析,支持业务决策。

(4) KDD( Knowledge Discovery in Databases)

数据库中的知识发现。是指从大量数据中自动或半自动地提取出有用的模式或知识的过程。

它结合了数据挖掘、统计分析和人工智能等技术。

(5) Transaction Database

事务数据库。是指用于存储事务性数据的数据库,通常用于支持事务处理系统。数据包括用

户的交易记录、账户操作等,数据库需要保证数据一致性和可靠性。(6) Distributed Database

分布式数据库。是指数据存储在不同位置的数据库系统,可以跨越多个计算机或地点进行管

理和访问。分布式数据库系统能够提高系统的可靠性、可扩展性和性能。

1. 简单地描述下列英文缩写或短语的含义。

(1) Parallel Association Rule Mining

并行关联规则挖掘。它是指利用并行处理技术、使用并行挖掘算法或在并行计算的环境下

完成数据的高效挖掘工作。

(2) Quantities Association Rule Mining

数量关联规则挖掘。它是指对含有诸如工资、价钱等非离散的数值属性的数据进行挖掘

的技术。数量关联规则挖掘需要解决连续属性的离散化等问题,有更广泛的商业应用。

(3) Frequent Itemset

频繁项目集。它是指出现频率高的项目对应的集合,反映交易数据中项目出现的频度信

息。挖掘频繁项目集是关联规则挖掘的基础,许多关联规则挖掘方法是基于频繁项目集发

现的。

(4) Maximal Frequent Itemset

最大频繁项目集。它是指在频繁项目集中不出现相互包含的项目子集。最大频繁项目集

可以使用最少的信息来保证频度信息的不丢失。

(5) Closed Itemset

关闭(或闭合)项目集。简单地说,对于一个关闭项目集的任何元素,要么不被任何元素所

包含,要么只被小于它的支持度的元素所包含。

2. 解释下列概念

(1) 多层次关联规则

Multilevel Association Rules 关注不同抽象层次的规则

(2) 多维关联规则

Multidimensional Association Rules 关注多个维度(如时间、地点等)之间的规则

(3) 事务数据库

Transactional Database 记录各种交易或事件的数据库

(4) 购物篮分析

Market Basket Analysis 分析商品购买之间的关联

(5)强关联规则

Strong Association Rules 具有高支持度、置信度和提升度的有用规则

1. 简单地描述下列英文缩写或短语的含义。

(1) Data Classification

数据分类。用分类模型(也常常称为分类器)把数据库中的数据项映射到给定类别中的某一个

类别。

(2) k-Nearest Neighbors

k-最邻近方法。它是一种基于距离的分类算法。

(3) Decision Tree

决策树。决策树是一种类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试,

每个分支代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。

决策树表示方法是分类中应用最广泛的方法之一。

(4) Entropy

熵。在信息论中,熵是一种信息度量单位。在决策树构造算法中根据熵值来计算信息增益。

(5) Posterior Probability

后验概率。后验概率又被称为条件概率,是在已知结果发生的情况下,求导致结果的某种原

因的可能性的大小

1. 简单地描述下列英文缩写或短语的含义。

(1) Partitioning Method

划分法。它将数据划分为k个组,同时满足如下的要求:每个组至少包含一个对象;每个对

象必须属于且只属于一个组。

(2) Hierarchical Method

层次法。它是对给定数据对象集合进行层次的分解。其基本思想是将模式样本按距离准则逐

步聚类,直到满足分类要求为止。根据层次的分解如何形成,层次的方法又可以分为凝聚的

和分裂的。

(3) Density-based Method

基于密度的方法。它将具有相同密度域的连通区域作为一簇。因此,它需要扫描整个数据集,

将数据空间划分为不同的小方格,并使用小方格的并集来近似表示簇。

(4) Grid-based Method

基于网格的方法。这种方法首先将数据空间划分成为有限个单元( Cell)的网格结构,所有

的处理都是以单个单元为对象的。这样处理的一个突出优点是处理速度快,通常与目标数据

库中记录的个数无关,只与把数据空间分为多少个单元有关。

2. 简单地描述下列英文缩写或短语的含义。

(I) PAM

PAM (Partitioning Around Medoids)

含义:PAM是一种聚类算法,类似于K-means,但它通过选择实际的样本点作为中心(称为

“medoids”)来进行聚类,而不是计算均值(如K-means)。PAM的目标是将数据集分成K个簇,

使得每个簇中的所有数据点与簇中心的距离最小化。

(2) STING

STING (Statistical Information Grid)

含义:STING是一种用于空间数据挖掘的聚类算法,特别适用于处理地理信息系统(GIS)或

空间数据集。该算法通过将空间区域划分成多个网格,并在网格内进行统计信息计算,从而

快速识别数据的聚类结构。STING采用自底向上的方式,结合空间和统计信息进行聚类。

(3) DBSCAN

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

含义:DBSCAN是一种基于密度的聚类算法,它通过密度来定义簇。该算法的核心思想是:密

集区域内的点属于同一簇,而稀疏区域的点则被视为噪声或离群点。DBSCAN不需要预先指定

簇的数量,而是根据数据的密度自动发现簇的结构。DBSCAN需要两个参数:ε(半径阈值)

和MinPts(密度阈值,即簇的最小点数)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/475086.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GOLANG+VUE后台管理系统

1.截图 2.后端工程截图 3.前端工程截图

go-zero(三) 数据库操作

go-zero 数据库操作 在本篇文章中,我们将实现一个用户注册和登录的服务。我们将为此构建一个简单而高效的 API,包括请求参数和响应参数的定义。 一、Mysql连接 1. 创建数据库和表 在 MySQL 中创建名为 test_zero的数据库,并创建user 表 …

MFC图形函数学习09——画多边形函数

这里所说的多边形是指在同一平面中由多条边构成的封闭图形,强调封闭二字,否则无法进行颜色填充,多边形包括凸多边形和凹多边形。 一、绘制多边形函数 原型:BOOL Polygon(LPPOINT lpPoints,int nCount); 参数&#x…

【算法】回文数索引、回文子串输出、整数反转

目录 回文数索引 思路: 回文子串输出 思路 回文数索引 思路: 目标字母索引可能是一个或者是两个,返回任意的一个索引即可,如果已经是回文串则直接返回-1。 下面列出几种目标删除字母可能出现的位置: 我们可以先定…

MAC创建一个自动操作,启动系统【睡眠】功能,并将绑定快捷键

目的 通过 Automator 创建一个服务来启动系统【睡眠】这个功能,并绑定快捷键。 步骤一:创建 Automator 服务 打开 Automator: ○ 在 Spotlight 中搜索 Automator,然后打开。选择服务类型: ○ 在 Automator 的启动界…

ThinkPHP6门面(Facade)

门面 门面(Facade) 门面为容器中的(动态)类提供了一个静态调用接口,相比于传统的静态方法调用, 带来了更好的可测试性和扩展性,你可以为任何的非静态类库定义一个facade类。 系统已经为大部分…

1436:数列分段II -整型二分

1436&#xff1a;数列分段II 题目来源&#xff1a;一本通 【输入样例】 5 3 4 2 4 5 1【输出样例】 6题意 将数列分成若干段&#xff0c;最多M段&#xff0c;求这些段中最大值中的最小值。&#xff08;M<N是M的约束&#xff09; 思路 最大最小问题考虑二分。由于M越大&…

Linux-第1集-基础指令 pwd、cd……入门

欢迎来到Linux操作系统的世界&#xff0c;本集我会用最简单的语言给大家讲解最基础的指令。 首先我们要明确Linux是通过指令完成相应的操作&#xff0c; 由于Linux的用户都是行内人&#xff0c;所有我们在学习此操作系统时看到的都是指令界面&#xff0c;而非像Windows操作系…

Golang | Leetcode Golang题解之第564题寻找最近的回文数

题目&#xff1a; 题解&#xff1a; func nearestPalindromic(n string) string {m : len(n)candidates : []int{int(math.Pow10(m-1)) - 1, int(math.Pow10(m)) 1}selfPrefix, _ : strconv.Atoi(n[:(m1)/2])for _, x : range []int{selfPrefix - 1, selfPrefix, selfPrefix …

【最新鸿蒙应用开发】——合理使用自定义弹框

自定义弹窗选型 合理选择不同的系统能力实现弹窗&#xff0c;有利于提升应用开发效率&#xff0c;实现更好的功能需求&#xff0c;因此了解自定义弹窗的选型和差异非常重要。在应用开发中&#xff0c;为了选择出合适的弹窗选型&#xff0c;从使用场景上&#xff0c;需要重点关…

044 商品详情(异步编排)

文章目录 销售属性分组规格参数异步编排application.ymlMyThreadConfig.javaThreadPoolConfigProperties.javaSkuInfoServiceImpl.java 销售属性 sku表&#xff1a;tb_sku_info sku对应销售属性表&#xff1a;tb_sku_sale_attr_value 结果 在详情页系统中&#xff0c;切换属…

【热门主题】000054 ECMAScript:现代 Web 开发的核心语言

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 【热…

进程优先级——Linux

目录 前言 查看系统进程 进程优先级的修改 Linux调度与切换 Cpu的进程切换 Linux实现调度的算法 前言 进程访问系统资源要排队等待&#xff0c;而cpu资源分配和执行的先后顺序&#xff0c;就是指进程的优先级。进程的优先级&#xff0c;保证了必要进程的执行。进程访问某…

11.18 Maven-SpringBootWeb入门

Maven 什么是maven? Maven是apache旗下的一个开源项目&#xff0c;是一款用于管理和构建java项目的工具。 Apache 软件基金会&#xff0c;成立于1999年7月&#xff0c;是目前世界上最大的最受欢迎的开源软件基金会&#xff0c;也是一个专门为支持开源项目而生的非盈利性组织…

selenium元素定位校验以及遇到的元素操作问题记录

页面元素定位方法及校验 使用比较多的是通过id、class和xpath来对元素进行定位。在定位前可以现在浏览器验证是否可以找到指定的元素。这样就不用每添加一个元素定位都运行代码来检查定位方式表达式是否正确。 使用XPATH定位 在浏览器F12&#xff0c;找到元素&#xff0c;在元…

【UGUI】Unity 背包系统实现02:道具信息提示与显示

在游戏开发中&#xff0c;背包系统是一个常见的功能模块&#xff0c;用于管理玩家拾取的物品。本文将详细介绍如何在 Unity 中实现一个简单的背包系统&#xff0c;包括道具信息的提示和显示功能。我们将通过代码和场景搭建来逐步实现这一功能。 1. 功能需求清单 在实现背包系…

服务器上部署并启动 Go 语言框架 **GoZero** 的项目

要在服务器上部署并启动 Go 语言框架 **GoZero** 的项目&#xff0c;下面是一步步的操作指南&#xff1a; ### 1. 安装 Go 语言环境 首先&#xff0c;确保你的服务器上已安装 Go 语言。如果还没有安装&#xff0c;可以通过以下步骤进行安装&#xff1a; #### 1.1 安装 Go 语…

Node.js | Yarn下载安装与环境配置

一、安装Node.js Yarn 是 Node.js 下的包管理工具&#xff0c;因此想要使用 Yarn 就必须先下载 Node.js。 推荐参考&#xff1a;Node.js | npm下载安装及环境配置教程 二、Yarn安装 打开cmd&#xff0c;输入以下命令&#xff1a; npm install -g yarn检查是否安装成功&…

【Linux实践2】实验四:存储管理

文章目录 一、存储管理的目的1.1 内存空间的分配与回收1.2 地址转换1.3 内存保护1.4 内存共享1.5 内存扩充 二、可变分区存储管理2.1 分区结构体定义2.2 初始化分区链表 三、内存分配算法实现3.1 首次适应算法&#xff08;First Fit&#xff09;3.1.1 算法实现 3.2 循环首次适应…

linux 中mysql查看慢日志

1、到mysql容器&#xff0c;先登录到数据库&#xff0c;查看是否开启 mysql -h 127.0.0.1 -uroot -p SHOW VARIABLES LIKE slow_query_log; 2、如果没有开启&#xff0c;需要先开启 set global slow_query_log ON; 3、查看慢日志文件 SHOW VARIABLES LIKE slow_query_log…