【第十五章:Sentosa_DSML社区版-机器学习之关联规则】

目录

15.1 频繁模式增长

15.2 PrefixSpan


【第十五章:Sentosa_DSML社区版-机器学习之关联规则】

        机器学习关联规则是一种用于发现数据集中项之间有趣关系的方法。它基于统计和概率理论,通过分析大量数据来识别项之间的频繁共现模式。

15.1 频繁模式增长 

1.算子介绍

        频繁模式增长算子(FPGrowth)是通过构造频繁模式树的方式,可以通过较少的对数据集的遍历来构造频繁项集或频繁项对,根据输入的数据A,按照关联程度大小,得出与A关联最深的数据集。

2.算子类型

        机器学习/关联规则算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

mode_select

模式选择

必选

String

listMode

[list模式,多条模式]

选择算法模式

items_col

物品列

必选

String

null

单选:输入数据集的所有列

列名

min_confidence

最小置信度

必填

Double

0.8

[0.0,1.0]

生成关联规则的最小置信度

min_support

最小支持级别

必填

Double

0.3

[0.0,1.0]

频繁模式的最小支持级别,任何超出(minSupport *数据集大小)次数的模式都将在频繁项目集中输出

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

        频繁模式增长算子属性设置如图所示

频繁模式增长算子属性设置

频繁模式增长多条模式属性设置示意图

(3)算子的运行

        通过数据源算子读取数据,后续可以接任意个数据处理算子,然后接一个频繁模式增长算子,然后执行运行。

频繁模式增长算子流

执行算子流操作示意图

        算子的运行结果再添加一个图表算子即可执行

频繁模式增长算子运行结果

        如下图可点击查看模型信息

查看模型信息操作示意图

        在模型信息中可以查看该算子的频繁项集

查看频繁项集示意图

15.2 PrefixSpan

1.算子介绍

        PrefixSpan算法的目标是挖掘出满足最小支持度的频繁序列。PrefixSpan算法由于不用产生候选序列,且投影数据库缩小的很快,内存消耗比较稳定,作频繁序列模式挖掘的时候效果很高。PrefixSpan和fp-growth 类似也是基于分治的思想,其基于前缀将原有数据进行投影,并不断地将前缀进行组合并输出满足最小支持度的模式。

2.算子类型

        机器学习/关联规则。

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

minSupport

最小支持级别

用户

输入

Double

0.1

(0,1)

最低支持级别的参数。出现次数超minSupport*数据集size 次的序列模式被识别为频繁序列模式。

maxPatternLength

最大模式长度

单选

Integer

10

[2,100]

序列模式的最大长度。

index

Index列

单选

String

null

DataModel里的Continuous的Column

用来排序的列

Key

Key列

单选

String

null

DataModel里的Categorical的column

类别列

event

事件列

单选

String

null

DataModel里的Categorical的Column

事件列

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        PrefixSpan算子的属性设置如图所示

PrefixSpan属性设置示例

(3)算子的运行

        通过数据源算子读取数据,中间可以接任意个数据处理算子,然后接一个PrefixSpan算子,后可接任意个数据处理算子。如下为使用举例:

        1)通过数据读入算子读取需要处理的数据。

        2)连接一个PrefixSpan算子。

        3)编辑PrefixSpan 算子,key列为类别列,index列为排序列,event列为“事件列”,其他参数可参考默认值设置。

        连接一个表格算子,运行,如图所示

运行PrefixSpan示例

最终评估结果示例

        可得到所有满足支持度要求的频繁序列集和频度


        为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术,推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点,能够与其他数据科学家和机器学习爱好者交流心得,分享经验和解决问题。文章最后附上官网链接,感兴趣工具的可以直接下载使用

Sentosa_DSML社区版

Sentosa_DSML算子流开发视频

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/433300.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据在内存中的存储以及练习(一篇带你清晰搞懂)

一:数据在内存中的存储 首先,如果要了解数据在内存中的存储,我们首先要了解一个概念 大小端是什么? 1:什么是大小端? 其实超过⼀个字节的数据在内存中存储的时候,就有存储顺序的问题&#xff0c…

QT-Qt概述安装Qt创建项目常用基础部件信号和槽

1. Qt概述 Qt 是一个跨平台的 C图形用户界面应用程序的开发框架。 图形用户界面: GUI (Graphical User Interface) 框架:别人写好的一堆类(工具包)和开发规则。使用框架开发,能够大大降低程序的…

新建flask项目,配置入口文件,启动项目

pycharm新建flask项目时,会提供一个创建flask项目的导向,自动设置虚拟环境,并且安装flask及其依赖而vscode新建flask项目时,需要手动设置虚拟环境并安装flask,需要在终端使用pip install flask命令来安装flask及其依赖…

代码随想录 | Day25 | 二叉树:从中序与后序遍历构造二叉树最大二叉树

代码随想录 | Day25 | 二叉树:从中序与后序遍历构造二叉树&&最大二叉树 主要学习内容: 用中序和后序来构建二叉树 106.从中序与后序遍历构造二叉树 106. 从中序与后序遍历序列构造二叉树 - 力扣(LeetCode) 解法思路&a…

828华为云征文|华为云Flexus云服务器X实例之openEuler系统下玩转iSulad容器技术

828华为云征文|华为云Flexus云服务器X实例部署Xnote笔记应用 前言一、Flexus云服务器X实例介绍1.1 Flexus云服务器X实例简介1.2 Flexus云服务器X实例特点1.3 Flexus云服务器X实例使用场景 二、iSulad介绍2.1 iSulad简介2.2 iSulad特点 三、本次实践介绍3.1 本次实践…

亚信安全天穹5分钟勒索体检 免费试用今起上线

对于勒索攻击的认知 你是否还停留在“2.0时代”? 勒索攻击无疑是企业面临的最大威胁,2024年上半年,勒索组织数量同步增长超过50%,勒索攻击数量也持续攀升,平均勒索赎金突破520万美元。 当前,勒索攻击治理…

HTML5实现唐朝服饰网站模板源码

文章目录 1.设计来源1.1 网站首页-界面效果1.2 唐装演变-界面效果1.3 唐装配色-界面效果1.4 唐装花纹-界面效果1.5 唐装文化-界面效果 2.效果和源码2.1 动态效果2.2 源代码 源码下载万套模板,程序开发,在线开发,在线沟通 作者:xcL…

华为HarmonyOS灵活高效的消息推送服务(Push Kit) -- 7 推送卡片刷新消息

场景介绍 如今衣食住行娱乐影音应用占据了大多数人的手机,一部手机可以满足日常大多需求,但对需要经常查看或进行简单操作的应用来说,总需要用户点开应用体验较繁琐。针对此种场景,HarmonyOS提供了Form Kit(卡片开发服…

如何将泰语入门提高到精通呢?

要精通泰语,需要从基础的字母和发音开始学习,并通过积累词汇、频繁练习口语、沉浸在语言环境中来不断提高。参加在线课程或找专业教师进行系统性学习也很有帮助。此外,利用各种教材和在线资源,以及保持持续和一致的学习态度&#…

Spring Boot 学习之路 -- 处理 HTTP 请求

前言 最近因为业务需要,被拉去研究后端的项目,代码框架基于 Spring Boot,对我来说完全小白,需要重新学习研究…出于个人习惯,会以 Blog 文章的方式做一些记录,文章内容基本来源于「 Spring Boot 从入门到精…

电脑上数据丢了怎么找回来 Win系统误删文件如何恢复

无论是在工作中,还是生活中,电脑都是不可缺少的重要工具,尤其是在工作中,电脑不仅可以高效的完成工作,还可以存储工作中的重要资料。不过在使用电脑的时候,也会遇到数据丢失的情况。针对这一问题&#xff0…

Spring Boot 学习之路 -- 基础认知

前言 最近因为业务需要,被拉去研究后端的项目,代码框架基于 Spring Boot,对我来说完全小白,需要重新学习研究…出于个人习惯,会以 Blog 文章的方式做一些记录,文章内容基本来源于「 Spring Boot 从入门到精…

2024最新gewechat开发微信机器人教程说明

简介:本文将指导你如何搭建一个微信机器人,通过接入gewe框架实现智能回复与聊天功能。我们将从基础设置开始,逐步讲解如何配置机器人,并通过实例展示其实际应用。 随着人工智能技术的不断发展,智能机器人已经成为我们…

Hadoop 常用生态组件

Hadoop核心组件 安装 Hadoop 时,通常会自动包含以下几个关键核心组件,特别是如果使用了完整的 Hadoop 发行版(如 Apache Hadoop、Cloudera 或 Hortonworks 等)。这些组件构成了 Hadoop 的核心: 1. HDFS(H…

基于python+django+vue的旅游景点数据分析系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

高密度EEG人脑成像:技术与应用

摘要 EEG是一种非侵入性的人脑神经活动测量技术。随着数字技术的进步,EEG分析已从定性分析幅值和频率调制发展到全面分析记录信号的复杂时空特征。EEG能够在亚秒级的时间范围内测量神经过程,但其空间分辨率较低,这使得难以准确可靠地定位EEG…

批量发送邮件:性能优化与错误处理深度解析

目录 一、批量发送邮件的基础概述 1.1 批量发送邮件的定义 1.2 邮件发送流程 二、性能优化策略 2.1 发送速率控制 2.2 队列管理 2.3 动态IP池管理 2.4 智能调度 三、错误处理机制 3.1 暂时性发送错误处理 3.2 永久性发送错误处理 3.3 邮件反馈收集与分析 四、案例…

搜索引擎onesearch3实现解释和升级到Elasticsearch v8系列(五)-聚合

聚合 聚合基于Query结果的统计,执行过程是搜索的一部分,Onesearch支持0代码构建聚合,聚合目前完全在引擎层 0代码聚合 上图是聚合的配置,包括2个pdm文档聚合统计 termsOfExt term桶聚合,统计ext,如&…

18923 二叉树的直径

### 思路 1. **构建二叉树**: - 使用输入数据构建二叉树。 - 使用一个数组或哈希表来存储每个节点的子节点。 2. **计算直径**: - 使用深度优先搜索(DFS)计算每个节点的深度。 - 计算每个节点的左子树和右子树的深度…

neo4j关系的创建删除 图的删除

关系的创建和删除 关系创建 CREATE (:Person {name:"jack"})-[:LOVE]->(:Person {name:"Rose"})已有这个关系时,merge不起效果 MERGE (:Person {name:"Jack" })-[:LOVE]->(:Person {name:"Rose"})关系兼顾节点和关…