数据挖掘及其近年来研究热点介绍

🎀个人主页: https://zhangxiaoshu.blog.csdn.net
📢欢迎大家:关注🔍+点赞👍+评论📝+收藏⭐️,如有错误敬请指正!
💕未来很长,值得我们全力奔赴更美好的生活!

前言

数据挖掘技术通过从数据中提取有价值的信息和知识,帮助人们更好地理解和利用数据,例如发现隐藏在数据背后的模式和规律、提供决策支持和预测能力、优化业务流程和资源利用、改进产品和服务质量以及识别欺诈和风险等,推动了现代社会的发展和进步,对于企业、政府、科研机构等各个领域都具有重要的意义。本文对数据挖掘技术的应用和挑战以及近年来研究热点进行简单介绍。


文章目录

  • 前言
  • 一、数据挖掘的介绍
  • 二、文献调研
    • 1. 数据挖掘近年来研究热点总结
    • 2.KDD、PAKDD近年来会议论文数据
  • 总结


一、数据挖掘的介绍

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等[1]。
在这里插入图片描述

近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想:①来自统计学的抽样、估计和假设检验;②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

二、文献调研

1. 数据挖掘近年来研究热点总结

近些年来,数据挖掘技术渗透到了生活的方方面面,本文在查阅了大量的资料和文献基础上,对于数据挖掘技术近些年来的热点研究方向和应用进行简单阐述。

多模态广告融合推荐算法研究;推荐系统的物品侧一般会有图像、声音、文本等多种模态的信息,这些信息可以从多个方面刻画物品。如何去表征这些多模态的信息,并且将这些信息融入到推荐模型中,尤其是融入到当前的用户兴趣模型中,去动态地识别图像和文本中最影响用户兴趣的部分,是我们面临的一大挑战。

融合多场景的推荐系统研究;微信中存在不同的推荐场景,基于用户兴趣、社交等不同维度,满足用户多方面的信息获取需求,通过充分利用不同场景和业务的数据,可以进行推荐系统的多场景多任务联合优化。

基于知识图谱的兴趣推理及其在推荐系统中的应用;推荐系统中,往往基于用户-物品的交互来进行推荐。知识图谱中蕴含的结构化知识可以辅助推荐系统的可解释性,并扩展推荐系统的多样性。现有的知识图谱辅助推荐的方法,多考虑建模物品之间的实体与关系,而较少考虑刻画兴趣点之间的复杂关系及其演化。基于知识图谱的兴趣推理与扩展技术,通过弱监督学习、知识图谱结构挖掘、常识推理、强化学习等技术,习得基于用户-物品交互背后的显示兴趣表示,生成可解释的兴趣扩展路径。

患者疾病模型和行为预测;由于新冠疫情的爆发,线上线下结合的治疗方式越来越受到重视,也产生了一系列相关的研究课题,包括并不限于:挖掘患者相关的医疗数据,进行疾病预测以及对应的疾病阶段预测;患者用药脱落风险预测,提高患者依从性;患者治疗后院外风险预测,是否会有并发症,抑郁等情况出现。研究这些课题,设计到医学数据挖掘,结合医学知识图谱和行为数据的预测模型、超长时间预测模型、少样本学习、医学预训练模型等技术。

医疗数据的主动学习/半监督学习;不同于自然图像,医疗图像(如 CT、MRI)往往为 3D 数据,存在标注难度大、标注信息难以获取、标注成本高昂等问题。我们希望通过主动学习从未标注数据中挑选“更有训练价值的”样本,并进一步通过半监督算法,在降低标注成本的前提下,使深度学习在医疗图像相关任务上取得更好的效果。

交通大数据分析;基于交通大数据,研究城市时空动态预测、网络空间分析、空间决策优化、大数据可视化的理论方法和技术,并在实际场景中创新应用,解决复杂现实问题。

游戏社交推荐算法优化;游戏社交推荐算法具有较多应用场景,如好友推荐、战队推荐、物品推荐、网络传播等,同时游戏社交数据纷繁复杂,包括玩家图片、社交网络、游戏数据等。如何设计有效的推荐算法,具有较高的研究价值。

2.KDD、PAKDD近年来会议论文数据

数据挖掘相关的顶会论文如KDD、PAKDD最近几年的热门主题主要在商业智能方向,即推荐系统和计算广告。本文整理了相关的推荐系统和计算广告方向的相关研究。

推理;因果推断是推荐系统近期的热点,可以为推荐效果提升、AB实验等带来可靠性分析。近年来的相关研究有:新闻推荐推理的增强锚点知识图生成(Reinforced Anchor Knowledge Graph Generation for News Recommendation Reasoning)、社会意识自监督的立体推荐系统(Socially-Aware Self-Supervised Tri-Training for Recommendation)、不可知反事实推理模型消除推荐系统的流行偏差(Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System)等。

多任务、多目标、跨领域推荐场景;多任务、多领域推荐将不同的领域视作不同的任务,比如新闻推荐、视频推荐两个领域的数据可以联合起来训练。多领域推荐和跨领域推荐不同,多领域推荐旨在提升多个领域的效果,而跨领域推荐旨在提升目标领域的效果,一个有方向性一个无方向性。多任务推荐有极高的研究价值和实践价值。从研究角度讲,多任务推荐可以联合多个任务的推荐任务,更进一步提升推荐性能。从实践角度讲,引入额外任务的数据大概率对原有任务有所帮助,是一个一定有效果提升的方法。近年来的相关研究有:序列依赖多任务学习(Modeling the Sequential Dependence among Audience Multi-step Conversions withMulti-task Learning in Targeted Display Advertising)、混合场景多任务学习(Learning to Expand Audience via Meta Hybrid Experts and Critics for Recommendationand Advertising)、对抗特征迁移多任务学习(Adversarial Feature Translation for Multi-domain Recommendation)、迁移学习去偏(Debiasing Learning based Cross-domain Recommendation)等。

纠偏;纠偏,其实就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。构建一个稳定运行的推荐生态系统,纠偏的措施必不可少。近年来的相关研究有:反事实模型推断纠偏(Deconfounded Recommendation for Alleviating Bias Amplification)、动态推荐系统的热度纠偏(Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias inRecommender System和Popularity Bias in Dynamic Recommendation)、大规模推荐系统纠偏(Contrastive Learning for Debiased Candidate Generation in Large-Scale RecommenderSystems)、跨域推荐纠偏(Debiasing Learning based Cross-domain Recommendation)等。

基于图的推荐系统;图神经网络落地推荐系统是近期的热点,是建模类图关系的有效工具。近年来的相关研究有:高效图神经网络训练(MixGCF: An Improved Training Method for Graph Neural Network-based RecommenderSystems)、面向冷启动推荐的异构信息网络多视图去噪图自动编码器(Multi-view Denoising Graph Auto-Encoders on Heterogeneous Information Networks foCold-start Recommendation)、新闻推荐推理的增强锚点知识图生成(Reinforced Anchor Knowledge Graph Generation for News Recommendation Reasoning)。

冷启动;指数据挖掘需要数据的积累,而产品初期数据为空或者数据量太少导致所需的数据量达不到要求。因此冷启动就是积累第一批种子用户的过程。冷启动是推荐系统建立初期必然面对的问题,近年来的相关研究有:异构信息网络多视图去噪图自动编码器实现冷启动(Multi-view Denoising Graph Auto-Encoders on Heterogeneous Information Networks forCold-start Recommendation)、半个性化的音乐流媒体应用冷启动推荐系统(A Semi-Personalized System for User Cold Start Recommendation on Music StreamingApps)、在线推荐系统的架构及其自适应网络的操作(Architecture and Operation Adaptive Network for Online Recommendations)。

序列推荐;在真实场景的推荐系统中,通常会使用所有数据来训练推荐模型,学到的user embedding可以表示用户的兴趣偏好。但是这样的用户表示可能会遗漏用户的序列行为信息,而序列推荐则旨在显式地建模用户的序列行为,提升推荐系统的效果。序列推荐近年来的相关研究有:基于序列多模态信息传输网络的电商微视频推荐系统(SEMlI: A Sequential Multi-Modal Information Transfer Network for E-Commerce Micro-Video Recommendations)。

兴趣推荐;兴趣点推荐近年来的相关研究有:基于元学习的下一代兴趣点推荐系统(Curriculum Meta-Learning for Next POI Recommendation)。
Embedding;Embedding可以认为是推荐算法的核心基石之一,Embedding的主要作用是将稀疏向量转换成稠密向量,便于上层深度神经网络处理。近年来的相关研究有:定制设备上的弹性embedding(Learning Elastic Embeddings for Customizing On-Device Recommenders)、无embedding表的推荐系统特征建模(Learning to Embed Categorical Features without Embedding Tables for Recommendation)、推荐系统中的偏好放大(Preference Amplification in Recommender Systems)、推荐系统中网络嵌入方法的综合分析(Where are we in embedding spaces?A Comprehensive Analysis on Network EmbeddingApproaches for Recommender System)等。

蒸馏;蒸馏是为了解决小型化的问题,近年来的相关研究有:基于拓扑蒸馏的推荐系统(Topology Distillation for Recommender System)。

对抗攻击;对抗攻击是机器学习场景当中,广泛存在的问题,同样也是推荐场景所要面对的问题之一。近年来的相关研究有:不完整及扰动数据攻击推荐系统(Data Poisoning Attack against Recommender System Using Incomplete and PerturbedData)、基于正则化信息的流形神经网络推荐系统(Lnitialization Matters: Regularizing Manifold-informed lnitialization for NeuralRecommendation Systems)、三元对抗学习在推荐系统中毒攻击中的应用(Triple Adversarial Learning for lnfluence based Poisoning Attack in RecommenderSystems)等。

计算广告;计算广告与推荐系统场景非常相似,近年来的相关研究有:策略、广告模型(A Unified Solution to Constrained Bidding in Online Display AdvertisingClustering for Private Interest-based Advertising)、对抗学习(Diversity driven Query Rewriting in Search Advertising)等。


总结

本文对数据挖掘的概念进行了一个初步的介绍,在此基础上,本文基于大量数据挖掘相关论文的基础上,对数据挖掘近年来在学术界、工业界的热点研究方向进行了总结,

文中图片大多来自论文和网络,如有侵权,联系删除,文中有不对的地方欢迎指正、补充。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/301095.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于单片机16路多路抢答器仿真系统设计

**单片机设计介绍,基于单片机16路多路抢答器仿真系统设计 文章目录 一 概要二、功能设计三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机16路多路抢答器仿真系统的设计概要主要涵盖硬件设计、软件编程以及功能实现等方面。以下是针对该设计的详细概…

SAP HCM PT 2003修改班次,PP61无法自动更新

今天遇到一个问题,2003修改班次以后PP61无法自动更新,开始一直以为是什么配置点漏掉,但是发现开发机没问题,后来发现是用户选保存的时候选中目标计划的完成,这个是保存到实际计划的,数据存储psoll中&#x…

redis的常用基本命令与持久化

文章目录 redis的基本命令1.授权密码2.增加、覆盖、查询、删除、切换库名、移动、清空数据库 Redis持久化RDB模式主动备份自动备份RDB备份过程 AOF备份模式开启AOF备份模式执行流程 总结 redis的基本命令 1.授权密码 config set requirepass 密码设置完密码需要认证密码以后才…

【御控物联】JavaScript JSON结构转换(19):数组To对象——规则属性重组

文章目录 一、JSON结构转换是什么?二、术语解释三、案例之《JSON数组 To JSON对象》四、代码实现五、在线转换工具六、技术资料 一、JSON结构转换是什么? JSON结构转换指的是将一个JSON对象或JSON数组按照一定规则进行重组、筛选、映射或转换&#xff0…

软件设计师29--并发控制

软件设计师29--并发控制 考点1:事务的特性例题: 考点2:并发问题并发产生的问题丢失更新不可重复读问题读“脏”数据 考点3:封锁协议例题: 考点1:事务的特性 原子性(Atomicity)&…

C顺序表:通讯录

目录 前言 通讯录数据结构 通讯录初始化 查找名字 增加联系人 删除联系人 展示所有联系人 查找联系人 修改信息 销毁通讯录 完整通讯录代码 前言 数据结构中的顺序表如果已经学会了,那么我们就可以基于顺序表来完成一个通讯录了 通讯录其实我们使用前…

红蓝色WordPress外贸建站模板

红蓝色WordPress外贸建站模板 https://www.mymoban.com/wordpress/5.html

Mysql底层原理十:Redo log

3.7 Redo log Redo log记录的是物理日志,具体就是哪个表空间,哪个数据页,哪个偏移量,改了几个字节,改成什么表空间号数据页号偏移量修改几个字节的值具体的值 3.7.1 Redo block (批处理缓存)…

nginx支持的多种负载均衡策略

目录 1.轮询(默认) 2. ip_hash 3. 加权轮询(weight) 4. fair(第三方) 5. 最少连接(least_conn) 1.轮询(默认) 将请求依次分配给每个服务器,确…

DeepSort行人车辆识别系统(实现目标检测+跟踪+统计)

文章目录 1、前言2、源项目实现功能3、运行环境4、如何运行5、运行结果6、遇到问题7、使用框架8、目标检测系列文章 1、前言 1、本文基于YOLOv5DeepSort的行人车辆的检测,跟踪和计数。 2、该项目是基于github的黄老师傅,黄老师傅的项目输入视频后&#x…

区块链相关概念

区块链是什么,就算是做计算机技术开发的程序员,100个当中都没有几个能把这个概念理解明白,更不要说讲清楚了。那对于普通人来说,就更扯了。 除了“挖矿”表面意思似乎比较好理解外,其他的基础概念真TMD绕。 去中心化、…

坚持十天做完Python入门100题第一天

坚持十天做完Python入门100题第一天 第1题 变量更新第2题 变量命名规则第3题 类型错误第4题 序列索引第5题 序列切片第6题 负数切片第7题 Range函数 第1题 变量更新 解析:Python代码的读取和执行是由上至下的,变量n一开始被赋值为1,但被更新了…

CLIP模型 图片问答

先简短介绍一下CLIP模型: CLIP (Contrastive Language–Image Pretraining) 是由 OpenAI 开发的先进的多模态视觉模型,结合了图像和文本处理能力。 CLIP 模型的主要特色在于它不仅可以理解图像,同时也能理解描述这些图像的文本。通过这样的方…

深度学习理论基础(七)Transformer编码器和解码器

学习目录: 深度学习理论基础(一)Python及Torch基础篇 深度学习理论基础(二)深度神经网络DNN 深度学习理论基础(三)封装数据集及手写数字识别 深度学习理论基础(四)Parse…

数据仓库面试总结

文章目录 1.什么是数据仓库?2.ETL是什么?3.数据仓库和数据库的区别(OLTP和OLAP的区别)4.数据仓库和数据集市的区别5.维度分析5.1 什么是维度?5.2什么是指标? 6.什么是数仓建模?7.事实表7.维度表…

Qt使用iostream的cout

在QT想使用iostream的cout。 参考以下博客: (转载)Qt中使用cout输出的方法 pro里加上; CONFIG console勾选 Run in Terminal clean工程,重新构建 上面是cout的,下面是我的另一个函数的qDebug输出的。

【动态规划-状态压缩dp】【蓝桥杯备考训练】:毕业旅行问题、蒙德里安的梦想、最短Hamilton路径、国际象棋、小国王【已更新完成】

目录 1、毕业旅行问题(今日头条2019笔试题) 2、蒙德里安的梦想(算法竞赛进阶指南) 3、最短Hamilton路径(《算法竞赛进阶指南》&模板) 4、国际象棋(第十二届蓝桥杯省赛第二场C A组/B组&#…

vue+springboot多角色登录

①前端编写 将Homeview修改为manager Manager&#xff1a; <template><div><el-container><!-- 侧边栏 --><el-aside :width"asideWidth" style"min-height: 100vh; background-color: #001529"><div style"h…

Jetpack Compose -> 状态机制的背后秘密

前言 上一章我们讲解了 Jetpack Compose 的无状态、状态提升、单向数据流 本章我们讲解下状态机制的背后秘密 List 前面我们讲过&#xff0c;通过 by mustableStateOf() 就可以被 Compose 自动订阅了&#xff1b;我们前面是通过 String 类型进行的自动订阅&#xff0c;那么换成…

C语言 | Leetcode C语言题解之第13题罗马数字转整数

题解&#xff1a; 题解&#xff1a; int romanToInt(char* s) {int symbolValues[26];symbolValues[I - A] 1;symbolValues[V - A] 5;symbolValues[X - A] 10;symbolValues[L - A] 50;symbolValues[C - A] 100;symbolValues[D - A] 500;symbolValues[M - A] 1000;int a…