[当人工智能遇上安全] 7.基于机器学习的安全数据集总结

您或许知道,作者后续分享网络安全的文章会越来越少。但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个《当人工智能遇上安全》系列博客,详细介绍人工智能与安全相关的论文、实践,并分享各种案例,涉及恶意代码检测、恶意请求识别、入侵检测、对抗样本等等。只想更好地帮助初学者,更加成体系的分享新知识。该系列文章会更加聚焦,更加学术,更加深入,也是作者的慢慢成长史。换专业确实挺难的,系统安全也是块硬骨头,但我也试试,看看自己未来四年究竟能将它学到什么程度,漫漫长征路,偏向虎山行。享受过程,一起加油~

前一篇文章普及了基于机器学习的入侵检测和攻击识别。为了更好的帮助大家从事安全领域机器学习和深度学习(AI+安全)相关的研究,这篇文章将分享安全相关的数据集供大家下载和实验,包括恶意URL、流量分析、域名检测、恶意软件、图像分类、垃圾邮件等,也欢迎大家留言推荐数据集供我补充。基础性文章,希望对您有所帮助~

文章目录

  • KDD CUP 99
  • HTTP DATASET CSIC 2010
  • honeypot.json
  • Masquerading User Data
  • ADFA IDS Datasets
  • 域名相关
  • Webshell
  • 登录日志
  • 恶意URL
  • 综合安全数据
  • The Malware Capture Facility Project
  • 恶意软件数据库
  • APT攻击数据集
  • 图像分类数据集-1000
  • MNIST-手写数字
  • 垃圾邮件数据集
  • 自然灾害数据集

作者作为网络安全的小白,分享一些自学基础教程给大家,主要是在线笔记,希望您们喜欢。同时,更希望您能与我一起操作和进步,后续将深入学习AI安全和系统安全知识并分享相关实验。总之,希望该系列文章对博友有所帮助,写文不易,大神们不喜勿喷,谢谢!如果文章对您有帮助,将是我创作的最大动力,点赞、评论、私聊均可,一起加油喔!

前文推荐:

  • [当人工智能遇上安全] 1.人工智能真的安全吗?浙大团队外滩大会分享AI对抗样本技术
  • [当人工智能遇上安全] 2.清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing
  • [当人工智能遇上安全] 3.安全领域中的机器学习及机器学习恶意请求识别案例分享
  • [当人工智能遇上安全] 4.基于机器学习的恶意代码检测技术详解
  • [当人工智能遇上安全] 5.基于机器学习算法的主机恶意代码识别研究
  • [当人工智能遇上安全] 6.基于机器学习的入侵检测和攻击识别——以KDD CUP99数据集为例
  • [当人工智能遇上安全] 7.基于机器学习的安全数据集总结

作者的github资源:

  • https://github.com/eastmountyxz/AI-Security-Paper

KDD CUP 99

KDD CUP 99 dataset 是KDD竞赛在1999年举行时采用的数据集。1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目收集而来的数据,其竞争任务是建立一个网络入侵检测器,这是一种能够区分称为入侵或攻击的“不良”连接和“良好”的正常连接的预测模型。该数据集包含一组要审核的标准数据,其中包括在军事网络环境中模拟的多种入侵。

  • 内容类型:网络流量,主机行为
  • 是否特征化: 是
  • 适用范围:主机入侵检测,异常流量监控
  • 下载地址:http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
  • 数据示例:

在这里插入图片描述


数据文件包括:

kddcup.names 功能列表。
kddcup.data.gz 完整数据集(18M; 743M未压缩)
kddcup.data_10_percent.gz 10%的数据集(2.1M; 75M未压缩)
kddcup.newtestdata_10_percent_unlabeled.gz(1.4M; 45M未压缩)
kddcup.testdata.unlabeled.gz (11.2M; 430M未压缩)
kddcup.testdata.unlabeled_10_percent.gz (1.4M; 45M未压缩)
corrected.gz 正确标签的测试数据
training_attack_types 入侵类型列表
typo-correction.txt 关于数据集中的简要说明 

在这里插入图片描述

推荐文章:基于机器学习的入侵检测和攻击识别——以KDD CUP99数据集为例



HTTP DATASET CSIC 2010

HTTP DATASET CSIC 2010 包含已经标注过的针对Web服务的请求。该数据集由西班牙最高科研理事会 CSIC 在论文 Application of the Generic Feature Selection Measure in Detection of Web Attacks 中作为附件给出的,是一个电子商务网站的访问日志,包含 36000 个正常请求和 25000 多个攻击请求。异常请求样本中包含 SQL 注入、文件遍历、CRLF 注入、XSS、SSI 等攻击样本。其中,下载地址已经为我们分类好了训练用的正常数据,测试用的正常数据,测试用的异常数据。

  • 内容类型:网络流量
  • 是否特征化:否
  • 使用范围:WAF类产品,异常流量监控
  • 下载地址:
    http://www.isi.csic.es/dataset/
    https://github.com/zambery/Machine-Learning-on-CSIC-2010
  • 数据示例:

在这里插入图片描述

在这里插入图片描述

推荐文章:

  • 机器学习实战之CSIC2010网络攻击数据 - Ackerzy
  • 崔艳鹏,刘咪,胡建伟. 基于CNN的恶意Web请求检测技术[J]. 计算机科学, 2020,47(2): 281-286.


honeypot.json

honeypot 是由多种类型的蜜罐采集回来的数据,主要是WEB请求,约99万条数据。由于没有分类和规整,需要自己数据清洗,也可以用作校验模型的数据。

  • 内容类型:网络流量
  • 是否特征化:否
  • 使用范围: WAF类产品,异常流量监控
  • 下载地址:http://www.secrepo.com/honeypot/honeypot.json.zip
  • 数据示例:

在这里插入图片描述



Masquerading User Data

Masquerading User Data 是Matthias Schonlau 教授通过正常数据构造出来用于训练和检测 Masquerading User攻击的数据集。内部攻击者分为两种,一种是内鬼[Traitor],一种是窃取了身份凭证的正常用户的伪装者[Masquerading User]。由于是构造出来的数据,缺乏实际攻击的真实性,在一定程度上,训练出来的模型会存在一定的过拟。

  • 内容类型:主机行为
  • 是否特征化:否
  • 使用范围:入侵检测类 用户异常行为识别
  • 下载地址:http://www.schonlau.net/intrusion.html
  • 数据示例:

在这里插入图片描述



ADFA IDS Datasets

ADFA IDS Datasets 是澳大利亚国防大学发布的一套关于HIDS的数据集。分为linux(ADFA-LD)和window(ADFA-WD)。

  • 内容类型: 主机行为
  • 是否特征化:是
  • 使用范围: 入侵检测
  • 下载地址:https://www.unsw.adfa.edu.au/unsw-canberra-cyber/cybersecurity/ADFA-IDS-Datasets/
    – The ADFA Linux Dataset (ADFA-LD)
    – The ADFA Windows Dataset (ADFA-WD)
    – Stealth Attacks Addendum (ADFA-WD:SAA)
  • 数据示例:

在这里插入图片描述



域名相关

DGA 正常域名和可疑域名检测,主要用于DGA的检测。这里直接用Alexa Top 100W 作为正常域名,用其他的开放的DGA数据作为黑样本。

  • 内容类型:文本样本
  • 是否特征化:否
  • 使用范围:入侵检测 异常流量 WAF
  • 下载地址
    Alexa Top 100W:http://s3.amazonaws.com/alexa-static/top-1m.csv.zip
    360DGA:http://data.netlab.360.com/dga/
    zeusDGA:http://www.secrepo.com/misc/zeus_dga_domains.txt.zip
  • 数据示例:

在这里插入图片描述



Webshell

Webshell数据集 是github有一个比较多样本的收集,涵盖了很多的语言。

  • 内容类型:文本样本
  • 是否特征化:否
  • 使用范围:入侵检测 异常流量 WAF
  • 下载地址:
    – https://github.com/tennc/webshell
    – https://github.com/ysrc/webshell-sample
  • 数据示例:

在这里插入图片描述

在这里插入图片描述



登录日志

auth.log 主要是都是登录失败的日志 适合用作判断是爆破登录还是正常的输错密码

  • 内容类型:主机行为
  • 是否特征化:否
  • 使用范围:入侵检测 异常流量 WAF
  • 下载地址:http://www.secrepo.com/auth.log/auth.log.gz
  • 数据示例:

在这里插入图片描述



恶意URL

  • malicious-URLs 在Github上面一个 使用机器学习去检测恶意URL的项目 ,里面有一个训练集,有做标记是正常的URL还是恶意的URL
  • 内容类型: 文本样本
  • 是否特征化:否
  • 使用范围: 入侵检测 异常流量 WAF
  • 下载地址&检测方法:
    https://github.com/faizann24/Using-machine-learning-to-detect-malicious-URLs
    https://github.com/exp-db/AI-Driven-WAF
    https://github.com/Echo-Ws/UrlDetect
  • 数据示例:

在这里插入图片描述

推荐作者文章:基于机器学习的恶意请求识别及安全领域中的机器学习



综合安全数据

在github上有一个叫 Security-Data-Analysis 的项目,里面有4个实验室,每个实验室的数据都不一样,包含http、连接记录、域名、host等等。

  • 内容类型:网络流量
  • 是否特征化:否
  • 使用范围:异常流量
  • 下载地址:https://github.com/sooshie/Security-Data-Analysis
  • 数据示例:

在这里插入图片描述



The Malware Capture Facility Project

MCFP 是捷克理工大学用于捕抓恶意软件的而抓去的网络流量,里面的数据非常多,有他们自己分析出来的恶意流量,也有所有的流量,包括网络文件、日志、DNS请求等。

  • 内容类型:网络流量
  • 是否特征化:否
  • 使用范围: 异常流量 WAF
  • 下载地址:https://mcfp.weebly.com/mcfp-dataset.html
  • 数据示例:


恶意软件数据库

MalwareDB 包含了恶意软件列表 hash检测结果,所属域名等数据。

  • 内容类型:文本样本
  • 使用范围:特征库 入侵检测
  • 下载地址:
    http://malwaredb.malekal.com/
    https://bbs.kafan.cn/thread-2156285-1-1.html
  • 数据示例:

在这里插入图片描述

在这里插入图片描述



APT攻击数据集

非常棒的三个数据集,APT样本HASH值和APT报告。

  • https://github.com/cyber-research/APTMalware
  • https://github.com/RedDrip7/APT_Digital_Weapon
  • https://github.com/kbandla/APTnotes

下载推荐:

  • https://virusshare.com/
  • https://virusshare.com/
  • https://app.any.run/

在这里插入图片描述

在这里插入图片描述



图像分类数据集-1000

Sort_1000pics数据集 包含了1000张图片,总共分为10大类,分别是人(第0类)、沙滩(第1类)、建筑(第2类)、大卡车(第3类)、恐龙(第4类)、大象(第5类)、花朵(第6类)、马(第7类)、山峰(第8类)和食品(第9类),每类100张。

  • 内容类型:图像样本
  • 使用范围:图像分类、恶意家族分类
  • 推荐理由:个人感觉这是图像分类实验的基础,恶意样本转换灰度图进行恶意家族分类实验也都可以基于此实验拓展
  • 下载地址:https://github.com/eastmountyxz/ImageProcessing-Python
  • 数据示例:

在这里插入图片描述

通常会将所有各类图像按照对应的类标划分至“0”至“9”命名的文件夹中,如图所示,每个文件夹中均包含了100张图像,对应同一类别。

在这里插入图片描述

比如,文件夹名称为“6”中包含了100张花的图像,如下图所示。

在这里插入图片描述

推荐作者文章:图像分类原理及基于KNN、朴素贝叶斯算法的图像分类案例



MNIST-手写数字

MNIST数据集 是手写体识别数据集,也是入门级的计算机视觉数据集。MNIST图片数据集包含了大量的数字手写体图片,如下图所示,我们可以尝试用它进行分类实验。该数据集共包含三部分:

  • 训练数据集:55,000个样本,mnist.train
  • 测试数据集:10,000个样本,mnist.test
  • 验证数据集:5,000个样本,mnist.validation

在这里插入图片描述

MNIST数据集中的一个样本数据包含两部分内容:手写体图片和对应的label。这里我们用xs和ys分别代表图片和对应的label,训练数据集和测试数据集都有xs和ys,使用mnist.train.images和mnist.train.labels表示训练数据集中图片数据和对应的label数据。如下图所示,它表示由28x28的像素点矩阵组成的一张图片,这里的数字784(28x28)如果放在我们的神经网络中,它就是x输入的大小,其对应的矩阵如下图所示,类标label为1。

在这里插入图片描述

  • 内容类型:图像样本
  • 使用范围:图像分类、恶意家族分类
  • 推荐理由:个人感觉这是图像分类实验的基础,恶意样本转换灰度图进行恶意家族分类实验也都可以基于此实验拓展
  • 下载地址:
    from tensorflow.examples.tutorials.mnist import input_data
    mnist = input_data.read_data_sets(‘MNIST_data’, one_hot=True)
  • 推荐作者文章:
    TensorFlow实现分类学习及MNIST手写体识别案例
    Keras搭建分类神经网络及MNIST数字图像案例分析


垃圾邮件数据集

SpamBase数据集 入门级垃圾邮件分类训练集,其包含57个属性和4601个实例,该数据集主要用于垃圾邮件的识别分类,其中垃圾邮件的资源均来自于邮件管理员和提交垃圾邮件的个人,其可被用于构建垃圾邮件过滤器。该数据集由惠普实验室于1999年7月发布,主要发布人有Mark Hopkins、Erik Reeber、George Forman和Jaap Suermondt。另一个垃圾邮件数据集是 Enron

  • 内容类型:垃圾邮件
  • 使用范围:邮件分类、垃圾邮件识别分类
  • 下载地址:https://hyper.ai/datasets/4949
  • 数据示例:

在这里插入图片描述



自然灾害数据集

xBD数据集 是迄今为止第一个建筑破坏评估数据集,是带注释的高分辨率卫星图像的规模最大、质量最高的公共数据集之一。该数据集包含22068张图像,均是1024x1024的高分辨率卫星遥感图像,标记有19种不同的事件,包括地震、洪水、野火、火山爆发和车祸等。这些图像包括了灾前、灾后图像,图像可用于构建定位和损伤评估这两项任务。

  • 发布机构:麻省理工学院
  • 内容类型:图像样本
  • 数据大小:31.2GB
  • 使用范围:图像分类、自然灾害识别
  • 推荐理由:个人感觉该数据集对于对抗样本、AI和安全结合的案例有帮助
  • 下载地址:https://hyper.ai/datasets/13272
  • 相关论文:《Building Disaster Damage Assessment in Satellite Imagery with Multi-Temporal Fusion》(《具有多时相融合的卫星影像中的建筑物灾害破坏评估》)


总结

学习安全或深度学习数据集是第一步,可能很多同学会受到数据集的困扰,真心希望这些数据集对您有所帮助,也欢迎大家继续补充新的数据集。作者后续会整理这些年抓取的文本数据以开源,供大家进行文本挖掘或NLP研究。

同时感觉自己要学习的知识好多,也有好多大神卧虎藏龙,开源分享。作为初学者,我和他们有很大差距,但不论之前是什么方向,是什么工作,是什么学历,我都会朝着这个目标去努力!有差距不可怕,我们需要的是去缩小差距,去战斗,况且这个学习的历程真的很美,AI和安全真的有意思,共勉~

最后,给科研初学者安利一张SCI论文撰写的技巧图(源自中科院王老师),返校科研近十天,修改了两篇论文,写了一个本子,做了一次PPT汇报,正在做第四个和第五个工作的实验,加油!

在这里插入图片描述

​小珞珞这嫌弃的小眼神,也拿到了最喜欢的玩具——扫把,哈哈。最近社交媒体账号都注销了,博客基本停更,手机很少看,朋友圈估计明年或半年后再见,专心科研,非诚勿扰,有事短信留言。拿出最好的状态,fighting~​天行健,君子以自强不息。地势坤,君子以厚德载物。

在这里插入图片描述

(By:Eastmount 2022-02-22 夜于武汉 https://blog.csdn.net/Eastmount )


参考资料:
[1] https://xz.aliyun.com/t/1879
[2] https://blog.csdn.net/u011311291/article/details/79045675
[3] https://hyper.ai/datasets/4949

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/45330.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

找到一个好用的在线创意英文logo设计生成器网站

smashinglogo.com这个在线一键式生成LOGO的网站可以尝试下,输入品牌词和slogan可以无限生成logo。 下面简单举个例子,给大家看一下效果。假设要给Tesla生成一个logo,可以把品牌词写成Tesla,slogan我随便编了一句: jou…

请不要随便走上编程这条路

“互联网的黄金十年已经结束,接下来的十年是白银十年”。这话还是在2016年看到的,当时本人有些沮丧,毕竟还没找到实习的公司。 怎么说呢,在去年,也就是2015年的时候,不敢说别的,大部分互联网专业…

IC工程师简历制作全解读

前言 越来越觉得一份好简历真的很重要! 本文基于下面这个视频记录所得:那个拿35万offer的IC设计应届生简历是这么写的 IC工程师应届生薪资 工艺制造、封测方向——本科/专科:5000-8000元/月,硕士:8000-12000元/月设计方向——本科/专科:6000-1000元/月,硕士:1w5-2w元…

为什么有人说C++是最难学的编程语言? (4个回答)

从事嵌入式开发多年,有三种语言玩的比较多C/C java,从编程语言的难度来讲C是最难得,而且也是最难入门的编程语言,很多编程老手都是这个结论,为什么C是最难学的编程语言,虽然难学但还是很多编程老手喜欢研究它&#xff…

自学编程的人,90%以上都会掉进这些坑,避开这些误区能提高N倍学习效率

前言 几乎每一个程序员都会走上那么一段自学的道路,尤其是在校生或进入工作岗位之后,技术的提升基本都靠自学,有的虽然是网上报班学习,但更多时候还是自己在学习,师傅引进门,修行靠个人。 有的人自学很快…

30岁开始学编程晚吗?

二哥,说出来不怕你笑话,我和你年纪差不多。之前是干别的,但有点编程的基础,最近想转行程序员,不知道晚不晚,你能不能给我一些建议,或者说有没有一些攻略可以参考。 这是上个月一个读者小郑私信我…

机械专业转行IT行业,成功自学Java上岸(分享转行使)

秋招转眼就结束了,将近一年的努力,总算给了自己一个比较满意的结果。写下这篇贴子记录自己的转行以及秋招经历。 其实在转行初期,就无数次幻想着秋招结束,然后写一篇长长的经验贴的那种满足感。下面我尽量把我知道的,…

该如何从教育行业转行做IT——我的真实经历给出的偏门答案

“我需要,最狂的风,和最静的海。”——顾城 本文是对想要入行IT,但是没时间没钱上IT培训班的小伙伴的一些小小的建议,我即将要说的是最近发生在我自己身上的事,这些可以成为“如何转行IT”的一个偏门的答案&#xff0…

编程行业未来趋势如何

随时互联网不断的发展,编程技术不断的优化、成熟,编程行业未来趋势如何一直是热议的话题。 未来数字化,虚拟化,数据化的方向,就是说精神上的追求会成为一大消费趋势,看现在人们使用手机,玩电脑的…

这样学编程,直接原地起飞啊!

大家好,我是二哥呀。 今天来给大家分享一些学习编程的心得,真的颠覆了我以前对学习编程的刻板印象,可以这么说,如果你恰好处在大学阶段,看到了这篇内容,OK,恭喜你,如果你能按照我说…

学好编程的 4 个秘诀

你好呀,我是沉默王二,一枚沉默但有趣又帅气的程序员(你听,耳边是不是响起了装逼的声音)。今天我来掏心掏肺地聊聊学好编程的 4 个秘诀,应该会对你产生一些微妙而又积极的影响。 闭上眼睛转个圈&#xff0c…

盘点关于程序员的10个有趣的段子

(1)程序员的读书历程:x 语言入门 —> x 语言应用实践 —> x 语言高阶编程 —> x 语言的科学与艺术 —> 编程之美 —> 编程之道 —> 编程之禅—> 颈椎病康复指南。 (2)程序员最讨厌的四件事&#…

Unity角色扮演游戏集合

Unity角色扮演游戏集合 Aurora Trail A new epic game where the perspective of the camera changes everything. Do not let your body parts get in the same view as a wall with the same color, or you’ll lose it! Puzzle your way through challenging and appealing…

html下拉 小狗,html会动的小狗狗源码

一个纯html和css结合构建的会动的狗狗,适合自己去慢慢研究的页面,前端程序员们适合收藏哦~这样对我们的html和css技术提升也有所帮助哦! html会动的小狗狗源码:dog @-webkit-keyframes head {0% {-webkit-transform: rotate(0); transform: rotate(0); } 6.66667% {-webkit…

如何写一首让人膜拜的代码情诗?

1、木有女票?先放上一段来自(潘*扬)的神奇代码,助你快速脱单: //快速脱单代码 private static final THE_ONE ; ResultSet peopleInfoSet China.getPeople(); //获取全国人民的信息 while(peopleInfoSet.next()) { Per…

Android访问权限大全

访问权限图 权限的目的是为了保护Android用户的隐私。Android应用程序必须请求允许访问敏感用户数据(如联系人和 SMS),以及某些系统特征(如摄像头和 Internet)。根据该特征,系统可以自动授予许可&#xff…

安卓Permission权限请求

AndroidPermission,权限自动请求示例(所需权限被关闭时,会自动请求) 权限请求源码:(将应用的Activity设为PermissionActivity的子类,即可自动请求所需权限) package com.sc.demo;im…

Android请求应用权限

文章目录 前言参考一、请求应用权限基本原则二、请求权限的流程(官网摘抄)三、请求权限编码1.允许系统管理权限请求代码2.自行管理权限请求代码 总结 前言 学习Android为什么需要动态申请危险权限 学会Android应用危险权限申请的方式 参考 Android官方…

Android提示用户获取相应手机权限

一,简介 Android 6.0 为了保护用户隐私,将一些权限的申请放在了应用运行的时候去申请, 比如以往的开发中,开发人员只需要将需要的权限在清单文件中配置即可,安装后用户可以在设置中的应用信息中看到:XX应用…

安卓手机权限总结安卓权限列表

1.android.permission.WRITE_USER_DICTIONARY允许应用程序向用户词典中写入新词 2.android.permission.WRITE_SYNC_SETTINGS写入Google在线同步设置 3.android.permission.WRITE_SOCIAL_STREAM读取用户的社交信息流 4.android.permission.WRITE_SMS允许程序写短信 5.androi…