安全领域内的开放数据集

安全领域内的开放数据集

整理、汇总网络安全方面的开放数据集,在awesome-ml-for-cybersecuritywstart师傅的文章[1]基础上进行补充和修改。

同步更新位于安全运营之路文档:Link

网络安全相关

  • Samples of Security Related Data

  • DARPA Intrusion Detection Data Sets [ 1998 / 1999 ]

  • Stratosphere IPS Data Sets

  • Open Data Sets

  • Data Capture from National Security Agency

  • The ADFA Intrusion Detection Data Sets

    • ADFA IDS Datasets 是澳大利亚国防大学发布的一套关于HIDS的数据集。分为Linux(ADFA-LD)和Windows(ADFA-WD)
    • 内容类型:主机行为
    • 是否特征化:是
    • 使用范围:入侵检测
  • NSL-KDD Data Sets

  • Malicious URLs Data Sets

  • Multi-Source Cyber-Security Events

  • KDD Cup 1999 Data

    • KDD竞赛在1999年举行时采用的数据集。1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目收集而来的数据
    • 内容类型:网络流量、主机行为
    • 是否特征化:是
    • 适用范围:主机入侵检测、异常流量监控
  • Web Attack Payloads

  • WAF Malicious Queries Data Sets

  • Malware Training Data Sets

  • Aktaion Data Sets

  • CRIME Database from DeepEnd Research

  • Publicly available PCAP files

  • 2007 TREC Public Spam Corpus

  • Drebin Android Malware Dataset

  • PhishingCorpus Datset

  • EMBER

  • Vizsec Research

  • SHERLOCK

  • Probing / Port Scan - Dataset

  • Aegean Wireless Intrusion Dataset (AWID)

  • HTTP DATASET CSIC 2010

    • HTTP DATASET CSIC 2010 包含已经标注过的针对web服务的请求。数据量约5w条。下载地址已经为我们分类好了训练用的正常数据,测试用的正常数据,测试用的异常数据
    • 内容类型:网络流量
    • 是否特征化:否
    • 使用范围:WAF类产品、异常流量监控
  • honeypot.json

    • honeypot 是由多种类型的蜜罐采集回来的数据。主要是WEB请求。约99万条数据。由于没有分类和规整,需要自己数据清洗,也可以用作校验模型的数据
    • 内容类型:网络流量
    • 是否特征化:否
    • 使用范围:WAF类产品、异常流量监控
  • Masquerading User Data

    • Masquerading User Data(也被称为SEA数据集) 是Matthias Schonlau 教授通过正常数据构造出来用于训练和检测 Masquerading User攻击的数据集(内部攻击者分为两种,一种是内鬼[Traitor],一种是窃取了身份凭证的正常用户的伪装者[Masquerading User])由于是构造出来的数据,缺乏实际攻击的真实性,在一定程度上,训练出来的模型会存在一定的过拟
    • 内容类型:主机行为
    • 是否特征化:否
    • 使用范围:入侵检测类、用户异常行为识别
  • 360DGA

    • 360安全厂商提供的DGA数据集,用于DAG域名检测,可作为黑样本
    • 内容类型:文本样本
    • 是否特征化:否
    • 使用范围:入侵检测、异常流量、WAF
  • Gameover Zeus DGA sample 2014

    • Zeus P2P僵尸网络的DGA恶意样本数据
    • 内容类型:文本样本
    • 是否特征化:否
    • 使用范围:入侵检测、异常流量、WAF
  • auth.log

    • auth.log 主要是都是登录失败的日志 适合用作判断是爆破登录还是正常的输错密码
    • 内容类型:主机行为
    • 是否特征化:否
    • 使用范围:入侵检测、异常流量、WAF
  • malicious-URLs

    • malicious-URLs 在Github上面一个 使用机器学习去检测恶意URL的项目 ,里面有一个训练集,有做标记是正常的URL还是恶意的URL
    • 内容类型:文本样本
    • 是否特征化:否
    • 使用范围:入侵检测、异常流量、WAF
  • The Malware Capture Facility Project

    • MCFP 是捷克理工大学 (CTU)用于捕抓恶意软件的而抓去的网络流量。里面的数据非常多,有他们自己分析出来的恶意流量,也有所有的流量,包括网络文件、日志、DNS请求等
    • 内容类型:网络流量
    • 是否特征化:否
    • 使用范围:异常流量、WAF
  • MalwareDB

    • 恶意软件库,包含恶意软件列表hash、检测结果、所属域名等数据
    • 内容类型:文本样本
    • 使用范围::特征库、入侵检测
  • flightsim

    • 一个工具,可以生成数据恶意流量数据,模拟DNS隧道、DGA通信、对活跃的C2服务器请求和其他一些可疑的流量数据
    • 内容类型:网络流量(模拟)
    • 是否特征化:否
    • 使用范围:异常流量、WAF、入侵检测
  • mordor

    • 模拟攻防对抗生成的安全事件数据,以JSON格式提供,并且按照ATT&CK框架的定义。可以用于对攻防技术(TTPs)的检测。说明文档
    • 内容类型:文本样本
    • 是否特征化:否
    • 适用范围:入侵检测、行为识别

邮件相关

  • SpamBase
    • 一个入门级的垃圾邮件分类训练集,已被特征化处理。特征为统计的关键字、特殊符号的词频等,一共58个属性,最后一位是垃圾邮件标记位
    • 内容类型:文本样本、邮件(特征化)
    • 是否特征化:是
    • 适用范围:垃圾邮件检测

综合

  • SecRepo.com - Samples of Security Related Data

    • 整理大量安全相关的数据集,包括网络、恶意软件、文件等
    • 官网GitHub
  • Security Data Analysis

    • 总共4个lab,包含http,连接记录,域名,host等
    • GitHub
  • webshell收集项目

  • AZSecure

    • 官网
    • 收集来自不同渠道的暗网论坛、市场和社交媒体数据

References

[1] 机器学习之安全数据集,wstarthttps://xz.aliyun.com/t/1879