Датасеты по ИБ для машинного обучения
|
12 марта 2019 |
|
В
презентации
по машинному обучению в ИБ я приводил слайд с примерами датасетов,
которые можно использовать в своих проектах по машинному обучению. У
меня несколько человек попросили ссылок на них, что я и делаю.
- Набор PCAP-файлов с записанным сетевым трафиком от Netresec
- KDD Cup 1999.
Это классический набор для проведения тестов IDS (уже размеченный). Да,
ему уже 20 лет. Да, его часто используют разработчики вновь создаваемых
систем обнаружения атак. И да, часто не достигается значения 100%, что
крайне удивительно.
- 5 датасетов
от Stratosphere Lab - для вредоносного ПО, включая самые последние
семплы, для нормального трафика, для смешанного трафика (зараженного и
вычищенного), для Интернета вещей, а также специальный датасет,
основанные на данных из реальной инфраструктуры.
- Еще один датасет NSL KDD для систем обнаружения атак.
- Датасеты
от Лаборатории Линкольна MIT, также предназначенный для систем
обнаружения атак. Датасеты подготовлены DARPA и описывают несколько
сценариев атак. На сайте Лаборатории Линкольна есть несколько версий
датасетов - от 1998-го, 99-го и 2000-го годов.
- Лаборатория Лос-Аламоса (занимается ядерным оружием США) также имеет
ряд датасетов, гораздо свежее, чем у Лаборатории Линкольна. Один содержит девятимесячные данные по почти 3/4 миллиардам аутентификационных событий. Второй описывает двухмесячные данные (DNS, аутентификация, Netflow и т.п.) из внутренней сети Лос-Аламоса. Третий датасет описывает три месяца работы корпоративной сети Лос-Аламоса с точки зрения хостовых событий и Netflow.
- Датасет АНБ. Да-да, того самого агентства национальной безопасности. Тут и логи Snort, и DNS, и логи Web-серверов.
- Четырехмесячный датасет с 2,5 миллионами вредоносных URL. А тут еще один.
- Датасет ADFA (австралийская академия сил обороны) для проверки хостовых систем обнаружения атак, работающих под Linux и Windows.
- Коллекция Web-атак.
- Тройка датасетов с примерами вредоносного кода - тут, тут и тут (этот с малварью для Андроида).
- Датасеты для спама и фишинга.
- Ember - датасет из 1.1 миллиона вредоносных семплов (PE-файлов), которые "прошли" через VirusTotal в 2017-м году.
- Датасет с DGA-доменами.
- Датасет по даркнету в периоде с 2013 по 2015 годы.
- Топ 1000000 популярных доменов по версии Alexa и Cisco Umbrella.
Вопреки расхожему мнению, что в Интернет мало датасетов для обучения
собственных моделей машинного обучения, это не совсем так. Примеры выше
показывают, что их немало (и это только часть того, что выложено в
открытый доступ). Но есть и проблемы, которые были отмечены в заголовке
слайда выше - все датасеты имеют разные форматы, разные способы
разметки, неполны и не всегда актуальны (угрозы-то меняются постоянно). В
обозримом будущем датасеты останутся конкурентным преимуществом
компаний, активно работающих в сфере применения машинного обучения в
области кибербезопасности. Хотя, со временем, на рынке появятся, а
возможно и будут сдаваться в аренду или продаваться, хорошие датасеты
под разные задачи ИБ. Но до этого нам (особенно в России) еще далеко.
Оставить свой комментарий:
Комментарии по материалу
Данный материал еще не комментировался.