Оказывается, преобразование файлов в изображения — очень эффективный способ обнаружения вредоносных программ

Оказывается, преобразование файлов в изображения - очень эффективный способ обнаружения вредоносных программ

Ветвь искусственного интеллекта, называемая машинным обучением, окружает нас. Он используется Facebook, чтобы помочь курировать контент (и нацеливать нас на рекламу), Google использует его для фильтрации миллионов спам-сообщений каждый день, и это является частью того, что позволило боту OpenAI победить действующих чемпионов Dota 2 в прошлом году в двух из двух три матча. Есть, казалось бы, бесконечное использование. Добавляя еще одну кучу, Microsoft и Intel придумали хитроумную систему машинного обучения, которая удивительно точна в обнаружении вредоносных программ с помощью процесса преобразования изображений в градациях серого.

Microsoft подробно рассказала об этой технологии в своем блоге (через ZDNet ), который она называет статическим сетевым анализом вредоносных программ как изображений, или STAMINA. Он состоит из трехэтапного процесса. Проще говоря, проект машинного обучения начинается с того, что он берет двоичные файлы и преобразует их в двухмерные изображения.

(Изображение предоставлено Microsoft)

Затем изображения подаются в рамки. Этот второй шаг представляет собой процесс, называемый трансферным обучением, который по существу помогает алгоритму опираться на имеющиеся у него знания, сравнивая при этом образы с существующим обучением.

Наконец, результаты анализируются, чтобы увидеть, насколько эффективен процесс обнаружения образцов вредоносного ПО, сколько он пропустил и сколько ошибочно классифицировано как вредоносное ПО (известное как ложное срабатывание).

В рамках исследования Microsoft и Intel отобрали набор данных из 2,2 миллиона файлов. Из них 60 процентов были известны вредоносные файлы, которые использовались для обучения алгоритма, и 20 процентов были использованы для его проверки. Оставшиеся 20 процентов были использованы для проверки фактической эффективности схемы.

Прикладывая STAMINA к файлам, Microsoft говорит, что метод точно обнаружил и классифицировал 99,07 процента файлов вредоносного ПО с 2,58 процентами ложных срабатываний. Это звездные результаты.

«Результаты, безусловно, поощряют использование глубокого обучения с целью классификации вредоносных программ. Это помогает ускорить обучение путем обхода поиска оптимальных гиперпараметров и архитектурных поисков, экономя время и вычислительные ресурсы в процессе», — заявляет Microsoft.

СТАМИНА не без ограничений. Часть процесса влечет за собой изменение размеров изображений, чтобы сделать количество пикселей управляемым для приложения, подобного этому. Однако для более глубокого анализа и приложений большего размера Microsoft заявляет, что метод «становится менее эффективным из-за ограничений в преобразовании миллиардов пикселей в изображения JPEG и последующем изменении их размера».

Другими словами, STAMINA отлично подходит для тестирования файлов в лаборатории, но требует некоторой тонкой настройки, прежде чем его можно будет реально использовать в большей емкости. Это, вероятно, означает, что Защитник Windows не сразу получит выгоду от STAMINA, но, возможно, когда-нибудь в будущем получит.