Ветвь искусственного интеллекта, называемая машинным обучением, окружает нас. Он используется Facebook, чтобы помочь курировать контент (и нацеливать нас на рекламу), Google использует его для фильтрации миллионов спам-сообщений каждый день, и это является частью того, что позволило боту OpenAI победить действующих чемпионов Dota 2 в прошлом году в двух из двух три матча. Есть, казалось бы, бесконечное использование. Добавляя еще одну кучу, Microsoft и Intel придумали хитроумную систему машинного обучения, которая удивительно точна в обнаружении вредоносных программ с помощью процесса преобразования изображений в градациях серого.
Microsoft подробно рассказала об этой технологии в своем блоге (через ZDNet ), который она называет статическим сетевым анализом вредоносных программ как изображений, или STAMINA. Он состоит из трехэтапного процесса. Проще говоря, проект машинного обучения начинается с того, что он берет двоичные файлы и преобразует их в двухмерные изображения.
Затем изображения подаются в рамки. Этот второй шаг представляет собой процесс, называемый трансферным обучением, который по существу помогает алгоритму опираться на имеющиеся у него знания, сравнивая при этом образы с существующим обучением.
Наконец, результаты анализируются, чтобы увидеть, насколько эффективен процесс обнаружения образцов вредоносного ПО, сколько он пропустил и сколько ошибочно классифицировано как вредоносное ПО (известное как ложное срабатывание).
В рамках исследования Microsoft и Intel отобрали набор данных из 2,2 миллиона файлов. Из них 60 процентов были известны вредоносные файлы, которые использовались для обучения алгоритма, и 20 процентов были использованы для его проверки. Оставшиеся 20 процентов были использованы для проверки фактической эффективности схемы.
Прикладывая STAMINA к файлам, Microsoft говорит, что метод точно обнаружил и классифицировал 99,07 процента файлов вредоносного ПО с 2,58 процентами ложных срабатываний. Это звездные результаты.
«Результаты, безусловно, поощряют использование глубокого обучения с целью классификации вредоносных программ. Это помогает ускорить обучение путем обхода поиска оптимальных гиперпараметров и архитектурных поисков, экономя время и вычислительные ресурсы в процессе», — заявляет Microsoft.
СТАМИНА не без ограничений. Часть процесса влечет за собой изменение размеров изображений, чтобы сделать количество пикселей управляемым для приложения, подобного этому. Однако для более глубокого анализа и приложений большего размера Microsoft заявляет, что метод «становится менее эффективным из-за ограничений в преобразовании миллиардов пикселей в изображения JPEG и последующем изменении их размера».
Другими словами, STAMINA отлично подходит для тестирования файлов в лаборатории, но требует некоторой тонкой настройки, прежде чем его можно будет реально использовать в большей емкости. Это, вероятно, означает, что Защитник Windows не сразу получит выгоду от STAMINA, но, возможно, когда-нибудь в будущем получит.