کاربردها و محدودیت های ماشین لرنینگ در امنیت سایبری

supermod 02 اکتبر 2019 0 دیدگاه

آشنایی با Machine Learning و کاربردهای آن

انتظارات زیادی برای ماشین لرنینگ (ML) در امنیت سایبری وجود دارد که دلایل قابل قبولی نیز برای آن موجود است. با کمک الگوریتم‌های ML می‌توان در میان انبوهی از رویدادهای امنیتی، ناهنجاری‌ها و انحرافات از رفتار‌های عادی را که اغلب نشان‌دهنده فعالیت‌های مخرب است، فیلتر کرد و سپس این یافته‌ها را برای بررسی و ارزیابی، به تحلیلگر ارائه داد و از نتایج بدست آمده آن برای بحث آموزشی در سیستم استفاده کرد.

هر چه داده‌های بیشتری را از طریق سیستم پردازش ‌کنیم، این پدیده تکامل یافته و می‌آموزد تا در رخداد‌های مشابه‌، صفات مشترک در رفتارهای مخربی که ما به‌دنبال تشخیص آنها هستیم، شناسایی شود.

تشخیص ناهنجاری

بخش اول این فرآیند که مربوط به تشخیص ناهنجاری است، یادگیری بدون‌نظارت (Unsupervised Learning) نام دارد. ارزان است، و همگام با سرعت دستگاه و در حجم زیادی از داده‌ها قابل انجام است، اما بسیار پر سر‌و‌صداست.

سیگنال‌های الکترونیکی که ما تجزیه‌و‌تحلیل می‌کنیم، به ویژه آن‌هایی که فعالیت انسان را منعکس می‌کنند، ممکن است به طور طبیعی در نوسان باشند و در نتیجه ناهنجاری‌های سطحی ایجاد شود. بهترین نمونه شناخته شده این مورد، نفوذ رخ داده شده در سال 2013 در Target است، که در واقع بدافزار آلوده توسط نرم‌افزار مانیتورینگ شناسایی شد، اما هشدارش در میان صدها و هزاران هشدار دریافت شده توسط تحلیلگران گم شد و منجر به درز اطلاعات بیش از 40 میلیون کارت اعتباری شد.

روش‌های مختلفی برای کاهش قطعیت‌های کاذب (false positives) وجود دارد. از Cross-domain correlation برای دیدن رویداد از زوایای مختلف استفاده می‌شود: فعالیت‌های مخرب ممکن است از طریق چندین ناهنجاری ظاهر شود، و تجمیع آن‌ها یک سیگنال قوی‌تری از هر یک از آنها به صورت منفرد، ایجاد می‌کند.

این نوع از تحلیل معمولاً از طریق مدل‌سازی تهدید پیچیده انجام می‌شود که همچنین می‌تواند رویدادهای مجزای موقت را با هم مرتبط کند. ساماندهی تهدیدات احتمالی در زنجیره حملات کشتاری، شناسایی زودهنگام حمله را از طریق تقویت ریسک در امتداد زنجیره تسهیل می‌کند و به سیستم تدافعی این فرصت را می‌دهد تا از بروز آسیب در مراحل بعدی حمله جلوگیری کنند. روش دیگر کاهش قطعیت کاذب (false positives) از طریق تجزیه‌و‌تحلیل گروه‌های هم‌نوع است.

گروه‌های هم‌نوع بر اساس ویژگی‌ها یا فعالیت‌های مشابهی تشکیل می‌شوند و با این فرضیه شکل گرفته که منعکس‌کننده عملکرد مشترک و فعالیت‌های مشترک است. وقتی رفتار یک فرد برخی ناهنجاری‌هایی را نشان دهد، اگر این ناهنجاری‌ها در میان هم‌گروه‌های خودش نرمال باشد، به احتمال زیاد این یک قطعیت کاذب (false positives) است و می‌توان آن‌ها را نادیده گرفت.

هوش مصنوعی و ماشین لرنینگ کسب‌و‌کارها را با تعامل داده های جدید تغییر می‌دهند

بخش دوم فرآیند، آموزش سیستم ماشین لرنینگML، یادگیری تحت نظارت (supervised learning) نام دارد. این مرحله به داده‌های دارای برچسب نیاز دارد: هر رویدادی باید دارای برچسب خوب یا بد باشد.

متداول‌ترین روش برای برچسب‌زدن داده‌ها استفاده از تحلیلگر انسانی برای بررسی وقایع است، اما جزء گرانترین روش‌هاست و به سختی پاسخگوی مقیاس بزرگی از داده‌های ورودی است. پیشرفت‌های اخیر در مدل‌سازی تولیدی Generative model، از تخصص انسانی برای برچسب‌گذاری مدل‌های تحت نظارتی در مقیاس بزرگ به‌جای برچسب‌زدن‌های موردی استفاده می‌کند، اما هنوز شاهد انجام آن در حوزه امنیت سایبری نیستیم.

به‌عنوان مثال در قسمت‌هایی از فایل‌های بدافزارهای شناخته شده، برای برچسب‌گذاری داده‌هایی با ویژگی‌های رفتاری مشابه بدافزار استفاده می‌شود. با این وجود، به‌طور کلی یادگیری تحت نظارت (supervised learning) به داده‌های مبتنی بر برچسب‌های دستی وابسته است. مدل‌های تهدیدی که به خوبی طراحی شده باشند می‌توانند با کاهش تعداد موارد قطعیت‌های کاذب (supervised learning) که تحلیلگر مجبور به بررسی آن‌هاست، روند برچسب‌زدن را کارآمدتر کنند. برنامه تمرینی تهاجمی، که در آن ترکیبی بهینه از موارد مثبت و منفی را در اختیار تحلیلگر قرار می‌دهد، می‌تواند روند یادگیری را تسریع کند.

به روز رسانی مدل های ماشین لرنینگ

مدل‌های ماشین لرنینگML باید به صورت دوره‌ای به‌روزرسانی شوند تا بتوانند به مفهوم تغییر و جابجایی (تغییر در روابط اساسی) بپردازند و نقاط داده جدید را در خود جای دهند. فراوانی و سرعت به‌روزرسانی‌ها به میزان تغییر داده‌ها، بزرگی مفاهیم تغییرات، الزامات دقت و همچنین اندازه مدل و ظرفیت محاسباتی شما بستگی دارد.

به‌عنوان مثال، رفتار کاربران متغیر است و پروفایل‌ها برای دریافت ترندهای روز و کاهش قطعیت‌های کاذب (supervised learning) باید حداقل به‌صورت روزانه آپدیت شوند. مدل‌های نظارت شده (Supervised Model) که بازخورد تحلیلگر را ثبت می‌کنند، برای جلوگیری از بررسی موارد مشابه و تکراری که توسط تحلیلگر انجام می‌شود، ممکن است نیاز به به‌روزرسانی‌های مکرر و نزدیک به زمان واقعی داشته باشند.

این الزامات و همچنین حجم داده‌هایی که باید مورد تجزیه‌و‌تحلیل قرار گیرند، به احتمال زیاد شما را از نقطه امن یادگیری به سمت جریان‌های تحلیلی و مدل‌های یادگیری آنلاین سوق می‌دهد.

به نظر می‌رسد با افزودن داده‌های آموزشی بیشتر، راه‌حلی برای بهبود کیفیت مدل‌ها به‌وجود‌ آید، اما این راه‌حل فقط تا زمانی که داده‌های جدیدی به محتوای اطلاعاتی مدل اضافه شود و باعث افزایش تنوع مجموعه داده شود، کار خواهد‌ کرد. علاوه بر مهندسی ویژگی‌های مناسب، تنظیم پارامترها و نظارت بیش از حد، ایجاد تنوع نیز یک عامل اصلی برای تولید یک مدل کلی است.

برای افزایش تنوع، باید داده‌هایی از مشتریان متعدد، صنایع مختلف، کسب‌و‌کار با سایزهای مختلف و مناطق جغرافیایی مختلف را بیفزاییم. با توجه به حساسیت داده‌های امنیت سایبری، نمی‌توانیم این مجموعه داده‌ها را بطور مستقیم با هم ترکیب کنیم، اما می‌توانیم Federated Learning را برای اطمینان از وزن مدل‌های فردی اعمال کنیم تا امنیت اطلاعات مشتریان را تضمین کنیم.

افزایش امنیت سایبری توسط ماشین لرنینگ

مانند هر فناوری جدید، معرفی موفقیت‌آمیز ماشین لرنینگ در امنیت سایبری بر نتایج قابل قبول آن استوار است. برای ایجاد این اعتبار، شما باید به تدریج برنامه را از سطح صفر به بالا توسعه دهید یعنی از شاخص‌های رفتاری ساده‌تر و قابل‌ درک‌تر به مدل‌های پیچیده‌تر و نهایتاً به زنجیره حملات کشنده، توسعه دهید.

روش‌هایی که ماشین لرنینگ باعث به حداکثر رساندن ارزش برنامه امنیت سایبری شما می‌شود:

تا آنجا که ممکن است شاخص‌های رفتاری زیادی ایجاد کنید تا بتوانید تمام رفتارهای مخرب را شناسایی کنید.
طراحی زنجیره کشتار برای حمله‌های شناخته شده و طراحی جایگاه ناهنجاری‌ برای حملات ناشناخته.
اخذ و جمع‌آوری تمام بازخورد‌های تحلیلگران برای برچسب‌گذاری داده‌ها جهت نظارت بر روند عیوب آن‌ها.
مدل‌های خود را به موقع به‌روزرسانی کنید تا درک مفاهیم مدل جابجا نشود.
با تنوع‌سازی مجموعه داده‌ها، به سمت مدل‌های تعمیم یافته بروید.
یک اکوسیستم ML (ماشین لرنینگ) شفاف، معتبر و قابل‌ درک بسازید.

درباره سینداد

سینداد یعنی هدیه‌ی سیمرغ، یا فرزند سیمرغ؛ به عبارتی یعنی خود سیمرغ، با همه ی شگفتی هایش، اما جوانتر و سرزنده تر. و این چیزی است که ما سعی می کنیم در سینداد باشیم. از سال ۱۳۸۵ دانش مان را به صورت خدماتی در حوزه ی هاستینگ، شبکه و تولید نرم افزار در اختیار مشتریان مان قرار داده ایم و به این افتخار می کنیم که تک تک آنها تا به امروز همراه ما مانده اند. باور داریم که سینداد صرفاً یک شرکت نیست، بلکه نوعی باور است به ارائه ی شگفت انگیز از هر چیز.