انتظارات زیادی برای ماشین لرنینگ (ML) در امنیت سایبری وجود دارد که دلایل قابل قبولی نیز برای آن موجود است. با کمک الگوریتمهای ML میتوان در میان انبوهی از رویدادهای امنیتی، ناهنجاریها و انحرافات از رفتارهای عادی را که اغلب نشاندهنده فعالیتهای مخرب است، فیلتر کرد و سپس این یافتهها را برای بررسی و ارزیابی، به تحلیلگر ارائه داد و از نتایج بدست آمده آن برای بحث آموزشی در سیستم استفاده کرد.
هر چه دادههای بیشتری را از طریق سیستم پردازش کنیم، این پدیده تکامل یافته و میآموزد تا در رخدادهای مشابه، صفات مشترک در رفتارهای مخربی که ما بهدنبال تشخیص آنها هستیم، شناسایی شود.
بخش اول این فرآیند که مربوط به تشخیص ناهنجاری است، یادگیری بدوننظارت (Unsupervised Learning) نام دارد. ارزان است، و همگام با سرعت دستگاه و در حجم زیادی از دادهها قابل انجام است، اما بسیار پر سروصداست.
سیگنالهای الکترونیکی که ما تجزیهوتحلیل میکنیم، به ویژه آنهایی که فعالیت انسان را منعکس میکنند، ممکن است به طور طبیعی در نوسان باشند و در نتیجه ناهنجاریهای سطحی ایجاد شود. بهترین نمونه شناخته شده این مورد، نفوذ رخ داده شده در سال ۲۰۱۳ در Target است، که در واقع بدافزار آلوده توسط نرمافزار مانیتورینگ شناسایی شد، اما هشدارش در میان صدها و هزاران هشدار دریافت شده توسط تحلیلگران گم شد و منجر به درز اطلاعات بیش از ۴۰ میلیون کارت اعتباری شد.
روشهای مختلفی برای کاهش قطعیتهای کاذب (false positives) وجود دارد. از Cross-domain correlation برای دیدن رویداد از زوایای مختلف استفاده میشود: فعالیتهای مخرب ممکن است از طریق چندین ناهنجاری ظاهر شود، و تجمیع آنها یک سیگنال قویتری از هر یک از آنها به صورت منفرد، ایجاد میکند.
این نوع از تحلیل معمولاً از طریق مدلسازی تهدید پیچیده انجام میشود که همچنین میتواند رویدادهای مجزای موقت را با هم مرتبط کند. ساماندهی تهدیدات احتمالی در زنجیره حملات کشتاری، شناسایی زودهنگام حمله را از طریق تقویت ریسک در امتداد زنجیره تسهیل میکند و به سیستم تدافعی این فرصت را میدهد تا از بروز آسیب در مراحل بعدی حمله جلوگیری کنند. روش دیگر کاهش قطعیت کاذب (false positives) از طریق تجزیهوتحلیل گروههای همنوع است.
گروههای همنوع بر اساس ویژگیها یا فعالیتهای مشابهی تشکیل میشوند و با این فرضیه شکل گرفته که منعکسکننده عملکرد مشترک و فعالیتهای مشترک است. وقتی رفتار یک فرد برخی ناهنجاریهایی را نشان دهد، اگر این ناهنجاریها در میان همگروههای خودش نرمال باشد، به احتمال زیاد این یک قطعیت کاذب (false positives) است و میتوان آنها را نادیده گرفت.
بخش دوم فرآیند، آموزش سیستم ماشین لرنینگML، یادگیری تحت نظارت (supervised learning) نام دارد. این مرحله به دادههای دارای برچسب نیاز دارد: هر رویدادی باید دارای برچسب خوب یا بد باشد.
متداولترین روش برای برچسبزدن دادهها استفاده از تحلیلگر انسانی برای بررسی وقایع است، اما جزء گرانترین روشهاست و به سختی پاسخگوی مقیاس بزرگی از دادههای ورودی است. پیشرفتهای اخیر در مدلسازی تولیدی Generative model، از تخصص انسانی برای برچسبگذاری مدلهای تحت نظارتی در مقیاس بزرگ بهجای برچسبزدنهای موردی استفاده میکند، اما هنوز شاهد انجام آن در حوزه امنیت سایبری نیستیم.
بهعنوان مثال در قسمتهایی از فایلهای بدافزارهای شناخته شده، برای برچسبگذاری دادههایی با ویژگیهای رفتاری مشابه بدافزار استفاده میشود. با این وجود، بهطور کلی یادگیری تحت نظارت (supervised learning) به دادههای مبتنی بر برچسبهای دستی وابسته است. مدلهای تهدیدی که به خوبی طراحی شده باشند میتوانند با کاهش تعداد موارد قطعیتهای کاذب (supervised learning) که تحلیلگر مجبور به بررسی آنهاست، روند برچسبزدن را کارآمدتر کنند. برنامه تمرینی تهاجمی، که در آن ترکیبی بهینه از موارد مثبت و منفی را در اختیار تحلیلگر قرار میدهد، میتواند روند یادگیری را تسریع کند.
مدلهای ماشین لرنینگML باید به صورت دورهای بهروزرسانی شوند تا بتوانند به مفهوم تغییر و جابجایی (تغییر در روابط اساسی) بپردازند و نقاط داده جدید را در خود جای دهند. فراوانی و سرعت بهروزرسانیها به میزان تغییر دادهها، بزرگی مفاهیم تغییرات، الزامات دقت و همچنین اندازه مدل و ظرفیت محاسباتی شما بستگی دارد.
بهعنوان مثال، رفتار کاربران متغیر است و پروفایلها برای دریافت ترندهای روز و کاهش قطعیتهای کاذب (supervised learning) باید حداقل بهصورت روزانه آپدیت شوند. مدلهای نظارت شده (Supervised Model) که بازخورد تحلیلگر را ثبت میکنند، برای جلوگیری از بررسی موارد مشابه و تکراری که توسط تحلیلگر انجام میشود، ممکن است نیاز به بهروزرسانیهای مکرر و نزدیک به زمان واقعی داشته باشند.
این الزامات و همچنین حجم دادههایی که باید مورد تجزیهوتحلیل قرار گیرند، به احتمال زیاد شما را از نقطه امن یادگیری به سمت جریانهای تحلیلی و مدلهای یادگیری آنلاین سوق میدهد.
به نظر میرسد با افزودن دادههای آموزشی بیشتر، راهحلی برای بهبود کیفیت مدلها بهوجود آید، اما این راهحل فقط تا زمانی که دادههای جدیدی به محتوای اطلاعاتی مدل اضافه شود و باعث افزایش تنوع مجموعه داده شود، کار خواهد کرد. علاوه بر مهندسی ویژگیهای مناسب، تنظیم پارامترها و نظارت بیش از حد، ایجاد تنوع نیز یک عامل اصلی برای تولید یک مدل کلی است.
برای افزایش تنوع، باید دادههایی از مشتریان متعدد، صنایع مختلف، کسبوکار با سایزهای مختلف و مناطق جغرافیایی مختلف را بیفزاییم. با توجه به حساسیت دادههای امنیت سایبری، نمیتوانیم این مجموعه دادهها را بطور مستقیم با هم ترکیب کنیم، اما میتوانیم Federated Learning را برای اطمینان از وزن مدلهای فردی اعمال کنیم تا امنیت اطلاعات مشتریان را تضمین کنیم.
مانند هر فناوری جدید، معرفی موفقیتآمیز ماشین لرنینگ در امنیت سایبری بر نتایج قابل قبول آن استوار است. برای ایجاد این اعتبار، شما باید به تدریج برنامه را از سطح صفر به بالا توسعه دهید یعنی از شاخصهای رفتاری سادهتر و قابل درکتر به مدلهای پیچیدهتر و نهایتاً به زنجیره حملات کشنده، توسعه دهید.
روشهایی که ماشین لرنینگ باعث به حداکثر رساندن ارزش برنامه امنیت سایبری شما میشود:
سینداد یعنی هدیهی سیمرغ، یا فرزند سیمرغ؛ به عبارتی یعنی خود سیمرغ، با همه ی شگفتی هایش، اما جوانتر و سرزنده تر. و این چیزی است که ما سعی می کنیم در سینداد باشیم. از سال ۱۳۸۵ دانش مان را به صورت خدماتی در حوزه ی هاستینگ، شبکه و تولید نرم افزار در اختیار مشتریان مان قرار داده ایم و به این افتخار می کنیم که تک تک آنها تا به امروز همراه ما مانده اند. باور داریم که سینداد صرفاً یک شرکت نیست، بلکه نوعی باور است به ارائه ی شگفت انگیز از هر چیز.