دانلود پاورپوینت آشنایی با روشهای مبتنی بر یادگیری برای فیلتر کردن اسپمها
اسپم و فیلترکردن عمومی آن با استفاده از روش Naïve Bayesian
عنوان های پاورپوینت :
آشنایی با روشهای مبتنی بر یادگیری برای فیلتر کردن اسپمها
اسپم و فیلترکردن عمومی آن با استفاده از روش Naïve Bayesian
رئوس مطالب
مروری بر پدیده اسپم
روشهای مبتنی بر یادگیری برای فیلترکردن اسپم ها
روش Naïve Bayesian برای فیلترکردن اسپم
معیارهای ارزیابی
بررسی نتایج
قسمت ها و تکه های اتفاقی از فایل
احتمال شرطی : P(B | A) = P(A|B) * P(B) / P(A)
X={x1, x2, x3, x4…xn} بردار ویژگی ها می باشد
مجموعه ویژگی ها: X={“online”, “credit”, “now!!!”…”Zinc”}
C={c1, c2, c3, c4…ck} مجموعه کلاسها
در اینجا دو کلاس داریم: C={“SPAM”, “LEGITIMATE”}.
ساده ترین روش برای محاسبه فرمول احتمال بیزین این است که فرض کنیم که هر ویژگی Xi بصورت شرطی مستقل از سایر ویژگی هاست
فرض استقلال:
n= تعداد ویژگی ها
هر کلاس (اسپم و یا ایمیل معتبر) که این مقدار احتمالی به ازای آن بزرگتر باشد، برچسب آن ایمیل خواهد بود.
برای مقایسه مقدار کلاس اسپم با کلاس «ایمیل معتبر» نیازی به محاسبه مخرج کسر فوق نیست چراکه این مقدار برای هر کلاس یکسان است
False Psitive شامل ایمیل هایی می شود که به اشتباه جزو اسپم ها دسته بندی می گردند. :
False Negative هم شامل ایمیل هایی می شود که به اشتباه جزو ایمیل های معتبر دسته بندی می شوند.:
!!! طبقه بندی اشتباه یک ایمیلِ معتبر به عنوان اسپم نسبت به طبقه بندی اشتباه یک اسپم به عنوان ایمیلِ درست، هزینه بدِ بیشتری در بردارد!
اگر هزینه λ بار بدتر از هزینه باشد، آنگاه زمانی یک ایمیل را جزو اسپم ها طبقه بندی می کنیم که
با فرض داریم که t برابر است با . در اینجا t برابر 0/999 گرفته شده است.
از feature selection برای کاهش ابعاد ویژگی/داده استفاده شده است
بعضی اوقات می توان از feature transforming هم استفاده کرد
LSI & SVD
یک انبوه داده(corpus)از ایمیلهای واقعی : شامل 1578 ایمیل بیهوده و 211 ایمیل معتبر 1538 داده برای آموزش فیلتر و 251 عدد برای تست
ویژگیهای گرفته شده از توکن های متن
توکن های نادر (با رخداد کمتر از 3 در کل corpus) حذف شدند
35 ویژگی عبارتی اضافه شدند
20 ویژگی غیر متنی و وابسته به دامنه اضافه شدند
تعداد کاراکترهای غیر الفبایی در عنوان ایمیل به عنوان ویژگی مفیدی شناسایی شد
500 ویژگی برتر با استفاده از Mutual Information انتخاب شد
Spam Precision: درصدی از ایمیلهای طبقه بندی شده به عنوان اسپم که در واقع اسپم هستند.
Spam Recall: درصدی از کل ایمیل های اسپم واقعی که توسط دسته بند به عنوان اسپم طبقه بندی شده اند.
یک نمودار Precision/Recall ایده آل
نتایج دسته بندی (Classification) با استفاده از مجموعه ویژگی های متفاوت
نقاط قوت
متد Bayesian کل پیغام را در نظر می گیرد. این متد علاوه بر اینکه کلمات کلیدی که معرف و مرتبط با اسپم هستند را شناسایی می کند، بلکه کلمات معرف ایمیل های معتبر را نیز شناسایی می کند. در متد Bayesian کلمات در کنارهم تأثیر یکدیگر را (در نتیجه نهایی فیلتر اسپم) متعادل می کنند؛ به بیانی دیگر فیلتر Bayesian بر روی کلمات کلیدی تکیه نمی کند به طوریکه به خاطر یک کلمه خاص، یک پیغام را جزو اسپم ها طبقه بندی کند، بلکه تمامی کلمات و تمامی ویژگی های پیغام را در نظر می گیرد.
یک فیلتر Bayesian با یادگیری مستمر از اسپم های جدید و ایمیل های معتبرِ جدید، به طور ثابت خود را با آخرین تغییرات وفق می دهد. فیلتر Bayesian دائماً در حال تحول است و خود را با تکنیک های جدید اسپم هماهنگ می سازد.
هنگامی که فرستادگان اسپم برای فریب دادن راهکارِ «بررسی کلمات کلیدی» به جای “Free” از “F-r-e-e” استفاده کردند، بلافاصله پس از افزودن “F-r-e-e” به پایگاه داده کلمات کلیدی، راهکارشان خنثی شد
روش Bayesian روشی است که قابل اِعمال به هر زبانی می باشد. فیلتر اسپم Bayesian کاملاً قابل انطباق با هر زبان و نوشتاری می باشد
تکنیک فیلتر Bayesian حساس به کاربر و داده های اوست. فیلتر از ایمیل های کاربر (و یا شرکت) یاد می گیرد که در مورد کاربر، بیشتر چه مطالبی به عنوان ایمیل رد و بدل می گردد.
به عنوان مثال اگر شرکت (یا فرد) یک شرکت دلال اتومبیل باشد، آنگاه کلمه “mortgage” به عنوان نشانه ای برای یک اسپم تلقی می گردد، در حالی که اگر شرکت (یا فرد) یک شرکتی باشد که طرف قراردادش سازمان وام دهنده مسکن باشند آنگاه چنین کلمه ای در ایمیل نشان دهنده وجود یک اسپم نمی باشد.
یک فیلتر Bayesian نسبت به فیلترهای مبتنی بر لیست کلمات کلیدی، کمتر فریب می خورد.
نقطه ضعف: فرض استقلال بین ویژگی ها
می توان از روشهای جایگزین (البته با محاسبات بیشتر) مانند Belief Network استفاده کرد
روش Bayesian برای فیلتر کردن اتوماتیک اسپم ها کارا می باشد
افزودن ویژگیهای غیردامنه ای و غیرمتنی و عبارتهای دست-ساخته باعث بهبود کارائی فیلترینگ می گردد.
فیلتراسپم Naïve Bayesian می تواند برای دسته بندی های متفاوتی از ایمیلها مورد استفاده قرار گیرد
مثل دسته بندی ایمیلهای معتبر به «ایمیلهای دوستان» و «ایمیلهای کاری»
30 تا 70 درصد پروژه | پاورپوینت | سمینار | طرح های کارآفرینی و توجیهی | پایان-نامه | پی دی اف مقاله ( کتاب ) | نقشه | پلان طراحی | های آماده به صورت رایگان میباشد ( word | pdf | docx | doc )
نقد و بررسیها
هیچ دیدگاهی برای این محصول نوشته نشده است.