SData
ورود / ثبت‌نام

جستجو در SData

جستجوی سریع در SData

محصولات، دوره‌ها، داشبوردها و مقالات را در لحظه پیدا کنید

محصولات
دوره‌ها
داشبوردها
مقالات
حداقل 2 حرف برای شروع جستجو تایپ کنید
SData

مدل‌ سازی آماری برای داده‌ های آموزشی نامتوازن

دانیال رضوی
1403/11/16
مطالعه این مقاله حدود 22 دقیقه زمان می‌برد
716 بازدید

فهرست مطالب


مدل‌ سازی آماری برای داده‌ های آموزشی نامتوازن

در بسیاری از مسائل یادگیری ماشین، داده‌های آموزشی به‌صورت نامتوازن توزیع شده‌اند، به این معنا که تعداد نمونه‌های یک کلاس بسیار بیشتر از کلاس دیگر است. این عدم تعادل می‌تواند باعث کاهش دقت مدل و یادگیری نامناسب شود.

هوش مصنوعی در آمار به ما کمک می‌کند تا با روش‌های آماری مانند نمونه‌گیری تصادفی، وزن‌دهی کلاس‌ها، تغییر توابع هزینه و استفاده از الگوریتم‌های ترکیبی، عملکرد مدل را بهبود بخشیم.

علاوه بر این، تکنیک‌های تنظیم وزن‌ها و روش‌های پیش‌پردازش داده می‌توانند به ایجاد تعادل در مجموعه داده‌ها کمک کنند. در این مقاله، استراتژی‌های کاربردی برای مقابله با داده‌های نامتوازن و افزایش دقت مدل‌های پیش‌بینی ارائه شده است.

 

 

مدل‌سازی آماری در داده‌های نامتوازن: چالش‌ها و راهکارها

 

در بسیاری از مسائل یادگیری ماشین، داده‌های آموزشی به‌طور نامتوازن توزیع شده‌اند، به این معنا که تعداد نمونه‌های یک کلاس بسیار بیشتر از کلاس دیگر است. این مشکل در حوزه‌هایی مانند تشخیص تقلب در تراکنش‌های بانکی، شناسایی بیماری‌های نادر، تحلیل نظرات کاربران و تشخیص ایمیل‌های اسپم بسیار رایج است.

زمانی که داده‌های آموزشی دارای نامتعادلی باشند، مدل‌های یادگیری ماشین معمولاً به سمت کلاس غالب (کلاسی که داده‌های بیشتری دارد) تمایل پیدا می‌کنند و نمونه‌های کلاس کم‌تعداد را نادیده می‌گیرند. آمار نقش کلیدی در شناسایی این مشکل و ارائه راهکارهای مناسب برای متعادل‌سازی داده‌ها و بهینه‌سازی عملکرد مدل دارد. در این مقاله، به بررسی چالش‌های مدل‌سازی داده‌های نامتوازن و روش‌های آماری برای مقابله با آن پرداخته می‌شود.

 

چالش‌های مدل‌سازی آماری در داده‌های نامتوازن

 

۱. تمایل مدل به کلاس غالب
هنگامی که مدل یادگیری ماشین روی یک مجموعه داده نامتوازن آموزش داده می‌شود، احتمال دارد که بیشترین پیش‌بینی‌های خود را به سمت کلاس غالب متمایل کند. این مسئله به این دلیل اتفاق می‌افتد که مدل در تلاش است تا خطای کلی را کاهش دهد، اما در عمل باعث کاهش دقت در پیش‌بینی کلاس کم‌تعداد می‌شود.

۲. عدم تعادل در توزیع احتمال کلاس‌ها
در یادگیری ماشین، مدل‌ها معمولاً فرض می‌کنند که داده‌های آموزشی به‌صورت یکنواخت توزیع شده‌اند. اما در داده‌های نامتوازن، توزیع احتمال کلاس‌ها به‌طور قابل‌توجهی نابرابر است. این امر می‌تواند باعث شود که مدل تخمین‌های نادرستی از میزان وقوع کلاس‌ها داشته باشد.

۳. معیارهای ارزیابی نامناسب
در مجموعه داده‌های نامتوازن، معیارهایی مانند دقت (Accuracy) نمی‌توانند به‌درستی عملکرد مدل را ارزیابی کنند. یک مدل که ۹۵٪ نمونه‌های کلاس غالب را درست پیش‌بینی کند اما تنها ۵٪ از نمونه‌های کلاس کم‌تعداد را تشخیص دهد، همچنان دقت بالایی خواهد داشت، اما عملکرد واقعی مدل مناسب نیست.

 

راهکارهای آماری برای مدل‌سازی داده‌های نامتوازن

 

۱. روش‌های نمونه‌گیری آماری برای ایجاد تعادل در داده‌ها

 

روش‌های نمونه‌گیری به متعادل‌سازی مجموعه داده کمک می‌کنند و یکی از رویکردهای اولیه برای مقابله با نامتوازن بودن داده‌ها هستند.

  • افزایش تعداد نمونه‌های کلاس کم‌تعداد (Oversampling): در این روش، داده‌های بیشتری از کلاس کم‌تعداد ایجاد می‌شود تا نسبت داده‌های دو کلاس برابر شود. روش‌هایی مانند SMOTE (Synthetic Minority Over-sampling Technique) از الگوریتم‌های رایج در این زمینه هستند.
  • کاهش تعداد نمونه‌های کلاس غالب (Undersampling): در این روش، نمونه‌های اضافی کلاس غالب حذف می‌شوند تا نسبت کلاس‌ها متعادل شود. این روش برای داده‌هایی که حجم زیادی دارند مفید است.

مثال: در یک مجموعه داده مربوط به تشخیص کلاهبرداری مالی، فقط ۲٪ از داده‌ها نشان‌دهنده تراکنش‌های جعلی هستند. با استفاده از SMOTE، داده‌های بیشتری از تراکنش‌های جعلی تولید شده و مدل با داده‌های متعادل‌تر آموزش داده می‌شود.

 

۲. وزن‌دهی کلاس‌ها برای بهینه‌سازی مدل یادگیری ماشین

 

در این روش، وزن بیشتری به کلاس کم‌تعداد داده می‌شود تا مدل هنگام آموزش، نسبت به آن توجه بیشتری داشته باشد.

  • تخصیص وزن معکوس نسبت به تعداد نمونه‌های هر کلاس: به کلاس‌هایی که نمونه‌های کمتری دارند، وزن بیشتری داده می‌شود.
  • استفاده از توابع هزینه متناسب با نامتعادلی داده‌ها: برخی مدل‌ها، مانند شبکه‌های عصبی و درخت‌های تصمیم‌گیری، قابلیت تنظیم وزن کلاس‌ها را دارند.

مثال: در یک مدل تشخیص بیماری نادر که ۹۵٪ داده‌ها مربوط به افراد سالم و فقط ۵٪ داده‌ها مربوط به بیماران است، با افزایش وزن نمونه‌های بیماران در تابع هزینه، مدل توجه بیشتری به پیش‌بینی این کلاس خواهد داشت.

 

۳. استفاده از معیارهای آماری مناسب برای ارزیابی مدل

 

استفاده از دقت (Accuracy) برای ارزیابی مدل در داده‌های نامتوازن گمراه‌کننده است. معیارهای آماری مناسب‌تر شامل:

  • Precision و Recall:

    • Precision: تعداد پیش‌بینی‌های درست از کلاس کم‌تعداد را نسبت به کل پیش‌بینی‌های آن کلاس اندازه‌گیری می‌کند.
    • Recall: نشان می‌دهد که چه تعداد از نمونه‌های واقعی کلاس کم‌تعداد به درستی شناسایی شده‌اند.
  • F1-Score: میانگین هارمونیک Precision و Recall است و زمانی که داده‌ها نامتوازن باشند، عملکرد بهتری نسبت به دقت دارد.

  • ماتریس درهم‌ریختگی (Confusion Matrix): توزیع پیش‌بینی‌های درست و نادرست را در بین کلاس‌ها نشان می‌دهد.

  • ROC Curve و AUC: میزان توانایی مدل در جداسازی کلاس‌های مختلف را نشان می‌دهد.

مثال: در یک مدل تشخیص ایمیل‌های اسپم، دقت مدل ۹۷٪ گزارش شده، اما بررسی Precision و Recall نشان می‌دهد که فقط ۶۰٪ از ایمیل‌های اسپم درست شناسایی شده‌اند. بنابراین، مدل نیاز به بهبود دارد.

 

۴. تنظیم آستانه تصمیم‌گیری (Threshold Tuning) برای متعادل‌سازی پیش‌بینی‌ها

 

در بسیاری از مدل‌های یادگیری ماشین، مقدار پیش‌فرض برای جداسازی کلاس‌ها ۰.۵ است. اما در داده‌های نامتوازن، تغییر این آستانه می‌تواند به بهبود عملکرد مدل کمک کند.

  • کاهش مقدار آستانه برای افزایش Recall در کلاس کم‌تعداد
  • افزایش مقدار آستانه برای کاهش پیش‌بینی‌های نادرست کلاس کم‌تعداد

مثال: در یک مدل تشخیص سرطان، تنظیم آستانه به ۰.۳ به جای ۰.۵ باعث می‌شود مدل نمونه‌های بیشتری از بیماران را شناسایی کند، حتی اگر نرخ خطای کمی افزایش یابد.

 

۵. استفاده از مدل‌های ترکیبی (Ensemble Learning) برای بهبود تعادل مدل

 

مدل‌های ترکیبی مانند جنگل تصادفی (Random Forest) و تقویت گرادیان (Gradient Boosting) می‌توانند از استراتژی‌های وزن‌دهی و نمونه‌گیری برای بهبود عملکرد در داده‌های نامتوازن استفاده کنند.

  • استفاده از مدل‌های مبتنی بر درخت تصمیم‌گیری که حساسیت بیشتری نسبت به کلاس‌های کم‌تعداد دارند.
  • ترکیب چندین مدل برای کاهش خطای پیش‌بینی در کلاس‌های کوچک‌تر.

مثال: در یک سیستم شناسایی معاملات جعلی، ترکیب مدل‌های مختلف باعث می‌شود نرخ شناسایی تراکنش‌های غیرقانونی تا ۱۵٪ افزایش یابد.

 

روش‌های وزن‌دهی و نمونه‌گیری در مدل‌های یادگیری ماشین برای داده‌های نامتوازن

 

در بسیاری از مسائل یادگیری ماشین، داده‌های آموزشی دارای توزیع نامتعادل هستند، به این معنا که تعداد نمونه‌های یک کلاس بسیار بیشتر از کلاس دیگر است. این عدم تعادل می‌تواند منجر به تمایل مدل به کلاس غالب، کاهش دقت در پیش‌بینی کلاس کم‌تعداد و ایجاد مدل‌هایی با عملکرد نابرابر در دسته‌بندی داده‌ها شود.

برای مقابله با این مشکل، دو راهکار اصلی مورد استفاده قرار می‌گیرد:

  • نمونه‌گیری (Sampling): تغییر در تعداد داده‌های هر کلاس برای ایجاد تعادل بین کلاس‌ها.
  • وزن‌دهی (Class Weighting): تنظیم میزان تأثیر هر کلاس در فرآیند آموزش مدل.

در این مقاله، به بررسی روش‌های نمونه‌گیری و وزن‌دهی در یادگیری ماشین برای داده‌های نامتوازن پرداخته می‌شود.

 

۱. روش‌های نمونه‌گیری برای مدیریت داده‌های نامتوازن

روش‌های نمونه‌گیری در یادگیری ماشین به دو دسته اصلی تقسیم می‌شوند:

 

۱.۱. نمونه‌گیری افزایشی (Oversampling) برای افزایش داده‌های کلاس کم‌تعداد

 

در این روش، تعداد نمونه‌های کلاس کم‌تعداد افزایش داده می‌شود تا نسبت کلاس‌ها به هم نزدیک‌تر شود.

انواع روش‌های نمونه‌گیری افزایشی:

  • تکرار نمونه‌های کلاس کم‌تعداد: داده‌های موجود در کلاس کم‌تعداد چندین بار تکرار می‌شوند.
  • ایجاد داده‌های مصنوعی (Synthetic Data Generation): داده‌های جدیدی با الگوهای مشابه داده‌های واقعی تولید می‌شوند.

روش‌های رایج نمونه‌گیری افزایشی:

  1. SMOTE (Synthetic Minority Over-sampling Technique):
    • در این روش، داده‌های جدیدی بین نقاط داده‌های واقعی کلاس کم‌تعداد ایجاد می‌شوند.
    • SMOTE از تکنیک‌های نزدیک‌ترین همسایه (KNN) برای تولید نمونه‌های مصنوعی استفاده می‌کند.
  2. ADASYN (Adaptive Synthetic Sampling):
    • نسخه بهینه‌شده SMOTE که بیشتر روی نواحی تصمیم‌گیری سخت‌تر تمرکز دارد.
    • باعث افزایش دقت مدل در دسته‌بندی کلاس‌های کم‌تعداد می‌شود.

مثال: در یک مدل شناسایی تقلب در کارت‌های اعتباری که تنها ۲٪ از داده‌ها مربوط به تقلب هستند، با استفاده از SMOTE، داده‌های مصنوعی بیشتری برای تراکنش‌های تقلبی تولید شده و مدل با توزیع متعادل‌تری آموزش داده می‌شود.

 

۱.۲. نمونه‌گیری کاهشی (Undersampling) برای کاهش داده‌های کلاس غالب

 

در این روش، تعداد نمونه‌های کلاس پرتعداد کاهش داده می‌شود تا تعادل ایجاد شود.

انواع روش‌های نمونه‌گیری کاهشی:

  • حذف تصادفی نمونه‌های کلاس پرتعداد: برخی داده‌ها از کلاس پرتعداد به‌طور تصادفی حذف می‌شوند.
  • نمونه‌گیری خوشه‌ای (Cluster-Based Undersampling): داده‌های پرتعداد ابتدا خوشه‌بندی شده و سپس برخی نمونه‌ها از هر خوشه انتخاب می‌شوند.
  • Edited Nearest Neighbors (ENN): داده‌هایی که باعث افزایش خطای مدل در دسته‌بندی کلاس کم‌تعداد می‌شوند، حذف می‌شوند.

مثال: در یک مدل تشخیص نظرات مثبت و منفی کاربران، اگر ۸۰٪ از داده‌ها مربوط به نظرات مثبت باشند، می‌توان با استفاده از Cluster-Based Undersampling داده‌های مثبت را کاهش داده و تعادل ایجاد کرد.

 

۱.۳. نمونه‌گیری ترکیبی (Hybrid Sampling) برای ایجاد تعادل بهتر

 

در برخی موارد، ترکیب روش‌های افزایشی و کاهشی می‌تواند عملکرد بهتری داشته باشد.

روش‌های ترکیبی متداول:

  • SMOTE + Edited Nearest Neighbors (SMOTE + ENN): ترکیب تولید داده‌های مصنوعی و حذف داده‌های پرت در کلاس غالب.
  • SMOTE + Tomek Links: حذف همپوشانی داده‌ها بین کلاس‌ها پس از ایجاد نمونه‌های مصنوعی.

مثال: در یک مدل تشخیص سرطان که داده‌های مربوط به بیماران سرطانی بسیار کمتر از بیماران سالم است، ابتدا با SMOTE داده‌های بیماران سرطانی افزایش داده شده و سپس با ENN داده‌های پرت از بین برده می‌شوند تا کیفیت داده‌ها بهتر شود.

 

۲. روش‌های وزن‌دهی برای مقابله با نامتعادلی داده‌ها

روش‌های وزن‌دهی به مدل‌های یادگیری ماشین کمک می‌کنند تا تأثیر کلاس‌های کم‌تعداد در یادگیری افزایش پیدا کند.

 

۲.۱. تنظیم وزن کلاس‌ها در الگوریتم‌های یادگیری ماشین

نحوه عملکرد:

  • به نمونه‌های کلاس کم‌تعداد وزن بیشتری نسبت داده می‌شود تا تأثیر آن‌ها در فرآیند یادگیری افزایش یابد.
  • مدل به‌طور خودکار وزن بیشتری به داده‌های کمیاب اختصاص می‌دهد و این کلاس را بهتر تشخیص می‌دهد.

کدام مدل‌ها از وزن‌دهی پشتیبانی می‌کنند؟

  • درخت تصمیم‌گیری و جنگل تصادفی (Random Forest)
  • ماشین بردار پشتیبان (SVM)
  • شبکه‌های عصبی مصنوعی (ANN)

مثال: در یک مدل تشخیص عیب در قطعات صنعتی، قطعات معیوب تنها ۳٪ داده‌ها را تشکیل می‌دهند. درخت تصمیم‌گیری با وزن‌دهی ۳۳ برابر بیشتر برای این کلاس، دقت شناسایی قطعات معیوب را بهبود می‌بخشد.

 

۲.۲. تغییر توابع هزینه (Cost-Sensitive Learning) برای جریمه کردن خطاهای کلاس کم‌تعداد

 

نحوه عملکرد:

  • در این روش، جریمه بیشتری برای پیش‌بینی‌های نادرست کلاس کم‌تعداد در نظر گرفته می‌شود.
  • این جریمه باعث می‌شود مدل دقت بیشتری در تشخیص این کلاس داشته باشد.

در کدام مدل‌ها قابل استفاده است؟

  • شبکه‌های عصبی (با تغییر تابع خطا)
  • الگوریتم‌های مبتنی بر درخت تصمیم‌گیری
  • مدل‌های بیزین

مثال: در یک سیستم تشخیص نقص فنی در نیروگاه، با افزایش جریمه برای تشخیص نادرست خرابی، مدل تمایل بیشتری به پیش‌بینی صحیح خرابی‌ها دارد.

 

۲.۳. تنظیم آستانه تصمیم‌گیری (Threshold Adjustment) برای تعادل در پیش‌بینی‌ها

 

نحوه عملکرد:

  • مدل‌های یادگیری ماشین معمولاً از آستانه ۰.۵ برای تصمیم‌گیری در مورد دسته‌بندی استفاده می‌کنند.
  • برای داده‌های نامتوازن، کاهش آستانه می‌تواند منجر به افزایش شناسایی کلاس کم‌تعداد شود.

مثال: در یک مدل تشخیص سرطان، کاهش آستانه پیش‌بینی از ۰.۵ به ۰.۳ باعث می‌شود موارد مشکوک بیشتری شناسایی شوند، هرچند نرخ خطای مثبت کاذب کمی افزایش یابد.

 

 

نتیجه‌گیری

 

داده‌های نامتوازن یکی از چالش‌های اساسی در یادگیری ماشین هستند که می‌توانند باعث کاهش دقت پیش‌بینی مدل شوند. آمار نقش حیاتی در شناسایی این مشکل و ارائه راهکارهای مؤثر دارد. استفاده از روش‌های نمونه‌گیری، وزن‌دهی کلاس‌ها، ارزیابی مدل با معیارهای آماری مناسب، تنظیم آستانه تصمیم‌گیری و استفاده از مدل‌های ترکیبی، راهکارهایی هستند که به بهبود عملکرد مدل‌های یادگیری ماشین در داده‌های نامتوازن کمک می‌کنند. با ترکیب این روش‌ها، مدل‌های هوش مصنوعی می‌توانند نتایج دقیق‌تر و قابل‌اعتمادتری تولید کنند.

فهرست مطالب


برچسب‌ها


انتخاب پالت رنگی