در بسیاری از مسائل یادگیری ماشین، دادههای آموزشی بهصورت نامتوازن توزیع شدهاند، به این معنا که تعداد نمونههای یک کلاس بسیار بیشتر از کلاس دیگر است. این عدم تعادل میتواند باعث کاهش دقت مدل و یادگیری نامناسب شود.
هوش مصنوعی در آمار به ما کمک میکند تا با روشهای آماری مانند نمونهگیری تصادفی، وزندهی کلاسها، تغییر توابع هزینه و استفاده از الگوریتمهای ترکیبی، عملکرد مدل را بهبود بخشیم.
علاوه بر این، تکنیکهای تنظیم وزنها و روشهای پیشپردازش داده میتوانند به ایجاد تعادل در مجموعه دادهها کمک کنند. در این مقاله، استراتژیهای کاربردی برای مقابله با دادههای نامتوازن و افزایش دقت مدلهای پیشبینی ارائه شده است.

مدلسازی آماری در دادههای نامتوازن: چالشها و راهکارها
در بسیاری از مسائل یادگیری ماشین، دادههای آموزشی بهطور نامتوازن توزیع شدهاند، به این معنا که تعداد نمونههای یک کلاس بسیار بیشتر از کلاس دیگر است. این مشکل در حوزههایی مانند تشخیص تقلب در تراکنشهای بانکی، شناسایی بیماریهای نادر، تحلیل نظرات کاربران و تشخیص ایمیلهای اسپم بسیار رایج است.
زمانی که دادههای آموزشی دارای نامتعادلی باشند، مدلهای یادگیری ماشین معمولاً به سمت کلاس غالب (کلاسی که دادههای بیشتری دارد) تمایل پیدا میکنند و نمونههای کلاس کمتعداد را نادیده میگیرند. آمار نقش کلیدی در شناسایی این مشکل و ارائه راهکارهای مناسب برای متعادلسازی دادهها و بهینهسازی عملکرد مدل دارد. در این مقاله، به بررسی چالشهای مدلسازی دادههای نامتوازن و روشهای آماری برای مقابله با آن پرداخته میشود.
چالشهای مدلسازی آماری در دادههای نامتوازن
۱. تمایل مدل به کلاس غالب
هنگامی که مدل یادگیری ماشین روی یک مجموعه داده نامتوازن آموزش داده میشود، احتمال دارد که بیشترین پیشبینیهای خود را به سمت کلاس غالب متمایل کند. این مسئله به این دلیل اتفاق میافتد که مدل در تلاش است تا خطای کلی را کاهش دهد، اما در عمل باعث کاهش دقت در پیشبینی کلاس کمتعداد میشود.
۲. عدم تعادل در توزیع احتمال کلاسها
در یادگیری ماشین، مدلها معمولاً فرض میکنند که دادههای آموزشی بهصورت یکنواخت توزیع شدهاند. اما در دادههای نامتوازن، توزیع احتمال کلاسها بهطور قابلتوجهی نابرابر است. این امر میتواند باعث شود که مدل تخمینهای نادرستی از میزان وقوع کلاسها داشته باشد.
۳. معیارهای ارزیابی نامناسب
در مجموعه دادههای نامتوازن، معیارهایی مانند دقت (Accuracy) نمیتوانند بهدرستی عملکرد مدل را ارزیابی کنند. یک مدل که ۹۵٪ نمونههای کلاس غالب را درست پیشبینی کند اما تنها ۵٪ از نمونههای کلاس کمتعداد را تشخیص دهد، همچنان دقت بالایی خواهد داشت، اما عملکرد واقعی مدل مناسب نیست.
راهکارهای آماری برای مدلسازی دادههای نامتوازن
۱. روشهای نمونهگیری آماری برای ایجاد تعادل در دادهها
روشهای نمونهگیری به متعادلسازی مجموعه داده کمک میکنند و یکی از رویکردهای اولیه برای مقابله با نامتوازن بودن دادهها هستند.
- افزایش تعداد نمونههای کلاس کمتعداد (Oversampling): در این روش، دادههای بیشتری از کلاس کمتعداد ایجاد میشود تا نسبت دادههای دو کلاس برابر شود. روشهایی مانند SMOTE (Synthetic Minority Over-sampling Technique) از الگوریتمهای رایج در این زمینه هستند.
- کاهش تعداد نمونههای کلاس غالب (Undersampling): در این روش، نمونههای اضافی کلاس غالب حذف میشوند تا نسبت کلاسها متعادل شود. این روش برای دادههایی که حجم زیادی دارند مفید است.
مثال: در یک مجموعه داده مربوط به تشخیص کلاهبرداری مالی، فقط ۲٪ از دادهها نشاندهنده تراکنشهای جعلی هستند. با استفاده از SMOTE، دادههای بیشتری از تراکنشهای جعلی تولید شده و مدل با دادههای متعادلتر آموزش داده میشود.
۲. وزندهی کلاسها برای بهینهسازی مدل یادگیری ماشین
در این روش، وزن بیشتری به کلاس کمتعداد داده میشود تا مدل هنگام آموزش، نسبت به آن توجه بیشتری داشته باشد.
- تخصیص وزن معکوس نسبت به تعداد نمونههای هر کلاس: به کلاسهایی که نمونههای کمتری دارند، وزن بیشتری داده میشود.
- استفاده از توابع هزینه متناسب با نامتعادلی دادهها: برخی مدلها، مانند شبکههای عصبی و درختهای تصمیمگیری، قابلیت تنظیم وزن کلاسها را دارند.
مثال: در یک مدل تشخیص بیماری نادر که ۹۵٪ دادهها مربوط به افراد سالم و فقط ۵٪ دادهها مربوط به بیماران است، با افزایش وزن نمونههای بیماران در تابع هزینه، مدل توجه بیشتری به پیشبینی این کلاس خواهد داشت.
۳. استفاده از معیارهای آماری مناسب برای ارزیابی مدل
استفاده از دقت (Accuracy) برای ارزیابی مدل در دادههای نامتوازن گمراهکننده است. معیارهای آماری مناسبتر شامل:
-
Precision و Recall:
- Precision: تعداد پیشبینیهای درست از کلاس کمتعداد را نسبت به کل پیشبینیهای آن کلاس اندازهگیری میکند.
- Recall: نشان میدهد که چه تعداد از نمونههای واقعی کلاس کمتعداد به درستی شناسایی شدهاند.
-
F1-Score: میانگین هارمونیک Precision و Recall است و زمانی که دادهها نامتوازن باشند، عملکرد بهتری نسبت به دقت دارد.
-
ماتریس درهمریختگی (Confusion Matrix): توزیع پیشبینیهای درست و نادرست را در بین کلاسها نشان میدهد.
-
ROC Curve و AUC: میزان توانایی مدل در جداسازی کلاسهای مختلف را نشان میدهد.
مثال: در یک مدل تشخیص ایمیلهای اسپم، دقت مدل ۹۷٪ گزارش شده، اما بررسی Precision و Recall نشان میدهد که فقط ۶۰٪ از ایمیلهای اسپم درست شناسایی شدهاند. بنابراین، مدل نیاز به بهبود دارد.
۴. تنظیم آستانه تصمیمگیری (Threshold Tuning) برای متعادلسازی پیشبینیها
در بسیاری از مدلهای یادگیری ماشین، مقدار پیشفرض برای جداسازی کلاسها ۰.۵ است. اما در دادههای نامتوازن، تغییر این آستانه میتواند به بهبود عملکرد مدل کمک کند.
- کاهش مقدار آستانه برای افزایش Recall در کلاس کمتعداد
- افزایش مقدار آستانه برای کاهش پیشبینیهای نادرست کلاس کمتعداد
مثال: در یک مدل تشخیص سرطان، تنظیم آستانه به ۰.۳ به جای ۰.۵ باعث میشود مدل نمونههای بیشتری از بیماران را شناسایی کند، حتی اگر نرخ خطای کمی افزایش یابد.
۵. استفاده از مدلهای ترکیبی (Ensemble Learning) برای بهبود تعادل مدل
مدلهای ترکیبی مانند جنگل تصادفی (Random Forest) و تقویت گرادیان (Gradient Boosting) میتوانند از استراتژیهای وزندهی و نمونهگیری برای بهبود عملکرد در دادههای نامتوازن استفاده کنند.
- استفاده از مدلهای مبتنی بر درخت تصمیمگیری که حساسیت بیشتری نسبت به کلاسهای کمتعداد دارند.
- ترکیب چندین مدل برای کاهش خطای پیشبینی در کلاسهای کوچکتر.
مثال: در یک سیستم شناسایی معاملات جعلی، ترکیب مدلهای مختلف باعث میشود نرخ شناسایی تراکنشهای غیرقانونی تا ۱۵٪ افزایش یابد.
روشهای وزندهی و نمونهگیری در مدلهای یادگیری ماشین برای دادههای نامتوازن
در بسیاری از مسائل یادگیری ماشین، دادههای آموزشی دارای توزیع نامتعادل هستند، به این معنا که تعداد نمونههای یک کلاس بسیار بیشتر از کلاس دیگر است. این عدم تعادل میتواند منجر به تمایل مدل به کلاس غالب، کاهش دقت در پیشبینی کلاس کمتعداد و ایجاد مدلهایی با عملکرد نابرابر در دستهبندی دادهها شود.
برای مقابله با این مشکل، دو راهکار اصلی مورد استفاده قرار میگیرد:
- نمونهگیری (Sampling): تغییر در تعداد دادههای هر کلاس برای ایجاد تعادل بین کلاسها.
- وزندهی (Class Weighting): تنظیم میزان تأثیر هر کلاس در فرآیند آموزش مدل.
در این مقاله، به بررسی روشهای نمونهگیری و وزندهی در یادگیری ماشین برای دادههای نامتوازن پرداخته میشود.
۱. روشهای نمونهگیری برای مدیریت دادههای نامتوازن
روشهای نمونهگیری در یادگیری ماشین به دو دسته اصلی تقسیم میشوند:
۱.۱. نمونهگیری افزایشی (Oversampling) برای افزایش دادههای کلاس کمتعداد
در این روش، تعداد نمونههای کلاس کمتعداد افزایش داده میشود تا نسبت کلاسها به هم نزدیکتر شود.
انواع روشهای نمونهگیری افزایشی:
- تکرار نمونههای کلاس کمتعداد: دادههای موجود در کلاس کمتعداد چندین بار تکرار میشوند.
- ایجاد دادههای مصنوعی (Synthetic Data Generation): دادههای جدیدی با الگوهای مشابه دادههای واقعی تولید میشوند.
روشهای رایج نمونهگیری افزایشی:
- SMOTE (Synthetic Minority Over-sampling Technique):
- در این روش، دادههای جدیدی بین نقاط دادههای واقعی کلاس کمتعداد ایجاد میشوند.
- SMOTE از تکنیکهای نزدیکترین همسایه (KNN) برای تولید نمونههای مصنوعی استفاده میکند.
- ADASYN (Adaptive Synthetic Sampling):
- نسخه بهینهشده SMOTE که بیشتر روی نواحی تصمیمگیری سختتر تمرکز دارد.
- باعث افزایش دقت مدل در دستهبندی کلاسهای کمتعداد میشود.
مثال: در یک مدل شناسایی تقلب در کارتهای اعتباری که تنها ۲٪ از دادهها مربوط به تقلب هستند، با استفاده از SMOTE، دادههای مصنوعی بیشتری برای تراکنشهای تقلبی تولید شده و مدل با توزیع متعادلتری آموزش داده میشود.
۱.۲. نمونهگیری کاهشی (Undersampling) برای کاهش دادههای کلاس غالب
در این روش، تعداد نمونههای کلاس پرتعداد کاهش داده میشود تا تعادل ایجاد شود.
انواع روشهای نمونهگیری کاهشی:
- حذف تصادفی نمونههای کلاس پرتعداد: برخی دادهها از کلاس پرتعداد بهطور تصادفی حذف میشوند.
- نمونهگیری خوشهای (Cluster-Based Undersampling): دادههای پرتعداد ابتدا خوشهبندی شده و سپس برخی نمونهها از هر خوشه انتخاب میشوند.
- Edited Nearest Neighbors (ENN): دادههایی که باعث افزایش خطای مدل در دستهبندی کلاس کمتعداد میشوند، حذف میشوند.
مثال: در یک مدل تشخیص نظرات مثبت و منفی کاربران، اگر ۸۰٪ از دادهها مربوط به نظرات مثبت باشند، میتوان با استفاده از Cluster-Based Undersampling دادههای مثبت را کاهش داده و تعادل ایجاد کرد.
۱.۳. نمونهگیری ترکیبی (Hybrid Sampling) برای ایجاد تعادل بهتر
در برخی موارد، ترکیب روشهای افزایشی و کاهشی میتواند عملکرد بهتری داشته باشد.
روشهای ترکیبی متداول:
- SMOTE + Edited Nearest Neighbors (SMOTE + ENN): ترکیب تولید دادههای مصنوعی و حذف دادههای پرت در کلاس غالب.
- SMOTE + Tomek Links: حذف همپوشانی دادهها بین کلاسها پس از ایجاد نمونههای مصنوعی.
مثال: در یک مدل تشخیص سرطان که دادههای مربوط به بیماران سرطانی بسیار کمتر از بیماران سالم است، ابتدا با SMOTE دادههای بیماران سرطانی افزایش داده شده و سپس با ENN دادههای پرت از بین برده میشوند تا کیفیت دادهها بهتر شود.
۲. روشهای وزندهی برای مقابله با نامتعادلی دادهها
روشهای وزندهی به مدلهای یادگیری ماشین کمک میکنند تا تأثیر کلاسهای کمتعداد در یادگیری افزایش پیدا کند.
۲.۱. تنظیم وزن کلاسها در الگوریتمهای یادگیری ماشین
نحوه عملکرد:
- به نمونههای کلاس کمتعداد وزن بیشتری نسبت داده میشود تا تأثیر آنها در فرآیند یادگیری افزایش یابد.
- مدل بهطور خودکار وزن بیشتری به دادههای کمیاب اختصاص میدهد و این کلاس را بهتر تشخیص میدهد.
کدام مدلها از وزندهی پشتیبانی میکنند؟
- درخت تصمیمگیری و جنگل تصادفی (Random Forest)
- ماشین بردار پشتیبان (SVM)
- شبکههای عصبی مصنوعی (ANN)
مثال: در یک مدل تشخیص عیب در قطعات صنعتی، قطعات معیوب تنها ۳٪ دادهها را تشکیل میدهند. درخت تصمیمگیری با وزندهی ۳۳ برابر بیشتر برای این کلاس، دقت شناسایی قطعات معیوب را بهبود میبخشد.
۲.۲. تغییر توابع هزینه (Cost-Sensitive Learning) برای جریمه کردن خطاهای کلاس کمتعداد
نحوه عملکرد:
- در این روش، جریمه بیشتری برای پیشبینیهای نادرست کلاس کمتعداد در نظر گرفته میشود.
- این جریمه باعث میشود مدل دقت بیشتری در تشخیص این کلاس داشته باشد.
در کدام مدلها قابل استفاده است؟
- شبکههای عصبی (با تغییر تابع خطا)
- الگوریتمهای مبتنی بر درخت تصمیمگیری
- مدلهای بیزین
مثال: در یک سیستم تشخیص نقص فنی در نیروگاه، با افزایش جریمه برای تشخیص نادرست خرابی، مدل تمایل بیشتری به پیشبینی صحیح خرابیها دارد.
۲.۳. تنظیم آستانه تصمیمگیری (Threshold Adjustment) برای تعادل در پیشبینیها
نحوه عملکرد:
- مدلهای یادگیری ماشین معمولاً از آستانه ۰.۵ برای تصمیمگیری در مورد دستهبندی استفاده میکنند.
- برای دادههای نامتوازن، کاهش آستانه میتواند منجر به افزایش شناسایی کلاس کمتعداد شود.
مثال: در یک مدل تشخیص سرطان، کاهش آستانه پیشبینی از ۰.۵ به ۰.۳ باعث میشود موارد مشکوک بیشتری شناسایی شوند، هرچند نرخ خطای مثبت کاذب کمی افزایش یابد.

نتیجهگیری
دادههای نامتوازن یکی از چالشهای اساسی در یادگیری ماشین هستند که میتوانند باعث کاهش دقت پیشبینی مدل شوند. آمار نقش حیاتی در شناسایی این مشکل و ارائه راهکارهای مؤثر دارد. استفاده از روشهای نمونهگیری، وزندهی کلاسها، ارزیابی مدل با معیارهای آماری مناسب، تنظیم آستانه تصمیمگیری و استفاده از مدلهای ترکیبی، راهکارهایی هستند که به بهبود عملکرد مدلهای یادگیری ماشین در دادههای نامتوازن کمک میکنند. با ترکیب این روشها، مدلهای هوش مصنوعی میتوانند نتایج دقیقتر و قابلاعتمادتری تولید کنند.