در بسیاری از مسائل یادگیری ماشین، دادههای آموزشی بهصورت نامتوازن توزیع شدهاند، به این معنا که تعداد نمونههای یک کلاس بسیار بیشتر از کلاس دیگر است. این عدم تعادل میتواند باعث کاهش دقت مدل و یادگیری نامناسب شود.
هوش مصنوعی در آمار به ما کمک میکند تا با روشهای آماری مانند نمونهگیری تصادفی، وزندهی کلاسها، تغییر توابع هزینه و استفاده از الگوریتمهای ترکیبی، عملکرد مدل را بهبود بخشیم.
علاوه بر این، تکنیکهای تنظیم وزنها و روشهای پیشپردازش داده میتوانند به ایجاد تعادل در مجموعه دادهها کمک کنند. در این مقاله، استراتژیهای کاربردی برای مقابله با دادههای نامتوازن و افزایش دقت مدلهای پیشبینی ارائه شده است.
در بسیاری از مسائل یادگیری ماشین، دادههای آموزشی بهطور نامتوازن توزیع شدهاند، به این معنا که تعداد نمونههای یک کلاس بسیار بیشتر از کلاس دیگر است. این مشکل در حوزههایی مانند تشخیص تقلب در تراکنشهای بانکی، شناسایی بیماریهای نادر، تحلیل نظرات کاربران و تشخیص ایمیلهای اسپم بسیار رایج است.
زمانی که دادههای آموزشی دارای نامتعادلی باشند، مدلهای یادگیری ماشین معمولاً به سمت کلاس غالب (کلاسی که دادههای بیشتری دارد) تمایل پیدا میکنند و نمونههای کلاس کمتعداد را نادیده میگیرند. آمار نقش کلیدی در شناسایی این مشکل و ارائه راهکارهای مناسب برای متعادلسازی دادهها و بهینهسازی عملکرد مدل دارد. در این مقاله، به بررسی چالشهای مدلسازی دادههای نامتوازن و روشهای آماری برای مقابله با آن پرداخته میشود.
۱. تمایل مدل به کلاس غالب
هنگامی که مدل یادگیری ماشین روی یک مجموعه داده نامتوازن آموزش داده میشود، احتمال دارد که بیشترین پیشبینیهای خود را به سمت کلاس غالب متمایل کند. این مسئله به این دلیل اتفاق میافتد که مدل در تلاش است تا خطای کلی را کاهش دهد، اما در عمل باعث کاهش دقت در پیشبینی کلاس کمتعداد میشود.
۲. عدم تعادل در توزیع احتمال کلاسها
در یادگیری ماشین، مدلها معمولاً فرض میکنند که دادههای آموزشی بهصورت یکنواخت توزیع شدهاند. اما در دادههای نامتوازن، توزیع احتمال کلاسها بهطور قابلتوجهی نابرابر است. این امر میتواند باعث شود که مدل تخمینهای نادرستی از میزان وقوع کلاسها داشته باشد.
۳. معیارهای ارزیابی نامناسب
در مجموعه دادههای نامتوازن، معیارهایی مانند دقت (Accuracy) نمیتوانند بهدرستی عملکرد مدل را ارزیابی کنند. یک مدل که ۹۵٪ نمونههای کلاس غالب را درست پیشبینی کند اما تنها ۵٪ از نمونههای کلاس کمتعداد را تشخیص دهد، همچنان دقت بالایی خواهد داشت، اما عملکرد واقعی مدل مناسب نیست.
روشهای نمونهگیری به متعادلسازی مجموعه داده کمک میکنند و یکی از رویکردهای اولیه برای مقابله با نامتوازن بودن دادهها هستند.
مثال: در یک مجموعه داده مربوط به تشخیص کلاهبرداری مالی، فقط ۲٪ از دادهها نشاندهنده تراکنشهای جعلی هستند. با استفاده از SMOTE، دادههای بیشتری از تراکنشهای جعلی تولید شده و مدل با دادههای متعادلتر آموزش داده میشود.
در این روش، وزن بیشتری به کلاس کمتعداد داده میشود تا مدل هنگام آموزش، نسبت به آن توجه بیشتری داشته باشد.
مثال: در یک مدل تشخیص بیماری نادر که ۹۵٪ دادهها مربوط به افراد سالم و فقط ۵٪ دادهها مربوط به بیماران است، با افزایش وزن نمونههای بیماران در تابع هزینه، مدل توجه بیشتری به پیشبینی این کلاس خواهد داشت.
استفاده از دقت (Accuracy) برای ارزیابی مدل در دادههای نامتوازن گمراهکننده است. معیارهای آماری مناسبتر شامل:
Precision و Recall:
F1-Score: میانگین هارمونیک Precision و Recall است و زمانی که دادهها نامتوازن باشند، عملکرد بهتری نسبت به دقت دارد.
ماتریس درهمریختگی (Confusion Matrix): توزیع پیشبینیهای درست و نادرست را در بین کلاسها نشان میدهد.
ROC Curve و AUC: میزان توانایی مدل در جداسازی کلاسهای مختلف را نشان میدهد.
مثال: در یک مدل تشخیص ایمیلهای اسپم، دقت مدل ۹۷٪ گزارش شده، اما بررسی Precision و Recall نشان میدهد که فقط ۶۰٪ از ایمیلهای اسپم درست شناسایی شدهاند. بنابراین، مدل نیاز به بهبود دارد.
در بسیاری از مدلهای یادگیری ماشین، مقدار پیشفرض برای جداسازی کلاسها ۰.۵ است. اما در دادههای نامتوازن، تغییر این آستانه میتواند به بهبود عملکرد مدل کمک کند.
مثال: در یک مدل تشخیص سرطان، تنظیم آستانه به ۰.۳ به جای ۰.۵ باعث میشود مدل نمونههای بیشتری از بیماران را شناسایی کند، حتی اگر نرخ خطای کمی افزایش یابد.
مدلهای ترکیبی مانند جنگل تصادفی (Random Forest) و تقویت گرادیان (Gradient Boosting) میتوانند از استراتژیهای وزندهی و نمونهگیری برای بهبود عملکرد در دادههای نامتوازن استفاده کنند.
مثال: در یک سیستم شناسایی معاملات جعلی، ترکیب مدلهای مختلف باعث میشود نرخ شناسایی تراکنشهای غیرقانونی تا ۱۵٪ افزایش یابد.
در بسیاری از مسائل یادگیری ماشین، دادههای آموزشی دارای توزیع نامتعادل هستند، به این معنا که تعداد نمونههای یک کلاس بسیار بیشتر از کلاس دیگر است. این عدم تعادل میتواند منجر به تمایل مدل به کلاس غالب، کاهش دقت در پیشبینی کلاس کمتعداد و ایجاد مدلهایی با عملکرد نابرابر در دستهبندی دادهها شود.
برای مقابله با این مشکل، دو راهکار اصلی مورد استفاده قرار میگیرد:
در این مقاله، به بررسی روشهای نمونهگیری و وزندهی در یادگیری ماشین برای دادههای نامتوازن پرداخته میشود.
روشهای نمونهگیری در یادگیری ماشین به دو دسته اصلی تقسیم میشوند:
در این روش، تعداد نمونههای کلاس کمتعداد افزایش داده میشود تا نسبت کلاسها به هم نزدیکتر شود.
انواع روشهای نمونهگیری افزایشی:
روشهای رایج نمونهگیری افزایشی:
مثال: در یک مدل شناسایی تقلب در کارتهای اعتباری که تنها ۲٪ از دادهها مربوط به تقلب هستند، با استفاده از SMOTE، دادههای مصنوعی بیشتری برای تراکنشهای تقلبی تولید شده و مدل با توزیع متعادلتری آموزش داده میشود.
در این روش، تعداد نمونههای کلاس پرتعداد کاهش داده میشود تا تعادل ایجاد شود.
انواع روشهای نمونهگیری کاهشی:
مثال: در یک مدل تشخیص نظرات مثبت و منفی کاربران، اگر ۸۰٪ از دادهها مربوط به نظرات مثبت باشند، میتوان با استفاده از Cluster-Based Undersampling دادههای مثبت را کاهش داده و تعادل ایجاد کرد.
در برخی موارد، ترکیب روشهای افزایشی و کاهشی میتواند عملکرد بهتری داشته باشد.
روشهای ترکیبی متداول:
مثال: در یک مدل تشخیص سرطان که دادههای مربوط به بیماران سرطانی بسیار کمتر از بیماران سالم است، ابتدا با SMOTE دادههای بیماران سرطانی افزایش داده شده و سپس با ENN دادههای پرت از بین برده میشوند تا کیفیت دادهها بهتر شود.
روشهای وزندهی به مدلهای یادگیری ماشین کمک میکنند تا تأثیر کلاسهای کمتعداد در یادگیری افزایش پیدا کند.
نحوه عملکرد:
کدام مدلها از وزندهی پشتیبانی میکنند؟
مثال: در یک مدل تشخیص عیب در قطعات صنعتی، قطعات معیوب تنها ۳٪ دادهها را تشکیل میدهند. درخت تصمیمگیری با وزندهی ۳۳ برابر بیشتر برای این کلاس، دقت شناسایی قطعات معیوب را بهبود میبخشد.
نحوه عملکرد:
در کدام مدلها قابل استفاده است؟
مثال: در یک سیستم تشخیص نقص فنی در نیروگاه، با افزایش جریمه برای تشخیص نادرست خرابی، مدل تمایل بیشتری به پیشبینی صحیح خرابیها دارد.
نحوه عملکرد:
مثال: در یک مدل تشخیص سرطان، کاهش آستانه پیشبینی از ۰.۵ به ۰.۳ باعث میشود موارد مشکوک بیشتری شناسایی شوند، هرچند نرخ خطای مثبت کاذب کمی افزایش یابد.
دادههای نامتوازن یکی از چالشهای اساسی در یادگیری ماشین هستند که میتوانند باعث کاهش دقت پیشبینی مدل شوند. آمار نقش حیاتی در شناسایی این مشکل و ارائه راهکارهای مؤثر دارد. استفاده از روشهای نمونهگیری، وزندهی کلاسها، ارزیابی مدل با معیارهای آماری مناسب، تنظیم آستانه تصمیمگیری و استفاده از مدلهای ترکیبی، راهکارهایی هستند که به بهبود عملکرد مدلهای یادگیری ماشین در دادههای نامتوازن کمک میکنند. با ترکیب این روشها، مدلهای هوش مصنوعی میتوانند نتایج دقیقتر و قابلاعتمادتری تولید کنند.