در یادگیری نظارت شده، داده های نامتوازن زمانی رخ میدهند که تعداد نمونه های یک کلاس نسبت به کلاس های دیگر بسیار کمتر یا بیشتر باشد. این عدم تعادل باعث کاهش دقت مدل در پیش بینی دسته های کم تعداد میشود.
هوش مصنوعی در آمار به بهبود تحلیل این داده ها کمک میکند و از روش هایی مانند Oversampling، Undersampling و الگوریتم های متعادل سازی برای بهینه سازی مدل های یادگیری استفاده می کند. با استفاده از این تکنیک ها، میتوان دقت و عملکرد مدل را در مسائل نامتوازن بهبود بخشید.
در یادگیری نظارت شده، مدل ها بر اساس داده های برچسب دار آموزش می بینند تا بتوانند الگوهای موجود را یاد گرفته و بر روی داده های جدید پیش بینی کنند. یکی از چالش های اساسی در این زمینه، عدم تعادل یا نامتوازنی داده ها است، یعنی زمانی که تعداد نمونه های یک کلاس بسیار بیشتر یا کمتر از کلاس های دیگر باشد. این مشکل باعث میشود مدل بیشتر به سمت کلاس غالب متمایل شود و در تشخیص کلاس های کم تعداد دچار خطا شود.
برای مثال، در تشخیص تقلب بانکی، داده های تراکنش های عادی بسیار بیشتر از داده های تقلبی هستند. اگر این عدم تعادل مدیریت نشود، مدل یادگیری ماشین ممکن است تمام تراکنش ها را به عنوان "عادی" دسته بندی کند، زیرا این تصمیم باعث میشود درصد دقت مدل بالا به نظر برسد، اما در واقع مدل توانایی تشخیص تقلب را ندارد.
در مجموعه داده های نامتوازن، مدل تمایل دارد پیش بینی های خود را بر اساس داده های کلاس غالب انجام دهد. به این معنا که مدل، یادگیری قوی تری از کلاس پرجمعیت داشته و در تشخیص کلاس های کم تعداد عملکرد ضعیفی خواهد داشت.
مثال: در یک سیستم تشخیص خرابی تجهیزات صنعتی، اگر فقط ۵٪ از داده ها مربوط به تجهیزات خراب باشد، مدل ممکن است ۹۵٪ دقت داشته باشد، اما این دقت صرفاً به دلیل پیش بینیهای نادرست کلاس سالم به جای کلاس خراب است. در نتیجه، این مدل در تشخیص موارد مهم (خرابی های واقعی) شکست می خورد.
معیار دقت (Accuracy) یکی از رایج ترین معیارهای ارزیابی مدل است، اما در داده های نامتوازن ممکن است گمراه کننده باشد. به عنوان مثال، اگر در یک مجموعه داده پزشکی، ۹۸٪ بیماران سالم و فقط ۲٪ بیمار باشند، یک مدل که همیشه "سالم" را پیش بینی کند، دقت ۹۸٪ خواهد داشت، اما هیچ بیمار واقعی را شناسایی نکرده است.
راهکار جایگزین: استفاده از معیارهایی مانند Precision، Recall و F1-Score برای بررسی عملکرد مدل به جای دقت ساده.
در برخی موارد، کلاس اقلیت دارای داده های محدودی است که باعث میشود مدل اطلاعات کافی برای یادگیری نداشته باشد. این مشکل در داده های پزشکی، جرایم سایبری و سیستم های مالی رایج است.
مثال: در تحلیل رفتار مشتریان بانک، رفتارهای مشکوک ممکن است فقط ۱٪ از کل داده ها را تشکیل دهند. در نتیجه، مدل نمیتواند الگوهای کافی از این رفتارها استخراج کند و در تشخیص آن ها ضعیف عمل می کند.
یکی از راهکارهای اصلی در حل مشکل داده های نامتوازن، تغییر توزیع داده ها با روش های بازنمونه گیری است.
Oversampling (افزایش نمونه های کلاس اقلیت): این روش تعداد داده های کلاس کم تعداد را افزایش می دهد تا تعادل برقرار شود.
Undersampling (کاهش نمونه های کلاس اکثریت): در این روش، داده های کلاس اکثریت کاهش می یابند تا نسبت کلاس ها متعادل تر شود.
مثال: اگر در یک مجموعه داده مربوط به کلاهبرداری بانکی، تعداد تراکنش های تقلبی فقط ۲٪ باشد، میتوان با استفاده از Oversampling این درصد را به ۲۰٪ افزایش داد تا مدل بتواند الگوهای بیشتری از تراکنش های تقلبی یاد بگیرد.
یکی از روش های پیشرفته برای افزایش داده های کلاس اقلیت، SMOTE (Synthetic Minority Over-sampling Technique) است که با ایجاد داده های مصنوعی، تعادل داده ها را حفظ می کند.
مثال: در تشخیص سرطان، اگر فقط ۵٪ از داده ها مربوط به بیماران مبتلا به سرطان باشد، SMOTE می تواند ویژگی های بیماران مبتلا را بررسی کرده و نمونه های مصنوعی جدیدی تولید کند تا مدل تعادل بهتری بین کلاس ها برقرار کند.
معیارهای سنتی مانند Accuracy در این داده ها مناسب نیستند. در عوض باید از معیارهای زیر استفاده کرد:
Precision (دقت): درصد پیش بینی های صحیح برای کلاس اقلیت را نشان می دهد.
Recall (بازخوانی یا حساسیت): نشان میدهد چه تعداد از نمونه های واقعی کلاس اقلیت به درستی شناسایی شدهاند.
F1-Score: میانگینی از Precision و Recall که در داده های نامتوازن عملکرد بهتری دارد.
AUC-ROC Curve: معیاری برای سنجش قدرت تفکیک مدل بین کلاس ها.
برخی الگوریتم ها برای یادگیری از داده های نامتوازن بهینه شده اند:
Random Forest with Class Weights: جنگل تصادفی میتواند وزن بیشتری به کلاس اقلیت بدهد تا مدل نسبت به آن توجه بیشتری داشته باشد.
Balanced Bagging Classifier: این روش نمونه گیری تصادفی را متناسب با داده های نامتوازن انجام می دهد.
Cost-Sensitive Learning: در این روش، مدل هزینه بیشتری برای اشتباه در کلاس اقلیت در نظر می گیرد.
مثال: در سیستم های امنیتی تشخیص نفوذ، اگر حملات سایبری بسیار نادر باشند، مدل های Cost-Sensitive Learning میتوانند این حملات را جدی تر گرفته و بهتر شناسایی کنند.
داده های نامتوازن در مسائل طبقه بندی یادگیری ماشین یک چالش اساسی محسوب می شوند. زمانی که تعداد نمونه های یک کلاس بسیار کمتر از کلاس های دیگر باشد، مدل ها تمایل دارند که کلاس اکثریت را بهتر یاد بگیرند و در تشخیص کلاس اقلیت عملکرد ضعیفی داشته باشند. این مسئله به خصوص در حوزه هایی مانند تشخیص تقلب بانکی، شناسایی بیماری های نادر، تحلیل جرایم سایبری و تشخیص نقص فنی در سیستم های صنعتی اهمیت بالایی دارد.
اولین گام برای بهینه سازی مدل های یادگیری ماشین در داده های نامتوازن، تحلیل دقیق توزیع داده ها است. این کار از طریق روش های آماری زیر انجام می شود:
محاسبه نسبت کلاس ها: برای سنجش میزان نامتوازن بودن داده ها، میتوان نسبت فراوانی کلاس اقلیت به کلاس اکثریت را محاسبه کرد.
تحلیل واریانس بین کلاس ها: بررسی میزان پراکندگی ویژگی ها در هر کلاس کمک می کند که مشخص شود آیا نامتوازنی به دلیل تفاوت در توزیع ویژگی هاست یا صرفاً تفاوت در تعداد داده ها.
محاسبه چگالی احتمالاتی توزیع داده ها: با استفاده از تکنیک هایی مانند Kernel Density Estimation (KDE) میتوان بررسی کرد که آیا کلاس اقلیت دارای الگوهای خاصی است که میتوان از آن ها برای بهینه سازی مدل استفاده کرد.
تحلیل همبستگی ویژگی ها: بررسی رابطه بین ویژگی های مختلف با برچسب های خروجی کمک می کند تا مشخص شود کدام ویژگی ها بیشترین تأثیر را بر تشخیص کلاس اقلیت دارند.
روش های بازنمونه گیری از تکنیک های مهمی هستند که برای بهبود تعادل کلاس ها در داده های نامتوازن مورد استفاده قرار می گیرند.
Adaptive Synthetic Sampling (ADASYN): نسخه بهینه شدهی SMOTE که بر تولید نمونه های جدید برای نقاطی تمرکز دارد که تشخیص آن ها برای مدل دشوارتر است.
Borderline-SMOTE: این روش نسخهی بهبودیافته ای از SMOTE است که داده های مصنوعی را در نزدیکی مرزهای تصمیم گیری کلاس ها تولید می کند تا مدل تفکیک بهتری داشته باشد.
Gaussian Noise Injection: در این تکنیک، نمونه های مصنوعی کلاس اقلیت با افزودن نویز گاوسی ایجاد می شوند تا تنوع داده ها بیشتر شود و مدل دچار بیش برازش (Overfitting) نشود.
Example Weighting: در این روش، نمونه های کلاس اقلیت وزن بیشتری دریافت میکنند تا مدل نسبت به آن ها حساس تر شود.
NearMiss: این روش نمونه هایی از کلاس اکثریت را که نزدیک به مرز تصمیم گیری مدل قرار دارند، انتخاب کرده و بقیه را حذف می کند.
Tomek Links: حذف داده هایی از کلاس اکثریت که در هم پوشانی با کلاس اقلیت قرار دارند تا مدل بتواند مرزهای تصمیم گیری را دقیق تر بیاموزد.
Cluster Centroids: خوشه بندی داده های کلاس اکثریت و جایگزین کردن هر خوشه با نمونه های نماینده به جای حذف تصادفی داده ها.
در داده های نامتوازن، استفاده از مدل های ترکیبی که از چندین الگوریتم یادگیری ماشین استفاده می کنند، باعث بهبود دقت طبقه بندی میشود.
Balanced Random Forest: نسخه بهبودیافتهی جنگل تصادفی که از بازنمونه گیری کلاس اقلیت در هر درخت استفاده می کند.
EasyEnsemble: یک متد یادگیری ترکیبی که چندین مدل طبقه بندی را روی داده های متوازنشده اجرا کرده و نتایج آن ها را ترکیب می کند.
Bagging with Class Weights: استفاده از الگوریتم هایی مانند AdaBoost با وزن گذاری ویژه برای کلاس های کم تعداد.
XGBoost with Weighted Loss Function: XGBoost دارای یک پارامتر وزن دهی ویژه برای کلاس اقلیت است که میتواند عدم تعادل را کاهش دهد.
معیارهای سنتی مانند دقت (Accuracy) معمولاً در داده های نامتوازن گمراه کننده هستند. در عوض، معیارهای زیر پیشنهاد می شوند:
Geometric Mean (G-Mean): میانگین هندسی بین دقت کلاس ها که باعث ایجاد تعادل در پیش بینی کلاس های مختلف می شود.
Matthews Correlation Coefficient (MCC): معیار آماری که تعادل بین تمام کلاس ها را حفظ کرده و برای داده های نامتوازن بسیار دقیق است.
Balanced Accuracy: نسخه اصلاح شدهی دقت که میانگین دقت برای هر کلاس را در نظر می گیرد.
Precision-Recall AUC: به جای منحنی ROC، در شرایطی که کلاس اقلیت مهم است، استفاده از منحنی PR-AUC دقیق تر خواهد بود.
برخی الگوریتم های یادگیری ماشین به طور خاص برای داده های نامتوازن طراحی شده اند:
Cost-Sensitive Learning: اعمال جریمه های بیشتر برای خطاهای مربوط به کلاس اقلیت.
One-Class SVM: یادگیری تنها بر اساس داده های کلاس اقلیت برای تشخیص موارد نادر.
Focal Loss: تابع هزینهای که روی نمونه هایی که مدل به سختی یاد می گیرد، تمرکز بیشتری دارد.
Hybrid Sampling and Cost-Sensitive Learning: ترکیب بازنمونه گیری و یادگیری حساس به هزینه برای بهینه سازی مدل.
داده های نامتوازن یکی از بزرگ ترین چالش های یادگیری نظارت شده هستند و میتوانند باعث کاهش دقت مدل های پیش بینی شوند. استفاده از روش های آماری مانند بازنمونه گیری، SMOTE، الگوریتم های یادگیری حساس به هزینه و معیارهای ارزیابی مناسب، به بهبود عملکرد مدل در مواجهه با این نوع داده ها کمک می کند. هوش مصنوعی در آمار نیز با روش های پیشرفته تر مانند شبکه های عصبی عمیق و یادگیری تقویتی، میتواند به بهینه سازی این فرآیند کمک کند. با استفاده از این تکنیک ها، میتوان مدل هایی ساخت که دقت بالاتری در پیش بینی داده های نادر و بحرانی داشته باشند.