SData
ورود / ثبت‌نام

جستجو در SData

جستجوی سریع در SData

محصولات، دوره‌ها، داشبوردها و مقالات را در لحظه پیدا کنید

محصولات
دوره‌ها
داشبوردها
مقالات
حداقل 2 حرف برای شروع جستجو تایپ کنید
SData

آمار و تحلیل داده‌ های نامتوازن در یادگیری نظارت‌ شده

پارسا کرمی
1403/11/21
مطالعه این مقاله حدود 21 دقیقه زمان می‌برد
836 بازدید

فهرست مطالب


آمار و تحلیل داده‌ های نامتوازن در یادگیری نظارت‌ شده

در یادگیری نظارت‌ شده، داده‌ های نامتوازن زمانی رخ می‌دهند که تعداد نمونه‌ های یک کلاس نسبت به کلاس‌ های دیگر بسیار کمتر یا بیشتر باشد. این عدم تعادل باعث کاهش دقت مدل در پیش‌ بینی دسته‌ های کم‌ تعداد می‌شود.

هوش مصنوعی در آمار به بهبود تحلیل این داده‌ ها کمک می‌کند و از روش‌ هایی مانند Oversampling، Undersampling و الگوریتم‌ های متعادل‌ سازی برای بهینه‌ سازی مدل‌ های یادگیری استفاده می‌ کند. با استفاده از این تکنیک‌ ها، می‌توان دقت و عملکرد مدل را در مسائل نامتوازن بهبود بخشید.

 

 

چالش‌ های داده‌ های نامتوازن در یادگیری نظارت‌ شده و راهکارهای آماری

 

در یادگیری نظارت‌ شده، مدل‌ ها بر اساس داده‌ های برچسب‌ دار آموزش می‌ بینند تا بتوانند الگوهای موجود را یاد گرفته و بر روی داده‌ های جدید پیش‌ بینی کنند. یکی از چالش‌ های اساسی در این زمینه، عدم تعادل یا نامتوازنی داده‌ ها است، یعنی زمانی که تعداد نمونه‌ های یک کلاس بسیار بیشتر یا کمتر از کلاس‌ های دیگر باشد. این مشکل باعث می‌شود مدل بیشتر به سمت کلاس غالب متمایل شود و در تشخیص کلاس‌ های کم‌ تعداد دچار خطا شود.

برای مثال، در تشخیص تقلب بانکی، داده‌ های تراکنش‌ های عادی بسیار بیشتر از داده‌ های تقلبی هستند. اگر این عدم تعادل مدیریت نشود، مدل یادگیری ماشین ممکن است تمام تراکنش‌ ها را به عنوان "عادی" دسته‌ بندی کند، زیرا این تصمیم باعث می‌شود درصد دقت مدل بالا به نظر برسد، اما در واقع مدل توانایی تشخیص تقلب را ندارد.

 

۱. چالش‌ های داده‌ های نامتوازن در یادگیری نظارت‌ شده

 

۱.۱. سوگیری مدل به سمت کلاس اکثریت

در مجموعه داده‌ های نامتوازن، مدل تمایل دارد پیش‌ بینی‌ های خود را بر اساس داده‌ های کلاس غالب انجام دهد. به این معنا که مدل، یادگیری قوی‌ تری از کلاس پرجمعیت داشته و در تشخیص کلاس‌ های کم‌ تعداد عملکرد ضعیفی خواهد داشت.

مثال: در یک سیستم تشخیص خرابی تجهیزات صنعتی، اگر فقط ۵٪ از داده‌ ها مربوط به تجهیزات خراب باشد، مدل ممکن است ۹۵٪ دقت داشته باشد، اما این دقت صرفاً به دلیل پیش‌ بینی‌های نادرست کلاس سالم به جای کلاس خراب است. در نتیجه، این مدل در تشخیص موارد مهم (خرابی‌ های واقعی) شکست می‌ خورد.

 

۱.۲. عملکرد پایین معیار دقت (Accuracy) در داده‌ های نامتوازن

معیار دقت (Accuracy) یکی از رایج‌ ترین معیارهای ارزیابی مدل است، اما در داده‌ های نامتوازن ممکن است گمراه‌ کننده باشد. به عنوان مثال، اگر در یک مجموعه داده پزشکی، ۹۸٪ بیماران سالم و فقط ۲٪ بیمار باشند، یک مدل که همیشه "سالم" را پیش‌ بینی کند، دقت ۹۸٪ خواهد داشت، اما هیچ بیمار واقعی را شناسایی نکرده است.

راهکار جایگزین: استفاده از معیارهایی مانند Precision، Recall و F1-Score برای بررسی عملکرد مدل به‌ جای دقت ساده.

 

۱.۳. کمبود داده در کلاس‌ های کم‌ تعداد

در برخی موارد، کلاس اقلیت دارای داده‌ های محدودی است که باعث می‌شود مدل اطلاعات کافی برای یادگیری نداشته باشد. این مشکل در داده‌ های پزشکی، جرایم سایبری و سیستم‌ های مالی رایج است.

مثال: در تحلیل رفتار مشتریان بانک، رفتارهای مشکوک ممکن است فقط ۱٪ از کل داده‌ ها را تشکیل دهند. در نتیجه، مدل نمی‌تواند الگوهای کافی از این رفتارها استخراج کند و در تشخیص آن‌ ها ضعیف عمل می‌ کند.

 

۲. راهکارهای آماری برای حل مشکل داده‌ های نامتوازن

 

۲.۱. استفاده از روش‌ های بازنمونه‌ گیری (Resampling Techniques)

یکی از راهکارهای اصلی در حل مشکل داده‌ های نامتوازن، تغییر توزیع داده‌ ها با روش‌ های بازنمونه‌ گیری است.

Oversampling (افزایش نمونه‌ های کلاس اقلیت): این روش تعداد داده‌ های کلاس کم‌ تعداد را افزایش می‌ دهد تا تعادل برقرار شود.

Undersampling (کاهش نمونه‌ های کلاس اکثریت): در این روش، داده‌ های کلاس اکثریت کاهش می‌ یابند تا نسبت کلاس‌ ها متعادل‌ تر شود.

مثال: اگر در یک مجموعه داده مربوط به کلاهبرداری بانکی، تعداد تراکنش‌ های تقلبی فقط ۲٪ باشد، می‌توان با استفاده از Oversampling این درصد را به ۲۰٪ افزایش داد تا مدل بتواند الگوهای بیشتری از تراکنش‌ های تقلبی یاد بگیرد.

 

۲.۲. استفاده از تکنیک SMOTE برای افزایش داده‌ های کلاس اقلیت

یکی از روش‌ های پیشرفته برای افزایش داده‌ های کلاس اقلیت، SMOTE (Synthetic Minority Over-sampling Technique) است که با ایجاد داده‌ های مصنوعی، تعادل داده‌ ها را حفظ می‌ کند.

مثال: در تشخیص سرطان، اگر فقط ۵٪ از داده‌ ها مربوط به بیماران مبتلا به سرطان باشد، SMOTE می‌ تواند ویژگی‌ های بیماران مبتلا را بررسی کرده و نمونه‌ های مصنوعی جدیدی تولید کند تا مدل تعادل بهتری بین کلاس‌ ها برقرار کند.

 

۲.۳. استفاده از معیارهای ارزیابی مناسب برای داده‌ های نامتوازن

معیارهای سنتی مانند Accuracy در این داده‌ ها مناسب نیستند. در عوض باید از معیارهای زیر استفاده کرد:

Precision (دقت): درصد پیش‌ بینی‌ های صحیح برای کلاس اقلیت را نشان می‌ دهد.

Recall (بازخوانی یا حساسیت): نشان می‌دهد چه تعداد از نمونه‌ های واقعی کلاس اقلیت به درستی شناسایی شده‌اند.

F1-Score: میانگینی از Precision و Recall که در داده‌ های نامتوازن عملکرد بهتری دارد.

AUC-ROC Curve: معیاری برای سنجش قدرت تفکیک مدل بین کلاس‌ ها.

 

۲.۴. استفاده از الگوریتم‌ های متناسب با داده‌ های نامتوازن

برخی الگوریتم‌ ها برای یادگیری از داده‌ های نامتوازن بهینه شده‌ اند:

Random Forest with Class Weights: جنگل تصادفی می‌تواند وزن بیشتری به کلاس اقلیت بدهد تا مدل نسبت به آن توجه بیشتری داشته باشد.

Balanced Bagging Classifier: این روش نمونه‌ گیری تصادفی را متناسب با داده‌ های نامتوازن انجام می‌ دهد.

Cost-Sensitive Learning: در این روش، مدل هزینه بیشتری برای اشتباه در کلاس اقلیت در نظر می‌ گیرد.

مثال: در سیستم‌ های امنیتی تشخیص نفوذ، اگر حملات سایبری بسیار نادر باشند، مدل‌ های Cost-Sensitive Learning می‌توانند این حملات را جدی‌ تر گرفته و بهتر شناسایی کنند.

 

تکنیک‌ های آماری برای افزایش دقت مدل‌ ها در طبقه‌ بندی داده‌ های نامتوازن

 

داده‌ های نامتوازن در مسائل طبقه‌ بندی یادگیری ماشین یک چالش اساسی محسوب می‌ شوند. زمانی که تعداد نمونه‌ های یک کلاس بسیار کمتر از کلاس‌ های دیگر باشد، مدل‌ ها تمایل دارند که کلاس اکثریت را بهتر یاد بگیرند و در تشخیص کلاس اقلیت عملکرد ضعیفی داشته باشند. این مسئله به‌ خصوص در حوزه‌ هایی مانند تشخیص تقلب بانکی، شناسایی بیماری‌ های نادر، تحلیل جرایم سایبری و تشخیص نقص فنی در سیستم‌ های صنعتی اهمیت بالایی دارد.

 

۱. تحلیل توزیع داده‌ ها برای انتخاب بهترین تکنیک متوازن‌ سازی

 

اولین گام برای بهینه‌ سازی مدل‌ های یادگیری ماشین در داده‌ های نامتوازن، تحلیل دقیق توزیع داده‌ ها است. این کار از طریق روش‌ های آماری زیر انجام می‌ شود:

محاسبه نسبت کلاس‌ ها: برای سنجش میزان نامتوازن بودن داده‌ ها، می‌توان نسبت فراوانی کلاس‌ اقلیت به کلاس اکثریت را محاسبه کرد.

تحلیل واریانس بین کلاس‌ ها: بررسی میزان پراکندگی ویژگی‌ ها در هر کلاس کمک می‌ کند که مشخص شود آیا نامتوازنی به دلیل تفاوت در توزیع ویژگی‌ هاست یا صرفاً تفاوت در تعداد داده‌ ها.

محاسبه چگالی احتمالاتی توزیع داده‌ ها: با استفاده از تکنیک‌ هایی مانند Kernel Density Estimation (KDE) می‌توان بررسی کرد که آیا کلاس اقلیت دارای الگوهای خاصی است که می‌توان از آن‌ ها برای بهینه‌ سازی مدل استفاده کرد.

تحلیل همبستگی ویژگی‌ ها: بررسی رابطه بین ویژگی‌ های مختلف با برچسب‌ های خروجی کمک می‌ کند تا مشخص شود کدام ویژگی‌ ها بیشترین تأثیر را بر تشخیص کلاس اقلیت دارند.

 

۲. استفاده از روش‌ های آماری پیشرفته برای بازنمونه‌ گیری (Resampling Techniques)

روش‌ های بازنمونه‌ گیری از تکنیک‌ های مهمی هستند که برای بهبود تعادل کلاس‌ ها در داده‌ های نامتوازن مورد استفاده قرار می‌ گیرند.

 

۲.۱. روش‌ های Oversampling پیشرفته

Adaptive Synthetic Sampling (ADASYN): نسخه بهینه‌ شده‌ی SMOTE که بر تولید نمونه‌ های جدید برای نقاطی تمرکز دارد که تشخیص آن‌ ها برای مدل دشوارتر است.

Borderline-SMOTE: این روش نسخه‌ی بهبودیافته‌ ای از SMOTE است که داده‌ های مصنوعی را در نزدیکی مرزهای تصمیم‌ گیری کلاس‌ ها تولید می‌ کند تا مدل تفکیک بهتری داشته باشد.

Gaussian Noise Injection: در این تکنیک، نمونه‌ های مصنوعی کلاس اقلیت با افزودن نویز گاوسی ایجاد می‌ شوند تا تنوع داده‌ ها بیشتر شود و مدل دچار بیش‌ برازش (Overfitting) نشود.

Example Weighting: در این روش، نمونه‌ های کلاس اقلیت وزن بیشتری دریافت می‌کنند تا مدل نسبت به آن‌ ها حساس‌ تر شود.

 

۲.۲. روش‌ های Undersampling پیشرفته

NearMiss: این روش نمونه‌ هایی از کلاس اکثریت را که نزدیک به مرز تصمیم‌ گیری مدل قرار دارند، انتخاب کرده و بقیه را حذف می‌ کند.

Tomek Links: حذف داده‌ هایی از کلاس اکثریت که در هم‌ پوشانی با کلاس اقلیت قرار دارند تا مدل بتواند مرزهای تصمیم‌ گیری را دقیق‌ تر بیاموزد.

Cluster Centroids: خوشه‌ بندی داده‌ های کلاس اکثریت و جایگزین کردن هر خوشه با نمونه‌ های نماینده به جای حذف تصادفی داده‌ ها.

 

۳. استفاده از مدل‌ های آماری ترکیبی (Ensemble Learning)

 

در داده‌ های نامتوازن، استفاده از مدل‌ های ترکیبی که از چندین الگوریتم یادگیری ماشین استفاده می‌ کنند، باعث بهبود دقت طبقه‌ بندی می‌شود.

Balanced Random Forest: نسخه بهبودیافته‌ی جنگل تصادفی که از بازنمونه‌ گیری کلاس اقلیت در هر درخت استفاده می‌ کند.

EasyEnsemble: یک متد یادگیری ترکیبی که چندین مدل طبقه‌ بندی را روی داده‌ های متوازن‌شده اجرا کرده و نتایج آن‌ ها را ترکیب می‌ کند.

Bagging with Class Weights: استفاده از الگوریتم‌ هایی مانند AdaBoost با وزن‌ گذاری ویژه برای کلاس‌ های کم‌ تعداد.

XGBoost with Weighted Loss Function: XGBoost دارای یک پارامتر وزن‌ دهی ویژه برای کلاس اقلیت است که می‌تواند عدم تعادل را کاهش دهد.

 

۴. اصلاح معیارهای ارزیابی مدل برای داده‌ های نامتوازن

 

معیارهای سنتی مانند دقت (Accuracy) معمولاً در داده‌ های نامتوازن گمراه‌ کننده هستند. در عوض، معیارهای زیر پیشنهاد می‌ شوند:

Geometric Mean (G-Mean): میانگین هندسی بین دقت کلاس‌ ها که باعث ایجاد تعادل در پیش‌ بینی کلاس‌ های مختلف می‌ شود.

Matthews Correlation Coefficient (MCC): معیار آماری که تعادل بین تمام کلاس‌ ها را حفظ کرده و برای داده‌ های نامتوازن بسیار دقیق است.

Balanced Accuracy: نسخه اصلاح‌ شده‌ی دقت که میانگین دقت برای هر کلاس را در نظر می‌ گیرد.

Precision-Recall AUC: به جای منحنی ROC، در شرایطی که کلاس اقلیت مهم است، استفاده از منحنی PR-AUC دقیق‌ تر خواهد بود.

 

۵. استفاده از الگوریتم‌ های ویژه داده‌ های نامتوازن

 

برخی الگوریتم‌ های یادگیری ماشین به‌ طور خاص برای داده‌ های نامتوازن طراحی شده‌ اند:

Cost-Sensitive Learning: اعمال جریمه‌ های بیشتر برای خطاهای مربوط به کلاس اقلیت.

One-Class SVM: یادگیری تنها بر اساس داده‌ های کلاس اقلیت برای تشخیص موارد نادر.

Focal Loss: تابع هزینه‌ای که روی نمونه‌ هایی که مدل به سختی یاد می‌ گیرد، تمرکز بیشتری دارد.

Hybrid Sampling and Cost-Sensitive Learning: ترکیب بازنمونه‌ گیری و یادگیری حساس به هزینه برای بهینه‌ سازی مدل.

 

 

نتیجه‌ گیری

 

داده‌ های نامتوازن یکی از بزرگ‌ ترین چالش‌ های یادگیری نظارت‌ شده هستند و می‌توانند باعث کاهش دقت مدل‌ های پیش‌ بینی شوند. استفاده از روش‌ های آماری مانند بازنمونه‌ گیری، SMOTE، الگوریتم‌ های یادگیری حساس به هزینه و معیارهای ارزیابی مناسب، به بهبود عملکرد مدل در مواجهه با این نوع داده‌ ها کمک می‌ کند. هوش مصنوعی در آمار نیز با روش‌ های پیشرفته‌ تر مانند شبکه‌ های عصبی عمیق و یادگیری تقویتی، می‌تواند به بهینه‌ سازی این فرآیند کمک کند. با استفاده از این تکنیک‌ ها، می‌توان مدل‌ هایی ساخت که دقت بالاتری در پیش‌ بینی داده‌ های نادر و بحرانی داشته باشند.

فهرست مطالب


برچسب‌ها


انتخاب پالت رنگی