SData
ورود / ثبت‌نام

جستجو در SData

جستجوی سریع در SData

محصولات، دوره‌ها، داشبوردها و مقالات را در لحظه پیدا کنید

محصولات
دوره‌ها
داشبوردها
مقالات
حداقل 2 حرف برای شروع جستجو تایپ کنید
SData

آمار و ارزیابی الگوریتم‌ های یادگیری ترکیبی

حسین جدیدی
1403/11/15
مطالعه این مقاله حدود 22 دقیقه زمان می‌برد
1031 بازدید
آمار و ارزیابی الگوریتم‌ های یادگیری ترکیبی

ارزیابی الگوریتم‌های یادگیری ترکیبی با استفاده از معیارهایی مانند دقت، یادآوری، AUC-ROC و ماتریس درهم‌ریختگی انجام می‌شود. هوش مصنوعی در آمار به تحلیل عملکرد این الگوریتم‌ها کمک کرده و باعث بهبود دقت و پایداری پیش‌بینی‌ها می‌شود.

 

 

معیارهای ارزیابی در یادگیری ترکیبی

 

الگوریتم‌های یادگیری ترکیبی (Ensemble Learning) یکی از مؤثرترین روش‌ها در یادگیری ماشین و هوش مصنوعی هستند که با ترکیب چندین مدل یادگیری مختلف به بهبود دقت و کارایی پیش‌بینی‌ها کمک می‌کنند. اما ارزیابی و سنجش عملکرد این الگوریتم‌ها بسیار مهم است تا مشخص شود آیا ترکیب مدل‌ها واقعاً بهبود ایجاد کرده یا خیر. در این بخش به معیارهای ارزیابی در یادگیری ترکیبی پرداخته می‌شود و از ابزارهای آماری برای توضیح این معیارها استفاده خواهد شد.

 

۱. دقت (Accuracy)

 

یکی از ساده‌ترین و پرکاربردترین معیارهای ارزیابی در مدل‌های یادگیری ترکیبی دقت است که نشان می‌دهد مدل چه درصدی از پیش‌بینی‌ها را به درستی انجام داده است. دقت برای مسائل دسته‌بندی استفاده می‌شود و با تقسیم تعداد پیش‌بینی‌های صحیح بر تعداد کل داده‌ها محاسبه می‌شود.

مثال:
فرض کنید یک مدل ترکیبی برای تشخیص بیماری بر اساس تصاویر پزشکی توسعه داده شده است. اگر از ۱۰۰۰ نمونه تست، ۹۲۰ مورد به درستی پیش‌بینی شده باشند، دقت مدل ۹۲ درصد خواهد بود.

نکته آماری:
دقت در داده‌های نامتوازن عملکرد مطلوبی ندارد. مثلاً اگر در یک مجموعه داده پزشکی ۹۵ درصد نمونه‌ها سالم و فقط ۵ درصد بیمار باشند، مدلی که همیشه "سالم" پیش‌بینی کند، دقت بالایی دارد ولی عملاً ناکارآمد است. در چنین مواردی، معیارهای دیگری مورد نیاز هستند.

 

۲. دقت کلاس مثبت و یادآوری (Precision & Recall)

 

این دو معیار به‌ویژه در داده‌های نامتوازن بسیار مهم هستند.

  • دقت کلاس مثبت (Precision) نشان می‌دهد از بین مواردی که مدل به عنوان "مثبت" (مثلاً بیمار) پیش‌بینی کرده، چه تعداد واقعاً درست بوده‌اند.
  • یادآوری (Recall) نشان می‌دهد از بین تمام موارد مثبت واقعی، مدل چند مورد را به درستی تشخیص داده است.

مثال:
در تشخیص کلاهبرداری بانکی، اگر مدل ۱۰۰ مورد را به عنوان کلاهبرداری پیش‌بینی کند و از این میان ۸۰ مورد واقعاً کلاهبرداری باشند، دقت کلاس مثبت ۸۰ درصد خواهد بود. اگر در کل ۱۲۰ تراکنش کلاهبرداری واقعی وجود داشته باشد و مدل فقط ۸۰ مورد را شناسایی کند، مقدار یادآوری ۶۶.۷ درصد خواهد بود.

نکته آماری:
برای متعادل کردن دقت و یادآوری، معمولاً از معیار F1-Score استفاده می‌شود که میانگین هارمونیک این دو مقدار را محاسبه می‌کند.

 

۳. AUC-ROC و منحنی PR

 

  • منحنی ROC (Receiver Operating Characteristic) عملکرد مدل را در سطوح مختلف آستانه تصمیم‌گیری بررسی می‌کند.
  • AUC (Area Under Curve) سطح زیر این منحنی است که هرچه مقدار آن به ۱ نزدیک‌تر باشد، مدل بهتر عمل کرده است.
  • منحنی PR (Precision-Recall Curve) برای داده‌های نامتوازن مناسب‌تر است زیرا مستقیماً روی دقت کلاس مثبت و یادآوری تمرکز دارد.

مثال:
اگر دو مدل ترکیبی مختلف داشته باشیم، و مدل اول AUC برابر ۰.۸۵ و مدل دوم AUC برابر ۰.۷۵ داشته باشد، مدل اول در جداسازی کلاس‌های مثبت و منفی عملکرد بهتری دارد.

 

۴. ماتریس درهم‌ریختگی (Confusion Matrix)

 

ماتریس درهم‌ریختگی توزیع پیش‌بینی‌های مدل را در مقابل واقعیت نمایش می‌دهد. این ماتریس شامل چهار مقدار اصلی است:

  • True Positive (TP): مواردی که واقعاً مثبت بوده‌اند و مدل نیز آن‌ها را مثبت پیش‌بینی کرده است.
  • False Positive (FP): مواردی که منفی بوده‌اند ولی مدل آن‌ها را مثبت پیش‌بینی کرده است.
  • True Negative (TN): مواردی که واقعاً منفی بوده‌اند و مدل نیز آن‌ها را منفی پیش‌بینی کرده است.
  • False Negative (FN): مواردی که مثبت بوده‌اند اما مدل آن‌ها را منفی پیش‌بینی کرده است.

مثال:
در یک مدل تشخیص سرطان، اگر از ۱۰۰۰ نمونه تست، ۵۰ مورد واقعاً بیمار باشند ولی مدل فقط ۳۰ مورد را به درستی شناسایی کند، مقدار FN برابر ۲۰ خواهد بود.

 

۵. خطای میانگین مطلق و میانگین مربعات خطا (MAE & MSE)

 

در مسائل پیش‌بینی عددی، به جای معیارهای دسته‌بندی، معیارهایی مانند میانگین خطای مطلق (MAE) و میانگین مربعات خطا (MSE) استفاده می‌شود.

  • MAE میانگین اختلاف مطلق بین مقادیر واقعی و پیش‌بینی‌شده را اندازه‌گیری می‌کند.
  • MSE به مقادیر بزرگ‌تر وزن بیشتری می‌دهد و حساس‌تر به خطاهای بزرگ است.

مثال:
در یک مدل ترکیبی برای پیش‌بینی قیمت سهام، اگر قیمت واقعی یک سهم ۵۰۰ هزار تومان باشد و مدل مقدار ۴۹۰ هزار تومان را پیش‌بینی کند، مقدار خطا ۱۰ هزار تومان است. MAE میانگین این خطاها را در کل مجموعه داده می‌سنجد.

 

۶. شاخص کاپا (Kappa Statistic) و کاپا وزنی

 

شاخص کاپا میزان توافق مدل با مقادیر واقعی را در مقایسه با پیش‌بینی تصادفی اندازه‌گیری می‌کند. مقدار ۱ نشان‌دهنده پیش‌بینی کاملاً درست و مقدار ۰ نشان‌دهنده عملکرد تصادفی است.

مثال:
در یک مدل تشخیص بیماری، اگر مدل و داده‌های واقعی در ۸۵ درصد موارد با هم مطابقت داشته باشند، اما میزان توافق تصادفی ۶۵ درصد باشد، شاخص کاپا به ما نشان می‌دهد که چقدر این مدل بهتر از حد تصادفی عمل کرده است.

 

۷. بایاس و واریانس

 

  • بایاس (Bias): نشان می‌دهد که مدل چقدر از مقدار واقعی فاصله دارد.
  • واریانس (Variance): میزان حساسیت مدل به تغییرات داده‌های آموزشی را نشان می‌دهد.

مدل‌های یادگیری ترکیبی معمولاً برای کاهش واریانس (Overfitting) طراحی شده‌اند. مدل‌هایی مانند بگینگ (Bagging) و بوستینگ (Boosting) برای مدیریت این مسئله استفاده می‌شوند.

مثال:
یک مدل تک‌درختی ممکن است دارای بایاس کم اما واریانس بالا باشد، در حالی که یک مدل بگینگ مانند Random Forest واریانس را کاهش می‌دهد و تعمیم بهتری دارد.

 

تکنیک‌های یادگیری ترکیبی و تأثیر آن‌ها بر دقت پیش‌بینی

 

یادگیری ترکیبی (Ensemble Learning) یکی از روش‌های مؤثر در بهبود دقت پیش‌بینی مدل‌های یادگیری ماشین و کاهش خطاهای آن‌ها است. این روش با ترکیب چندین مدل مختلف، عملکرد بهتری نسبت به مدل‌های تکی ارائه می‌دهد. تکنیک‌های مختلفی برای یادگیری ترکیبی وجود دارند که هر یک تأثیر متفاوتی بر دقت پیش‌بینی می‌گذارند. در اینجا، مهم‌ترین تکنیک‌های یادگیری ترکیبی و نحوه تأثیر آن‌ها بر بهبود پیش‌بینی‌ها بررسی می‌شود.

 

۱. بگینگ (Bagging)

 

بگینگ که مخفف Bootstrap Aggregating است، یکی از رایج‌ترین تکنیک‌های یادگیری ترکیبی است که با ایجاد چندین مدل مشابه و ترکیب خروجی آن‌ها، واریانس را کاهش داده و دقت پیش‌بینی را افزایش می‌دهد.

مکانیسم بگینگ

۱. چندین مجموعه داده تصادفی با نمونه‌گیری با جایگذاری (Bootstrapping) از داده‌های آموزشی اصلی ایجاد می‌شود.
2. یک مدل یادگیری (مانند درخت تصمیم) روی هر مجموعه آموزشی آموزش داده می‌شود.
3. خروجی مدل‌های مختلف ترکیب می‌شود (به‌طور معمول، در دسته‌بندی از رأی‌گیری اکثریت و در مسائل رگرسیون از میانگین‌گیری استفاده می‌شود).

تأثیر بگینگ بر دقت پیش‌بینی

  • واریانس مدل کاهش می‌یابد، به این معنا که مدل در برابر داده‌های جدید تعمیم بهتری دارد.
  • احتمال بیش‌برازش (Overfitting) کاهش پیدا می‌کند، زیرا مدل‌های مختلف روی داده‌های متفاوتی آموزش می‌بینند.
  • عملکرد روی داده‌های پرت یا نویزی بهبود می‌یابد، زیرا خطای تصادفی بین مدل‌ها پخش می‌شود.

مثال کاربردی

مدل جنگل تصادفی (Random Forest) که از بگینگ روی درخت‌های تصمیم استفاده می‌کند، یکی از پرکاربردترین مدل‌های یادگیری ترکیبی است. این مدل در مسائلی مانند تشخیص بیماری‌های پزشکی و پیش‌بینی نمرات دانشجویان عملکرد بسیار بهتری نسبت به یک درخت تصمیم تکی دارد.

 

۲. بوستینگ (Boosting)

 

بوستینگ تکنیکی است که به جای ایجاد مدل‌های مستقل مانند بگینگ، مدل‌ها را به صورت متوالی آموزش می‌دهد تا هر مدل خطاهای مدل قبلی را اصلاح کند.

مکانیسم بوستینگ

  1. یک مدل اولیه روی مجموعه داده آموزش داده می‌شود.
  2. وزن داده‌هایی که مدل قبلی به‌درستی پیش‌بینی نکرده است، افزایش پیدا می‌کند.
  3. مدل بعدی روی داده‌های با وزن بالاتر آموزش داده می‌شود تا خطاهای مدل قبلی را جبران کند.
  4. این فرآیند چندین بار تکرار می‌شود تا مدل ترکیبی قوی‌تری به دست آید.

تأثیر بوستینگ بر دقت پیش‌بینی

  • دقت مدل افزایش پیدا می‌کند، زیرا مدل‌ها به‌صورت هدفمند برای کاهش خطاها آموزش داده می‌شوند.
  • تأثیر داده‌های پرت کاهش می‌یابد، زیرا وزن داده‌های مهم‌تر تنظیم می‌شود.
  • احتمال بیش‌برازش در مجموعه داده‌های کوچک افزایش می‌یابد، زیرا مدل‌ها به شدت روی داده‌های آموزشی تمرکز می‌کنند.

مثال کاربردی

مدل‌های AdaBoost و Gradient Boosting Machines (GBM) نمونه‌های رایجی از بوستینگ هستند که در تشخیص تقلب بانکی، پیش‌بینی ریسک بیمه، و رتبه‌بندی موتورهای جستجو کاربرد دارند.

 

۳. استکینگ (Stacking)

 

استکینگ یک روش یادگیری ترکیبی است که از چندین مدل پایه مختلف استفاده کرده و خروجی آن‌ها را به مدل دیگری (که به آن مدل فراگیر یا Meta Learner گفته می‌شود) می‌دهد تا بهترین ترکیب از خروجی‌ها را یاد بگیرد.

مکانیسم استکینگ

  1. چندین مدل یادگیری (مانند شبکه‌های عصبی، درخت‌های تصمیم، و رگرسیون لجستیک) روی داده‌های آموزشی آموزش داده می‌شوند.
  2. خروجی این مدل‌ها به عنوان ویژگی‌های جدید به یک مدل دیگر (فراگیر) داده می‌شود.
  3. مدل فراگیر بر اساس این خروجی‌ها یاد می‌گیرد که ترکیب بهینه‌ای از مدل‌های پایه ارائه دهد.

تأثیر استکینگ بر دقت پیش‌بینی

  • قدرت تعمیم مدل افزایش می‌یابد، زیرا مدل‌های مختلف نقاط ضعف یکدیگر را پوشش می‌دهند.
  • انعطاف‌پذیری بالا، زیرا از مدل‌های یادگیری متنوع استفاده می‌شود.
  • هزینه محاسباتی زیاد، زیرا چندین مدل مختلف باید آموزش داده شوند.

مثال کاربردی

در مسابقات Kaggle، استکینگ به‌عنوان یکی از روش‌های اصلی برای بهبود دقت مدل‌ها در پیش‌بینی فروش، قیمت‌گذاری املاک، و پیش‌بینی خرابی ماشین‌آلات صنعتی استفاده می‌شود.

 

۴. یادگیری ترکیبی مبتنی بر رأی‌گیری (Voting Ensemble)

 

در این روش، چندین مدل مختلف روی یک مجموعه داده آموزش داده شده و سپس خروجی‌های آن‌ها با استفاده از رأی‌گیری ترکیب می‌شود.

مکانیسم رأی‌گیری

  • در رأی‌گیری سخت (Hard Voting)، هر مدل یک برچسب کلاس پیش‌بینی می‌کند و بیشترین تعداد رأی، کلاس نهایی را تعیین می‌کند.
  • در رأی‌گیری نرم (Soft Voting)، مدل‌ها احتمال هر کلاس را ارائه می‌دهند و میانگین این احتمالات برای تعیین کلاس نهایی استفاده می‌شود.

تأثیر رأی‌گیری بر دقت پیش‌بینی

  • اگر مدل‌های پایه دارای عملکرد متفاوت ولی قابل قبول باشند، ترکیب آن‌ها باعث افزایش دقت پیش‌بینی می‌شود.
  • خطر انتخاب یک مدل ضعیف کاهش پیدا می‌کند، زیرا خروجی مدل‌های مختلف در تصمیم‌گیری لحاظ می‌شود.
  • در صورتی که مدل‌ها بسیار مشابه باشند، این روش تأثیر زیادی نخواهد داشت.

مثال کاربردی

در پیش‌بینی بازار سهام، می‌توان از رأی‌گیری بین مدل‌های مختلف مانند شبکه‌های عصبی، درخت‌های تصمیم و مدل‌های خطی استفاده کرد تا یک پیش‌بینی دقیق‌تر ارائه شود.

 

۵. یادگیری ترکیبی مبتنی بر میانگین‌گیری (Averaging Ensemble)

 

این روش شبیه به رأی‌گیری است، اما به جای انتخاب برچسب کلاس، میانگین خروجی مدل‌های مختلف محاسبه می‌شود.

مکانیسم میانگین‌گیری

  • در میانگین ساده (Simple Averaging)، میانگین مستقیم خروجی تمام مدل‌ها محاسبه می‌شود.
  • در میانگین وزنی (Weighted Averaging)، مدل‌های با عملکرد بهتر وزن بیشتری در ترکیب خروجی دارند.

تأثیر میانگین‌گیری بر دقت پیش‌بینی

  • خطای کلی مدل کاهش پیدا می‌کند، زیرا مقادیر پرت تأثیر کمتری دارند.
  • ترکیب مدل‌ها باعث افزایش پایداری پیش‌بینی‌ها می‌شود.
  • در صورتی که مدل‌های استفاده‌شده ضعیف باشند، تأثیر بهبود محدود خواهد بود.

مثال کاربردی

در پیش‌بینی دمای هوا، استفاده از میانگین پیش‌بینی‌های چندین مدل هواشناسی می‌تواند منجر به نتایج دقیق‌تری شود.

 

 

نتیجه‌گیری

 

معیارهای ارزیابی در یادگیری ترکیبی بسیار متنوع هستند و بسته به نوع مسئله، باید معیار مناسب انتخاب شود. برای داده‌های نامتوازن، دقت کلاس مثبت و یادآوری مهم‌تر از دقت کلی است. در مسائل پیش‌بینی عددی، MAE و MSE معیارهای مناسبی هستند. از طرفی، AUC-ROC و ماتریس درهم‌ریختگی برای تحلیل دقیق‌تر مدل‌های دسته‌بندی کاربرد دارند. با استفاده از این معیارها، می‌توان کیفیت مدل‌های یادگیری ترکیبی را به صورت آماری بررسی کرده و بهبود داد.

برچسب‌ها


انتخاب پالت رنگی