ارزیابی الگوریتمهای یادگیری ترکیبی با استفاده از معیارهایی مانند دقت، یادآوری، AUC-ROC و ماتریس درهمریختگی انجام میشود. هوش مصنوعی در آمار به تحلیل عملکرد این الگوریتمها کمک کرده و باعث بهبود دقت و پایداری پیشبینیها میشود.
الگوریتمهای یادگیری ترکیبی (Ensemble Learning) یکی از مؤثرترین روشها در یادگیری ماشین و هوش مصنوعی هستند که با ترکیب چندین مدل یادگیری مختلف به بهبود دقت و کارایی پیشبینیها کمک میکنند. اما ارزیابی و سنجش عملکرد این الگوریتمها بسیار مهم است تا مشخص شود آیا ترکیب مدلها واقعاً بهبود ایجاد کرده یا خیر. در این بخش به معیارهای ارزیابی در یادگیری ترکیبی پرداخته میشود و از ابزارهای آماری برای توضیح این معیارها استفاده خواهد شد.
یکی از سادهترین و پرکاربردترین معیارهای ارزیابی در مدلهای یادگیری ترکیبی دقت است که نشان میدهد مدل چه درصدی از پیشبینیها را به درستی انجام داده است. دقت برای مسائل دستهبندی استفاده میشود و با تقسیم تعداد پیشبینیهای صحیح بر تعداد کل دادهها محاسبه میشود.
مثال:
فرض کنید یک مدل ترکیبی برای تشخیص بیماری بر اساس تصاویر پزشکی توسعه داده شده است. اگر از ۱۰۰۰ نمونه تست، ۹۲۰ مورد به درستی پیشبینی شده باشند، دقت مدل ۹۲ درصد خواهد بود.
نکته آماری:
دقت در دادههای نامتوازن عملکرد مطلوبی ندارد. مثلاً اگر در یک مجموعه داده پزشکی ۹۵ درصد نمونهها سالم و فقط ۵ درصد بیمار باشند، مدلی که همیشه "سالم" پیشبینی کند، دقت بالایی دارد ولی عملاً ناکارآمد است. در چنین مواردی، معیارهای دیگری مورد نیاز هستند.
این دو معیار بهویژه در دادههای نامتوازن بسیار مهم هستند.
مثال:
در تشخیص کلاهبرداری بانکی، اگر مدل ۱۰۰ مورد را به عنوان کلاهبرداری پیشبینی کند و از این میان ۸۰ مورد واقعاً کلاهبرداری باشند، دقت کلاس مثبت ۸۰ درصد خواهد بود. اگر در کل ۱۲۰ تراکنش کلاهبرداری واقعی وجود داشته باشد و مدل فقط ۸۰ مورد را شناسایی کند، مقدار یادآوری ۶۶.۷ درصد خواهد بود.
نکته آماری:
برای متعادل کردن دقت و یادآوری، معمولاً از معیار F1-Score استفاده میشود که میانگین هارمونیک این دو مقدار را محاسبه میکند.
مثال:
اگر دو مدل ترکیبی مختلف داشته باشیم، و مدل اول AUC برابر ۰.۸۵ و مدل دوم AUC برابر ۰.۷۵ داشته باشد، مدل اول در جداسازی کلاسهای مثبت و منفی عملکرد بهتری دارد.
ماتریس درهمریختگی توزیع پیشبینیهای مدل را در مقابل واقعیت نمایش میدهد. این ماتریس شامل چهار مقدار اصلی است:
مثال:
در یک مدل تشخیص سرطان، اگر از ۱۰۰۰ نمونه تست، ۵۰ مورد واقعاً بیمار باشند ولی مدل فقط ۳۰ مورد را به درستی شناسایی کند، مقدار FN برابر ۲۰ خواهد بود.
در مسائل پیشبینی عددی، به جای معیارهای دستهبندی، معیارهایی مانند میانگین خطای مطلق (MAE) و میانگین مربعات خطا (MSE) استفاده میشود.
مثال:
در یک مدل ترکیبی برای پیشبینی قیمت سهام، اگر قیمت واقعی یک سهم ۵۰۰ هزار تومان باشد و مدل مقدار ۴۹۰ هزار تومان را پیشبینی کند، مقدار خطا ۱۰ هزار تومان است. MAE میانگین این خطاها را در کل مجموعه داده میسنجد.
شاخص کاپا میزان توافق مدل با مقادیر واقعی را در مقایسه با پیشبینی تصادفی اندازهگیری میکند. مقدار ۱ نشاندهنده پیشبینی کاملاً درست و مقدار ۰ نشاندهنده عملکرد تصادفی است.
مثال:
در یک مدل تشخیص بیماری، اگر مدل و دادههای واقعی در ۸۵ درصد موارد با هم مطابقت داشته باشند، اما میزان توافق تصادفی ۶۵ درصد باشد، شاخص کاپا به ما نشان میدهد که چقدر این مدل بهتر از حد تصادفی عمل کرده است.
مدلهای یادگیری ترکیبی معمولاً برای کاهش واریانس (Overfitting) طراحی شدهاند. مدلهایی مانند بگینگ (Bagging) و بوستینگ (Boosting) برای مدیریت این مسئله استفاده میشوند.
مثال:
یک مدل تکدرختی ممکن است دارای بایاس کم اما واریانس بالا باشد، در حالی که یک مدل بگینگ مانند Random Forest واریانس را کاهش میدهد و تعمیم بهتری دارد.
یادگیری ترکیبی (Ensemble Learning) یکی از روشهای مؤثر در بهبود دقت پیشبینی مدلهای یادگیری ماشین و کاهش خطاهای آنها است. این روش با ترکیب چندین مدل مختلف، عملکرد بهتری نسبت به مدلهای تکی ارائه میدهد. تکنیکهای مختلفی برای یادگیری ترکیبی وجود دارند که هر یک تأثیر متفاوتی بر دقت پیشبینی میگذارند. در اینجا، مهمترین تکنیکهای یادگیری ترکیبی و نحوه تأثیر آنها بر بهبود پیشبینیها بررسی میشود.
بگینگ که مخفف Bootstrap Aggregating است، یکی از رایجترین تکنیکهای یادگیری ترکیبی است که با ایجاد چندین مدل مشابه و ترکیب خروجی آنها، واریانس را کاهش داده و دقت پیشبینی را افزایش میدهد.
۱. چندین مجموعه داده تصادفی با نمونهگیری با جایگذاری (Bootstrapping) از دادههای آموزشی اصلی ایجاد میشود.
2. یک مدل یادگیری (مانند درخت تصمیم) روی هر مجموعه آموزشی آموزش داده میشود.
3. خروجی مدلهای مختلف ترکیب میشود (بهطور معمول، در دستهبندی از رأیگیری اکثریت و در مسائل رگرسیون از میانگینگیری استفاده میشود).
مدل جنگل تصادفی (Random Forest) که از بگینگ روی درختهای تصمیم استفاده میکند، یکی از پرکاربردترین مدلهای یادگیری ترکیبی است. این مدل در مسائلی مانند تشخیص بیماریهای پزشکی و پیشبینی نمرات دانشجویان عملکرد بسیار بهتری نسبت به یک درخت تصمیم تکی دارد.
بوستینگ تکنیکی است که به جای ایجاد مدلهای مستقل مانند بگینگ، مدلها را به صورت متوالی آموزش میدهد تا هر مدل خطاهای مدل قبلی را اصلاح کند.
مدلهای AdaBoost و Gradient Boosting Machines (GBM) نمونههای رایجی از بوستینگ هستند که در تشخیص تقلب بانکی، پیشبینی ریسک بیمه، و رتبهبندی موتورهای جستجو کاربرد دارند.
استکینگ یک روش یادگیری ترکیبی است که از چندین مدل پایه مختلف استفاده کرده و خروجی آنها را به مدل دیگری (که به آن مدل فراگیر یا Meta Learner گفته میشود) میدهد تا بهترین ترکیب از خروجیها را یاد بگیرد.
در مسابقات Kaggle، استکینگ بهعنوان یکی از روشهای اصلی برای بهبود دقت مدلها در پیشبینی فروش، قیمتگذاری املاک، و پیشبینی خرابی ماشینآلات صنعتی استفاده میشود.
در این روش، چندین مدل مختلف روی یک مجموعه داده آموزش داده شده و سپس خروجیهای آنها با استفاده از رأیگیری ترکیب میشود.
در پیشبینی بازار سهام، میتوان از رأیگیری بین مدلهای مختلف مانند شبکههای عصبی، درختهای تصمیم و مدلهای خطی استفاده کرد تا یک پیشبینی دقیقتر ارائه شود.
این روش شبیه به رأیگیری است، اما به جای انتخاب برچسب کلاس، میانگین خروجی مدلهای مختلف محاسبه میشود.
در پیشبینی دمای هوا، استفاده از میانگین پیشبینیهای چندین مدل هواشناسی میتواند منجر به نتایج دقیقتری شود.
معیارهای ارزیابی در یادگیری ترکیبی بسیار متنوع هستند و بسته به نوع مسئله، باید معیار مناسب انتخاب شود. برای دادههای نامتوازن، دقت کلاس مثبت و یادآوری مهمتر از دقت کلی است. در مسائل پیشبینی عددی، MAE و MSE معیارهای مناسبی هستند. از طرفی، AUC-ROC و ماتریس درهمریختگی برای تحلیل دقیقتر مدلهای دستهبندی کاربرد دارند. با استفاده از این معیارها، میتوان کیفیت مدلهای یادگیری ترکیبی را به صورت آماری بررسی کرده و بهبود داد.