دادههای آماری ناسازگار، شامل مقادیر پرت، دادههای نامرتبط یا ناقص، میتوانند منجر به کاهش دقت و قابلیت اعتماد مدلهای هوش مصنوعی شوند. این نوع دادهها اغلب باعث یادگیری اشتباه مدلها یا بیشبرازش میشوند. برای مدیریت این مشکلات، تکنیکهایی مانند تحلیل دادههای پرت، حذف نویز، و استفاده از روشهای پیشپردازش آماری اهمیت دارند.
هوش مصنوعی در آمار از این روشها بهره میبرد تا دادههای ناسازگار را مدیریت کرده و مدلهایی با عملکرد بهینهتر ارائه دهد.
دادههای آماری ناسازگار شامل مقادیر پرت، دادههای نویزی، ناقص یا نامرتبط هستند که میتوانند دقت و قابلیت اطمینان مدلهای هوش مصنوعی را به شدت کاهش دهند. این دادهها باعث یادگیری اشتباه مدلها و ایجاد پیشبینیهای نادرست میشوند. مدیریت و شناسایی دادههای ناسازگار برای بهبود عملکرد مدلها امری حیاتی است. در ادامه به بررسی این موضوع، همراه با مثالهای عددی و راهکارها میپردازیم.
مقادیر پرت (Outliers) دادههایی هستند که به طور غیرعادی از سایر دادهها فاصله دارند. این دادهها میتوانند وزنهای شبکه عصبی را در طول فرآیند یادگیری دچار خطا کنند.
فرض کنید مجموعهای از دادهها برای پیشبینی قیمت خودرو دارید:
اگر در این مجموعه دادهای با قیمت 1 میلیارد تومان وجود داشته باشد، این مقدار پرت میتواند میانگین را به سمت بالا تغییر داده و مدل را گمراه کند.
دادههای ناقص (Missing Data) زمانی رخ میدهند که برخی از ویژگیها یا مقادیر در مجموعه داده وجود ندارند. این نوع دادهها میتوانند عملکرد مدلهای یادگیری ماشین را کاهش دهند.
فرض کنید مجموعه دادهای شامل ویژگیهای زیر برای پیشبینی قیمت خانه است:
اگر تعداد اتاقها در 20 درصد از نمونهها وجود نداشته باشد، مدل نمیتواند به طور مؤثری این متغیر را برای پیشبینی استفاده کند. این مشکل میتواند منجر به کاهش دقت شود:
دادههای نویزی (Noisy Data) حاوی اطلاعات غیرمفید یا اشتباه هستند که میتوانند روند یادگیری مدل را مختل کنند.
در یک مجموعه داده شامل تعداد فروش روزانه:
اگر این داده نویزی در فرآیند آموزش استفاده شود، مدل ممکن است به اشتباه یاد بگیرد که فروشهای بالا عادی هستند و پیشبینیهای نادرستی انجام دهد:
دادههای نامرتبط شامل ویژگیهایی هستند که تأثیر قابلتوجهی بر متغیر هدف ندارند. این دادهها میتوانند باعث افزایش پیچیدگی مدل و کاهش دقت شوند.
فرض کنید برای پیشبینی نمرات دانشجویان از ویژگیهایی مانند ساعت مطالعه روزانه و قد دانشجو استفاده شود. در این مثال، ویژگی قد دانشجو نامرتبط است و تنها به پیچیدگی مدل اضافه میکند:
برای کاهش اثرات دادههای ناسازگار، میتوان از روشهای زیر استفاده کرد:
اصلاح دادههای ناسازگار میتواند به طور قابلتوجهی عملکرد مدلهای هوش مصنوعی را بهبود دهد.
پس از حذف دادههای پرت و ناقص در یک مجموعه داده:
این بهبود نشان میدهد که مدیریت دادههای ناسازگار چقدر در عملکرد مدلها مؤثر است.
دادههای پرت (Outliers) مقادیر غیرعادی و دورافتادهای در مجموعه داده هستند که به طور قابل توجهی از سایر مقادیر فاصله دارند. این دادهها میتوانند ناشی از اشتباهات انسانی، نویز در دادهها یا شرایط استثنایی باشند و اگر شناسایی و مدیریت نشوند، عملکرد مدلهای هوش مصنوعی را به شدت کاهش دهند. استفاده از ابزارهای آماری برای شناسایی و مدیریت دادههای پرت به بهبود دقت مدلها و جلوگیری از یادگیری اشتباه کمک میکند. در ادامه، به تکنیکها و ابزارهای آماری برای مدیریت دادههای پرت همراه با مثالهای عددی میپردازیم.
یکی از روشهای رایج آماری برای شناسایی دادههای پرت، استفاده از دامنه بین چارکی (IQR) است. این روش دادههای پرت را به عنوان مقادیری شناسایی میکند که خارج از بازه:
[چارک اول−1.5×IQR,چارک سوم+1.5×IQR][\text{چارک اول} - 1.5 \times \text{IQR}, \text{چارک سوم} + 1.5 \times \text{IQR}]
قرار دارند.
فرض کنید دادههای مربوط به تعداد فروش روزانه به صورت زیر باشد: 10,12,14,15,16,18,5010, 12, 14, 15, 16, 18, 50
[Q1−1.5×I ,Q3+1.5×I]=[13−6,17+6]=[7,23][Q1 - 1.5 , Q3 + 1.5 I] = [13 - 6, 17 + 6] = [7, 23]
عدد 50 خارج از این بازه است و به عنوان داده پرت شناسایی میشود.
دادههای پرت را میتوان به عنوان مقادیری که بیشتر از تعداد مشخصی انحراف معیار (σ\sigma) از میانگین فاصله دارند، شناسایی کرد.
در یک مجموعه داده: 100,110,120,130,140,1000100, 110, 120, 130, 140, 1000
مقدار 1000 بیش از سه انحراف معیار از میانگین فاصله دارد و به عنوان داده پرت شناسایی میشود.
نمودارهای جعبهای یکی از ابزارهای گرافیکی برای شناسایی دادههای پرت هستند. این نمودارها بازه مقادیر طبیعی و دادههای پرت را به صورت بصری نشان میدهند.
فرض کنید دادههای وزن افراد در یک مجموعه به صورت زیر است: 60,65,70,75,80,15060, 65, 70, 75, 80, 150
یکی از روشهای مدیریت دادههای پرت، جایگزینی آنها با مقادیر منطقی مانند میانگین، میانه یا مقادیر حدی است.
اگر فروش روزانه یک فروشگاه در یک روز 1,000 واحد ثبت شده باشد و میانگین فروش روزانه برابر با 500 باشد، میتوان مقدار 1,000 را با مقدار میانگین یا میانه جایگزین کرد.
در صورتی که دادههای پرت بر نتایج تأثیر منفی زیادی بگذارند و درک واضحی از منشأ آنها وجود نداشته باشد، میتوان این دادهها را حذف کرد.
در پیشبینی نمرات دانشجویان: 60,65,70,75,80,30060, 65, 70, 75, 80, 300 مقدار 300 به وضوح یک مقدار پرت است و حذف آن میتواند به بهبود دقت مدل کمک کند.
برخی الگوریتمها مانند رگرسیون مقاوم و KNN مقاوم در برابر دادههای پرت حساسیت کمتری دارند و میتوانند بدون نیاز به حذف یا تغییر دادههای پرت، عملکرد مطلوبی ارائه دهند.
در رگرسیون خطی سنتی، دادههای پرت میتوانند باعث تغییر شیب خط رگرسیون شوند. اما در رگرسیون مقاوم، این دادهها تأثیر کمتری بر خط مدل خواهند داشت.
الگوریتمهایی مانند جنگل تصادفی (Random Forest) و Isolation Forest به طور خاص برای شناسایی دادههای پرت طراحی شدهاند. این روشها با مدلسازی ساختار دادهها، نقاط پرت را شناسایی میکنند.
در یک مجموعه داده با 1,000 نقطه:
مدیریت دادههای پرت میتواند به طور قابل توجهی عملکرد مدلهای هوش مصنوعی را بهبود دهد.
قبل از حذف دادههای پرت:
این افزایش نشان میدهد که مدیریت دادههای پرت چقدر در بهبود دقت مدل تأثیرگذار است.
دادههای آماری ناسازگار یکی از چالشهای اصلی در طراحی و آموزش مدلهای هوش مصنوعی هستند. این دادهها میتوانند دقت مدلها را کاهش دهند و منجر به پیشبینیهای نادرست شوند.
شناسایی و مدیریت دادههای ناسازگار با استفاده از روشهای آماری مانند تحلیل پرتها، جایگزینی مقادیر ناقص و انتخاب ویژگی، به بهبود عملکرد مدلها کمک میکند. استفاده از دادههای بهینه و مدیریت شده، پایهای قوی برای طراحی مدلهای دقیقتر و کارآمدتر در حوزه هوش مصنوعی فراهم میکند.