TL;DR
- چکیده:.
- شیوع مقادیر از دست رفته در علم داده خطر قابل توجهی برای هر گونه تجزیه و تحلیل بیشتر.
- علیرغم انبوهی از تحقیقات، روشهای ناپارامتریک اصولی برای مقابله با فقدان عمومیغیر یکنواخت هنوز کمیاب هستند.
چه اتفاقی افتاد
چکیده:. شیوع مقادیر از دست رفته در علم داده خطر قابل توجهی برای هر گونه تجزیه و تحلیل بیشتر.
دارد. علیرغم انبوهی از تحقیقات، روشهای ناپارامتریک اصولی برای مقابله با فقدان عمومیغیر یکنواخت هنوز کمیاب هستند.
در عوض،. اغلب از روشهای انتساب موقت استفاده میشود،.
که مشخص نیست آیا میتوان توزیع صحیح را بازیابی کرد یا خیر. در این مقاله،.
ما FLOWGEM،. یک روش تکراری اصولی برای تولید یک مجموعه داده کامل از یک مجموعه داده با مقادیر گمشده تصادفی.
(MAR) را پیشنهاد میکنیم. با انگیزه نتایج همگرایی برآوردگر حداکثر احتمال نادیده گرفته شده،.
رویکرد ما واگرایی مورد انتظار Kullback-Leibler (KL) بین توزیع داده مشاهده شده و توزیع نمونه تولید شده بر. روی الگوهای گم شدن مختلف را به حداقل میرساند.
برای به حداقل رساندن واگرایی KL،. ما از تکامل ذرات گسسته استفاده میکنیم جریان گرادیان Wasserstein متناظر،.
که در آن میدان سرعت با استفاده از یک تخمینگر خطی محلی نسبت چگالی تقریبی میشود. این ساختار یک طرح تولید داده به دست میدهد که بهطور مکرر یک مجموعه ذره اولیه را.
به سمت توزیع هدف منتقل میکند. مطالعات شبیهسازی و معیارهای داده واقعی نشان میدهند که FLOWGEM در طیف وسیعی از تنظیمات،.
از جمله مورد چالش برانگیز مکانیسمهای MAR غیر یکنواخت،. به عملکردی پیشرفته دست مییابد.
این نتایج با هم،. FLOWGEM را بهعنوان یک جایگزین اصولی و عملی برای روشهای انتساب موجود،.
و گامیتعیینکننده به سمت بستن شکاف بین دقت نظری و عملکرد تجربی قرار میدهند. یادگیری ماشین (stat.
ML)؛ یادگیری ماشینی (cs. LG) استناد بهعنوان: (یا v1 [stat.
ML] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:.
جفری ناف [مشاهده ایمیل] [v1] دوشنبه،. 6 آوریل 2026،.
09:. 56:.
08 UTC (821 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
