این ترجمه مقاله را با دوستان خود به اشتراک بگذارید.

در این مقاله یک مطالعه و بررسی جامع در مورد تکنیک‌های فیلترینگ مشارکتی در سیستم های توصیه گر انجام گرفته است.

مانند بیشتر روش‌های موفق برای ساخت سیستم های توصیه گر، فیلترینگ مشارکتی  (CF) از ترجیحات یک گروه از کاربران برای توصیه و تخمین ترجیحات ناشناخته برای دیگر کاربران استفاده می‌کند. در این مقاله ما در ابتدا وظایف CF و چالش‌های اصلی آن را معرفی می‌کنیم، مانند خلوتی داده، مقیاس پذیری، ترادف، gray sheep، حملات شیلینگ، حفاظت از حریم خصوصی و … و هم‌چنین راه‌حل‌های بهینه‌ی آنها. سپس ما سه دسته از تکنیک‌های اساسی CF را ارائه می‌دهیم: الگوریتم‌های CF ترکیبی ( که CF را با دیگر تکنیک‌های توصیه ترکیب می‌کند)، مبتنی بر مدل و مبتنی بر حافظه هم‌چنین مثال‌هایی را برای الگوریتم‌های نشان داده شده از هر دسته می‌آوریم و آنالیز کارآیی آنها و هم‌چنین توانایی آنها در بررسی چالش‌ها را نیز آورده شده است. از تکنیک‌های ابتدایی گرفته تا تکنیک‌های جدید، ما تلاش می‌کنیم که یک بررسی جامعی را برای تکنیک‌های CF  داشته باشیم که این می‌تواند به عنوان راهنمایی برای تحقیقات در این زمینه باشد.

در زندگی روزمره مردم به توصیه‌های دیگر افراد توصیه می‌کنند که این توسط نامه‌های مرجع، کلمات گفته شده، اخبار رسانه های خبری، نظرسنجی‌‌های کلی، راهنماهای سفر، و غیره انجام می‌شود. سیستم های توصیه گر این فرآیند اجتماعی و طبیعی را یاری و تقویت می‌کنند که این برای کمک به مردم به منظور گرفتن داده‌های درست و کنار گذاشتن داده‌های نادرست از طریق کتاب های در دسترس، مقالات، صفحات وب، فیلم، موسیقی ها، رستوران ها، جوک، محصولات مواد غذایی، و غیره است که همه‌ی این‌ها برای پیدا کردن ارزشمندترین اطلاعات از نظر آنها است.توسعه‌دهنده‌ی یکی از اولین سیستم های توصیه گر، Tapestry [1] عبارت “فیلترینگ مشارکتی” را ابداع کرده است، که به سرع رایج شده است،  بدون در نظر گرفتن این واقعیت که توصیه‌گران به صورت صریح با دریافت‌کنندگان مشارکت ندارند و توصیه ممکن است آیتم‌های خاصی را پیشنهاد دهد، علاوه بر نشان دادن آنهایی که فیلتر شده‌اند [۲]. فرض پایه‌ای CF این است که اگر کاربران X و Y به صورت مشابه n آیتم را رتبه‌بندی کنند، و یا رفتار مشابهی داشته باشند (برای مثال تماشا، گوش دادن، خرید)، روی آیتم‌های دیگر نیز رفتار مشابهی خواهند داشت.

شاید این مقاله هم به دردتان بخورد  تشخیص حملات شیلینگ با استفاده از روش یادگیری نیمه نظارتی برای سیستم توصیه گر مشترک

تکنیک‌های CF از یک دیتابیس از ترجیحات برای آیتم‌های توسط کاربران استفاده می‌کنند که برای تخمین موضوعات اضافی و یا ایجاد کاربران جدید است. در سک سناریوی معمولی CF، لیستی از m کاربر وجود دارد {u1, u2, … , um} و هم‌چنین یک لیست از n آیتم {i1, i2, … , in}  و هر کاربر Ui یک لیست از آیتم‌ها دارد  Iui که کاربر آنها رتبه‌بندی کرده است، و یا آنهایی که ترجیحات آنها از طریق رفتارشان استنباط کرده است. رتبه می‌تواند اشاره‌های صریح باشد و … که روی مقیاس ۱-۵ است و یا هم‌چنین می‌تواند اشاره‌های ضمنی باشد مانند خریدها [۴]. برای مثال ما می‌توانیم لیست افراد و فیلم‌هایی را که آنها دوست دارند و دوست ندارند را (جدول ۱ (a)) به یک ماتریس رتبه مبتنی بر کاربر تبدیل کنیم (جدول ۱ (b)) که در آن Tony کاربر فعال است که ما می‌خواهیم توصیه‌هایی را برایش داشته باشیم. مقادیری هستند در ماتریس که وجود ندارند این یعنی آن کاربر ترجیحی را برای آن آیتم‌ها نداشته است.

برای کارهای فیلترینگ مشارکتی چالش‌های زیادی وجود دارد (بخش ۲). الگوریتم‌های CF باید توانایی کار با داده‌های بسیار خلوت  را داشته باشند، به منظور مقیاس کردن با تعداد زیادی از کاربران و آیتم‌ها، و به منظور ایجاد توصیه‌های رضایت‌بخش در یک زمان کوتاه، و هم‌چنین به منظور کار با مسائل دیگر مانند ترادف‌ (گرایش آیتم‌های شبیه یا یکسان به منظور داشتن‌ نام‌های متفاوت)، حملات شیلینگ، نویز داده‌ای، و مسائل حفاظت از حریم خصوصی. سیستم‌های فیلترینگ مشارکتی جدیدا ایجاد شده، مانند GroupLens [5] ، از داده‌های رتبه کاربر برای محاسبه‌ی شباهت و یا وزن بین کاربران و یا آیتم‌ها و ایجاد تخمین یا توصیه با توجه به مقادیر شباهت محاسبه شده، استفاده می‌کند. روش‌های CF مبتنی بر حافظه‌ی (بخش ۳) به طور ویژه‌ای در سیستم های تجاری کاربرد دارند مانند http://www.amazon.com/ (مثال شکل ۱ را ببینید) زیرا که آنها پیاده‌سازی آسانی دارند و بسیار موثر هستند. سفارشی‌سازی CF برای هر کاربر جستجو را برای کاربر کاهش می‌دهد. آن هم‌چنین تعهد بیشتر مشتری، فروش بیشتر، درآمدهای حاصل از تبلیغات بیشتر را وعده می‌دهد.

شاید این مقاله هم به دردتان بخورد  تشخیص حملات شیلینگ در سیستم های توصیه گر توسط SVM

با این حال محدودیت‌هایی برای تکنیک‌های CF مبتنی بر حافظه وجود دارد، مانند این که مقادیر شباهت مبتنی بر آیتم‌های رایج هستند و از این رو زمانی که داده‌ها خلوت هستند و آیتم‌های مشترک کم است، آنها غیر قابل اطمینان هستند. به منظور دستیابی به کارآیی تخمین بهتر و غلبه بر مشکلات الگوریتم‌های CF مبتنی بر حافظه، روش‌های CF مبتنی بر مدل مورد بررسی قرار گرفته‌اند. تکنیک‌های CF مبتنی بر مدل (بخش ۴) از داده های رتبه‌بندی خالص برای تخمین یا یادگیری یک مدل برای ایجاد تخمین استفاده می‌کند [۹]. کدل می‌تواند یک الگوریتم داده‌کاوی و یا یادگیری ماشین باشد. تکنیک‌های CF مبتنی بر مدل خوب شناخته شده شامل مدل‌های CF شبکه‌های باور بیزی  [۱۱-۹] ، مدل CF خوشه‌بندی[۱۲،۱۳] و مدل‌های CF پنهان مفهومی هستند. یک سیستم CF مبتنی بر MDP (فرآیند تصمیم Markov) [14] نسبت به یک سیستم که توصیه‌گر را گسترش نداده است، سود بیشتری را ایجاد می‌کند.

در کنار فیلترینگ مشارکتی،  فیلترینگ مبتنی بر محتوا یک نوع دیگری از سیستم های توصیه گر است. سیستم های توصیه گر مبتنی بر محتوا توصیه‌ را با آنالیز مفهوم اطلاعات متنی و پیدا کردن نظم‌هایی در محتوا می‌دهند. تفاوت اصلی میان سیستم های توصیه گر CF و مبتنی بر محتوا این است که CF تنها از داده‌های رتبه‌بندی مبتنی بر کاربر برای تخمین و توصیه استفاده می‌کند، در حالی که سیستم های توصیه گر مبتنی بر محتوا وابسته به ویژگی‌های کاربران و آیتم‌ها برای تخمین هستند [۱۵]. سیستم های توصیه گر CF و مبتنی بر محتوا هر دو محدودیت‌هایی را دارند. سیستم‌های CF صریحا اطلاعات ویژگی را بکار نمی‌برند و سیستم‌های مبتنی بر محتوا لزوما اطلاعات را در اولویت شباهت میان افراد بکار نمی‌برند[۸].

با وجود این که محدودیت‌هایی برای تکنیک‌های CF مبتنی بر حافظه وجود دارد مانند این واقعیت که مقادیر شباهت مبتنی بر آیتم‌های رایج است و از این رو در هنگامی که داده‌ها خلوت هستند غیر قابل اعتماد است و آیتم‌های رایج از این رو کم می‌باشند. به منظور دستیابی به تخمین بهتر و غلبه بر مشکلات الگوریتم‌های CF مبتنی بر حافظه، روش‌های CF مبتنی بر مدل بررسی شده‌اند. تکنیک‌های CF مبتنی بر مدل (بخش ۴) از رتبه‌بندی خالص داده برای تخمین یا یادگیری یک مدل برای تخمین ردن استفاده می‌کند [۹]. مدل می‌تواند الگوریتم یادگیری ماشین و یا داده‌کاوی باشد. تکنیک‌های CF مبتنی بر مدل معروف شامل مدل CF شبکه‌های اعتقاد Bayesian [11-9] ، مدل‌‌‌های CF خوشه‌بندی [۱۲،۱۳] و مدل‌های CF  سمنتیک پنهان [۷] هستند. یک سیستم CF مبتنی بر MDP (پروسه‌ی تصمیم Markov) [14] نسبت به یک سیستم که از توصیه‌گر استفاده نمی‌کند، مزیت بیشتری دارد.

شاید این مقاله هم به دردتان بخورد  شناسایی حملات شیلینگ در سیستم های توصیه گر پالایش گروهی با ردیابی توسط PCA و اغتشاش

در کنار فیلترینگ مشارکتی، فیلترینگ مبتنی بر محتوا نیز یکی ار سیستم های توصیه گر مهم است. سیستم های توصیه گر مبتنی بر محتوا توسط آنالیز محتوای اطلاعات متنی و پیدا کردن نظم‌هایی در محتوا توصیه را ایجاد می‌کنند. تفاوت اصلی بین CF و سیستم های توصیه گر مبتنی بر محتوا این است که CF تنها از رتبه‌بندی کاربر-آیتم برای تخمین و توصیه استفاده می‌کند. در حالی که سیستم های توصیه گر مبتنی بر محتوا وابسته به ویژگی‌های کاربران و آیتم‌ها برای تخمین هستند. سیستم های CF و سیستم‌های مبتنی بر محتوا محدودیت‌هایی دارند.. سیستم‌های CF صریحا اطلاعات ویژگی را بکار نمی‌برند و سیستم‌های مبتنی بر محتوا لزوما اطلاعات را در اولویت شباهت میان افراد بکار نمی‌برند.

تکنیک‌های CF ترکیبی، مانند الگوریتم CF محتوای افرایش یافته  [۱۶] و تشخیص شخصیت [۱۷]، تکنیک‌های CF و مبتنی بر محتوا را ترکیب می‌کنند، امیدوارند که محدودیت‌ها را حذف کنند و کارآیی توصیه را بهبود بخشند (بخش ۵).

بررسی خلاصه‌ی تکنیک‌های CF در جدول ۲ نشان داده شده است که برای ارزیابی الگوریتم‌های CF (بخش ۶)، ما با استفاده از متریک‌هایی با توجه به نوع کاربرد CF نیازمند هستیم. در ازای خطای طبقه‌بندی، یک متریکی که خیلی استفاده می‌شود برای ارزیابی کارآیی CF خطای مطلق میانگین  (MAE ) است. دقت و فراخوانی  متریک‌هایی هستند که برای لیست‌های رتبه‌دار شده از آیتم‌های بازگردانده شده در جستجوی بازیابی اطلاعات  بسیار استفاده می‌شوند.

از آنجایی که ترسیم یک نتیجه‌گیری متقاعدکننده از داده‌های مصنوعی خطرناک است، داده‌ها‌ی آزمایشات زنده برای تحقیق CF بهتر هستند. از دیتابیس‌هایی که برای CF زیاد استفاده می‌شود MovieLens [18] ، Jester [19]، Netflix prize [20] هستند.

 

این ترجمه مقاله را با دوستان خود به اشتراک بگذارید.

درباره احسان رضایی

سفارش ترجمه آنلاین خدمات ترجمه مقاله isi به صورت فوری کاهش هزینه و زمان در سفارش ترجمه آنلاین

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *