بررسی پتنت Information retrieval based on historical data
پتنت Information retrieval based on historical data سیستمی را توصیف میکند که برای بهبود کیفیت نتایج جستجو، اسناد را بر اساس دادههای تاریخی (History Data) مرتبط با آنها امتیازدهی و رتبهبندی میکند.

پتنت Information retrieval based on historical data
پتنت "Information retrieval based on historical data" (شماره EP 2 416 262 A2) که توسط شرکت Google ثبت شده است، سیستمی را توصیف میکند که برای بهبود کیفیت نتایج جستجو، اسناد را بر اساس دادههای تاریخی (History Data) مرتبط با آنها امتیازدهی و رتبهبندی میکند.
مهمترین بخشهای این پتنت بر اساس منابع ارائه شده به شرح زیر است:
۱. هدف و ضرورت
موتورهای جستجوی سنتی ممکن است تحت تأثیر تکنیکهای اسپم برای بالا بردن مصنوعی رتبه قرار گیرند یا نتایجی را ارائه دهند که «کهنه» (Stale) هستند. این پتنت با استفاده از تاریخچه رفتار اسناد و کاربران در طول زمان، تلاش میکند تا اسناد باکیفیتتر و بهروزتر (Fresher) را شناسایی کند.
۲. اجزای اصلی سیستم
سیستم معرفی شده در این پتنت (Search Engine 125) از سه بخش کلیدی تشکیل شده است:
- مکانیاب سند (Document Locator): اسنادی را که با پرسوجوی کاربر مطابقت دارند، شناسایی میکند.
- مؤلفه تاریخچه (History Component): انواع دادههای تاریخی مرتبط با اسناد را جمعآوری میکند.
- مؤلفه رتبهبندی (Ranking Component): بر اساس دادههای تاریخی، یک امتیاز رتبهبندی به اسناد اختصاص میدهد.
۳. انواع دادههای تاریخی مورد استفاده
این پتنت طیف گستردهای از دادهها را برای امتیازدهی تحلیل میکند، از جمله:
- تاریخ شروع سند (Inception Date): تاریخی که موتور جستجو برای اولین بار سند یا لینکی به آن را کشف یا ایندکس کرده است. این تاریخ برای محاسبه نرخ رشد لینکهای ورودی استفاده میشود.
- تغییرات محتوا (Content Updates): فرکانس (تعداد دفعات) و میزان تغییرات محتوای سند در طول زمان . برای مثال، تغییر در بخشهای مهم مثل عنوان یا متن اصلی، وزن بیشتری نسبت به تغییر در کدهای جاوااسکریپت یا تبلیغات دارد.
- تحلیل پرسوجو (Query Analysis): بررسی اینکه یک سند در طول زمان چقدر توسط کاربران انتخاب شده است و آیا با موضوعات داغ روز (Hot Topics) مرتبط است یا خیر.
- معیارهای مبتنی بر لینک (Link-Based Criteria): تحلیل زمان ظهور یا ناپدید شدن لینکها و نرخ رشد آنها. رشد ناگهانی و غیرطبیعی لینکها میتواند نشانهای از اسپم باشد.
- رفتار کاربر (User Behavior): مدت زمانی که کاربران برای مشاهده یک سند صرف میکنند و میزان دسترسی به سند از طریق بوکمارکها یا لیستهای علاقهمندی کاربران.
- اطلاعات دامنه: بررسی مشروعیت دامنه، از جمله تاریخ انقضای آن؛ دامنههای معتبر معمولاً برای چندین سال رزرو میشوند، در حالی که دامنههای غیرمجاز (Doorway domains) به ندرت بیش از یک سال اعتبار دارند.
۴. نحوه تأثیر بر رتبهبندی
سیستم میتواند امتیاز حاصل از دادههای تاریخی را با امتیاز ارتباط (Relevancy Score) ترکیب کند تا رتبه نهایی سند مشخص شود. برای مثال، از یک تابع کاهشی (Decaying Function) بر اساس سن دادههای لینک استفاده میشود تا تأثیر لینکهای بسیار قدیمی در رتبهبندی تعدیل شود. همچنین اگر رتبه یک سند به طور ناگهانی در بسیاری از پرسوجوها جهش کند، سیستم آن را به عنوان سیگنالی برای بررسی احتمال اسپم در نظر میگیرد.
به طور خلاصه، این پتنت با نگاهی بلندمدت به تاریخچه هر سند، موتور جستجو را قادر میسازد تا بین اسناد واقعاً معتبر و محبوب با اسنادی که به صورت مصنوعی یا موقت بالا آمدهاند، تمایز قائل شود.
پتنت چطور تابعی کاهشی یا Decaying function رو بررسی و حساب می کند؟
در پتنت "Information retrieval based on historical data"، تابع کاهشی (Decaying Function) ابزاری کلیدی برای مدیریت ارزش زمانمند دادههای تاریخی و لینکها است. نحوه بررسی و محاسبه این تابع در منابع به شرح زیر توضیح داده شده است:
- محاسبه بر اساس سن دادههای پیوندی (Linkage Data): سیستم ابتدا سن دادههای پیوندی مرتبط با یک سند (مانند لینکها یا متن لنگر) را تعیین میکند. رتبهبندی سند لینکشده بر اساس یک تابع کاهشی از سن این دادهها انجام میشود . این یعنی با افزایش سن یک لینک، تأثیر آن بر رتبه سند به تدریج کاهش مییابد.
- وزندهی بر اساس تازگی (Freshness): در یک روش پیادهسازی، هر لینک توسط تابعی وزندهی میشود که با تازگی لینک افزایش مییابد. تازگی لینک میتواند بر اساس تاریخ ظهور لینک، تغییر در متن لنگر (Anchor Text) یا تاریخ تغییر در سندی که لینک در آن قرار دارد، تعیین شود.
- لحاظ کردن زمانهای بهروزرسانی (Major Update Times): سیستم میتواند یک فاکتور تخفیف یا کاهش (Discount/Decay) را در فرآیند ادغام دادهها لحاظ کند که بر اساس زمانهای بهروزرسانی اصلی سند محاسبه میشود. این کار به موتور جستجو اجازه میدهد تا بین لینکهای پایداری که در طول بهروزرسانیهای مختلف حفظ شدهاند و لینکهای گذرا تمایز قائل شود.
- تعدیل اثر دادههای قدیمی: استفاده از این تابع به سیستم اجازه میدهد تا از دادههای تاریخی برای بهبود رتبهبندی استفاده کند، بدون اینکه لینکهای بسیار قدیمی و احتمالاً «منسوخ» به طور نامتناسبی بر نتایج فعلی تأثیر بگذارند.
به طور خلاصه، این تابع به صورت پویا وزن سیگنالهای رتبهبندی (مانند بکلینکها) را با گذشت زمان کمرنگ میکند تا اسناد «تازه» و بهروز شانس بیشتری برای کسب رتبههای بالاتر داشته باشند.

دیدگاهها
هنوز دیدگاهی ثبت نشده است.
افزودن دیدگاه