تحسين سرب الجسيمات لتصنيف صفحات الويب

39

الوصف

أدت التطورات السريعة في الكمبيوتر وتقنيات الشبكات إلى زيادة شعبية الويب مما تسبب في تضمين المزيد والمزيد من المعلومات على الويب. ومع ذلك ، أدى النمو الهائل للمعلومات الموجودة على الويب إلى بعض مشكلات البحث: (1) غالبًا ما تعرض محركات البحث ذات الأغراض العامة عددًا كبيرًا جدًا من النتائج غير ذات الصلة عندما يبحث المستخدمون عن معلومات محددة حول موضوع معين ، (2) عدد الصفحات إلى الفهرسة بواسطة أنظمة البحث على الويب تتزايد يومًا بعد يوم مما يجعل من الصعب تحديث المؤشرات المؤتمتة والبشرية. للتغلب على مشاكل البحث هذه ، تم اقتراح محركات البحث العمودية ، التي تعبر مجموعة فرعية من الويب لجمع المستندات فقط حول موضوع معين ولتحديد الروابط الواعدة التي تؤدي إلى المستندات المتعلقة بالموضوع (Altıngövde ، Özel ، Ulusoy ، Özsoyog˘ lu، & Özsoyog˘lu، 2001؛ Chakrabarti، Van den Berg، & Dom، 1999؛ De Bra & Post، 1994؛ Menczer، Pant، & Srinivasan، 2004؛ Pinkerton، 1994). أثناء عملية الزحف المركزة لمحرك البحث العمودي ، يلزم وجود آلية تصنيف تلقائية لتحديد ما إذا كانت صفحة الويب التي يتم النظر فيها “تتعلق بموضوع معين” أم لا (Qi & Davison ، 2009).

يعد التصنيف التلقائي لصفحة الويب مشكلة تعليمية خاضعة للإشراف حيث يتم استخدام مجموعة من مستندات الويب المصنفة لتدريب المصنف ، ثم يتم استخدام المصنف لتعيين واحد أو أكثر من تسميات الفئات المحددة مسبقًا لصفحات الويب المستقبلية (Qi & Davison ، 2009). في عملية تصنيف صفحات الويب ، يمكن اعتبار كل مصطلح وكل علامة HTML في كل صفحة ويب كسمة ، مما يجعل عدد الميزات كبيرًا.

تم إجراء الاختبارات على ثلاث مجموعات مختلفة. تتضمن المجموعة الصغيرة الصفحات الرئيسية للمؤتمر ذات الصلة بعلوم الكمبيوتر والتي تم الحصول عليها من موقع ويب مشروع الدليل المفتوح (http://www.dmoz.org) ، وتشتمل مجموعتان كبيرتان على صفحات رئيسية للدورة التدريبية وصفحات رئيسية للطلاب من مجموعة بيانات WebKB (Craven وآخرون ، 1998).

في هذه الدراسة ، هدفنا هو تحديد “دور” صفحة الويب (أي التصنيف الوظيفي) مثل تحديد ما إذا كانت صفحة الويب “صفحة رئيسية للطالب” أو “صفحة دورة تدريبية” ، أو “الصفحة الرئيسية للقسم”. أثناء القيام بذلك ، نعطي تسمية فئة واحدة (على سبيل المثال ، “صفحة الدورة التدريبية”) لكل صفحة ويب ، ونجري تصنيفًا ثنائيًا نصنف فيه الأمثلة في فئة واحدة من الفئتين بالضبط (على سبيل المثال ، “صفحة الدورة التدريبية” ، أو “ليست صفحة الدورة التدريبية”). يوجد هذا النوع من مشاكل التصنيف بشكل خاص في أنظمة الزحف المركزة لمحركات البحث العمودية.

 

المراجعات

لا توجد مراجعات بعد.

كن أول من يقيم “تحسين سرب الجسيمات لتصنيف صفحات الويب”

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

رمز المنتج: b2017_0053 التصنيف: الوسوم: ,