الوصف
هناك العديد من المعايير التي يتم استخدامها لإرسال رسائل نصية إلى مكتبات MapReduce. بعض الأسماء الشائعة هي Matrix Multiplication (MM ، تضاعف مصفوفتين مربعتين كبيرتين) ؛ حدوث عدد صحيح متفرقة (SIO ، تحسب عدد المرات التي يظهر فيها كل عدد صحيح في مجموعة بيانات كبيرة) ؛ حدوث الكلمة (WO ، يحسب عدد مرات ظهور كل كلمة في مجموعة نصية) ؛ الانحدار الخطي (LR ، يحسب نموذجًا خطيًا لمجموعة من البيانات) ، و KMeans Clustering (KMC ، يقسم مجموعة من نقاط البيانات إلى مجموعات) (Stuart & Owens ، Multi-GPU MapReduce على مجموعات GPU). كل هذه المعايير تمس جوانب مختلفة من المكتبة.
قررنا أن ننتقل إلى تواجد الكلمة بسبب خصائصها التالية:
• السجلات غير الموحدة: يتعامل MR مع تسجيل البيانات حسب السجل. يمكن أن يكون السجل عبارة عن سطر أو فقرة أو صف. يمكن أن يحتوي المستند النصي على مثل هذه السجلات ذات الأطوال الثابتة والمتغيرة. أيضًا ، قد توجد بعض المفاتيح في جزء وليس في الآخر. إن العمل مع مثل هذا المثال سيجعل النظام قادرًا على التعامل مع جميع أنواع السجلات.
• العديد من زوج المفاتيح / القيمة: يمكن أن تحتوي المستندات النصية على عدد هائل من المفاتيح المختلفة ، وسيعطينا تكرارها قيمًا ديناميكية للحجم.
• قابلية التوسع: نظرًا لأننا نتعامل مع مجموعة من العقد ، تعد قابلية التوسع أحد أهم الجوانب التي نحتاج إلى مراقبتها باهتمام. مجموعة الإخراج لـ WO أصغر بكثير ، مما يؤدي إلى تكوين مختلف لخط الأنابيب وقياس مختلف تمامًا.
MATLAB code to Imports the output file from the MapReduce application
https://www.ijrra.net/Vol2issue2/IJRRA-02-02-09.pdf
المراجعات
لا توجد مراجعات بعد.