الوصف
٪ تأخذ هذه الوظيفة صورة كاميرا لصفحة بها نص تايلاندي
٪ بتنسيق مستند ومعالجته لإنشاء تنسيق مستند نظيف.
٪ تنسيق الكاميرا قد:
٪ – صورة RGB
٪ – تحتوي على ضوضاء
٪ – المناطق غير النصية (مثل الخلفية غير الموجودة في الصفحة)
٪ – استدارة
٪ – لديها إضاءة مختلفة
٪ قم أولاً بتحويل الصورة إلى صورة ذات تدرج رمادي
٪ استخدم تسمية المنطقة في 1D للعثور على عدد الأحرف
٪ والمواقع الأفقية لكل حرف.
٪ عتبة الصورة باستخدام عتبة التكيف محليًا
٪ عكس الصورة الثنائية بحيث يصبح النص في المقدمة
٪ قم بإزالة الخلفية غير المرغوب فيها التي ليست نصًا
٪ القيام بذلك عن طريق تسمية المنطقة. قم بإزالة المناطق ذات الأحجام الأكبر
٪ من عتبة معينة (افترض أنها ليست نصية)
٪ قم بإزالة أية تسميات ذات حجم أصغر من حد معين
٪ (افترض أن هذه ضوضاء)
٪ عتبة + – الانحراف المعياري للمنطقة
النسبة المئوية للصور هي AND لإزالة القطع الأثرية غير المرغوب فيها
٪ تدوير الصورة إلى الاتجاه الصحيح
٪ استخدم تحويل Hough لإيجاد زاوية الدوران
٪ فقط احتفظ بخطوط طويلة بما يكفي للنظر فيها
٪ أكثر من نصف طول الخط الأطول.
٪ هذا يزيل أي سطور تم العثور عليها والتي قد تتوافق مع تفاصيل صغيرة من
٪ هيكل الشخصية للغة التايلاندية التي تنتج
٪ زوايا غريبة / غير مرغوب فيها. (على سبيل المثال ، 45 درجة و -45 درجة تظهر كثيرًا
٪ حتى مع مستند محاذٍ / مستدير تمامًا).
٪ ابحث عن متوسط الزوايا ووضعها ومتوسطها للرجوع إليها.
٪ استخدم قيمة الوضع للتدوير (المستنتج من تشغيل البرنامج النصي على
٪ العديد من العينات)
٪ يجب تعديل زاوية الدوران للتأكد من أنها تدور
٪ بشكل صحيح.
٪ العثور على المناطق التي توجد فيها الجمل وتنظيف الضجيج
٪ قم أولاً بإزالة أي مناطق بها مساحة أكبر من 1 std أعلاه
٪ المتوسط وبنسبة تزيد عن 1 std فوق المتوسط.
٪ بعد ذلك ، ابحث عن المربع المحيط للنص. بافتراض أن النص مكتوب
٪ في نمط المستند بهوامش حول مربع النص.
٪ استخدم أسلوب الإقحام لتراكم عدد وحدات البكسل
٪ للعثور على حواف الصندوق المحيط وإزالة أي ضوضاء بالخارج
٪ الصندوق.
٪ ثم قم بتغيير حجم الصورة إلى الحجم الأصلي
٪ قم بإجراء تنظيف نهائي للضوضاء وتنعيم النص عن طريق تآكل الصورة
٪ والتمدد (معالجة الصورة المورفولوجية). افتح الفلتر.
٪ افصل الجمل خارجًا (اختياري: للصور المزعجة ، هذا هو
٪ أفضل استخدامًا ، إذا لم تكن الصورة صاخبة فلا داعي للقيام بذلك)
https://stackoverflow.com/questions/28935983/preprocessing-image-for-tesseract-ocr-with-opencv


المراجعات
لا توجد مراجعات بعد.