كود MATLAB لصورة نصية ما قبل المعالجة

39

الوصف

٪ تأخذ هذه الوظيفة صورة كاميرا لصفحة بها نص تايلاندي
٪ بتنسيق مستند ومعالجته لإنشاء تنسيق مستند نظيف.
٪ تنسيق الكاميرا قد:
٪ – صورة RGB
٪ – تحتوي على ضوضاء
٪ – المناطق غير النصية (مثل الخلفية غير الموجودة في الصفحة)
٪ – استدارة
٪ – لديها إضاءة مختلفة

٪ قم أولاً بتحويل الصورة إلى صورة ذات تدرج رمادي

٪ استخدم تسمية المنطقة في 1D للعثور على عدد الأحرف
٪ والمواقع الأفقية لكل حرف.

٪ عتبة الصورة باستخدام عتبة التكيف محليًا

٪ عكس الصورة الثنائية بحيث يصبح النص في المقدمة

٪ قم بإزالة الخلفية غير المرغوب فيها التي ليست نصًا
٪ القيام بذلك عن طريق تسمية المنطقة. قم بإزالة المناطق ذات الأحجام الأكبر
٪ من عتبة معينة (افترض أنها ليست نصية)
٪ قم بإزالة أية تسميات ذات حجم أصغر من حد معين
٪ (افترض أن هذه ضوضاء)

٪ عتبة + – الانحراف المعياري للمنطقة

النسبة المئوية للصور هي AND لإزالة القطع الأثرية غير المرغوب فيها

٪ تدوير الصورة إلى الاتجاه الصحيح
٪ استخدم تحويل Hough لإيجاد زاوية الدوران

٪ فقط احتفظ بخطوط طويلة بما يكفي للنظر فيها
٪ أكثر من نصف طول الخط الأطول.
٪ هذا يزيل أي سطور تم العثور عليها والتي قد تتوافق مع تفاصيل صغيرة من
٪ هيكل الشخصية للغة التايلاندية التي تنتج
٪ زوايا غريبة / غير مرغوب فيها. (على سبيل المثال ، 45 درجة و -45 درجة تظهر كثيرًا
٪ حتى مع مستند محاذٍ / مستدير تمامًا).

٪ ابحث عن متوسط ​​الزوايا ووضعها ومتوسطها للرجوع إليها.

٪ استخدم قيمة الوضع للتدوير (المستنتج من تشغيل البرنامج النصي على
٪ العديد من العينات)
٪ يجب تعديل زاوية الدوران للتأكد من أنها تدور
٪ بشكل صحيح.

٪ العثور على المناطق التي توجد فيها الجمل وتنظيف الضجيج
٪ قم أولاً بإزالة أي مناطق بها مساحة أكبر من 1 std أعلاه
٪ المتوسط ​​وبنسبة تزيد عن 1 std فوق المتوسط.

٪ بعد ذلك ، ابحث عن المربع المحيط للنص. بافتراض أن النص مكتوب
٪ في نمط المستند بهوامش حول مربع النص.
٪ استخدم أسلوب الإقحام لتراكم عدد وحدات البكسل
٪ للعثور على حواف الصندوق المحيط وإزالة أي ضوضاء بالخارج
٪ الصندوق.

٪ ثم قم بتغيير حجم الصورة إلى الحجم الأصلي

٪ قم بإجراء تنظيف نهائي للضوضاء وتنعيم النص عن طريق تآكل الصورة
٪ والتمدد (معالجة الصورة المورفولوجية). افتح الفلتر.

٪ افصل الجمل خارجًا (اختياري: للصور المزعجة ، هذا هو
٪ أفضل استخدامًا ، إذا لم تكن الصورة صاخبة فلا داعي للقيام بذلك)

Image Retrieval

The ImageNet dataset and competition

 

https://stackoverflow.com/questions/28935983/preprocessing-image-for-tesseract-ocr-with-opencv

 

المراجعات

لا توجد مراجعات بعد.

كن أول من يقيم “كود MATLAB لصورة نصية ما قبل المعالجة”

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *