فایل ورد قابل ویرایش
توضیحی مختصر از مقاله :
طراحي و پياده سازي سيستمي براي بازشناسي كلمات دستنويس فارسي با حروف گسسته و لغتنامة معين با استفاده از يك شبكة عصبي سلسله مراتبي
چكيده
در اين مقاله، سيستمي براي بازشناسي نوشتار دستنويس فارسي ارائه شده است كه در اكثر مجموعه هايي كه با جمعآوري عمومي اطلاعات سروكار دارند، كاربرد دارد. هدف از اين پژوهش، بازشناسي كلمات دستنويسي است كه با حروف گسسته نوشته شدهاند. ويژگيهاي مورد استفاده در اين پژوهش، ويژگيهاي آماري حروف جداسازي شده است. شناسايي هر حرف توسط مجموعهاي از شبكههاي عصبي است كه بهصورت سلسلهمراتبي به هم متصل شدهاند. تقسيمبندي حروف به گروهبندي مناسب براي تقسيم بهينة عمليات شناسايي بين شبكههاي عصبي پياده سازي شده از ويژگيهاي اين پژوهش است و آناليز زباني انجام شده نيز براي كاهش احتمال خطا بر مبناي اطلاعات گروهبندي و با استفاده از لغتنامة اسامي اول 117000 نفر انجام شده است. آزمونهاي انجام شده بر روي دستخط 200 نفر نشاندهندة درصد بازشناسي متوسط %77.2 براي شناسايي حروف گسسته و %84.4 براي شناسايي كلمات لغتنامه است.
1- مقدمه
در دو دهة گذشته، فعاليت وسيعي براي استفاده از كامپيوتر در خواندن متنهاي دستنويس انجام شده است [1] – [4] . اگرچه با رشد و توسعة علوم انفورماتيك، حجم اطلاعات غير كاغذي افزايش يافته، اما هنوز در عمل اطلاعات كاغذي سهم خود را در مجموعة اطلاعات از دست نداده است. علاوه بر آن تبديل اطلاعات قبلي (كه عمدتاً روي كاغذ ثبت شدهاند) به اطلاعات كامپيوتري، قدم مهمي در راه اتوماسيون سيستمهاي اداري بهشمار ميرود. از طرف ديگر هنوز اطلاعات حجيمي وجود دارد (مانند انواع آزمونها، پرسشنامهها و … ) كه توسط افراد عادي ارائه ميشود و اپراتور بايد آنها را به كامپيوتر وارد كند و در بيشتر مواقع سيستمهاي OCR، حلقة گمشده اين زنجير به شمار ميرود.
در خط عربي و فارسي نيز تلاشهاي بسياري براي طراحي و پياده سازي سيستمهاي OCR انجام شده است كه اكثر اين سيستمها يا بر خواندن متنهاي تايپ شده متمركز شدهاند و يا توجه اصلي خود را به تقطيع حروف پيوسته به هم (كه يكي از مسايل اصلي تشخيص دستخط به شمار ميرود) معطوف كردهاند[5] – [7]. اين پژوهش بررسي حالتي از OCR را به عهده داشته است كه در عين سادهسازي مساله، ميتوانند مشكل ورود اطلاعات بسياري از محيطهاي اداري را مرتفع سازد. هدف از اين سيستم بازشناسي حروف گسستة فارسي است كه در تشخيص كلمهاي از يك لغتنامة معين مورد استفاده واقع ميشود. با توجه به اينكه اين سيستم، نياز به بازشناسي دنباله پيوستة حروف ندارد، در مورد حروف دستنويس دقت بازشناسي بالايي دارد و با توجه به وجود لغتنامة معين، با استفاده از آناليز زباني مناسب انجام شده، خطاي بازشناسي تا حدي كاهش يافته است كه استفاده از اين سيستم را در موارد كاربردي عملي ساخته است.
به طور خلاصه، مراحل انجام شده در اين پژوهش به اين شرح است، ابتدا بانك اطلاعاتي وسيعي از دستخطهاي مختلف تهيه شده است كه فرمهايي را با حروف منقطع پركردهاند. همچنين بانك اطلاعاتي مناسبي نيز براي لغتنامة موردنياز تهيه شده كه در اين مورد اسامي اول (مرد و زن) شركتكننده در يك آزمون ورودي بزرگ مورد استفاده قرارگرفته است. سپس بانك اطلاعاتي كلمات، براي آموزش و تست يك شبكة عصبي سلسله مراتبي به كار برده شده و يك الگوريتم آناليز زباني آماري نيز براي تصحيح خطاهاي سيستم بازشناسي حروف از روي لغتنامه تهيه شده است. براي تصحيح اشتباههاي احتمالي در هر دو بانك اطلاعاتي، هردو به شكل دستي كنترل و پالايش شدهاند.نمونهاي از حرفهاي ورودي در شكل 1 آمده است.
دانلود مقاله بازشناسي كلمات دستنويس فارسي با حروف گسسته
نظرات شما عزیزان: