جستجو در سایت

راهنمای کاربران - آشنایی با شرکت هدی سیستم و محصولات آن

آشنایی با شرکت هدی سیستم و محصولات آن

مقدمه
از حسن انتخاب شما برای خرید سامانة نویسه‏خوان آراکس متشکریم. متنی که پیش روی دارید راهنمای کاربردی نویسه‌خوان آراکس، محصول شرکت هدی سیستم می باشد. آراکس، قویترین نرم افزار نویسه‏خوان فارسی است که امکانات کامل یک سیستم نویسه‏خوان را در اختیار فارسی زبانان قرار می دهد.
در ادامه این فصل ابتدا با شرکت هدی سیستم و فعالیتهای آن آشنا می شوید و سپس مروری سریع بر فناوری OCR بیان خواهد شد.

آشنایی با شرکت هدی سیستم
شرکت هدی سیستم به عنوان شرکت پیشرو در زمینه تولید و ارائه سیستم‏های خودکار ورود اطلاعات در ایران شناخته شده است. این شرکت با تولید و عرضه محصولات نرم افزاری در حوزه های OMR، ICR و OCR و ارائه سخت افزارهای مرتبط با این فن‏آوریها، پروژه‏های بسیار بزرگی در ایران و نیز خارج از کشور انجام داده و سرمنشا تحولات عظیم در سیستم های داده آمایی کشور بوده است. جهت آشنایی بیشتر با شرکت هدی سیستم به برخی از فعالیت های هدی سیستم در سه حوزه مذکور اشاره می شود:

الف-OMR (Optical Mark Reading) – مارک خوان نوری
شرکت هدی سیستم نماینده انحصاری کمپانی Axiome سوئیس در ایران می باشد. Axiome یکی از بزرگترین سازندگان دستگاه های مارک خوان نوری (OMR) و روبشگر در اروپا بوده و در بیش از 60 کشور جهان فعالیت می‏کند. با عقد قرارداد بین دو شرکت Axiome سوئیس و هدی سیستم، تولید نرم افزار های مرتبط با فناوری OMR (راه‏اندازی دستگاه های OMR اکسیوم، دریافت اطلاعات خوانده شده و پردازش آنها) به شرکت هدی سیستم محول گردید. هم اکنون شرکت Axiome نسخه 2.5 نرم افزار HODA Tools-OMRStudio را به همراه دستگاه های OMR خود در سطح جهان توزیع می کند. جهت کسب اطلاعات بیشتر در این زمینه می‏‏توانید به سایت های www.axiome.ch یا www.omrstudio.com مراجعه نمایید.

ب- ICR (Intelligent Character Recognition)
هدی سیستم با تولید و عرضه محصول قدرتمند HODA iReadDoc در حوزه ICR برای اولین بار در ایران به ایجاد تغییر در سیستم های سنتی ورود اطلاعات اقدام نمود. HODA iReadDoc که یک محصول با معماری Client/Server می باشد، قادر است زمان و هزینه داده آمایی فرم های دستنویس را به میزان قابل ملاحظه‏ای کاهش دهد.
این محصول تاکنون در ده‏ها پروژه بسیار بزرگ در ایران مورد استفاده قرار گرفته و کارایی خود را به اثبات رسانده است. به عنوان مثال HODA iReadDoc در پروژه استخراج اطلاعات از روی فرم های سرشماری عمومی نفوس و مسکن سال 1385 ایران در 30 استان کشور مورد استفاده قرار گرفت. در این پروژه اطلاعات دستنوشته 60000 مامور سرشماری از روی حدود 75000000 فرم (در مقیاس A4) و در عرض 40 روز استخراج گردید. بنا به گزارش مرکز آمار ایران دقت اطلاعات استخراج شده توسط HODA iReadDoc و بدون دخالت عوامل انسانی 99.51% بوده است. جهت کسب اطلاعات بیشتر در این زمینه می توانید به سایت های www.hodasystem.com یا www.ireaddoc.com مراجعه نمایید.

ج- OCR (Optical Character Recognition)
شرکت هدی سیستم با درک نیاز مبرم جوامع فارسی زبان به وجود یک سیستم OCR که بتواند متون تایپ شده فارسی را بخواند، از چندین سال قبل تلاش خود را بر روی تولید محصول OCR فارسی متمرکز نموده است. در اوایل سال 1387 هجری شمسی (2008 میلادی) این تلاشها به بار نشست و هم اینک نویسه خوان آراکس (ARAXPage) به عنوان قویترین سیستم OCR فارسی در اختیار شما قرار دارد.
جهت کسب اطلاعات بیشتر درباره نویسه خوان آراکس می توانید به سایت های www.farsiocr.com یاwww.araxpage.com  مراجعه نمایید.

OCR چیست؟
OCR  به تكنیكی اطلاق می شود كه در طی آن یك برنامه كامپیوتری متون موجود در تصاویر دیجیتالی را شناسایی كرده و آنها را به صورت خودكار به فایلهای متنی قابل ویرایش تبدیل می‏كند.
ترجمة مناسبی كه در زبان فارسی برای نرم افزار OCR  در نظر گرفته شده است نویسه خوان نوری می باشد و نام «نویسه خوان آراكس» نیز بر همین مبنا انتخاب شده است.

استفاده از OCR چه لزومی دارد؟
فرض كنید شما یك متن كاغذی مانند نامه، قرارداد، RFP، مقاله، كتاب و ... را در اختیار دارید و باید آن را وارد كامپیوتركنید تا در مطالعات خود یا تهیه گزارشات و ... مورد استفاده قرار دهید.
اولین راهی كه به ذهن می رسد و تا كنون در مورد متون فارسی مورد استفاده قرار گرفته است، این است كه متن موجود در این اسناد دوباره بوسیله اپراتور تایپ شود. بدیهی است این كار بسیار وقت گیر و هزینه بر است، به علاوه وقتی بخواهیم حجم انبوه اسناد مكتوب را به صورت دیجیتال درآوریم، این مشكلات نمود بیشتری خواهد داشت.
 دومین راهی كه با گسترش فناوری اطلاعات در سالها ی اخیر و در بسیاری از سازمانها مورد استفاده قرار گرفته است، تصویر برداری از روی اسناد كاغذی به وسیله روبشگرها و انتقال تصاویر دیجیتالی تولید شده به سیستم های كامپیوتری می باشد. گر چه در این روش با ایجاد آرشیو الكترونیكی از اسناد، بهبود نسبی در فرآیند نگهداری اسناد و دستیابی به آنها ایجاد شده است اما كماكان امكان جستجو در داخل متن این اسناد و بهره‏برداری از آنها وجود ندارد. به عبارت دیگر تصاویر دیجیتالی اسناد كه با استفاده از روبشگر بدست می آیند فاقد ارزش كافی می‏باشند مگر آنكه بتوان در متن آنها جستجو نمود.
نرم افزار نویسه‏خوان مشكل فوق را برطرف می‏كند، به این ترتیب كه تصویر دیجیتالی اسناد را دریافت كرده و با تحلیل محتوای آنها اطلاعات مختلف موجود را شناسایی كرده و با توجه به نوع آنها، فرآیند تبدیل خودكار تصویر به متن را انجام می‏دهد.

چنانچه فرآیند OCR  رابه صورت یك جعبه سیاه در نظر بگیریم، وروی آن تصویر سند مورد نظر و خروجی آن فایل دیجیتالی قابل ویرایش از اطلاعات سند (مثلاً به فرمت MS- Word) می‏باشد.

شکل 1-فرایند OCR به صورت یک جعبه سیاه

شكل زیر فرآیندOCR  را با جزئیات بیشتری نشان می دهد. در این شكل مراحل مختلف OCR  كه به صورت جعبه سیاه معرفی شده بودند ، تشریح شده است:

شکل 2- جزئیات فرایند OCR

به عنوان مثال فرآیند OCR در نویسه خوان آراکس به ترتیب زیر انجام می شود.
با دریافت تصویر یك سند، ابتدا محتوای سند تحلیل شده و نواحی مختلف اطلاعاتی در تصویر شناسایی می‏شوند. شكل زیر نمونه‏ای از تصویر یك سند را نشان می‏دهد كه شامل 3 نوع ناحیه مختلف می‏باشد: ناحیه متنی، ناحیه تصویری و ناحیه جدولی.

 شکل 3- انواع ناحیه‌ها

سپس با توجه به نوع ناحیه، نویسه‏خوان آراكس اقدام لازم را انجام داده و اطلاعات موجود را شناسایی می كند:
نواحی متنی پردازش شده و متن موجود در آنها با حفظ نوع و اندازة قلم خوانده می‏شود.
نواحی تصویری دقیقاً مانند تصویر ورودی حفظ می شوند.

تك تك سلولهای جدول در نواحی جدولی شناسایی شده و متن درون آنها خوانده می‏شود. سپس به صورت یك جدول قابل ویرایش در خروجی قرار داده می شود.
در مرحله بعد نویسه خوان آراكس اطلاعات خوانده شده را در یك ویرایشگر استاندارد به شما نشان می‏دهد. می توانید با اعمال غلط یاب فارسی و انگلیسی، اشتباهات احتمالی را به سرعت تصحیح نمایید. در انتهای فرآیند OCR، فایل خروجی كه دارای كلیه اطلاعات سند ورودی است تولید می شود.

نویسه‏خوان فارسی در مقایسه با نویسه‏خوان لاتین
برای زبانهای لاتین مانند انگلیسی و فرانسه از سالها قبل نرم افزارهای OCR بوجود آمده و سیر تكاملی خود را طی نموده اند. اما متأسفانه تا كنون برای زبان فارسی با تاریخ چند هزار ساله، نرم‏افزار OCR مناسبی تولید نشده است.
یكی از دلایل این امر پیچیدگی بالا و مشكل بودن ساختار نوشتار زبان فارسی در مقایسه با زبانهای لاتین می باشد. به عنوان مثال از آنجا كه در زبانهای لاتین نویسه ها به صورت جدا از هم نوشته می‏شوند كار شناسایی آنها ساده است اما در زبان فارسی ابتدا باید هر كلمه، كه ترکیبی از نویسه‏های متصل است، به اجزای سازنده‏اش شکسته شود و سپس بازشناسی نویسه‏ها صورت گیرد. این فرآیند با توجه به تنوع قلم ها در زبان فارسی یكی از مشكل ترین بخش های سیستم OCR است.
نویسه خوان آراكس كه حاصل سالها تلاش در بخش تحقیق و توسعه شركت هدی سیستم می باشد، بسیاری از مشكلات فرا روی OCR فارسی را برطرف نموده و پس از سالها انتظار، زبان فارسی را صاحب یكی از قویترین نرم افزارهای OCR كرده است.
درعین حال به منظور فراهم آوردن حداكثر امكانات برای کاربران محترم، نویسه خوان آراكس می‏تواند متون انگلیسی را نیز بخواند. بعلاوه نویسه خوان آراكس قادر است متون و عبارات انگلیسی را در متون فارسی شناسایی كرده و آنها را بخواند. به عبارت دیگر در صورت در اختیار داشتن نویسه خوان آراکس شما نیازی به سیستم های OCR انگلیسی نخواهید داشت.

تماس با بخش پشتیبانی نویسه خوان آراکس
اگر به اطلاعات بیشتری نیاز دارید و یا در استفاده از محصول به مشکلی برخورد کرده اید، لطفاً با استفاده از آدرس های زیر با ما تماس بگیرید:

 

آدرس های بخش پشتیبانی نویسه خوان آراکس
تماس تلفنی شما می توانید در طول روزهای هفته (به جز ایام تعطیل) و در ساعات اداری با شماره تلفن22204646-21-98+ بخش پشتیبانی نویسه خوان آراکس تماس بگیرید.
آدرس e-mail شما می توانید سوالات و مشکلات خود را از طریق پست الکترونیک به آدرس support@farsiocr.com ارسال کنید تا در اسرع وقت به آنها پاسخ داده شود.
پشتیبانی آنلاین در صورت تمایل می توانید به آدرس www.farsiocr.com/support مراجعه نموده و مشکلات خود را به صورت آنلاین با ما مطرح نمایید.    

 

برگشت به صفحه ی فهرست