اردو او۔سی۔آر - بصری حرف شناس - Taemeer News | A Social Cultural & Literary Urdu Portal | Taemeernews.com

2019-02-05

اردو او۔سی۔آر - بصری حرف شناس

Urdu OCR Monthly Urdu Duniya, February 2019 article

او۔سی۔آر (OCR) بمعنی optical character recognition یعنی بصری حرف شناسی یا آسان الفاظ میں متن کی بصری شناخت دراصل وہ الکٹرانک یا میکانیکی طریقہ کار ہے جس کے ذریعے تصویر میں موجود قابل مطالعہ متن کو کمپیوٹر کی تحریری شکل میں محفوظ کیا جاتا ہے۔ اب چاہے یہ متن کسی کتاب کے صفحہ پر مبنی امیج میں ہو، یا اسکین شدہ دستاویز میں، یا قدرتی منظر والی تصویر میں، یا سائن بورڈ کی تصویر میں یا ٹیلیوژن نشریہ کی تصویر میں موجود کیپشن کی شکل میں ہو۔
تصویر میں موجود متن کو تحریری شکل میں اخذ کر کے ٹکسٹ فائل بنانے سے کئی بنیادی فوائد حاصل کیے جا سکتے ہیں۔ مثلاً:
* تصویری فائل کی بہ نسبت ٹکسٹ فائل کا حجم کئی گنا کم ہوتا ہے۔
* ٹکسٹ فائل میں لفظ/فقرہ کی تلاش ممکن اور آسان ہوتی ہے۔
* ٹکسٹ کی حسب ضرورت تدوین و ترمیم کی جا سکتی ہے یعنی رد و بدل و اضافہ۔
* مختلف اپلیکیشن (اطلاقیے) کے ذریعے ٹکسٹ کا فوری ترجمہ ، اس کے رسم الخط کی تبدیلی اور اسے آواز میں تبدیل کرنے کا کام بسہولت انجام دیا جا سکتا ہے۔

بصری حرف شناسی ، امیج پراسیسنگ، مصنوعی ذہانت artificial intelligence اور کمپیوٹر وژن computer vision کے میدان میں ترقی کا وہ باب ہے جسے موجودہ برقیاتی زمانے میں طبع شدہ ریکارڈ سے ٹکسٹ مواد کے حصول کی خاطر وسیع پیمانے پر استعمال کیا جا رہا ہے چاہے وہ معاملہ پاسپورٹ دستاویزات کا ہو، یا بنک کے کھاتہ جات کا، چاہے کاروباری کمپیوٹرائزڈ رسیدیں ہوں یا سرکاری و غیرسرکاری شناختی کارڈز سے ٹکسٹ کے حصول کا معاملہ ہو۔
ویکیپیڈیا کے بموجب بصری حرف شناسی نظام کی کامیابی کا دارومدار کسی بھی طرح کے حرف کی شبیہہ کو پہچان کر اس کو متن میں تبدیل کرنے پر منحصر رہا ہے، اور اس نظام کے ابتدائی ورڑن میں ہر رسم الخط کے لیے ایک علیحدہ پروگرام کی ضرورت پڑتی تھی، ونیز ایک وقت میں صرف ایک فونٹ پر کام کیا جا سکتا تھا۔ لیکن اس نظام کی جدید کاری کے بعد موجودہ ذہین بصری حرف شناسی نظام تمام طرح کے فونٹ اور رسم الخط کو متن میں تبدیل کرنے کی صلاحیت رکھتا ہے اور ہر آپریٹنگ سسٹم پر استعمال کیا جا سکتا ہے۔

بصری حرف شناسی نظام کی تاریخ کے تانے بانے بیسویں صدی کی شروعات میں اس دوران ملتے ہیں جب ٹیلیگراف کی تخلیق اور نابیناؤں کے لیے پڑھنے والے آلہ جات کی تیاری جاری تھی۔ 1931 میں ایمانوئیل گولڈبرگ [Emanuel Goldberg ] نے ایک ایسی "شماریاتی مشین" ایجاد کی جس کے ذریعے محفوظ شدہ دستاویزات میں متن کی تلاش ممکن رہی تھی۔ بعد ازاں اس ایجاد کو آئی۔بی۔ایم نے حاصل کر لیا۔
اسمارٹ فون کی آمد کے بعد بصری حرف شناسی کا یہ نظام انقلابی تبدیلیوں کا نقیب بن گیا۔
اس ٹیکنالوجی پر تیار کردہ عصر حاضر کے سافٹ وئیر میں اومنی پیج، ریڈ آئرس، ایبی فائن ریڈر، ایبی اسکین ٹو ڈوکیومنٹ، ٹاپ او سی آر، انٹیلی جنٹ او سی آر، ٹرانسیم او سی آر، ڈوک شوٹ، او سی آر ٹیکسٹ اسکین، سافٹ رائٹنگ، ٹیبل ایکسٹریکٹر، سمپل او سی آر وغیرہ مشہور ہیں۔

موجودہ عصری تیکنالوجی زمانے میں بصری حرف شاسی کا یہ نظام کوئی ایسا پیچیدہ موضوع تو نہیں لیکن نستعلیقی اردو زبان کے حوالے سے ضرور مشکل ترین مانا گیا ہے۔ اس وقت آن لائن بازار میں دنیا کی تقریباً زبانوں کے او۔سی۔آر دستیاب ہیں۔ انگریزی، فرانسیسی، اسپینی، اطالوی، لاطینی، روسی، یونانی وغیرہ اور ایشیائی زبانوں میں جاپانی، چینی، کوریائی کے علاوہ دائیں سے بائیں لکھی جانے والی زبانوں جیسے عربی، فارسی، عبرانی میں تک معقول اور کارآمد او۔سی۔آر ایجاد ہو چکے ہیں۔ حتیٰ کہ 2011 میں جرمن ڈیولوپر/پروگرامر ڈاکٹر اولیور ہیلوگ [Dr. Oliver Hellwig] کے قائم کردہ ہندوستانی ادارہ انڈ۔سنز Ind.Senz کے ذریعے ہندی، مراٹھی، گجراتی، تامل اور سنسکرت کے او۔سی۔آر بھی منظر عام پر آ چکے ہیں۔
اَپ ڈیٹ:
ڈاکٹر سیف قاضی کی ایک اطلاع کے بموجب ۔۔۔ ریسرچ سنٹر برائے پنجابی زبان و ٹیکنالوجی (پٹیالہ) نے 2016 میں ہندوستان سے پہلا ایسا ورڈ ایڈیٹنگ سافٹ وئر "اکھر" تخلیق کیا ہے جس کے تحت تین زبانوں انگریزی، گرمکھی اور اردو میں او۔سی۔آر کی سہولت فراہم کی گئی ہے۔

جب سے کمپیوٹر اور انٹرنیٹ پر تحریری اردو یعنی اردو یونیکوڈ کا استعمال عام ہوا ہے، شعبہ حیات کے تقریباً ہر موضوع پر دستیاب اردو کتب کے متن کے حصول کے ذریعے علمی و تحقیقی استفادہ کے رجحان میں بھی اضافہ ہوا ہے۔ انٹرنیٹ پر اردو ای۔لائبریریوں کے توسط سے کلاسیکی اور جدید موضوع کی لاتعداد کتب بآسانی پی۔ڈی۔ایف فائل کی شکل میں دستیاب تو ہیں مگر ان کے متن سے استفادہ صرف اسی صورت میں ممکن ہے کہ ہم خود اسے دیکھ کر ٹائپ کر لیں۔ یا پھر دوسری صورت "اردو او۔سی۔آر" کی شکل میں حاصل کی جا سکتی ہے۔ "او سی آر" کا اہم فائدہ یہ بھی ہوگا کہ ہزارہا علمی و معلوماتی کتب کو، جو اب آسانی سے دستیاب نہیں ہوتیں، اسکین کر کے یونیکوڈ تحریر میں تبدیل کیا جا سکتا ہے۔ اور پھر لفظ/فقرہ کی تلاش بھی اسی تحریری فائل میں ممکن العمل ہوگی۔
شاید یہی سبب ہو کہ ماہ اگست 2016 میں لسانیات کے پینل کی ایک میٹنگ میں قومی اردو کونسل کے ڈائرکٹر پروفیسر ارتضیٰ کریم نے کہا تھا : "آج کے بدلتے حالات میں نئی ٹیکنالوجی کی اہمیت و افادیت سے انکار ممکن نہیں ہے اور نہ ہی اس کے بغیر ترقی کا سفر طے کیا جاسکتا ہے۔ اس لیے اردو میں ایک او سی آر کی اہم ضرورت ہے۔ اس وقت ملک کی دوسر ی زبانوں مثلاً بنگلہ، ہندی اور تمل میں یہ سہولیات فراہم ہیں۔ اس ٹیکنالوجی کے ذریعے کسی کتاب کے تصویری مسودے میں ٹائپ کیے ہوئے الفاظ کو تحریری صورت میں شناخت کرنا بھی ممکن ہو جائے گا۔"

اردو او سی آر پر تحقیقی مقالے موجودہ صدی کی شروعات کے بعد سے سینکڑوں کی تعداد میں تحریر کیے گئے ہیں جن کی تفصیلات scholar.google.com میں انگریزی میں "اردو او سی آر" لکھ کر حاصل کی جا سکتی ہیں۔۔۔ ان میں سے کچھ اہم یہ ہیں:

1۔ ICDAR کی 2003 میں منعقدہ بین الاقوامی کانفرنس پر مشتمل مجلہ کی جلد دوم میں یو۔پال اور انربان سرکار کا شائع شدہ مشترکہ مقالہ بعنوان:
Recognition of Printed Urdu Script

2۔ انڈین جرنل آف سائنس اینڈ ٹیکنالوجی کی جلد 8، شمارہ 25 میں انکور رانا اور گرپریت سنگھ لیہل کے شائع شدہ مقالے کا عنوان تھا:
Offline Urdu OCR using Ligature based Segmentation for Nastaliq Script

3۔ مارچ 2016 میں منعقدہ بین الاقوامی 'انڈیاکوم' کانفرنس میں
ذاکر حسین انجینئرنگ کالج، اے۔ایم۔یو، کے توفیق علی، توصیف احمد اور محمد عمران کی طرف سے پیش کیا گیا مقالہ بعنوان:
UOCR: A ligature based approach for an Urdu OCR system

4۔ 2014 میں منعقدہ 17 ویں بین الاقوامی IEEE کانفرنس میں ہزارہ یونیورسٹی مانسہرہ، بحریہ یونیورسٹی اسلام آباد اور کنگ سعود ہیلتھ یونیورسٹی ریاض کے طلبہ کی جانب سے پیش کیا گیا مقالہ بعنوان:
An Ocr system for printed Nasta'liq script: A segmentation based approach

5۔ جنوری 2013 میں اسلام آباد کی قائد اعظم یونیورسٹی کے شعبہ کمپیوٹر سائنس میں دانش الطاف ستی کی جانب سے جو مقالہ پیش کیا گیا اس کا عنوان تھا:
Offline Urdu Nastaliq OCR for Printed Text using Analytical Approach

اس میدان میں بیشمار تھیوریٹکل مقالے لکھے جانے کے باوجود یہ بات کمپیوٹر و انٹرنیٹ اردو کمیونیٹی کے ماہرین کے نزدیک ثابت شدہ رہی کہ اردو نستعلیق جیسے پیچیدہ خط کیلئے قابل استعمال او سی آر بنانا کوئی آسان کام نہیں۔ کیونکہ اردو اور انگریزی میں ایک مشکل حروف کی وجہ سے ہے۔ اردو میں حروف ایک دوسرے سے جڑ جاتے ہیں جبکہ انگریزی میں لفظ بن کر بھی حروف اپنی جداگانہ شناخت برقرار رکھتے ہیں۔ اس لیے حروف کے ذریعے انگریزی لفظ کو پہچاننا کسی سافٹ وئر کے لیے رتی برابر مشکل کام نہیں۔
لیکن سوال یہ اٹھتا ہے کہ اردو کی طرح ہندی، مراٹھی کے علاوہ دائیں سے بائیں لکھی جانے والی دیگر زبانوں جیسے عربی، فارسی اور عبرانی میں بھی تو حروف جڑ جاتے ہیں، پھر ان کے او۔سی۔آر کسی طرح وجود میں آ گئے؟
جواب اردو کا پیچیدہ ترین نظام یعنی نستعلیقی رسم الخط ہے جس میں ایک تو بیتحاشا ترسیمہ جات یعنی لگیچرز استعمال ہوتے ہیں، دوسرے حروف بھی اپنی شکل بدلتے رہتے ہیں اور سب سے بڑی بات یہ کہ تمام حروف عمودی سمت میں ایک افقی لائن پر قائم نہیں رہتے۔
کچھ سال قبل اردو محفل فورم کے بانی نبیل نقوی نے نستعلیق رسم الخط کی بصری شناخت میں پیش آنے والی ایسی ہی مشکلات کا تفصیلی ذکر کچھ یوں کیا تھا:
"میں نے یہ تھیسس ڈیویلپ کیا تھا کہ اگر خطِ نستعلیق لگیچرز کی ایک ڈیٹابیس بن جائے تو تصویری متن کو پہلے افقی (horizontal) سمت میں پروسیسنگ کرکے اس کی سطور کو علیحدہ کیا جا سکتا ہے اور اس کے بعد ان سطور کو عمودی (vertical) سکیننگ کے ذریعے ترسیموں میں علیحدہ کیا جا سکتا ہے۔ اس طرح تصویری متن کے ترسیمہ جات تصویری شکل میں ہو جائیں گے جنہیں بصری شناخت کے مرحلے سے گزارا جا سکتا ہے۔ اس تھیسس کا سب سے بڑا مسئلہ یہ assumption ہے کہ تصویری متن کی سطور اور ہر سطر میں ترسیمہ جات کے مابین کچھ نہ کچھ سپیس ہے جس کی بدولت انہیں سادہ پروسیسنگ سے علیحدہ کرنا ممکن ہو سکتا ہے۔ لیکن جب میں نے تصویری اردو کے نمونے دیکھے تو معلوم ہوا کہ اکثر صورتوں میں یہ مفروضہ غلط ثابت ہوتا ہے۔ عام طور پر تصویری اردو کے نمونوں میں عبارت کافی تنگ نظر آتی ہے جس کی وجہ سے ک کی کشش پچھلے لفظ کے اوپر آ رہی ہوتی ہے اور اسی طرح سطور کے درمیان بھی سپیس نہیں ملتی۔ اس طرح اگرچہ تصویری متن سے ترسمیہ جات کا حاصل کرنا ناممکن نہیں ہو جاتا لیکن کم از کم سادہ پیٹرن ریکگنیشن سے ان کا حصول ممکن نہیں رہتا۔ اس کے لیے edge detection جیسے پروسیجر ہی کام دے سکتے ہیں جس پر امیج پراسیسنگ کے ماہرین ہی کام کر سکتے ہیں۔
ایک طریقہ یہ اپنایا جا سکتا ہے کہ شروع میں ایسے ہی تصویری متن پر کام کیا جائے جو کہ مذکورہ بالا مفروضے پر پورا اترتا ہو، یعنی کہ اس کی سطور اور الفاظ کے درمیان کچھ نہ کچھ سپیس ضرور ہو۔ اس طرح کم از کم تحقیق آگے ضرور بڑھتی رہے گی۔ اگر اس میں کامیابی حاصل ہو جاتی ہے تو مزید پیچیدہ پرابلمز کو حل کرنے پر بھی غور کیا جا سکتا ہے۔"

گزشتہ ڈیڑھ دو عشرے کے دوران مختلف سرکاری و غیرسرکاری اداروں کی جانب سے اردو بصری حرف شناس کی ایجاد کے لیے کافی کوششیں ہوئی ہیں۔
پاکستان کے قومی انفارمیشن ٹیکنالوجی ادارہ آئی۔سی۔ٹی۔آر۔ڈی۔ایف نے لاہور کے الخوارزمی انسٹی ٹیوٹ آف کمپیوٹر سائنس کو اردو نستعلیق بصری حرف شناسی نظام کی تخلیق کے لیے تقریباً 30 ملین پاکستانی روپے کا عطیہ مارچ 2012 میں فراہم کیا اور پراجیکٹ تکمیل کے لیے تیس مہینوں کی مدت دی گئی (آن-لائن حوالہ)۔ متذکرہ سرکاری ادارہ کی ویب سائٹ پر اس منصوبے کی پیش رفت رپورٹ ہر چند کہ دستیاب نہیں ہے، لیکن دیگر ذرائع کی اطلاعات کے بموجب یہ منصوبہ اس قدر کامیاب نہیں رہا جتنا کہ اس کی امید کی گئی تھی۔
ویسے اسی پراجکٹ کے نگران اعلیٰ ڈاکٹر سرمد حسین کے زیرتحت پاکستانی ادارہ "سنٹر فار لینگویج انجینئرنگ" نے "سی۔ایل۔ای نستعلیق او سی آر، ورڑن 1.0.0" کے نام سے پہلا اردو او سی آر 15 ہزار پاکستانی روپیوں میں مارچ 2016 میں جاری کیا ہے۔ جس کے مثبت نتائج یا کامیابی کے فیصد کی کوئی اطلاع ابھی تک تو سائبر دنیا میں دستیاب نہیں ہے۔
البتہ متذکرہ ویب سائٹ پر ڈیمو ٹسٹنگ کی سہولت فراہم کی گئی ہے۔ جس پر اس سافٹ وئر کا تعارف کچھ یوں لکھا ہے کہ :
"اْردو نستعلیق حرف شناس (آپٹیکل کیریکٹر ریکگنائزر) ایک ایسا خودکار نظام ہے جو سکین کردہ صفحے سے متن اخذ کرتا ہے تاکہ اس میں ردّو بدل کیا جا سکے۔ حرف شناس کتابوں اور دستاویزات سے متن کے حصول کے لئے استعمال کیا جاتا ہے تاکہ مطلوبہ مقامی مواد کی آن لائن اشاعت مستعدی سے کی جاسکے۔"
مگر ہمارے نتائج بتاتے ہیں کہ جتنی تیکنیکی شرائط ڈیمو ورڑن کے لیے لاگو کی گئی ہیں ان پر عمل کرنے کے باوجود اصل مقصود حاصل نہیں ہوتا۔ تکنالوجی ماہر ڈاکٹر فاتح الدین بشیر ، اردو محفل فورم پر اپنے تجربات کی رپورٹ پیش کرتے ہوئے لکھتے ہیں کہ:
"یہ او سی آر صرف ایسی تصاویر سے ٹیکسٹ نکال سکتا ہے جو پہلے کمپیوٹر پر جمیل نوری نستعلیق یا کسی دوسرے نستعلیق فونٹ میں ٹائپ کر کے محفوظ کی گئی ہوں اور پھر انہیں تصویری شکل دے دی گئی ہو۔ میری رائے میں اردو او سی آر کا سب سے بہتر استعمال تو یہی ہو سکتا ہے کہ سکین شدہ کتابوں کا متن حاصل کیا جا سکے جو کہ فی الحال اس او سی آر کے ذریعے ناممکن ہے۔ ہاں، اس سافٹ ویئر کو ایک اچھے اردو او سی آر کی جانب ایک پیش رفت کے طور پر ضرور لیا جانا چاہیے۔"

حکومت ہند کے ڈپارٹمنٹ آف انفارمیشن ٹیکنالوجی کے ادارہ آئی۔ایل۔ٹی۔پی۔ڈی۔سی کے تحت 2013 میں آن لائن او۔سی۔آر پر مبنی ویب سائٹ قائم کی گئی اور اعلان کیا گیا کہ بنگلہ، دیوناگری، گرمکھی، کنڑ ، ملیالم اور تلگو زبانوں میں بصری حرف شناسی نظام اس وقت آن لائن دستیاب ہے اور عنقریب اردو، تامل، گجراتی اور دیگر ہندوستانی زبانوں میں بھی یہ سہولت دستیاب ہوگی۔اور اس وقت اردو زبان میں بھی یہ سہولت فراہم کی جا چکی ہے۔ اس پر کیے گئے ایک آن لائن تجربہ کے مطابق یہ ویب او۔سی۔آر تقریباً سو (100) الفاظ کی امیج فائل کو تحریر میں بدلنے کے لیے قریب چار منٹ لیتا ہے اور نتیجہ تقریباً ساٹھ تا ستر فیصد درست ہے۔

عربی زبان کی تیکنالوجی پر مختص مشرق وسطی کی کمپنی "صخر سافٹ وئر" کا ذکر بھی اس ضمن میں ضروری ہے۔ صخر کے کلائنٹس میں لاک ہیڈ مارٹن اور ییل یونیورسٹی جیسے ادارے شامل ہیں، جس سے معیار کا اندازہ لگایا جا سکتا ہے۔ اس کمپنی کی تصدیق امریکی حکومت نے بھی کر رکھی ہے کہ عربی بصری حرف شناسی کے میدان میں "صخر او سی آر" سے بہتر اور کوئی دوسرا سافٹ وئر نہیں۔ اس کمپنی کا دعویٰ ہے کہ اس کا او سی آر سافٹ وئر 95 فیصد سے زیادہ درست نتائج دیتا ہے۔ اور یہ او سی آر عربی کے ساتھ ساتھ فارسی، پشتو اور اردو زبان کو بھی سپورٹ کرتا ہے۔ البتہ اس اردو او سی آر سے متعلق کسی انگریزی یا اردو ویب سائٹ پر کوئی تبصرہ یا تجزیہ نہ آنے کا بنیادی سبب شاید اس سافٹ وئر کی گراں بہاقیمت ہو۔
انٹرنیٹ اردو کمیونیٹی کے سب سے پہلے اردو یونیکوڈ فورم "اردو محفل" پر اردو او سی آر سے متعلق ایک علیحدہ زمرہ قائم ہے جہاں اس میدان کے طلبہ اور ماہرین عرصہ دراز سے اپنے اپنے تجربات سے آگاہی فراہم کر رہے ہیں۔
سن 2009 میں علوی نستعلیق یونیکوڈ فانٹ کے خالق امجد علوی نے انگریزی کے او سی آر سافٹ وئر ایبی فائن ریڈر Abbyy Fine Reader کے ورڑن 8 پر تجربات کیے تھے۔ ان کے مطابق:
"اگرچہ Abbyy والوں نے اپنے سافٹ وئیر میں اردو یا عربی کی سپورٹ بالکل نہیں ڈالی جس کی کمی بہت شدت سے محسوس ہوتی ہے۔ لیکن اگر ہم اس کے Pattern Editor میں اردو کو Read کروالیں تو یہ ایک بہت اچھا او سی آر بن سکتا ہے۔"
لیکن امجد علوی کے تجربات شاید ادھورے رہ گئے اور یہ پراجکٹ بھی اپنی تکمیل کو نہیں پہنچا۔ پھر سال اگست 2016 میں اسی ایبی فائن ریڈر کے ورڑن 12 پر زہیر عباس صاحب نے اپنے تجربات کا سلسلہ شروع کیا اور ان کے مطابق اس سافٹ وئر نے اردو زبان کو سپورٹ کئے بغیر کافی اچھے نتائج فراہم کیے ہیں۔ بس اس کی تین بنیادی خامیاں کچھ یوں ہیں کہ:
* الفاظ کے مابین اسپیس کو ٹھیک سے شناخت نہیں کر پاتا
* ایک جیسے نظر آنے والے ترسیمہ جات کو ٹھیک طرح سے شناخت نہیں کر سکتا
* اس سافٹ وئر کے پیٹرن ایڈیٹر کو مینوئل ٹریننگ کروانا پڑتا ہے (جبکہ نوری نستعلیق کے 20,000 لیگیچر میں سے صرف 100 کے قریب کو تین دن میں ٹرین کروایا جا سکتا ہے۔)
بہرحال ایبی فائن ریڈر سے متعلق انفرادی کوششوں نے اردو بصری حرف شناس کے ضمن میں کوئی ٹھوس نتائج پیش نہیں کیے۔

گوگل نے مئی 2015 میں اپنے ریسرچ بلاگ پر "پیپر ٹو ڈیجیٹل ان 200+ لینگوئیجیز [Paper to Digital in 200+ languages]" کے عنوان سے بڑے پیمانے پر گوگل ڈرائیو میں بے شمار زبانوں میں او سی آر یعنی آپٹیکیل کیریکٹر ریکگنیشن کا اعلان کیا۔ اور خوش قسمتی سے ان 200 زبانوں میں اردو بھی شامل رہی۔
اس سہولت کو استعمال کرنے کے لیے کسی تصویر یا پی ڈی ایف فائل کو گوگل ڈرائیو میں اپلوڈ کرنے کے بعد متعلقہ فائل پر رائٹ کلک کر کے "اوپن ود" > "گوگل ڈاکس" کو منتخب کرنا ہوگا۔ تھوڑے وقفے کے بعد تصویر ایک علیحدہ فائل میں شامل ہو جائے گی اور اس کے نیچے ماحصل متن موجود ہوگا۔
اردو تیکنالوجی ماہرین کی صف اول کے جواں سال محقق ابن سعید نے اس اعلان کی وضاحت میں لکھا تھا کہ۔۔۔
"اس تکنیک کی مدد سے تصویری عبارتوں مثلاً اسکین کردہ مواد کو متن کی صورت میں تبدیل کرنا ممکن ہو جاتا ہے۔ اس مقصد کے لیے گوگل نے آرٹیفیشئیل انٹیلیجنس کی ایک مشہور تکنیک ایچ ایم ایم یا ہیڈین مارکوو موڈل [HMM - hidden Markov model] کا استعمال کیا جس میں متن کو چھوٹے چھوٹے ٹکڑوں میں توڑ کر سمجھنے کے بجائے شکلوں کا پورا سلسلہ ایک ساتھ سمجھنے کی کوشش کی جاتی ہے جس کے لیے کافی ٹریننگ ڈیٹا کی ضرورت ہوتی ہے۔
ترسیموں کی بنیاد پر اردو او سی آر کا تجربہ نیا نہیں ہے، اس پر بھی کافی لوگوں نے کوشش کی ہے۔ کرننگ کی وجہ سے ترسیموں کو علیحدہ کرنا بھی ایک بڑا مسئلہ ہوتا ہے ورنہ ترسیموں کی ٹریننگ کوئی بڑا مسئلہ نہیں۔ ترسیموں کی تختی کو علیحدہ کرنا اور بعد میں ان سے متعلقہ نقطوں کو ساتھ لے کر لغات اور این گرامز کی مدد سے کام کرنے پر بہتر نتائج آنے کی امید ہے لیکن ہمارا خیال ہے کہ گوگل کسی ایک زبان میں اضافی توانائی صرف کرنے کے بجائے ایسے طریقوں پر زیادہ توجہ دے گا جس میں درستگی کم سہی پر زیادہ زبانوں کو سمیٹا جا سکے، خاص کر تب جب وہ زبان ان کی ترجیحات میں صف اول میں شمار نہ ہوتی ہو"۔
گو کہ شروعات میں اس گوگل تیکنیک کے نتائج صفر تا دس فیصد رہے تھے مگر آج تقریباً ساڑھے تین سال بعد اردو انٹرنیٹ کمیونیٹی کے بیشتر ماہرین کی تحقیقات کے مطابق گوگل ڈاکس کی مصنوی ذہانت اور نیورل نیٹ ورک پر مبنی اس تیکنیک سے 70 تا 80 فیصد درست نتائج حاصل ہو رہے ہیں۔ اور امکان غالب ہے کہ آنے والے چند برسوں میں اردو نستعلیق حرف شناسی کے موثر نظام کی تشکیل کا سہرا گوگل ہی کے سر پر سجے گا۔

اردو بصری حرف شناس سے بالخصوص اور جدید تیکنالوجی سے بالعموم چند متعلقہ سوالات یہاں قائم ہوتے ہیں:
1) اردو میں سائنسی مضامین، کتب و رسائل تو کسی نہ کسی حد تک موجود ہیں لیکن انفارمیشن اور موبائل ٹیکنالوجی سے متعلق مضامین، کتب اور رسائل کی اس قدر کمی کا سبب کیا ہے؟
2) جامعاتی تحقیق میں اردو زبان کے حوالے سے او۔سی۔آر یا ٹکسٹ ٹو اسپیچ یا اسپیچ ٹو ٹکسٹ یا مشینی ترجمہ پراجیکٹس پر اگر کسی ہندوستانی یونیورسٹی میں کوئی کام ہوا ہے تو ان کی تفصیلات انٹرنیٹ سرچنگ میں کیوں کر دستیاب نہیں ہیں؟
3) اگر پڑوسی ملک کی حکومت نے جامعاتی سطح پر اردو او۔سی۔آر سے متعلق تعاون کیا یا سرگرمی دکھائی ہے تو ہمارے ملک کی جامعات کے متعلقہ شعبوں میں اس اہم ترین تحقیقی موضوع کو کیوں نظرانداز کیا گیا ہے جبکہ اردو کے نام پر ایک علیحدہ یونیورسٹی میں قائم ہے؟
4) مشہور و مقبول ادارہ "ریختہ" سے ہٹ کر اردو کی دیگر سرکاری و غیرسرکاری تنظیمیں اور ادارے، اردو زبان و ادب کے ذخیرے کو انٹرنیٹ پر تلاش کے قابل متن کی شکل میں مہیا کرنے کے سلسلے میں تیکنالوجی ماہرین سے کیونکر رابطہ نہیں کرتے؟
5) گوگل کے سی۔ای۔او اتفاق سے ہندوستانی نڑاد ہیں ، کیا یہ امید رکھی جا سکتی ہے کہ قومی اردو جامعہ کے سربراہان سرکاری سطح پر ان سے رابطے کے ذریعے اردو کے اہم ذخیرہ کتب کو گوگل او۔سی۔آر کی مدد سے ڈیجیٹائز کرنے کے سلسلے میں باہمی اشتراک کا کوئی لائحہ عمل ترتیب دیں گے؟

***
سید مکرم نیاز
مدیر اعزازی ، "تعمیر نیوز" ، حیدرآباد۔
16-8-544, New Malakpet, Hyderabad-500024.
taemeernews[@]gmail.com
syed mukarram niyaz
Syed Mukarram Niyaz
سید مکرم نیاز

Urdu & Modern Technology, Urdu OCR. Article: Mukarram Niyaz

کوئی تبصرے نہیں:

ایک تبصرہ شائع کریں