thai_ocr

Thai OCRระบบรู้จำตัวอักษร

การจัดเก็บข้อมูลจำนวนมหาศาล ที่อยู่ในรูปเอกสารกระดาษเป็นข้อมูลดิจิทัล ถือเป็นปราการด่านแรกในการสร้างเนื้อหาสาระของโครงการ Digitized Thailand และเพื่อช่วยให้ขั้นตอนการแปลงเอกสารต่างๆ เป็นไปอย่างสะดวกรวดเร็ว เทคโนโลยีการรู้จำตัวอักษร (Optical Character Recognition: OCR) ได้เข้ามามีบทบาทและเป็นเครื่องมือสำคัญที่ช่วยหน่วยงานต่างๆ แปลงข้อมูลเอกสารเข้าสู่ระบบคอมพิวเตอร์

เทคโนโลยีการรู้จำตัวอักษร (OCR) เป็นกระบวนการทางอิเล็กทรอนิกส์ในการแปลงภาพของข้อความที่เก็บบันทึกไว้ใน รูปเอกสารกระดาษเป็นไฟล์เอกสารที่สามารถแก้ไขได้โดยเครื่องคอมพิวเตอร์ โดยทีมวิจัยจากหน่วยปฏิบัติการวิจัยเทคโนโลยีภาพแห่งเนคเทค ได้ใช้เวลากว่า 10 ปีในการพัฒนาระบบเพื่อใช้รู้จำตัวอักษรภาษาไทย และที่ผ่านมางานวิจัยดังกล่าวประสบความสำเร็จสู่การใช้ในเชิงพาณิชย์ภายใต้ ชื่อ ซอฟต์แวร์อ่านไทย (ArnThai)


ซอฟต์แวร์อ่านไทย ใช้วิธีการแปลงข้อมูลเอกสารกระดาษเข้าสู่ระบบคอมพิวเตอร์ด้วยการจับภาพ เอกสารต่างๆ ผ่านเครื่องสแกนเนอร์หรือกล้องดิจิทัล ซึ่งภาพที่ได้จะมีการจัดเก็บไว้ในรูปไฟล์ BMP JPG หรือ PDF เมื่อนำไฟล์ภาพที่ได้เข้าสู่ระบบ โปรแกรมจะทำการแปลงไฟล์ภาพนั้นๆ เป็นข้อความที่ผู้ใช้สามารถแก้ไขได้เช่นเดียวกับไฟล์เอกสารในระบบ คอมพิวเตอร์ทั่วไป ทำให้การแปลงเอกสารจากต้นฉบับกระดาษเป็นข้อมูลดิจิทัลทำได้อย่างมี ประสิทธิภาพและรวดเร็วมากยิ่งขึ้น เป็นการลดขั้นตอนการพิมพ์เอกสารใหม่ ตามรูปที่ 1

ซอฟต์แวร์อ่านไทยสามารถรองรับการรู้จำแบบอักษรภาษาไทย หลากหลายรูปแบบและใช้งานได้กับไฟล์ภาพสี ขาวดำ และสีเทาโดยไม่จำกัดขนาดของแฟ้มข้อมูล และจากการทดสอบประสิทธิภาพการรู้จำตัวอักษร พบว่า ระบบมีความถูกต้องแม่นยำในการรู้จำตัวอักษรที่กำหนดไว้ถึง 95 เปอร์เซ็นต์บนเอกสารสะอาด สามารถใช้กับฟอนต์ขนาดตัวอักษรตั้งแต่ 12 พอยต์ขึ้นไป และผู้ใช้สามารถแก้ไขหรือเพิ่มเติมข้อความได้ทันที หรือสามารถตัดและคัดลอกไปทำงานในโปรแกรมเวิร์ดโปรเซสเซอร์อื่นๆ เพื่อจัดเก็บและประมวลผลต่อไป

 รูปที่ 1 การใช้เทคโนโลยีการรู้จำตัวอักษร (OCR) ในการแปลงภาพของข้อความที่เก็บบันทึกไว้
           ในรูปเอกสารกระดาษเป็นไฟล์เอกสารที่สามารถแก้ไขได้โดยเครื่องคอมพิวเตอร์

 

ทั้งนี้ การพัฒนาประกอบด้วย 3 ขั้นตอนหลัก คือ การประมวลผลขั้นต้น (Pre-Processing) การรู้จำ (Recognition) และการประมวลผลขั้นปลาย (Post-Processing)


การประมวลผลขั้นต้น เป็นขั้นตอนในการปรับแต่งและจัดเตรียมข้อมูลเพื่อให้เกิดความแม่นยำในการรู้ จำตัวอักษรในขั้นต่อไป โดยขั้นตอนนี้ ประกอบด้วย การกรองสิ่งรบกวน (Noise Filtering)
การปรับแต่งขนาดของภาพ (Normalization) การตัดเลือกพื้นที่ที่ต้องการ (Cropping) และการสกัดลักษณะสำคัญ (Feature Extraction) โดยจะดึงโครงสร้างพื้นฐานที่สำคัญของตัวอักษรออกมา เพื่อส่งต่อไปยังขั้นการรู้จำตัวอักษร

ขั้นตอนการรู้จำ ถือเป็นหัวใจสำคัญของระบบในการแปลงไฟล์ภาพข้อมูลที่ได้ให้เป็นตัวอักษรภาษา ไทยที่มีความถูกต้องเหมือนต้นฉบับ ในการพัฒนาระบบรู้จำ ทีมวิจัยได้ใช้วิธีทางโครงข่ายประสาทเทียม (Neural Network) ซึ่งเป็นการเลียนแบบการทำงานของสมองมนุษย์ โดยมีโครงข่ายเชื่อมต่อกันของหน่วยความจำย่อยๆ จำนวนมากที่สะสมความรู้เอาไว้ ทั้งนี้ ความรู้และแบบตัวอักษรต่างๆ จะมีการการฝึกสอนไว้ให้กับระบบ และเมื่อภาพส่งเข้าสู่ระบบรู้จำ ระบบจะแปลงภาพเป็นข้อความตัวอักษรเพื่อส่งผลลัพธ์ออกสู่กระบวนการประมวลผล ขั้นปลาย

เนื่องจากผลลัพธ์ตัวอักษรที่ได้จากกระบวนการรู้จำนั้น ยังไม่สามารถมีความถูกต้องได้ 100 เปอร์เซ็นต์ เพราะฉะนั้นเพื่อเพิ่มความถูกต้องให้กับเอกสารดิจิทัล ระบบประมวลผลขั้นปลายจะมีส่วนการตรวจสอบและแก้ไขข้อความเพื่อดูความถูกต้อง ของการสะกดคำและไวยากรณ์ภาษา ก่อนที่เนื้อหาดิจิทัลต่างๆ จะนำไปใช้ประโยชน์ต่อไป

อย่างไรก็ตาม แม้ว่าระบบซอฟต์แวร์อ่านไทย จะมีความถูกต้องแม่นยำในการรู้จำตัวอักษรถึง 95 เปอร์เซ็นต์
แต่ การพัฒนาเทคโนโลยีรู้จำตัวอักษรบนพื้นฐานการฝึกสอนให้รู้จำแบบตัวอักษรที่ กำหนดไว้กลับมีข้อจำกัด โดยเฉพาะเมื่อนำโปรแกรมดังกล่าว มาใช้กับเอกสารที่มีรูปแบบตัวอักษรที่มีความหลากหลายและแตกต่างจากที่ได้รับ การฝึกสอนไว้ ทำให้อัตราการรู้จำหรือความถูกต้องของโปรแกรมลดลงไปมาก เนื่องจากระบบไม่สามารถเรียนรู้ลักษณะของฟอนต์ใหม่ได้

เพื่อให้การ แปลงและจัดเก็บเอกสารดิจิทัลในโครงการ Digitized Thailand มีความถูกต้องสมบูรณ์มากขึ้น ทีมวิจัยจึงได้พัฒนาต่อยอดเพื่อสร้างระบบการรู้จำตัวอักษรแบบเรียนรู้ฟอนต์ (Adaptive OCR) ที่มีความสามารถในการเรียนรู้รูปแบบตัวอักษรใหม่ๆ เพื่อเพิ่มอัตราการรู้จำของเอกสารที่มีความหลากหลายให้มีความถูกต้องแม่นยำ มากขึ้น โดยทีมวิจัยได้แบ่งการพัฒนาเป็น 3 ขั้นตอน ประกอบด้วย

ขั้น ตอนเตรียมการแบ่งกลุ่มลักษณะสำคัญ (Feature Extraction Classification Groups) โดยจะดึงลักษณะสำคัญของตัวอักษรมาเพื่อดำเนินการแบ่งกลุ่มลักษณะสำคัญ

ขั้น ตอนสร้างแม่แบบลักษณะสำคัญ เป็นการนำตัวอักษรที่เป็นแม่แบบมาหาลักษณะสำคัญและนำลักษณะสำคัญนั้นมาจัด เพื่อเป็นตัวแทนของตัวอักษรแต่ละตัว

ขั้นตอนการรู้จำตัวอักษรใหม่ เป็นการนำตัวอักษรใหม่มาหาลักษณะสำคัญเพื่อสร้างกลุ่มลักษณะสำคัญ จากนั้นนำกลุ่มลักษณะสำคัญไปเปรียบเทียบกับแม่แบบของตัวอักษรแต่ละตัวว่ามี ความใกล้เคียงกับแบบใดมากที่สุด

ด้วยเทคนิควิธีการพัฒนาระบบรู้จำ ใหม่นี้ ทำให้ระบบ Adaptive OCR สามารถรองรับการใช้งานจัดเก็บและแปลงเอกสารที่มีความหลากหลายให้มีความความ ถูกต้องแม่นยำมากขึ้น โดยระบบการรู้จำตัวอักษรแบบเรียนรู้ฟอนต์ ได้นำมาใช้เพื่อแปลงข้อมูลประวัติศาสตร์และองค์ความรู้จากเอกสารหายากและ หนังสือสำคัญต่างๆ ของหอสมุดแห่งชาติเข้าสู่ระบบคลังข้อมูลดิจิตัลแห่งชาติ ขณะเดียวกัน เนคเทคมีแผนที่จะนำเทคโนโลยีดังกล่าวมาช่วยสนับสนุนหน่วยงานต่างๆ ในการแปลงและจัดเก็บเอกสารเพื่อสร้างเป็นฐานข้อมูลดิจิทัลต่อไป

สามารถอ่านข้อมูลเพิ่มเติมได้จาก
ฝ่ายกลุ่ม วิจัยและพัฒนาสาขาสารสนเทศ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ, โอซีอาร์ : จากภาพสู่ข้อความ, พิมพ์ครั้งที่ 1 (ตุลาคม 2543)