parsit

Machine Translation

การเข้าถึงข้อมูลอันหลากหลายบนโลกดิจิทัล เปิดโอกาสในการเรียนรู้องค์ความรู้ใหม่ๆ แต่ด้วยข้อจำกัดทางด้านภาษา ทำให้ผู้คนจำนวนไม่น้อยเข้าถึงสาระ ประโยชน์ของข้อมูลดิจิทัลได้ไม่เต็มประสิทธิภาพ เพื่อลดช่องว่างทางสารสนเทศและข้อจำกัดด้านภาษา หน่วยปฎิบัติการวิจัยวิทยาการมนุษยภาษา เนค เทค ได้ดำเนินการวิจัยและพัฒนาเทคโนโลยีประมวลผลข้อความด้วยภาษาธรรมชาติ โดยได้พัฒนาระบบแปลภาษา (Machine Translation: MTที่สามารถแปลเนื้อหาสาระและข้อความต่างๆ จากภาษาหนึ่งไปยังภาษาที่ต้องการได้โดยอัตโนมัติ

 

เนื่องจากข้อมูลข่าวสารจำนวนมากกว่า 50 เปอร์เซ็นต์บนเครือข่ายอินเทอร์เน็ตเป็นข้อมูลภาษาอังกฤษ ทีมนักวิจัยจึงมุ่งเน้นการพัฒนาระบบแปลภาษาอังกฤษ-ไทย (English-to-Thai Machine Translation) เพื่อเปิดโอกาสให้คนไทยสามารถรับรู้และเข้าถึงข่าวสารจำนวนมหาศาลนั้นได้

ในระยะเริ่มแรก เนคเทคได้ร่วมมือกับบริษัท NEC จำกัด ประเทศญี่ปุ่น ในการนำระบบแปลภาษาอังกฤษ-ญี่ปุ่น มาเป็นพื้นฐานในการพัฒนาระบบ โดยในช่วงต้นระบบแปลภาษา ประกอบด้วย คลังคำศัพท์ กฎไวยากรณ์ของภาษาอังกฤษและภาษาไทย แผนภาพความเชื่อมโยงของมโนทัศน์ในเชิงความหมาย เมื่อผู้ใช้ส่งข้อมูลภาษาอังกฤษเข้าระบบ ระบบแปลภาษาจะทำหน้าที่วิเคราะห์ไวยากรณ์ และความหมายของภาษาอังกฤษ จากนั้นจะแปลงโครงสร้างของภาษาให้อยู่ในรูปแบบภาษากลาง โดยขั้นตอนนี้จะมีการนำคลังคำศัพท์มาใช้แปลงจากภาษาอังกฤษเป็นภาษาไทย และจะทำการสร้างรูปประโยคภาษาไทยให้เป็นไปตามโครงสร้างทั้งเชิงไวยากรณ์และความหมาย

ทีมวิจัยได้มีการวิจัยต่อยอด โดยการนำเทคโนโลยีการแปลภาษาเชิงสถิติ (Statistical Machine Translation) มาใช้สร้างระบบแปลภาษาอังกฤษ-ไทยให้มีความสมบูรณ์เพิ่มขึ้นและมีโอกาสขยายผลไปสู่ระบบแปลภาษาสำหรับคู่ภาษาอื่นๆได้รวดเร็วขึ้น

ระบบแปลภาษาเชิงสถิติ เป็นระบบแปลภาษาด้วยคอมพิวเตอร์ โดยอาศัยข้อมูลทางสถิติจากคลังคู่ประโยค (Parallel Corpus) เพื่อสร้างประโยคในภาษาปลายทางที่เหมาะสมที่สุดตามข้อมูลสถิติที่มีอยู่ ในการพัฒนาระบบ ประกอบด้วย 2 ขั้นตอนหลัก คือ การสร้าง Language Model และ Translation Model และการสร้างประโยคในภาษาปลายทางที่จะทำให้ได้ค่าทางสถิติสูงสุด ซึ่งเครื่องมือที่สร้างประโยคในภาษาปลายทางนี้เรียกว่า “Decoder” ดังรูปที่ 1

 

 

06

ที่ผ่านมา ทีมนักวิจัยได้นำเทคโนโลยี แปลภาษามาพัฒนาเป็นบริการที่ให้ผู้ใช้ทั่วไป สามารถแปลข้อความต่างๆ จากภาษาอังกฤษเป็นภาษาไทยผ่าน เครือข่ายอินเทอร์เน็ต ภายใต้ชื่อ “ภาษิต”
(http://www.suparsit.com)

 

 

07

 

ระบบแปลภาษาภาษิต เป็นการนำความรู้และหลักการทางภาษาศาสตร์มาใช้วิเคราะห์เพื่อแปลข้อความต่างๆ ให้ตรงตามความหมาย โดยจะทำการแปลทีละประโยคจากข้อมูลคลังคำศัพท์ที่มีมากกว่า 60,000 คำ และกว่า 120,000 ความหมาย

เนื่องจากภาษิตเป็นการให้บริการในรูปแบบ Client-server ผ่านเครือข่ายอินเทอร์เน็ต ระบบจะมีการจัดลำดับของผู้ส่งเอกสารเข้ามาทำการแปล รวมทั้งมีการเก็บข้อมูลการแปลของหน้าเว็บที่มีการเรียกแปลบ่อยเพื่อลดเวลาในการแปล (Proxy based MT) ทั้งนี้ ผู้ใช้สามารถเรียกใช้บริการทั้งในลักษณะที่เป็นการแปลทั้งเว็บไซต์หรือแปลเฉพาะข้อความ โดยในส่วนของการแปลข้อความ ระบบเปิดให้ผู้ใช้สามารถแก้ไขข้อความและเก็บไว้เป็นฐานข้อมูลเพื่อการพัฒนาต่อไป

ปัจจุบัน ภาษิตมีผู้ใช้บริการมากกว่า 1,500 รายต่อวัน มีการเรียกใช้บริการแปลทั้งสิ้นมากกว่า 15,000 หน้า โดยมีระดับความถูกต้องของการแปลประมาณ 60-70 เปอร์เซ็นต์

ตัวอย่างความร่วมมือในการนำระบบแปลภาษาไปใช้งานนั้น ที่ผ่านมา เนคเทคได้ทำสัญญาอนุญาตให้ใช้สิทธิ์กับบริษัท Communications-Electronics Research, Development and Engineering Center (CERDEC) ประเทศสหรัฐอเมริกา เพื่อนำระบบแปลภาษาไปใช้ในการซ้อมรบร่วมในโครงการ Cobragold ระหว่างกระทรวงกลาโหมไทยกับสหรัฐอเมริกา

การประยุกต์ใช้งานระบบแปลภาษานั้น ยังเปิดกว้างในสาขาต่างๆ อาทิ ในธุรกิจการแปล ระบบแปลภาษาสามารถใช้เป็นเครื่องมือช่วยแปลในขั้นแรกก่อนที่จะให้นักแปลตรวจทาน และในด้านการเรียนรู้ภาษา ผู้เรียนสามารถใช้

ระบบแปลภาษาทำความเข้าใจเบื้องต้นในข้อความที่ต้องการได้ ผู้สอนภาษาสามารถนำระบบแปลภาษาไปใช้เพื่อให้นักเรียนคนละประเทศใช้เป็นเครื่องมือช่วยในการสื่อสารระหว่างกันได้

ระบบแปลภาษา นับเป็นระบบพื้นฐานสำคัญในการสนับสนุนการพัฒนาโครงการ Digitized Thailand ที่ไม่เพียงช่วยสร้างโอกาสในการเข้าถึงข้อมูลดิจิทัลจำนวนมากได้อย่างมีประสิทธิภาพ หากยังส่งเสริมให้ประชาชนชาวไทยได้ใช้ประโยชน์จากโครงสร้างพื้นฐานเพื่อการเรียนรู้และเพื่อสร้างมูลค่าเพิ่มทางปัญญาให้กับประเทศ และแลกเปลี่ยนข้อมูลระหว่างกันในระดับนานาชาติได้

สามารถอ่านข้อมูลเพิ่มเติมได้จาก
1. Teerapong Modhiran, Krit Kosawat, Supon Klaithin,Monthika Boriboon Thepchai Supnithi, PARSITTE:An online Thai-English Machine Translation, MT SUMMIT X (2005).
2. Sittha Phaholphinyo, Teerapong Modhiran, Nattapol Kritsuthikul and Thepchai Supnithi, “A Practical of Memory-based Approach for Improving Accuracy of MT”, MT SUMMIT X (2005).
3. Thepchai Supnithi, Supon Klaithin and Kanokorn Trakultaweekool. “A Cooperative Work Environment for Translation Integrating MT and TM for Community”,
IJCKS (2007).
4. Peerachet Porkaew, and Thepchai Supnithi, Missing Phrase Recovering by Combining Forward and Backward Phrase Translation Tables : The 13th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD-09) Special Thai Track Section, May 2009.
5. Peerachet Porkaew, Taneth Ruangrajitpakorn, Kanokorn Trakultaweekoon, and Thepchai Supnithi, Translation of Noun Phrase from English to Thai using Phrase- based SMT with CCG Reordering Rules, PACLING, September 2009.
6. Virach Sornlertlamvanich, Paisarn Charoenpornsawat, Monthika Boriboon and Lalida Boonmana. ParSit: English-Thai Machine Translation Services on Internet. 12th Annual Conference, ECIT and New Economy, National Electronics and Computer Technology Center, Bangkok, pp. 427-482, June 2000.
7. Virach Sornlertlamvanich. Another Decade of Thai Language Processing Research. International Symposium on Multilingual Machine Translation (MMT'94), Tokyo, Japan. pp. 56-60, 1994.