Vaja_LogoThai Text-to-Speech Synthesis Technology
เทคโนโลยีสังเคราะห์เสียงพูดภาษาไทยจากข้อความ

การสร้างรูปแบบการให้บริการใหม่ๆ บนพื้นฐานของการใช้สาระดิจิทัล สามารถสร้างความน่าสนใจและเพิ่มสีสันในการให้บริการได้ด้วยการประยุกต์ใช้เทคโนโลยีที่เอื้อให้การสื่อสารระหว่างผู้ใช้และระบบคอมพิวเตอร์มีประสิทธิภาพและมีความเป็นธรรมชาติมากขึ้น จากที่ผู้ใช้สามารถเข้าถึงข้อมูลต่างๆ ด้วยการอ่านข้อความ ในวันนี้ เทคโนโลยีสังเคราะห์เสียงจากข้อความ (Text-to-Speech Synthesis Technology: TTS) สามารถแปลงข้อความในเอกสารต่างๆ เป็นภาษาพูดเพื่อให้ ผู้ใช้เข้าถึงข้อมูล ข่าวสารต่างๆ ได้จากการฟัง

 

หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา แห่งเนคเทคได้ใช้เวลากว่าทศวรรษในการนำเทคโนโลยีด้านการติดต่อระหว่างมนุษย์และคอมพิวเตอร์ (Human-Computer Interface: HCI) มาพัฒนาระบบสังเคราะห์เสียงพูดภาษาไทย เพื่อช่วยให้การใช้งานและการเข้าถึงข้อมูลบนระบบคอมพิวเตอร์มีความสะดวกและง่ายดายขึ้น เทคโนโลยีนี้ นับว่าเป็นความท้าทายของนักวิจัยไทยในการสร้างระบบที่มีความแม่นยำในการแปลงข้อความต่างๆ เป็นเสียงพูดภาษาธรรมชาติ โดยทำให้การรับฟังมีความถูกต้องทั้งในแง่ความหมายหลักและความหมายแฝง อีกทั้งมีคุณภาพของเสียงที่ใกล้เคียงมนุษย์และมีความถูกต้องในการออกเสียง
ทีมวิจัย ได้ออกแบบโครงสร้างสถาปัตยกรรมของระบบสังเคราะห์เสียงพูดภาษาไทย โดยแบ่งการทำงานของระบบเป็น 3 ส่วนหลัก ประกอบด้วย ส่วนประมวลผลข้อความ (Text analysis) ส่วนประมวลผลจังหวะและทำนอง (Prosody analysis) และส่วนสังเคราะห์เสียงพูด (Speech synthesis)

ส่วนประมวลผลข้อความ เป็นการพัฒนาระบบส่วนที่ติดต่อกับผู้ใช้งาน ซึ่งจะรับชุดอักขระทั้งที่เป็นข้อความภาษาไทย ภาษาอังกฤษ ตัวเลข สัญลักษณ์ต่างๆ เพื่อนำมาวิเคราะห์วิธีการอ่านที่ถูกต้อง พร้อมทั้งแปลงวิธีการอ่านเป็นชุดสัญลักษณ์ทางหน่วยเสียงสำหรับใช้สร้างเสียง นอกจากนี้ยังต้องวิเคราะห์ข้อมูลทางภาษาศาสตร์อื่นๆ ที่แฝงอยู่ในข้อความ เช่น หน้าที่ของคำ เพื่อใช้ประกอบในกระบวนการสังเคราะห์เสียง โดยส่วนประมวลผลข้อความประกอบด้วย

•    ส่วนคัดแยกประเภทข้อความ (Tokenization) ทำหน้าที่ตรวจสอบและคัดแยกประเภทของชุดอักขระที่เข้ามา เช่น ข้อความภาษาไทย ข้อความภาษาอังกฤษ สัญลักษณ์ ตัวเลข เพื่อแยกกันประมวลผล เนื่องจากอักขระแต่ละประเภทมีวิธีการอ่านที่แตกต่างกัน
•    ส่วนตัดคำ (Word segmentation) ทำหน้าที่ตัดข้อความให้เป็นระดับคำ ก่อนนำไปวิเคราะห์หาเสียงอ่าน
•    ส่วนวิเคราะห์เสียงอ่าน (Grapheme-to-phoneme conversion: G2P) ทำหน้าที่อ่านวิเคราะห์วิธีการอ่านออกเสียงของข้อความ ตัวเลข และสัญลักษณ์ต่างๆ แล้วแปลงเป็นชุดสัญลักษณ์ทางหน่วยเสียง
•    ส่วนพจนานุกรมเสียงอ่าน (Pre-defined pronunciation dictionary) ทำหน้าที่แปลงชุดอักขระให้เป็นชุดสัญลักษณ์ทางหน่วยเสียงโดยใช้วิธีการค้นหาจากพจนานุกรมคำอ่านที่กำหนดไว้ล่วงหน้า ซึ่งชุดอักขระเหล่านี้เป็นได้ทั้งกรณีที่ข้อความ ตัวเลข และสัญลักษณ์ต่างๆ ที่ส่วนวิเคราะห์เสียงอ่านไม่สามารถวิเคราะห์ได้ถูกต้องหรือมีวิธีการอ่านเฉพาะตัว
•    ส่วนวิเคราะห์ข้อมูลอื่นๆ ทำหน้าที่วิเคราะห์แยกข้อมูลที่จำเป็นทางภาษาศาสตร์และอื่นๆ ที่อยู่ในข้อความเพื่อใช้ประกอบในการประมวลผลต่อไป

ส่วนวิเคราะห์จังหวะและทำนอง เป็นการพัฒนาระบบประมวลผลและคำนวณหาจังหวะและทำนองของเสียงที่จะสังเคราะห์ขึ้น เช่น การกำหนดความยาวสั้นของเสียง ความสูงต่ำของเสียง เพื่อให้เสียงที่สร้างขึ้นมีความเป็นธรรมชาติใกล้เคียงกับเสียงของมนุษย์

ส่วนสังเคราะห์เสียงพูด เป็นการสร้างสัญญาณเสียงพูดจากชุดสัญลักษณ์ทางหน่วยเสียงและข้อมูลจังหวะและท่วงทำนอง โดยทีมวิจัยได้พัฒนาส่วนสังเคราะห์เสียงโดยใช้ 2 เทคโนโลยี คือ เทคโนโลยีการสังเคราะห์เสียงแบบ Unit Selection Speech Synthesis เพื่อสร้างเสียงที่มีคุณภาพสูง โดยไม่มีข้อจำกัดเรื่องทรัพยากรของระบบคอมพิวเตอร์ และเทคโนโลยีการสังเคราะห์เสียงพูดแบบ HMM-based Speech Synthesis เพื่อรองรับการใช้งานบนอุปกรณ์ขนาดพกพาที่มีเนื้อที่หน่วยความจำไม่มาก แต่ยังคงให้เสียงที่มีความเป็นธรรมชาติสูง

text_01

รูปที่ 1 โครงสร้างกระบวนการสังเคราะห์เสียงพูดจากข้อความ

เทคโนโลยีการสังเคราะห์เสียงแบบ Unit Selection Speech Synthesis ดังแสดงในรูปที่ 2 จะเป็นการคัดเลือกท่อนเสียงที่มีบริบทเหมาะสมกับบริบทของข้อความเป้าหมาย โดยวิเคราะห์ค่าความต่อเนื่องของรอยต่อโดยใช้คุณสมบัติเชิงเวลาและเชิงความถี่ของท่อนเสียงในการวิเคราะห์ ซึ่งจะได้เสียงสังเคราะห์ที่รอยต่อน้อยและคุณภาพการเชื่อมต่อที่ดีที่สุด

 

 

text_02

 

รูปที่ 2 โครงสร้างการทำงานขอUnit selection speech synthesis

ขณะที่เทคโนโลยี HMM-based Speech Synthesis ดังแสดงในรูปที่ 3 เป็นการสังเคราะห์เสียงพูดโดยอาศัยแบบจำลองเสียงที่ได้จากการรู้จำทางสถิติ ผ่าน Hidden Markov models (HMM) ในการสร้างเสียงคืนกลับมา ซึ่งเป็นการสังเคราะห์เสียงแบบ Trainable Speech Synthesis System เนื่องจากสามารถสอนให้ระบบสามารถเรียนรู้ลักษณะเสียงต้นแบบที่ต้องการ สังเคราะห์เลียนแบบได้ โดยเก็บเพียงค่าพารามิเตอร์ทางสถิติของเสียงคนต้นแบบไว้แทนการเก็บเสียงที่ บันทึกจากคนต้นแบบทั้งหมด ซึ่งวิธีนี้มีข้อดีคือ สามารถสร้างเสียงสังเคราะห์ของคนใหม่ได้เร็วและระบบมีขนาดเล็ก แนวทางการพัฒนาด้วยหลักการนี้ จึงแบ่งออกเป็นการสร้างส่วนรู้จำค่าทางสถิติของเสียงด้วยโมเดลทางสถิติ (HMMs) และการสังเคราะห์เสียงกลับจากโมเดลที่รู้จำหน่วยเสียงไว้แล้ว

text_03

รูปที่  3 โครงสร้างการทำงานของ HMM-based speech synthesis

 

เทคโนโลยีสังเคราะห์เสียงจากข้อความ นับเป็นเทคโนโลยีสำคัญที่เข้ามาช่วยสร้างโอกาสในการเข้าถึงข้อมูลบนโลกดิจิทัล และที่ผ่านมา เทคโนโลยีดังกล่าวได้นำมาประยุกต์ใช้พัฒนาโปรแกรม Screen Reader ที่ช่วยสนับสนุนผู้พิการหรือผู้มีปัญหาทางกายภาพในการใช้งานคอมพิวเตอร์ โดยโปรแกรมสามารถอ่านข้อความที่ปรากฏบนจอคอมพิวเตอร์ เพื่อแปลงเป็นเสียงพูดให้ผู้พิการทางสายตาสามารถทำงานตอบโต้กับระบบคอมพิวเตอร์และเข้าถึงบริการข้อมูลและสาระดิจิทัลต่างๆ โดยการฟัง

ด้วยความสามารถของการแปลงข้อความเป็นเสียงภาษาธรรมชาติ เทคโนโลยีนี้สามารถนำมาประยุกต์ใช้งานได้อย่างหลากหลายเพื่อสร้างให้เกิดบริการรูปแบบใหม่ โดยเฉพาะการสนับสนุนงานด้านศูนย์บริการข้อมูลอัตโนมัติ งานด้านการศึกษาที่สามารถพัฒนาไปสู่ระบบ Computer-aided language learning (CALL) รวมทั้งงานด้านการสื่อสารอื่นๆ เช่น การพัฒนาระบบล่ามอิเล็กทรอนิกส์ (Speech-to-Speech translation) เป็นต้น

สามารถอ่านข้อมูลเพิ่มเติมได้จาก

เว็บไซต์
1. หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา, เนคเทค :  http://www.hlt.nectec.or.th
2. ซอฟต์แวร์สังเคราะห์เสียงพูดภาษาไทย “วาจา” : http://www.hlt.nectec.or.th/speech

บทความวิชาการ
1.  P. Mittrapiyanuruk, C. Hansakunbuntheung, V. Tesprasit and V. Sornlertlumvanich, “Issues in Thai Text-to-
Speech Synthesis: The NECTEC Approach”, NECTEC Technical Journal, Vol. 2 (7), pp. 36-47, 2000.
2.  A. Thangthai, C. Wutiwiwatchai, A. Ragchatjaroen and S. Saychum, “A Learning Method for Thai
Phonetization of English Words”, INTERSPEECH'07, pp. 1777-1780, 2007.
3. A. Thangthai, C. Hansakunbuntheung, R. Siricharoenchai and C. Wutiwiwatchai, “Automatic Syllable-
Pattern Induction in Statistical Thai Text-to-Phone Transcription”, INTERSPEECH'06, pp. 1344-1347, 2006.
4. C. Hansakunbuntheung, A. Thangthai, C. Wutiwiwatchai and R. Siricharoenchai, “Learning Methods and
Features for Corpus-based Phrase Break Prediction on Thai”, INTERSPEECH' 05, pp. 1969-1972, 2005.
5. A. Thangthai, A. Rugchatjaroen, N. Thatphithakkul, A. Chotimongkol and C. Wutiwiwatchai, “Optimization
of T-Tilt F0 Modeling”, INTERSPEECH'09, pp. 508-511, 2009.
6. A. Thangthai, N. Thatphithakkul, C. Wutiwiwatchai, A. Rugchatjaroen and S. Saychum, “T-Tilt: A Modified
Tilt Model for F0 Analysis and Synthesis in Tonal Languages”, INTERSPEECH'08, pp. 2270-2273, 2008.
7. S. Saychum, A. Rugchatjaroen, N. Thatphithakkul, C. Wutiwiwatchai and A. Thangthai, “Automatic
Duration Weighting in Thai Unit-selection Speech Synthesis”, ECTI-CON'08, pp. 549-552, 2008.
8. C. Hansakunbuntheung and Y. Sagisaka, “Analysis of Segmental Duration for Thai Speech Synthesis”,
Speech Prosody 2004, pp. 93-96, 2004.
9. A. Rugchatjaroen, A. Thangthai, S. Saychum, N. Thatphithakkul and C. Wuthiwiwatchai, “Prosody-based
Naturalness Improvement in Thai Unit-selection Speech Synthesis”, ECTI-CON'07, pp. 1042-1045, 2007.