Một tiếp cận tối ưu thành phần sinh tín hiệu cho hệ tổng hợp ghép nối tiếng Việt trên hệ thống tài nguyên hạn chế

Một tiếp cận tối ưu thành phần sinh tín hiệu cho hệ tổng hợp ghép nối tiếng Việt trên hệ thống tài nguyên hạn chế Nguyễn Tu Trung Viện CNTT, Viện Hàn Lâm KH&CN VN Hà Nội, Việt Nam nttrung@ioit.ac.vn Ngô Hoàng huy Viện CNTT, Viện Hàn Lâm KH&CN VN Hà Nội, Việt Nam nhhuy@ioit.ac.vn Tóm tắt— Xử lý tiếng nói nói chung và tổng hợp tiếng nói nói riêng ở Việt Nam và trên thế giới đã đạt được những thành tựu rất đáng khích lệ. Khi mà nhu cầu giao tiếp trên các thiết bị di động

7 trang | Chia sẻ: huongnhu95 | Lượt xem: 332 | Lượt tải: 0

Tóm tắt tài liệu Một tiếp cận tối ưu thành phần sinh tín hiệu cho hệ tổng hợp ghép nối tiếng Việt trên hệ thống tài nguyên hạn chế, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

và các hệ thống tài nguyên hạn chế tăng rất nhanh, các nhà nghiên cứu trên thế giới cũng đang tiếp tục tối ưu các thành phần để xây dựng hệ xử lý tiếng nói trên các hệ thống dạng này. Do đặc thù của hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các hệ thống này cũng cần sử dung lượng bộ nhớ và chí phí tính toán đủ nhỏ. Các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả trên những hệ thống có tài nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính toán rất thấp. Bài báo này trình bày một tiếp cận tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp tiếng Việt dựa trên ghép nối để đáp ứng trên các thiết bị di động và các hệ thống tài nguyên hạn chế. Từ khóa— tổng hợp tiếng nói, tài nguyên hạn chế, ADPCM, PSOLA I. GIỚI THIỆU Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu và các phương pháp xử lý tín hiệu này. Tín hiệu tiếng nói thường được thể hiện dưới dạng số, tức là được “số hóa”. Do đó, xử lý tiếng nói có thể được coi là giao của xử lý tín hiệu số và xử lý ngôn ngữ tự nhiên. Trên thế giới, xử lý tiếng nói đã được nghiên cứu từ rất lâu. Ở Việt Nam, khoảng hơn chục năm trở lại đây đã có một số sản phẩm ra đời cả về tổng hợp và nhận dạng tiếng nói. Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan, người ta đã nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có tài nguyên hạn chế để đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc thù của hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các hệ thống này cũng cần sử dụng lượng bộ nhớ và chí phí tính toán đủ nhỏ. Và các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả trên những hệ thống có tài nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính toán rất thấp. Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây dựng hệ xử lý tiếng nói trên các hệ thống tài nguyên hạn chế cũng đã xuất hiện trong một số năm gần đây. Các đề tài nghiên cứu về việc chuyển hệ xử lý tiếng nói lên các hệ thống di động cầm tay và hệ thống nhúng đã và đang triển khai đã minh chứng cho nhu cầu này. Việc tích hợp hệ thống tổng hợp tiếng nói vào các hệ thống tài nguyên hạn chế gặp phải vấn đề về bộ nhớ và các yêu cầu tính toán. Burileanu [4] đã sử dụng mã hóa A-law để nén CSDL đơn vị tiếng nói và họ đã chỉ ra rằng 80% thời gian tính toán nằm ở khâu chuẩn hóa văn bản và chuyển văn bản về âm vị. Sheikhzadeh và cộng sự [9] đã thiết kế hệ thống tổng hợp tiếng nói theo phương pháp ghép nối sử dụng thuật toán cơ bản TD- PSOLA trên chip DSP với DAC 16bit, tần số tối đa 4 MHz. Dey và cộng sự [6] đã đưa ra kiến trúc TTS nhúng theo phương pháp tổng hợp ghép nối cho chip ARM. Trong nghiên cứu này, chúng tôi trình bày một tiếp cận tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp tiếng Việt dựa trên ghép nối để đáp ứng trên các thiết bị di động và các hệ thống tài nguyên hạn chế. Các phần còn lại của bài báo này được trình bày như sau. Phần 2 trình bày khái quát về hệ tổng hợp tiếng nói dựa trên ghép nối. Phần 3 trình bày vấn đề tổng hợp tiếng nói trên hệ thống có tài nguyên hạn chế. Giải pháp tối ưu lưu trữ và tính toán cho hệ tổng hợp tiếng nói dựa trên ghép nối trên hệ thống tài nguyên hạn chế. Thử nghiệm và đánh giá được trình bày trong phần 5. Phần 6 là kết luận bài báo. Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) ISBN: 978-604-67-0349-5 432 II. TỔNG HỢP TIẾNG NÓI DỰA TRÊN GHÉP NỐI Sơ đồ tổng quát hệ thống tổng hợp tiếng nói từ văn bản mô tả trong hình 1. Nói chung, mô đun xử lý tín hiệu số chọn các âm vị và thông tin ngôn điệu từ đầu ra của mô đun xử lý ngôn ngữ tự nhiên và đưa chúng thành các tín hiệu tiếng nói. Các kỹ thuật chính sử dụng trong mô đun xử lý tín hiệu số: tổng hợp theo luật, tổng hợp ghép nối và tổng hợp dựa trên thống kê. Hình 1. Sơ đồ tổng quát hệ thống tổng hợp tiếng nói từ văn bản. Tổng hợp ghép nối sử dụng tiếng nói ghi âm thực tế như là các đơn vị tổng hợp và ghép nối đơn vị cùng sinh ra tiếng nói. Dutoit [7] cho rằng tổng hợp tiếng nói bằng ghép nối là cách tiếp cận đơn giản nhất và hiệu quả nhất. Hơn nữa, các hệ thống tổng hợp hiện nay cũng chủ yếu theo phương pháp ghép nối đơn vị. Vì vậy, trong tổng hợp ghép nối, việc lựa chọn đơn vị là tiêu chuẩn sinh tiếng nói chất lượng cao. Các đơn vị tiếng nói được chọn sao cho cực tiểu các lỗi trong ghép nối như làm trơn biên độ giữa các đoạn tiếng nói. Thông thường, các đơn vị tiếng nói được lưu trữ trong cơ sở dữ liệu lớn. Các mô hình dùng trong tổng hợp ghép nối thường dựa trên các công cụ xử lý tiếng nói và một số phương pháp biểu diễn như tổng hợp LPC (Linear Predictive Coding), Harmonic/Stochastic (H/S), cộng chồng đồng bộ (PSOLA) và cộng chồng đồng bộ miền thời gian (TD-PSOLA). Sau giai đoạn sinh ngữ điệu văn bản, ta thu được danh sách các bán âm tiết có thứ tự (các phụ âm đầu và phần vần) và các tham số ngữ điệu tương ứng. Ở giai đoạn sinh tín hiệu (hình 2), hệ thống tiến hành duyệt các bán âm tiết. Với mỗi bán âm, hệ thống tìm trong CSDL đoạn tín hiệu âm thanh tương ứng. Khi này, kết hợp cùng các thông tin về ngữ điệu, hệ thống thực hiện việc thay đổi độ dài và cao độ tần số cơ bản của các bán âm phù hợp với qui luật ngữ cảnh ngữ âm. Công việc này được thực hiện bằng việc sử dụng thuật toán PSOLA. Sau đó, hệ thống tiến hành làm trơn biên ghép nối các bán âm tiết. Hình 2. Lưu đồ quá trình ghép nối [2]. III. TỔNG HỢP TIẾNG NÓI TRÊN HỆ THỐNG CÓ TÀI NGUYÊN HẠN CHẾ Việc tích hợp hệ thống tổng hợp tiếng nói vào các hệ thống tài nguyên hạn chế gặp phải vấn đề về bộ nhớ và các yêu cầu tính toán. Burileanu [4] đã sử dụng mã hóa A-law để nén CSDL đơn vị tiếng nói và họ đã chỉ ra rằng 80% thời gian tính toán nằm ở khâu chuẩn hóa văn bản và chuyển văn bản về âm vị. Họ đã sử dụng tính toán chấm tĩnh cho mạng nơron dùng để chuyển đổi văn bản sang âm vị. Toàn bộ dung lượng bộ nhớ được dùng xấp xỉ 1MB. Sơ đồ hệ thống này được thể hiện trong hình 3. Sheikhzadeh và cộng sự [9] đã thiết kế hệ thống tổng hợp tiếng nói theo phương pháp ghép nối sử dụng thuật toán cơ bản TD-PSOLA trên chip DSP với DAC 16bit, tần số tối đa 4 MHz. Hệ thống gồm các mô đun liên kết với host, giải nén CSDL đơn vị âm tiếng nói và xử lý chấm tĩnh cộng chồng đồng bộ TD-PSOLA. Với tính năng không có bộ chuẩn hóa văn bản và với nhân DSP như vậy hệ thống có thể chạy tại mức 1.28MHz, tiêu thụ điện rất thấp. Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) ISBN: 978-604-67-0349-5 433 Hình 3: Kiến trúc hệ thống TTS được đơn giản [4]. Dey và cộng sự [6] đã đưa ra kiến trúc TTS nhúng (hình 4) theo phương pháp tổng hợp ghép nối cho chip ARM với đầy đủ các mô đun phân tích ngôn ngữ văn bản đầu vào, chuyển đổi văn bản sang âm vị, điều khiển ngôn điệu. Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây dựng hệ xử lý tiếng nói trên các hệ thống tài nguyên hạn chế cũng đã xuất hiện trong một số năm gần đây. Các đề tài nghiên cứu về việc chuyển hệ xử lý tiếng nói lên các hệ thống di động cầm tay và hệ thống nhúng đã và đang triển khai đã minh chứng cho nhu cầu này. Như vây, chúng ta có thể thấy rằng để xây dựng được hệ tổng hợp tiếng nói trên hệ thống có tài nguyên hạn chế thì hệ này cần đảm bảo các yêu cầu sau:  Kích thước lưu trữ nhỏ. (1)  Tính toán đơn giản, không sử dụng các thao tác phức tạp. (2)  Chất lượng giọng tổng hợp vẫn đảm bảo nghe được. (3) IV. TỐI ƯU HOÁ LƯU TRỮ VÀ TÍNH TOÁN Dựa trên thuật toán sinh tiếng nói ghép nối trong hình 2, chúng tôi đề xuất sinh tiếng nói mới với lưu đồ như trong hình 4 với sự kết hợp của việc nén tín hiệu các bán âm và tối ưu thuật toán ghép nối. Hình 4: Lưu đồ quá trình sinh tiếng nói mới. Theo lưu đồ trên, sau khi lấy dữ liệu âm thô dạng ADPCM của mỗi bán âm từ CSDL, hệ tổng hợp cần thực hiện việc giải mã để nhận được tín hiệu dạng PCM. Từ đây, tín hiệu PCM sẽ được thay đổi trường độ và cao độ tần số cơ bản với thuật toán PSOLA đã được tối ưu. Sau đó, thủ tục làm trơn không cần tính toán các đỉnh tiếng nói ứng với đoạn cuối bán âm trước và đoạn đầu bán âm sau mà chỉ cần tải từ CSDL rồi thực hiện việc làm trơn. A. Nén tín hiệu tiếng của các bán âm tiết với ADPCM Hiện nay, có rất nhiều phương pháp mã hóa khác nhau với những tỉ lệ nén tín hiệu rất tốt mã chất lượng có thể không suy giảm nhiều. Có những phương pháp trong quá trình nén và giải nén cần thực hiện các hàm toán học phức tạp với chi phí tính toán không hề nhỏ, không phù hợp cho hệ thống tài nguyên hạn chế. Tuy nhiên, lại có những phương pháp tuy có tỉ lệ nén không hẳn tối ưu nhất nhưng bù lại chỉ tiêu tốn một lượng chi phí tính toán không lớn. Một trong những phương pháp đó là ADPCM (Adaptive Differential Pulse Code Modulation). Với bộ mã hóa, đầu vào PCM đươc chuyển đổi thành PCM thống nhất. Một tín hiệu lệch thu được bằng Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) ISBN: 978-604-67-0349-5 434 cách trừ một ước lượng của tín hiệu đầu vào từ chính tín hiệu đầu vào đó. Một bộ lượng tử hóa 31-, 15-, 7-, hoặc 4-mức thích ứng được dùng để gán 5, 4, 3, hoặc 2 số nhị phân tương ứng để giá trị của tín hiệu lệch được truyền tới bộ giải mã. Một bộ lượng tử đảo ngược sinh ra tín hiệu lệch được lượng tử hóa từ 5, 4, 3 hoặc 2 số nhị phân này. Ước lượng tín hiệu được cộng vào tín hiệu lệch được lượng tử hóa này để sinh ra phiên bản của tín hiệu đầu vào được tạo lại. Cả tín hiệu được tạo lại và tín hiệu lệch được lượng tử hóa được điều khiển bởi bộ dự báo thích ứng, mà sinh ra ước lượng của tín hiệu đầu vào, do đó hoàn thành vòng lặp phản hồi. Như vậy, trong trường hợp xấu nhất, kích thước dữ liệu ADPCM chỉ giảm xuống còn 2/3 (phải dùng 5 bit cho mỗi vi sai) so với dữ liệu PCM gốc (8 bit). Còn trong trường hợp tốt nhất, dữ liệu ADPCM sẽ giảm xuống còn ¼ (phải dùng 2 bit cho mỗi vi sai) so với dữ liệu PCM gốc. Thông thường trên PC, các nhà nghiên cứu sẽ lưu sẵn các đoạn âm thanh dạng PCM. Chúng ta hoàn toàn có thể lưu tín hiệu các đoạn âm thanh ở dạng ADPCM. Trước khi sinh tiếng nói, ta phải thêm một thao tác chuyển đổi từ ADPCM sang PCM. Tuy nhiên, bản chất của bộ giải mã là một bộ cộng tích lũy nên chi phí tính toán là không nhiều. Trong bài báo này, tôi đã chuyển đổi lưu trữ các đoạn tín hiệu của các bán âm từ dạng PCM 16bit về dạng ADPCM 4bit. Như vậy, kích thước dữ liệu giảm đi bốn lần. Khi này, trong CSDL sẽ lưu dữ liệu âm thô dạng ADPCM. Khi tổng hợp, sau khi lấy dữ liệu tương ứng với bán âm tiết, hệ tổng hợp thực hiện việc giải mã để thu được tín hiệu dạng PCM. B. Tối ưu tính toán thuật toán ghép nối tín hiệu Trước khi ghép nối ta cần thực hiện hai thao tác: thay đổi cao độ tần số cơ bản với PSOLA [8] và làm trơn biên ghép nối. PSOLA có sử dụng thao tác cửa sổ hóa còn làm trơn sử dụng các đỉnh tiếng nói ở đầu và cuối của các đoạn âm thanh. Giả sử hai bán âm tiết là x1(n) và x2(n) được phân đoạn đồng bộ cao độ tần số cơ bản với tín hiệu x2(n) bắt đầu từ điểm cuối của x1(n). Hai nửa cửa sổ Hanning phân tích tương ứng là Ah1(n-t1+P1) và Ah2(n-t2+P1): 0),cos(5.05.0)( 1 1  n P n nAh  0),cos(5.05.0)( 2 2  n P n nAh  P1 = (N1 - 1)/2 P2 = (N2 - 1)/2 (1) Trong đó, P1, P2 là hai chu kì cao độ tần số cơ bản tại hai điểm nối và N1, N2 là số điểm lấy mẫu của cửa sổ tương ứng. t1 là điểm đánh dấu cao độ tần số cơ bản sát cuối cùng của x1(n) với đoạn hữu thanh hoặc cách điểm cuối cùng một đoạn không đổi 16ms nếu là vô thanh, t2 là điểm đánh dấu cao độ tần số cơ bản sát đầu tiên của x2(n) với đoạn hữu thanh hoặc cách điểm đầu tiên một đoạn không đổi 16ms nếu là vô thanh. Điểm đánh dấu cao độ tần số cơ bản chính là các đỉnh tiếng nói. Như vậy, chúng ta phải tìm được các đỉnh tiếng nói tại cuối bán âm tiết trước và đầu bán âm tiết sau. Thao tác dò tìm đỉnh tiếng nói khá phức tạp phải dùng đến một thuật toán riêng để giải quyết. Như vậy, chi phí tính toán của thuật toán này cũng không nhỏ. Nếu như với mỗi đoạn tiếng nói của mỗi bán âm tiết được lưu trong CSDL, ta tìm trước các đỉnh tiếng nói và cũng lưu vào CSDL thì chi phí tính toán khi sinh tiếng nói sẽ giảm đi rất nhiều. Tôi đã sử dụng phần mềm Praat [10] để xác định các đỉnh tiếng nói ứng với các bán âm tiết và lưu vào CSDL. Hai nửa cửa sổ Hanning phân tích tương ứng là Ah1(n-t1+P1) và Ah2(n-t2+P1): 0),cos(5.05.0)( 1 1  n P n nAh  0),cos(5.05.0)( 2 2  n P n nAh  P1 = (N1 - 1)/2 P2 = (N2 - 1)/2 (2) Trong đó, P1, P2 là hai chu kì cao độ tần số cơ bản tại hai điểm nối và N1, N2 là số điểm lấy mẫu của cửa sổ tương ứng. Hai nửa cửa sổ Hanning tổng hợp tương ứng là Sh1(n-t1+P) và Sh2(n-t2), có độ rộng gấp đôi giá trị P: PnP P n nSh 2),cos(5.05.0)(1   Pn P n nSh  0),cos(5.05.0)(2  P = 0.5 (P1 + P2) (3) Biểu thức của tín hiệu tổng hợp như sau:  Ptnt tnShPtnSh tnAhPnxPtnAhnx    11 2211 222111 , )()( )()()()(  11 0),( tnnx   nPtnx 12 ),( (4) Thao tác cửa sổ tuy chỉ tính toán với một công thức đơn giản nhưng chi phí để tính hàm cos cũng không nhỏ trên hệ thống có tài nguyên hạn chế. Để giải quyết vấn đề này, chúng ta có thể lưu sẵn giá trị của hàm cửa sổ. Chúng ta biết rằng mỗi frame tiếng nói có độ dài lf từ Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) ISBN: 978-604-67-0349-5 435 10ms – 30ms để đảm bảo giả thiết tuần hoàn. Số mẫu N của mỗi frame tính theo công thức: 1000 * fslf N  (5) Trong trường hợp của tôi, tần số lấy mẫu fs là 11 kHz, mỗi frame có độ dài lf là 20ms. Khi này, có thể tính được N bằng 220 và chúng ta có thể dễ dàng lưu lại 220 giá trị của hàm cửa sổ w(n). Các giá trị thực được biểu diễn dưới dạng số dấu chấm tĩnh và các phép toán liên quan thao tác trên số dấu chấm tĩnh. C. Biểu diễn số dấu chấm tĩnh Trong C có hai kiểu float (4 byte) và double (8 byte) để biểu diễn số thực. Một câu hỏi đặt ra là liệu có thể biểu diễn số thực với ít hơn 4 byte được không? Câu trả lời là có và phương pháp biểu diễn dấu chấm tĩnh có thể giải quyết vấn đề này. Một số thập phân x với a bit cho phần nguyên, b bit cho phần lẻ. Trong đó, giá trị trong a bit phần nguyên là p, giá trị trong b bit phần lẻ là q. Khi này, ta có: x = p + b q 2 , với 0 <= p <= 2a – 1, 0 <= q <= 2b – 1 (6) Bù 1 của x là chuỗi bit thu được sao khi đảo chuỗi bit của x, dấu chấm vẫn giữ nguyên vị trí. Bù 2 của x = Bù 1 của x + 2-b. BẢNG 1. TĂNG CƯỜNG MẪU 2 VỚI THUẬT TOÁN CỦA CHEN VÀ CẢI TIẾN Phép cộng Phép trừ Phép nhân Phép chia Như vậy, với 2 số x1 = p1 + b q 2 1 và x2 = p2 + b q 2 2 , ta có công thức tính kết quả các phép cộng, trừ, nhân, chia hai số dấu phảy tĩnh được trình bày trong bảng 1. Chúng ta thấy, thao tác với số dấu chấm tĩnh giống với số nguyên. Điều này làm cho việc tính toán thuận lợi và tốc độ nhanh hơn rất nhiều. Nếu như phương pháp dấu phảy động rất phù hợp với các chương trình chạy trên PC thì với các hệ thống tài nguyên hạn chế, phương pháp biểu diễn với dấu phảy tĩnh lại cho thấy sự hợp lý hơn. V. THỬ NGHIỆM A. Xây dựng hệ tổng hợp VnPDA trên thiết bị di động Hình 5 minh họa màn hình giao diện thiết kế và mô phỏng với Emulator. Trong hệ tổng hợp thử nghiệm này, bài báo không áp dụng giải pháp tối ưu cực tiểu kích thước lưu trữ các đoạn tín hiệu thô các bán âm tiết. VnPDA chỉ áp dụng giải pháp nén tín hiệu dạng ADPCM với việc lưu tất cả các thể hiện thanh điệu cho mỗi vần. Điều này nghĩa là sẽ vẫn có khoảng 822 bán âm tiết được lưu. Với thiết kế và xây dựng như trên, hệ tổng hợp thử nghiệm VnPDA đã có thể sử dụng trên máy Pocket PC chạy Windows Mobile. Hình 5: Giao diện hệ tổng hợp trên PDA. Trong [1], tác giả đã đưa ra một số đánh giá về chất lượng giọng tổng hợp của các chương trình: VietVoice, VnVoice1.0, VnSpeech, VnMobileSpeech. Trong đó, về phương diện bộ nhớ, VnVoice1.0 và VnSpeech hoàn toàn có thể chuyển đổi để tích hợp trong các hệ thống tài nguyên hạn chế. Hiện nay, VnSpeech đã có phiên bản trên WinCE [3] (có thể chạy trên Pocket PC). Dựa trên cơ sở đó, chúng tôi đã tiến hành khảo sát để đánh giá chất lượng giọng tổng hợp của VnPDA với phiên bản VnSpeech trên WinCE và hệ tổng hợp VnVoice. Trong đó, chúng ta đều biết VnVoice là một trong những hệ tổng hợp tiếng Việt cho chất lượng giọng tổng hợp rất tốt. Các câu, từ được chọn khảo sát cố định được bao trong bảng 2. Ngoài ra, mỗi người nghe sẽ yêu cầu thêm khoảng 3 đến 5 câu từ ngẫu nhiên khác. Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) ISBN: 978-604-67-0349-5 436 BẢNG 2. CÁC ÂM TIẾT, TỪ, CỤM TỪ, CÂU SỬ DỤNG CHO KHẢO SÁT STT Nội dung 1 Tôi 2 Tôi yêu em 3 Tôi yêu em đến nay chừng có thể 4 Đừng để tháng năm làm mệt mỏi trái tim chờ đợi 5 Học 6 Tiếng Việt 7 Tôi đang học tiếng Việt 8 Hôm qua 9 Hôm qua em tới trường 10 Sao có thể cùng nhau vượt qua gian khổ 11 Sao khó bên nhau chia ngọt xẻ bùi 12 Tập đọc 13 Sao anh không về chơi thôn vĩ 14 Hoàng Hoa Thám 15 Đội cấn 16 Bưởi 17 Hai Bà Trưng 18 Nguyễn Trường Tộ 19 Phạm Văn Đồng 20 Nguyễn Chí Thanh Khảo sát được thực hiện với 30 người ở những trình độ khác nhau. Điểm chất lượng sẽ được tính theo thang 100. Giả sử coi chất lượng giọng tổng hợp của VnVoice luôn là 100 thì khảo sát cho kết quả trung bình trên số người như trong bảng 4. Với kết quả này, chúng ta có thể thấy rằng chất lượng giọng tổng hợp của hệ tổng hợp VnPDA giảm xuống rất ít so với hệ tổng hợp cơ sở là VnVoice. BẢNG 3. THỐNG KÊ CHẤT LƯỢNG GIỌNG TỔNG HỢP. Phân loại Số lượng VnVoice VnPDA VnSpeech Trên 60 tuổi 5 người 100 95 10 Trên 40 tuổi, dưới 60 tuổi 5 người 100 97 25 Trên 30 tuổi, dưới 40 tuổi 5 người 100 97 30 Trên 20 tuổi, dưới 30 tuổi 6 người 100 97 30 Trên 10 tuổi, dưới 20 tuổi 6 người 100 98 30 Người mù 3 người 100 100 35 B. Xây dựng module phần mềm nhúng phát tiếng nói trên PSoC Trong giao tiếp bằng tiếng nói giữa người và thiết bị với ngữ cảnh giao tiếp hạn chế, thiết bị ngoài khả năng nhận dạng khẩu lệnh còn phải phát tiếng nói một số câu được quy định sẵn. Trong nghiên cứu này, chúng tôi thiết kế và xây dựng module phần mềm nhúng có khả năng phát đoạn tiếng nói được quy định trước, lưu sẵn trong bộ nhớ Flash (256KB) dưới dạng ADPCM, ra loa trên mạch PSoC 050 (hình 10) của hãng Cypress [11]. Yêu cầu cần một DAC cấu hình trên sơ đồ khối (hình 10) và một loa cấu hình vào chân tín hiệu trên mạch PSoC 050. Hình 10: Sơ đồ thiết kế module sinh tiếng nói. Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) ISBN: 978-604-67-0349-5 437 Hình 10: Bo mạch PSoC 050. Module được nhúng trong hệ thống hội thoại giữa người và robot hút bụi. Một số câu tiếng nói lưu sẵn như sau: BẢNG 3. CÁC CÂU NHÚNG TRÊN ROBOT HÚT BỤI. ID Nội dung Giải thích 1 Robot xin lắng nghe yêu cầu Sau khi robot khởi động xong và sẵn sàng đợi lệnh 2 Xin mời đọc lệnh tiếp theo Robot trong trạng thái chờ quá lâu VI. KẾT LUẬN Trong nghiên cứu này, chúng tôi đã đề xuất giải pháp tối ưu lưu trữ và tính toán để xây dựng hệ tổng hợp tiếng nói dựa trên ghép nối trên hệ thống tài nguyên hạn chế. Trong đó, các bán âm tiết được lưu trong CSDL dạng nén ADPCM thay vì PCM. Trong giai đoạn sinh tiếng nói, bán âm được lấy trong CSDL sẽ được giải nén để thu được tín hiệu PCM và thực hiện việc ghép nối với sự tối ưu về mặt tính toán để thu được tiếng nói đầu ra. Kết quả thử nghiệm cho thấy hệ tổng hợp mới chạy tốt trên thiết bị PDA và chất lượng tiếng nói tổng hợp suy giảm không đáng kể so với hệ tổng hợp gốc VnVoice trên PC. Ngoài ra, kết quả thử nghiệm đã xây dựng module sinh tiếng nói lưu sẵn trên bo mạch PSoC. Trong nghiên cứu tiếp theo, chúng tôi dự kiến sẽ xây dựng bộ tổng hợp trên các vi điều khiển có bộ nhớ và khả năng tính toán yếu hơn như PSoC và tiến hành tối ưu tính toán cho giai đoạn phân tích văn bản. TÀI LIỆU THAM KHẢO [1] Nguyễn Thị Thanh Mai, Nghiên cứu các phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice, Luận văn Thạc sĩ, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. [2] Trịnh Anh Tuấn, Nghiên cứu các đặc trưng để phân tích và tổng hợp tín hiệu âm tần, Luận án Tiến sĩ, Học viện Công nghệ Bưu chính Viễn thông. [3] [4] D. Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, and CostelIlas (2004), An Optimized TTS System Implementation Using a Motorola Starcore C140-Based Processor, Proceedings of the International Conference on Acoustics, Speech, and Signal Processing ICASSP 2004. [5] P. Dent, Aaron Aboagye (2002), G.726 Adaptive Differential Pulse Coding Modulation (ADPCM) on the TMS320C54x DSP, Texas Instrument. [6] S. Dey, Monu Kedia, Anupam Basu (2007), Architectural Optimizations for Text to Speech Synthesis in Embedded Systems, Proceedings of the Asia and South Pacific Design Automation Conference (ASP-DAC '07) 2007. [7] T. DUTOIT, H. LEICH (1993), "MBR-PSOLA : Text-To-Speech Synthesis based on an MBE Re-Synthesis of the Segments Database", Speech Communication, Elsevier Publisher, November, vol. 13, n°3-4. [8] J. Patton (2007), Pitch Synchronous Overlap-Add, ELEC 484 Project, 2007. [9] H. Sheikhzadeh, Etienne Cornu, Robert Brennan, and Todd Schneider (2002), Real-Time Speech Synthesis on An Ultra Low- Resource, Programable DSP System, Proceedings of the International Conference on Acoustics, Speech, and Signal Processing ICASSP 2002. [10] [11] Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014) ISBN: 978-604-67-0349-5 438

Các file đính kèm theo tài liệu này:

mot_tiep_can_toi_uu_thanh_phan_sinh_tin_hieu_cho_he_tong_hop.pdf