Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Phạm Ngọc Hưng NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT THEO PHƯƠNG THỨC PHÁT ÂM Chuyên ngành: Hệ thống thông tin Mã số: 62480104 LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Trịnh Văn Loan 2. TS. Nguyễn Hồng Quang Hà Nội - 2017 2 LỜI CAM ĐOAN Tôi xin cam đoan tất cả các nội dung trong luận án “Nhận dạng tự động tiếng nói phát âm liên tục

150 trang | Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 332 | Lượt tải: 0

Tóm tắt tài liệu Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

c cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” là cơng trình nghiên cứu của riêng tơi. Các số liệu, kết quả trong luận án là trung thực và chưa từng được cơng bố trong bất kỳ cơng trình nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN PGS.TS. Trịnh Văn Loan Phạm Ngọc Hưng TS. Nguyễn Hồng Quang 3 LỜI CẢM ƠN Tơi xin bày tỏ lịng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Cơng nghệ Thơng tin và Truyền thơng, Bộ mơn Kỹ thuật máy tính, Bộ mơn Hệ thống thơng tin đã tạo điều kiện thuận lợi cho tơi trong quá trình học tập tại Trường. Tơi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là PGS.TS. Trịnh Văn Loan và TS. Nguyễn Hồng Quang. Hai Thầy đã luơn tận tình giúp đỡ, đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tơi cĩ thể triển khai và hồn thành cơng việc nghiên cứu của mình. Xin chân thành cảm ơn các thầy cơ, các đồng nghiệp trong Bộ mơn Hệ thống Thơng tin, Bộ mơn Kỹ thuật máy tính, Viện Cơng nghệ Thơng tin và Truyền thơng, Trường Đại học Bách khoa Hà Nội nơi tơi học tập, thực hiện đề tài nghiên cứu đã nhiệt tình giúp đỡ và động viên tơi trong suốt quá trình nghiên cứu. Cảm ơn Khoa Cơng nghệ Thơng tin và Trường Đại học Sư phạm Kỹ thuật Hưng Yên, nơi tơi đang cơng tác đã luơn tạo điều kiện cho tơi trong suốt quá trình nghiên cứu và hồn thành luận án này. Với tấm lịng biết ơn đến các thầy cơ, các nhà khoa học, các đồng nghiệp và bạn bè thân hữu đã động viên và giúp đỡ tơi trong quá trình nghiên cứu. Cuối cùng tơi muốn bày tỏ lịng biết ơn sâu sắc tới gia đình, nơi nuơi dưỡng và là nguồn động lực để tơi vượt mọi trở ngại khĩ khăn để hồn thành luận án này. Phạm Ngọc Hưng 4 MỤC LỤC MỤC LỤC ............................................................................................................................. 4 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................................ 7 DANH MỤC CÁC BẢNG .................................................................................................. 10 DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ .......................................................................... 12 MỞ ĐẦU ............................................................................................................................. 14 1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NĨI VÀ NHẬN DẠNG PHƯƠNG NGỮ 18 1.1. Nhận dạng tiếng nĩi .............................................................................................. 18 1.1.1. Tổng quan về nhận dạng tiếng nĩi ................................................................ 18 1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nĩi ...... 19 1.1.3. Các thách thức đối với nhận dạng tự động tiếng nĩi ..................................... 20 1.1.4. Phân loại hệ thống nhận dạng tự động tiếng nĩi ........................................... 21 1.2. Nhận dạng phương ngữ ......................................................................................... 23 1.2.1. Các mơ hình nhận dạng phương ngữ ............................................................. 23 1.2.2. Nhận dạng phương ngữ theo các phương diện khác nhau ............................. 24 1.3. Nghiên cứu nhận dạng tiếng nĩi và nhận dạng phương ngữ tiếng Việt ............... 29 1.4. Một số mơ hình nhận dạng ................................................................................... 30 1.4.1. Mơ hình GMM .............................................................................................. 30 1.4.2. Bộ phân lớp SVM .......................................................................................... 32 1.4.3. Mạng nơ ron nhận tạo .................................................................................... 38 1.5. Kết chương ............................................................................................................ 54 2. XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT ....................................................................................................................... 56 2.1. Tổng quan phương ngữ tiếng Việt ........................................................................ 56 2.1.1. Phương ngữ và phân vùng phương ngữ tiếng Việt ........................................ 56 2.1.2. Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt ....................... 57 2.1.3. Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 58 2.2. Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt ........................................... 60 2.2.1. Âm tiết và âm vị trong tiếng Việt .................................................................. 60 2.2.2. Âm đệm và cách kết hợp âm đệm trong các phương ngữ ............................. 64 5 2.3. Phụ âm đầu trong phương ngữ tiếng Việt ............................................................. 65 2.3.1. Hệ thống phụ âm đầu ..................................................................................... 65 2.3.2. So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam ................... 67 2.4. Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt ...................... 67 2.4.1. Hệ thống thanh điệu Hà Nội .......................................................................... 68 2.4.2. Hệ thống thanh điệu Nghệ - Tĩnh và Huế ...................................................... 68 2.4.3. Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh .......................... 69 2.4.4. Một số nhận xét về hệ thống thanh điệu các phương ngữ ............................. 70 2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nĩi ........................................... 71 2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng phương ngữ tiếng Việt ..................................................................................................... 71 2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt ......................... 72 2.6.2. Chuẩn bị và chuẩn hĩa văn bản ..................................................................... 73 2.6.3. Ghi âm ........................................................................................................... 75 2.6.4. Kết quả ghi âm và đặc tính VDSPEC ............................................................ 78 2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC .... 79 2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ .................. 79 2.7.2. Phân tích thống kê phân bố F0 của các thanh điệu ........................................ 81 2.7.3. Phân tích dữ liệu dùng LDA .......................................................................... 83 2.8. Kết chương ............................................................................................................ 87 3. NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT .......................................................... 89 3.1. Nhận dạng phương ngữ tiếng Việt với GMM ...................................................... 89 3.1.1. Cơng cụ thử nghiệm nhận dạng phương ngữ ALIZE .................................... 89 3.1.2. Lựa chọn số lượng hệ số MFCC .................................................................... 91 3.1.3. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp MFCC với tham số F0 ................................................................................................. 92 3.1.4. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp formant, dải thơng tương ứng và tham số F0 .............................................................. 95 3.1.5. Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng phương ngữ tiếng Việt ................................................................................................. 96 3.2. SVM nhận dạng phương ngữ tiếng Việt ............................................................... 98 3.2.1. Bộ phân lớp SMO .......................................................................................... 98 6 3.2.2. Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO ..................... 99 3.3. lBk nhận dạng phương ngữ tiếng Việt ................................................................ 103 3.3.1. Bộ phân lớp IBk .......................................................................................... 103 3.3.2. Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk ............................. 106 3.4. Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron ........ 107 3.4.1. Bộ phân lớp MultilayerPerceptron trong Weka .......................................... 107 3.4.2. MultilayerPerceptron nhận dạng phương ngữ tiếng Việt ............................ 107 3.5. JRip nhận dạng phương ngữ tiếng Việt .............................................................. 108 3.5.1. Bộ phân lớp JRip ......................................................................................... 108 3.5.2. Nhận dạng phương ngữ tiếng Việt với JRip ................................................ 109 3.6. Nhận dạng phương ngữ tiếng Việt với PART .................................................... 110 3.6.1. Bộ phân lớp PART ...................................................................................... 110 3.6.2. Kết quả dùng PART nhận dạng phương ngữ tiếng Việt ............................. 110 3.7. Kết chương .......................................................................................................... 110 4. CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THƠNG TIN VỀ PHƯƠNG NGỮ ................................................................................................................ 112 4.1. HMM nhận dạng tiếng Việt nĩi .......................................................................... 112 4.1.1. Mơ hình HMM ............................................................................................ 112 4.1.2. HMM nhận dạng tiếng Việt nĩi theo ba phương ngữ chính ........................ 125 4.2. Cải thiện hiệu năng nhận dạng tiếng Việt nĩi thơng qua sử dụng thơng tin phương ngữ 130 4.2.1. Mơ hình nhận dạng tiếng Việt nĩi với việc sử dụng thơng tin phương ngữ 130 4.2.2. Nhận dạng tiếng Việt nĩi khi cĩ thơng tin phương ngữ .............................. 132 4.3. Kết chương .......................................................................................................... 133 KẾT LUẬN VÀ KIẾN NGHỊ ........................................................................................... 134 TÀI LIỆU THAM KHẢO ................................................................................................. 137 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN ............................ 149 7 GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Giải thích AANN Auto-Associative Neural Network AM Acoustic Model Mơ hình âm học ANN Artificial Neural Network Mạng nơ-ron nhân tạo ARFF Attribute-Relation File Format Định dạng file tham số đặc trưng trong Weka ASR Automatic Speech Recognition Tự động nhận dạng tiếng nĩi BKSPEC Bach Khoa SPEech Corpus Bộ ngữ liệu được phát triển tại Bộ mơn Kỹ thuật Máy tính – Viện Cơng nghệ Thơng tin và Truyền thơng – Đại học Bách khoa Hà Nội BKTC Bach Khoa Text Code BMMI Boosted Maximum Mutual Information Thơng tin tương hỗ cực đại tăng cường CD Concept Description Mơ tả khái niệm CFG Context-Free Grammar Ngữ pháp phi ngữ cảnh CMS Cepstral Mean Subtraction Trừ trung bình Cepstral CMU SLM Carnegie Mellon University Statistical Language Modeling Toolkit Bộ cơng cụ mơ hình hĩa ngơn ngữ thống kê của trường Carnegie Mellon DCF Detection Cost Function Hàm giá phát hiện DET Detection Error Tradeoff Cân bằng sai số phát hiện DL Descrition Length Độ dài mơ tả DNN Deep Neural Networks Mạng nơ-ron sâu ELRA European Language Resources Association Hội tài nguyên ngơn ngữ châu Âu EM Expectation Maximization Cực đại hĩa kỳ vọng ERM Empirical Risk Minimization Tối thiểu hĩa rủi ro theo kinh nghiệm F0 Fundamental frequency Tần số cơ bản fMLLR feature-space MLLR fMMI feature-space MMI fMPE feature-space Minimum Phone Error FST Finite-State-Transducer Chuyển trạng thái hữu hạn GMM Gaussian Mixture Model Mơ hình hỗn hợp Gauss 8 HLDA Heteroscedastic Linear Discriminant Analysis Phân tích phân biệt tuyến tính hiệp phương sai khơng đồng nhất HMM Hidden Markov Model Mơ hình Markov ẩn HTK Hidden Markov Model Toolkit Bộ cơng cụ mơ hình Markov ẩn IBk Instance Based k Tên gọi bộ phân lớp k láng giềng gần nhất trong Weka IBL Instance Based Learning Học dựa trên đối tượng IREP Incremental Reduced Error Pruning JRip KKT Karush–Kuhn–Tucker Điều kiện Karush–Kuhn–Tucker k-NN k-Nearest Neighbour K láng giềng gần nhất LDA Linear Discriminant Analysis Phân tích phân biệt tuyến tính LDC Linguistic Data Consortium Hội đồn dữ liệu ngơn ngữ LLR Log Likelihood Ratio LPC Linear Prediction Coding Mã hĩa tiên đốn tuyến tính MAP Maximum a Posteriori MFCC Mel Frequency Cepstral Coefficients Các hệ số Cepstral theo thang đo tần số Mel MHAH Mơ hình âm học MHNN Mơ hình ngơn ngữ MLLR Maximum Likelihood Linear Regression MLLT Maximum Likelihood Linear Transforms MMI Maximum Mutual Information MPE Minimum Phone Error Cực tiểu hĩa lỗi âm NIST National Institute of Standards and Technology Viện Tiêu chuẩn và Cơng nghệ Quốc gia của Mỹ NLP Natural Language Processing Xử lý ngơn ngữ tự nhiên NN Neural Networks PART PCA Principal Component Analysis Phân tích các thành phần chính PLP Perceptual Linear Prediction Tiên đốn cảm thụ tuyến tính PNB Phương ngữ Bắc PNN Phương ngữ nam PNT Phương ngữ Trung 9 PPR Parallel Phone Recognition PPRLM Parallel Phone Recognition followed by Language Modeling PRLM Phone Recognition followed by Language Modeling QP Quadratic Programming Quy hoạch tồn phương RBF Radial Basis Function Hàm cơ bản hướng Gauss RIPPER Repeated Incremental Pruning to Produce Error Reduction RM Risk Minimization Tối thiểu hĩa rủi ro SAT Speaker Adaptive Training Huấn luyện thích nghi người nĩi SBS Sequential Backward Selection Lựa chọn lùi lần lượt SFS Sequential Forward Selection Lựa chọn tiến lần lượt SMO Sequential Minimal Optimization Thuật giải tối ưu hĩa cực tiểu lần lượt SRILM Stanford Research Institute Language Modeling Bộ cơng cụ tạo mơ hình ngơn ngữ SRI SRM Structural Risk Minimization Tối thiểu hĩa rủi ro cấu trúc SVM Support Vector Machines Máy véc-tơ hỗ trợ TTS Text-to-Speech Văn bản thành tiếng nĩi VDSPEC Vietnamese Dialect Speech Corpus Bộ ngữ liệu phương ngữ tiếng Việt VTLN Vocal Tract Length Normalization Chuẩn hĩa chiều dài tuyến âm WER Word Error Rate Tỷ lệ lỗi từ 10 DANH MỤC CÁC BẢNG Bảng 2.1: Sự khác biệt giữa các phương ngữ về từ và cách sử dụng từ .............................. 59 Bảng 2.2: Cấu trúc âm tiết tiếng Việt .................................................................................. 61 Bảng 2.3: Hệ thống phụ âm làm âm đầu ............................................................................. 62 Bảng 2.4: Bảng các âm chính là nguyên âm đơn ................................................................ 63 Bảng 2.5: Cách thể hiện bằng chữ viết các nguyên âm ....................................................... 63 Bảng 2.6: Vị trí các âm vị trong hệ thống âm cuối .............................................................. 64 Bảng 2.7: Hệ thống phụ âm đầu ở Bắc Bộ .......................................................................... 66 Bảng 2.8: So sánh các hệ thống phụ âm đầu giữa PNB, PNT và PNN ............................... 67 Bảng 2.9: Phân loại thanh điệu theo truyền thống ............................................................... 67 Bảng 2.10: Đặc tính văn bản theo chủ đề ............................................................................ 73 Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC ...................................................... 78 Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ .......................... 78 Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề ................................... 79 Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu .............................................................. 80 Bảng 3.1: Kết quả nhận dạng dùng GMM với các tham số MFCC, F0 và các giá trị chuẩn hĩa từ F0 .................................................................................................................... 94 Bảng 3.2: Ma trận nhầm lẫn nhận dạng phương ngữ khơng phụ thuộc giới tính khi sử dụng hệ số MFCC kết hợp với tham số F0 ......................................................................... 94 Bảng 3.3: Kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp formant, dải thơng tương ứng và các tham số F0 ....................................................... 96 Bảng 3.4: Tỷ lệ nhận dạng trung bình với số lượng thành phần Gauss khác nhau ............. 98 Bảng 3.5: Bộ phân lớp SMO, kết quả nhận dạng với 384 tham số ................................... 100 Bảng 3.6: Bộ phân lớp SMO, ma trâṇ sai nhầm với 384 tham số ..................................... 101 Bảng 3.7: Bộ phân lớp SMO, kết quả nhận dạng khi khơng cĩ thơng tin liên quan trực tiếp F0 ............................................................................................................................. 101 Bảng 3.8: Bộ phân lớp SMO, ma trâṇ sai nhầm khi khơng có thơng tin liên quan trực tiếp F0 ............................................................................................................................. 101 Bảng 3.9: Bộ phân lớp SMO, kết quả thử nghiệm khi chỉ dùng tham số liên quan trực tiếp F0 ............................................................................................................................. 102 Bảng 3.10: Bộ phân lớp SMO, ma trâṇ sai nhầm khi chỉ sử duṇg tham sớ liên quan trực tiếp F0 ...................................................................................................................... 102 Bảng 3.11: Bộ phân lớp SMO, kết quả nhận dạng khi chỉ dùng tham số liên quan trực tiếp MFCC ....................................................................................................................... 102 Bảng 3.12: Bộ phân lớp SMO, ma trâṇ sai nhầm khi chỉ dùng tham sớ liên quan trực tiếp MFCC. ...................................................................................................................... 102 Bảng 3.13: Thuật giải IBl, CD – Concept Description [8] ................................................ 104 11 Bảng 3.14: Mơ tả thuật giải k-láng giềng gần nhất ........................................................... 105 Bảng 3.15: Bộ phân lớp IBk, kết quả nhận dạng với k = 1 ............................................... 106 Bảng 3.16: Bộ phân lớp IBk, ma trâṇ sai nhầm với k=1 ................................................... 106 Bảng 3.17: Bộ phân lớp IBk, kết quả nhận dạng với k=5 ................................................. 106 Bảng 3.18: Bộ phân lớp IBk, ma trâṇ sai nhầm với k=5 ................................................... 107 Bảng 3.19: Kết quả nhận dạng phương ngữ tiếng Việt dùng MultilayerPerceptron ......... 108 Bảng 3.20: Ma trâṇ sai nhầm nhâṇ daṇg phương ngữ tiếng Việt dùng MultilayerPerceptron................................................................................................ 108 Bảng 3.21: Kết quả dùng bộ phân lớp JRip nhận dạng phương ngữ tiếng Việt ................ 109 Bảng 3.22: Ma trâṇ sai nhầm khi dùng JRip nhâṇ daṇg phương ngữ tiếng Việt .............. 109 Bảng 3.23: Kết quả sử dụng PART nhận dạng phương ngữ tiếng Việt ............................ 110 Bảng 3.24: Ma trâṇ sai nhầm khi sử dụng PART nhận dạng phương ngữ tiếng Việt ....... 110 Bảng 4.1: Phân chia tập dữ liệu dùng cho huấn luyện và thử nghiệm .............................. 129 Bảng 4.2: Kết quả nhận dạng khi chưa biết thơng tin phương ngữ ................................... 129 Bảng 4.3: Kết quả nhận dạng khi đã biết thơng tin về phương ngữ .................................. 132 12 DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ Hình 1.1: Quyết định lề mềm .............................................................................................. 33 Hình 1.2: Ba phương pháp khác nhau huấn luyện SVM: Chunking, Osuna và SMO ....... 37 Hình 1.3: Mơ hình một nơ-ron ............................................................................................ 38 Hình 1.4: Biến đổi làm mịn tạo ra do cĩ thiên áp bk ; lưu ý là vk = bk nếu uk = 0. .............. 40 Hình 1.5: Mơ hình nơ-ron phi tuyến .................................................................................... 40 Hình 1.6: Hàm ngưỡng ........................................................................................................ 41 Hình 1.7: Hàm kích tuyến tính đoạn ................................................................................... 42 Hình 1.8: Hàm kích hoạt Sigmoid với tham số độ dốc a ..................................................... 43 Hình 1.9: Mạng nơ-ron truyền thẳng một lớp ..................................................................... 43 Hình 1.10: Mạng nơ-ron truyền thẳng cĩ kết nối đầy đủ bao gồm một lớp ẩn và một lớp ra .................................................................................................................................... 45 Hình 1.11: Mạng nơ-ron hồi quy khơng cĩ vịng tự phản hồi và khơng cĩ nơ-ron ẩn ........ 46 Hình 1.12: Mạng nơ-ron hồi quy với các nơ-ron ẩn ............................................................ 46 Hình 1.13: Kiến trúc đồ thị của Multilayer Perceptron với hai lớp ẩn. ............................... 49 Hình 1.14: Minh họa chiều của hai luồng tín hiệu cơ bản trong Multilayer Perceptron (hàm tín hiệu lan truyền thẳng và lan truyền ngược của tín hiệu lỗi) ................................. 49 Hình 1.15: Đồ thị luồng tín hiệu chi tiết của nơ-ron ra j ..................................................... 51 Hình 1.16: Đồ thị chi tiết luồng tín hiệu của nơ-ron ra k kết nối với nơ-ron ẩn j ............... 53 Hình 2.1: Vị trí, vai trị âm đệm trong âm tiết ..................................................................... 62 Hình 2.2: Sơ đồ kết hợp âm đệm /w/ với các nguyên âm ở PNB và PNT .......................... 65 Hình 2.3: So sánh cấu trúc âm tiết PNB, PNT với PNN ..................................................... 65 Hình 2.4: Sơ đồ biến đổi các phụ âm ngạc hĩa trong PNB và PNN ................................... 66 Hình 2.5: Đồ thị hệ thống thanh điệu Hà Nội (a), Huế (b), TP Hồ Chí Minh (c) ............... 70 Hình 2.6: Sự phân bố các âm vị trong VDSPEC ................................................................. 74 Hình 2.7: Đáp ứng tần số của SM48 ................................................................................... 75 Hình 2.8: (a) Dạng sĩng tín hiệu được ghi âm. (b) Tỉ số tín hiệu trên nhiễu tính theo dB và giá trị trung bình của tỉ số này .................................................................................... 77 Hình 2.9: Biến thiên F0 các thanh điệu của giọng nữ Hà Nội (a), Huế (b) và Thành phố Hồ Chí Minh (c) ............................................................................................................... 80 Hình 2.10: Biến thiên F0 các thanh điệu của giọng nam Hà Nội (a), Huế (b) và Thành phố Hồ Chí Minh (c) ......................................................................................................... 80 Hình 2.11: Biến thiên F0 của thanh hỏi ............................................................................... 81 Hình 2.12: Biến thiên F0 của thanh ngã .............................................................................. 81 Hình 2.13: Biến thiên F0 của thanh nặng ............................................................................ 82 Hình 2.14: Biến thiên F0 của thanh ngang .......................................................................... 82 13 Hình 2.15: Biến thiên F0 của thanh huyền .......................................................................... 82 Hình 2.16: Biến thiên F0 của thanh sắc ............................................................................... 82 Hình 2.17: Các bước thực hiện phân lớp theo LDA ............................................................ 85 Hình 2.18: Phân lớp phương ngữ dùng LDA cho thanh sắc (từ “chính”) ........................... 86 Hình 2.19: Phân lớp phương ngữ dùng LDA cho thanh ngang (từ “kinh”) ........................ 86 Hình 2.20: Phân lớp phương ngữ dùng LDA cho thanh nặng (từ “mạnh”) ........................ 86 Hình 2.21: Phân lớp phương ngữ dùng LDA cho thanh huyền (từ “thành”) ...................... 86 Hình 2.22: Phân lớp phương ngữ dùng LDA cho thanh hỏi (từ “tỉnh”) .............................. 87 Hình 2.23: Phân lớp phương ngữ dùng LDA cho thanh ngã (từ “vĩnh”) ............................ 87 Hình 3.1: Sơ đồ hệ thống nhận dạng phương ngữ tiếng Việt .............................................. 90 Hình 3.2: Thử nghiệm đánh giá, lựa chọn số hệ số MFCC ................................................. 91 Hình 3.3: Đồ thị DET với số thành phần Gauss (M) từ 20 đến 4096 .................................. 97 Hình 3.4: Hai nhân tử Lagrange phải đáp ứng tất cả các ràng buộc của bài tốn đầy đủ. . 99 Hình 3.5: Phương pháp k láng giềng gần nhất .................................................................. 105 Hình 4.1: Kiến trúc bộ nhận dạng dựa trên HMM ............................................................ 114 Hình 4.2: Mơ hình âm vị dựa trên HMM .......................................................................... 116 Hình 4.3: Mơ hình âm phụ thuộc ngữ cảnh ....................................................................... 118 Hình 4.4: Tạo mơ hình kết nối các trạng thái .................................................................... 119 Hình 4.5: Phân cụm cây quyết định ................................................................................... 120 Hình 4.6: Minh họa lưới từ ................................................................................................ 123 Hình 4.7: Minh họa mạng nhầm lẫn .................................................................................. 124 Hình 4.8: Cấu trúc lưới từ tạo ra bởi hệ thống HTK ......................................................... 125 Hình 4.9: Mơ hình nhận dạng tự động tiếng nĩi ............................................................... 126 Hình 4.10: Phương pháp huấn luyện của Kaldi ................................................................. 127 Hình 4.11: Sơ đồ hệ thống nhận dạng tiếng Việt nĩi sử dụng thơng tin phương ngữ ....... 130 Hình 4.12: Sơ đồ hệ thống nhận dạng tiếng nĩi sử dụng thơng tin phương ngữ trên bộ ngữ liệu VDSPEC ........................................................................................................... 131 14 MỞ ĐẦU 1. Lý do chọn đề tài Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hố quá trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong bối cảnh đĩ, xử lý tiếng nĩi nĩi chung và nhận dạng tiếng nĩi nĩi riêng là vấn đề đã và đang được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy tính phục vụ con người trong cuộc sống. Trên thế giới đã cĩ nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành cơng. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế. Riêng về nhận dạng tiếng Việt, mặc dù đã cĩ nhiều nghiên cứu và đạt được các thành cơng nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn cịn nhiều mặt hạn chế, đặc biệt là độ chính xác, chất lượng nhận dạng. Ngồi các khĩ khăn trong nhận dạng tiếng nĩi nĩi chung, nhận dạng tiếng Việt nĩi cịn gặp trở ngại lớn phải kể đến là vấn đề về phương ngữ tiếng Việt. Tiếng Việt cĩ nhiều phương ngữ khác nhau. Giữa các phương ngữ cĩ sự khác biệt cả về từ vựng và ngữ âm trong đĩ ngữ âm là yếu tố quan trọng để tạo nên sự khác biệt và phân chia các phương ngữ. Xét về từ vựng, sự khác nhau cĩ thể ở một số bộ phận cấu thành từ hay sự biến đổi của từ. Sự khác nhau cũng cĩ thể xuất phát từ nguồn gốc của từ. Ví dụ khi nĩi về cái kính (để đeo lên mắt), cái gương (để soi), theo cách gọi ở miền Bắc, chúng được phân biệt rõ ràng bởi từ “kính”, “gương” (“đeo kính”, “soi gương”). Trong khi đĩ, ở miền Nam, cả hai vật này chỉ được gọi bằng một từ là kiếng (biến thể về âm của kính). Thay vì nĩi “đeo kính”, phương ngữ Nam lại dùng cách nĩi “đeo kiếng”. Cũng như vậy, thay vì “soi gương” phương ngữ Nam lại dùng cách nĩi “soi kiếng”. Ở miền Trung, hai vật kính và gương đều được gọi bằng từ “gương”. Hai thao tác tương ứng đeo kính, soi gương được diễn đạt bằng “soi gương” và “đeo gương”. Xét về mặt ngữ âm, sự khác biệt giữa các phương ngữ được thể hiện khá rõ ràng. Chẳng hạn với phương ngữ Nam, hai phụ âm cuối “nh” và “ch” thường bị biến đổi thành “n” và “t” trong cách phát âm. Do vậy, từ “tịch” theo cách phát âm giọng miền Nam thì lại là “tựt” (nguyên âm “i” biến thành “ư” và phụ âm cuối “ch” thành “t”) hoặc “nhanh” thì thành “nhăn”, “m...n cứu của Bailey về việc cĩ tồn tại phương ngữ Midland hay khơng (năm 1968) và tiếp tục được Davis, Lawrence M. cùng các đồng sự nhắc lại trong một nghiên cứu năm 1992 [34]. Nhận dạng phương ngữ nhiều ngơn ngữ trên thế giới đã được nghiên cứu như tiếng Ả rập, tiếng Thái, tiếng Trung Quốc, tiếng Anh,... Cĩ nhiều nghiên cứu phương ngữ tiếng Ả rập đã được cơng bố như [20, 50, 109]... Nghiên cứu nhận dạng phương ngữ tiếng Ả rập của tác giả Fadi Biadsy và cộng sự sử dụng câu nhận dạng cĩ độ dài 30 giây. Trong nghiên cứu [20], nhĩm tác giả đã sử dụng mơ hình ràng buộc âm vị để nhận dạng phương ngữ cho độ chính xác đạt 81,60%, kết hợp ngơn điệu và ràng buộc âm vị cho độ chính xác nhận dạng 86,33% [50]. Nghiên cứu của M. Belgacem và các thành viên sử dụng mơ hình GMM nhận dạng tự động phương ngữ tiếng Ả rập cho độ chính xác 73,33%. Trong nghiên cứu này, nhĩm tác giả sử dụng bộ cơng cụ mã nguồn mở ALIZE để thực hiện các thử nghiệm nhận dạng [109]. Với quan điểm ngơn ngữ học, việc phân biệt các phương ngữ cĩ thể dựa trên các đặc điểm, các thành phần của chính tiếng nĩi được sử dụng như hệ thống nguyên âm, phụ âm, từ vựng, hệ thống các từ, các đặc trưng âm học, âm vị,... 1) Nhận dạng phương ngữ dựa trên nguyên âm, phụ âm Một trong các nghiên cứu đầu tiên nhận dạng phương ngữ dựa trên nguyên âm là nghiên cứu của Peterson và Barney [129]. Các tác giả đã thực hiện nghiên cứu dựa trên đặc điểm về khoảng cách nguyên âm. Nghiên cứu của họ đã chỉ ra rằng các nguyên âm được hiểu khác nhau nếu xuất hiện trong vị trí khác nhau trong khơng gian formant. Tương tự, nguyên âm được phát âm bởi người nĩi khác nhau thì xuất hiện ở vị trí khác nhau trong khơng gian formant. Nghiên cứu này cĩ một đĩng gĩp đáng kể trong lĩnh vực nhận dạng và là cơng trình đầu tiên giới thiệu tầm quan trọng của phương ngữ. Hướng đi này cũng gặp trở ngại là việc xác định sự thay đổi khoảng cách của các nguyên âm diễn ra thế nào sẽ khĩ khăn. Chính vì vậy, nhĩm tác giả Hillenbrand, Clark và Wheeler [71] đã lặp lại thử nghiệm tương tự nhằm tìm ra sự thay đổi một cách chính xác khoảng cách của các nguyên âm. Nghiên cứu của họ đã xác định được sự thay đổi về phổ, độ dài và trạng thái ổn định của các formant F1, F2 cho mỗi nguyên âm. Nghiên cứu đi đến kết luận sự giảm khoảng cách của các nguyên âm khơng làm ảnh hưởng tới khả năng nhận thức đối với nguyên âm. Kết quả họ tìm được cũng trùng với kết luận trước đĩ, độ đo formant F1 và F2 chưa đủ để mơ tả cho sự phân tách nguyên âm với nhau. Vấn đề này lại tiếp tục được lặp lại trong nghiên cứu của Hajiwara. Trong nghiên cứu này Hajiwara [66] đã phát hiện ra phương ngữ Nam California rất hiếm khi phát âm được các nguyên âm trịn mơi. Đây là lý do mà F2 của một số nguyên âm do họ phát âm cĩ tần số cao hơn. Tiếp tục khai thác các đặc trưng của nguyên âm trong nhận dạng phương ngữ, Fridland cùng đồng sự đã đề cập tới trong nghiên cứu được cơng bố mới đây vào năm 2014 [56]. Trong nghiên cứu này, các tác giả 26 đã đề cập tới sự khác nhau về thời lượng và phổ của các nguyên âm giữa các phương ngữ. Họ xây dựng độ đo tỷ lệ F1/F2 và độ dài của nguyên âm để phân biệt các phương ngữ. Phụ âm đã được xem là thơng tin định danh phương ngữ giúp phân biệt giọng người nước ngồi và các giai tầng xã hội. Theo hướng này, William Labov đã tiến hành nghiên cứu sự khác nhau của các giọng theo phương diện xã hội học [173, 174]. Trong nghiên cứu này, tác giả sử dụng sự khác nhau trong cách phát âm phụ âm "r" khi đi sau một nguyên âm như các từ "bar", "sort", "churn". Đây là cách đơn giản để phân biệt tiếng Anh-Mỹ và Anh-Anh [173, 174]. Tĩm lại, các nghiên cứu đã chỉ ra rằng phụ âm và khoảng cách nguyên âm là những đặc trưng quan trọng trong phân biệt phương ngữ và cĩ thể được sử dụng như các tham số cho hệ thống nhận dạng phương ngữ. 2) Nhận dạng phương ngữ sử dụng các đặc trưng về âm học và âm vị Mơ hình âm học đã được quan tâm và đề cập tới trong nhiều cơng trình nghiên cứu hàng thập kỷ qua cho cả nhận dạng ngơn ngữ và định danh người nĩi. Đây là cách tiếp cận đơn giản và cho kết quả tương đối tốt. Trong nhận dạng phương ngữ, mơ hình âm học được sử dụng với giả thiết rằng sự khác biệt của các phương ngữ thể hiện trong phân bố phổ tiếng nĩi của phương ngữ. Cĩ nhiều nghiên cứu nhận dạng phương ngữ sử dụng các đặc trưng âm học và âm vị đã được thực hiện như [19, 28, 50, 136, 146]. 1.2.2.2. Theo phương diện của phương pháp nhận dạng Nhiều phương pháp đã được sử dụng trong nhận dạng ngơn ngữ cũng được sử dụng cho nhận dạng phương ngữ như GMM, HMM, Máy hỗ trợ véc tơ SVM (Support Vector Machines), mạng nơ ron NN (Neural Networks), mạng nơ ron sâu DNN (Deep Neural Networks)... 1) Mơ hình hỗn hợp Gauss Đến nay, đã cĩ nhiều nghiên cứu sử dụng mơ hình GMM để nhận dạng phương ngữ. Một trong số đĩ cĩ thể kể đến là nghiên cứu của Chen, Chang và Wang phân lớp phương ngữ tiếng Trung [29]. Mơ hình GMM dựa trên các véc tơ đặc trưng MFCC để nhận dạng các giọng Beijing, Shanghai, Guangdong và Taiwan của Trung Quốc. Mơ hình GMM đã được huấn luyện để nhận dạng được hầu hết các giọng được đưa vào thử nghiệm. Cĩ thể sử dụng các kiểu giọng đã được nhận dạng để lựa chọn mơ hình phụ thuộc giọng nĩi cho hệ thống nhận dạng tiếng nĩi. Tiếp theo, cĩ thể kể đến nghiên cứu của Faria sử dụng GMM để nhận dạng giọng nĩi cĩ phải là tiếng Anh chuẩn hay khơng [51]. Nghiên cứu này nhằm phân biệt tiếng nĩi cĩ phải là giọng Anh Mỹ chuẩn hay khơng từ những người nĩi tiếng Anh là người Nga, Tây Ban Nha, Pháp, Đức, Trung Quốc, Ấn Độ và từ một số nước khác. Nghiên cứu này dựa trên các đặc trưng về từ vựng để nhận dạng giọng của người nĩi. Các thử nghiệm được thực hiện trên bộ ngữ liệu Fisher với độ chính xác nhận dạng đạt 84,5% cho giọng chuẩn. 27 2) Mơ hình Markov ẩn Mơ hình Markov ẩn HMM coi phương ngữ như là quá trình ngẫu nhiên cĩ thể chuyển từ trạng thái này sang trạng thái khác với các xác suất khác nhau. Mỗi trạng thái tương ứng với một xử lý từ đĩ cĩ thể chuyển sang trạng thái mới với xác suất mới. Trạng thái được gọi là ẩn là những trạng thái mà việc nhận dạng cho phép tìm ra chúng. HMM được huấn luyện theo một đặc trưng cụ thể. Với phương ngữ, các mơ hình được thành lập và hiệu chỉnh cho từng phương ngữ khác nhau. Tiếng nĩi cần được nhận dạng sau đĩ sẽ đem so khớp với từng mơ hình và đánh giá bằng điểm số. Mơ hình cho điểm số cao nhất được chọn và phương ngữ tương ứng với mơ hình đã huấn luyện là kết quả nhận dạng. Nghiên cứu của Nancy F. Chen, Wade Shen, Joseph P. Campbell, Pedro A. Torres- Carrasquillo sử dụng mơ hình HMM nhận dạng phương ngữ tiếng Ả rập dựa trên đặc điểm phát âm của từng phương ngữ [28]. Một mơ hình HMM được sử dụng để dĩng các âm vị với các âm của từng phương ngữ cụ thể để mơ tả hiện tượng chèn, thay thế và xĩa xuất hiện khi nào với mức độ thường xuyên ra sao. Cây quyết định được sử dụng để tìm ra quy luật ngữ âm phụ thuộc ngữ cảnh. Các tác giả đã tiến hành nhận dạng cho bốn phương ngữ của tiếng Ả rập. Kết quả nhận dạng sử dụng mơ hình được đề xuất cho kết quả nhận dạng tương đối tăng 21-36% so với mức cơ sở. Cũng sử dụng HMM nhận dạng phương ngữ, Fadi Biadsy và các cộng sự sử dụng mơ hình ràng buộc âm vị nhận dạng năm phương ngữ tiếng Ả rập [20]. Nhĩm tác giả đã sử dụng HMM toolkit (HTK) để tiến hành các thử nghiệm. Các mơ hình âm học được xây dựng sử dụng HMM ba trạng thái liên tục với hỗn hợp 12 thành phần Gauss cho mỗi trạng thái. Các tác giả đã trích chọn đặc trưng bao gồm 12 hệ số MFCC trên mỗi khung tiếng nĩi cĩ độ dài 25ms và độ dịch chuyển khung là 10ms. Mỗi véc tơ đặc trưng cĩ kích thước là 39 bao gồm 13 đặc trưng (12 hệ số MFCC với một giá trị năng lượng), 13 giá trị đạo hàm bậc nhất và 13 giá trị đạo hàm bậc hai của 13 đặc trưng ban đầu. Các thử nghiệm được thực hiện trên bộ ngữ liệu Broadcast News TDT4 (47,61 giờ tiếng nĩi với tần số lấy mẫu là 8 kHz). Kết quả nhận dạng phương ngữ đạt độ chính xác tổng thể là 81,60% với độ dài tiếng nĩi nhận dạng là 30 giây. 3) Mơ hình máy hỗ trợ véc tơ Máy hỗ trợ véc tơ (SVM) cũng là một trong các bộ phân lớp hiệu quả thường được dùng gần đây. SVM cĩ thể phân chia các đối tượng thành hai lớp bằng một đường biên với khoảng trống lề vừa đủ. Một trong các ưu điểm chính của SVM là ngay cả khi khơng thể phân chia một cách tuyến tính các nhĩm thì các nhĩm này cĩ thể được thay đổi bằng cách sử dụng hàm nhân (kernel function) với các khoảng cách lề khác và khi đĩ chúng cĩ thể phân chia được. SVM đã được sử dụng để phân biệt phương ngữ tiếng Anh - Trung, Anh - Ấn Độ và Anh - Canada [65], nhận dạng phương ngữ và cảm xúc tiếng Hindi [136]. Trong nghiên cứu [136], các tác giả xây dựng hai hệ thống nhận dạng phương ngữ và nhận dạng cảm xúc độc lập với nhau. Hệ thống nhận dạng phương ngữ sử dụng đặc trưng về phổ, độ dài âm tiết, đường bao tần số cơ bản F0 và đường bao năng lượng. Các mơ hình được huấn luyện 28 cho năm phương ngữ cần nhận dạng là Chattisgharhi (C), Bengali (B), Marathi (M), General (G) và Telugu (T). Trường hợp chỉ sử dụng đặc trưng phổ, tỷ lệ nhận dạng đúng khoảng 64%. Tỷ lệ nhận dạng trung bình đạt được trong trường hợp sử dụng độ dài âm tiết, tần số cơ bản và năng lượng lần lượt là 58%, 64% và 49%. Trường hợp kết hợp đồng thời các tham số trên cho tỷ lệ nhận dạng đúng đến 81%. 4) Mơ hình mạng nơ ron Trong quá trình tìm kiếm các mơ hình mới, hiệu quả thay thế cho con người trong nhận dạng, người ta đã khám phá ra một số mơ hình mạng nơ ron (NN) cĩ khả năng sử dụng trong các hệ thống xử lý tiếng nĩi [135]. Các mơ hình ngơn điệu dựa trên mạng nơ ron đã chứng minh là cĩ khả năng nắm bắt được các thơng tin về ngơn điệu cụ thể của người nĩi, ngơn ngữ và các loại đơn vị âm thanh [135]. Với kết quả rất hứa hẹn, các mơ hình ngơn điệu được đề xuất mở rộng cho các mơ hình thơng thường nhằm nâng cao hiệu năng cho các hệ thống nhận dạng ngơn ngữ, nhận dạng tiếng nĩi và nhận dạng người nĩi. Ngồi ra, các nghiên cứu cũng chỉ ra rằng các mơ hình ngơn điệu cĩ thể nâng cao chất lượng của hệ thống tổng hợp tiếng nĩi. Nghiên cứu của K Sreenivasa Rao và Shashidhar G Koolagudi sử dụng mạng nơ ron nhận dạng phương ngữ tiếng Hindi (năm 2011) cho tỷ lệ nhận dạng đúng phương ngữ lên đến 81% [136]. Trong nghiên cứu này các tác giả sử dụng mơ hình AANN (Auto-Associative Neural Network) bao gồm năm lớp. Lớp thứ nhất và lớp thứ năm lần lượt là lớp vào và lớp ra. Các lớp ẩn bao gồm lớp thứ ba đến lớp thứ tư. Số lượng nơ ron ở các lớp khác nhau. Hàm kích hoạt ở lớp vào và lớp ra là hàm tuyến tính cịn hàm kích hoạt ở các lớp ẩn là hàm phi tuyến tanh(s) trong đĩ s là giá trị kích hoạt. Cũng sử dụng mạng nơ ron, Sinha, S. và đồng sự đã xây dựng mơ hình mạng nơ ron nạp trước bao gồm hai lớp để nhận dạng phương ngữ tiếng Hindi [148]. Các tác giả đã thử nghiệm nhận dạng cho các phương ngữ chính của tiếng Hindi bao gồm Khariboli, Bhojpuri, Haryanvi và Bagheli với ngữ liệu được thu thập từ 15 người nĩi bao gồm cả nam và nữ cho mỗi phương ngữ. Nghiên cứu này sử dụng các đặc trưng của tiếng nĩi bao gồm phổ và ngơn điệu cho độ chính xác nhận dạng đạt 79%. 5) Mơ hình mạng nơ ron sâu Mạng nơ ron sâu (DNN) là mạng nơ ron nhân tạo ANN (Artificial Neural Network) với nhiều lớp ẩn nằm giữa lớp vào và lớp ra. DNN thường được thiết kế theo kiểu mạng nạp trước. Các nghiên cứu gần đây đạt được các thành cơng lớn với kiến trúc mạng hồi quy cho các ứng dụng như mơ hình hĩa ngơn ngữ [141], nhận dạng tiếng nĩi [64], định danh ngơn ngữ [99, 152]. DNN đã được nghiên cứu ứng dụng trong nhận dạng phương ngữ. JING Ya-peng cùng nhĩm nghiên cứu đã sử dụng DNN huấn luyện cĩ giám sát nhận dạng phương ngữ tiếng Trung [84]. Các tác giả đã thực hiện nghiên cứu của mình dựa trên việc chỉnh sửa phần mềm QuickNet và sử dụng DNN với phương pháp tiền huấn luyện xây dựng các lớp mạng cho DNN. Bước tiền huấn luyện được khởi đầu là một mạng gồm 3 lớp cho đến khi đạt được lớp tối đa. Các trọng số khởi đầu của một lớp mạng mới là kết hợp một phần trọng số của lớp đã huấn luyện trước đĩ với các trọng số ngẫu nhiên gần với lớp 29 ra. Tiếp theo, sử dụng phương pháp huấn luyện lan truyền ngược truyền thống để huấn luyện mạng sau khi đã khởi tạo trọng số cho tối đa các lớp mạng. 6) Một số phương pháp khác Ngồi ra, cĩ thể kể đến một số phương pháp khác được dùng trong nhận dạng phương ngữ như hiệp biến thống kê (Statistical Covariance), GPU (Graphics Processing Units)... Kỹ thuật phân cụm cũng là một hướng tiếp cận hiệu quả trong nhận dạng phương ngữ [112]. Trong nghiên cứu của mình, N. Nagy và các thành viên đã thực hiện phân cụm các phương ngữ sử dụng các đặc trưng âm vị chung của chúng. Cũng cĩ những nghiên cứu nhằm tăng tốc hệ thống nhận dạng bằng cách sử dụng cơng nghệ mới. Nghiên cứu của Hanani sử dụng các bộ xử lý đồ họa (GPU) để tăng tốc độ xử lý của bộ nhận dạng [68]. 1.3. Nghiên cứu nhận dạng tiếng nĩi và nhận dạng phương ngữ tiếng Việt Nghiên cứu về nhận dạng tiếng Việt nĩi đã được một số nhà nghiên cứu trong và ngồi nước thực hiện. Các nghiên cứu đã được thực hiện cho tiếng nĩi rời rạc và tiếng nĩi liên tục. Để làm tiền đề cho các nghiên cứu sau này đối với tiếng Việt nĩi, trước tiên hệ thống nguyên âm tiếng Việt đã được phân tích để xác định các đặc trưng cơ bản như phân bố formant [163], quy luật biến thiên thanh điệu. Đối với nhận dạng tiếng Việt nĩi, đã cĩ các nghiên cứu như nhận dạng từ tiếng Việt phát âm rời rạc, số lượng từ vựng hạn chế [31, 120]. Nghiên cứu về hệ thống nhận dạng các số phát âm liên tục bằng tiếng Việt thực hiện ở [121]. Nhĩm tác giả đã thử nghiệm trên 442 câu với 2340 từ tiếng nĩi phát âm qua đường điện thoại. Kết quả thử nghiệm cho thấy khả năng nhận dạng đạt tới 96,83% các từ chính xác và 87,67% các câu được nhận dạng đúng. Gần đây, cĩ các nghiên cứu nhận dạng tiếng Việt phát âm liên tục độc lập người nĩi cĩ số lượng từ vựng lớn (7000 âm tiết tương ứng khoảng 40000 từ) [115, 116, 117, 118]. Nghiên cứu trong [156] là nhận dạng tiếng nĩi liên tục tiếng Việt vốn từ vựng lớn, sử dụng bộ cơng cụ HTK trên cơ sở dữ liệu âm thanh thu từ các đài truyền thanh VOV. Trong trường hợp này, độ chính xác nhận dạng được cải thiện đến 10% và sai số liên quan giảm 36,5%. Hệ thống nhận dạng tiếng Việt nĩi cũng đã được thực hiện được bằng hệ nhúng và hoạt động trên thời gian thực [4]. Nghiên cứu nhận dạng cho ngơn ngữ các nước Đơng Nam Á bao gồm tiếng Trung, tiếng Thái và tiếng Việt đã được thực hiện theo cách tiếp cận mới [164]. Theo đĩ, các tác giả đã thực hiện nhận dạng ở mức từ thay vì mức âm tiết như một số nghiên cứu đã cĩ trước đây. Kiến trúc FlaVoR bao gồm 2 lớp được sử dụng để nhận dạng. Lớp thứ nhất cĩ chức năng tìm kiếm các nguyên âm đơn. Lớp thứ hai thực hiện nhiệm vụ giải mã từ. Thử nghiệm trên tiếng Việt (dữ liệu âm thanh lấy từ các bản tin thời sự Việt Nam- VNBN) cho thấy cách tiếp cận này vừa hiệu quả lại linh hoạt. 30 Nhiều mơ hình, cơng nghệ, giải pháp khác nhau đã được nghiên cứu và thử nghiệm trong hệ thống nhận dạng tiếng nĩi tự động trong đĩ mơ hình HMM được ứng dụng khá phổ biến. Theo nội dung nghiên cứu được cơng bố tại [117], các tác giả đã sử dụng mơ hình HMM trong nhận dạng các giọng của tiếng Việt nĩi phát âm liên tục. Từ các thực nghiệm, nhĩm tác giả đã chỉ ra phương pháp tốt nhất để học F0 và năng lượng là sử dụng hàm biến đổi logarit đồng thời cũng chỉ ra việc sử dụng 8 mẫu giọng (thay vì 6 giọng theo cách bỏ dấu) và sự khác biệt giữa giọng nam và giọng nữ của người nĩi để tăng độ chính xác của hệ thống nhận dạng tiếng Việt nĩi. Về phương diện ngơn ngữ, tiếng Việt và phương ngữ tiếng Việt đã cĩ nhiều nghiên cứu được tổng hợp trong cơng trình của tác giả Hồng Thị Châu [2], các tác giả khác như Hồng Phê [1], Nguyễn Kim Thản, Nguyễn Trọng Báu, Nguyễn Văn Tu [5], Mai Ngọc Chừ, Vũ Đức Nghiệu, Hồng Trọng Phiến [3], Trần Thị Ngọc Lang [162], Võ Xuân Trang [171]. Tuy nhiên, nghiên cứu phương ngữ tiếng Việt theo phương diện xử lý tín hiệu cịn rất hạn chế. 1.4. Một số mơ hình nhận dạng 1.4.1. Mơ hình GMM Phân bớ Gauss còn goị là phân bớ chuẩn, đươc̣ sử duṇg rơṇg raĩ cho viêc̣ mơ hình hóa các phân bớ của các biến liên tuc̣. Trong trường hơp̣ véc tơ 𝑿 là một chiều, phân bớ Gauss có thể đươc̣ viết dưới daṇg: 𝑔(𝑿|𝝁, 𝚺) = 1 (2𝜋𝚺)1/2 exp {− 1 2𝚺 (𝑿 − 𝝁)2} (1.1) Trong đó 𝝁 là trung bình, 𝚺 là phương sai. Trường hơp̣ véc tơ 𝑿 có D chiều, phân bớ Gauss đa thể hiện có daṇg: 𝑔(𝑿|𝝁, 𝚺) = 1 (2𝜋)𝐷/2 1 |𝚺|1/2 exp {− 1 2 (𝑿 − 𝝁)𝑇𝚺−1(𝑿 − 𝝁)} (1.2) Trong đó 𝝁 là véc tơ trung bình có D chiều, 𝚺 là ma trâṇ hiêp̣ phương sai có kích thước 𝐷 𝑥 𝐷, |𝚺| là điṇh thức của 𝚺. Phân bớ Gauss tương ứng với nhiều bới cảnh khác nhau và có thể đươc̣ sử duṇg trong những tình huớng rất đa daṇg. Chẳng haṇ với trường hơp̣ biến là một chiều và thưc̣, phân bớ Gauss là phân bớ cưc̣ đaị hóa entropy. Phân bớ Gauss đa chiều cũng có thuơc̣ tính này. Mơ hình hỗn hợp Gauss đa thể hiện (multi-variate) GMM được biết đến là một trong các mơ hình cĩ khả năng phân lớp rất tốt đã được sử dụng trong các nghiên cứu về nhận dạng người nĩi [80], định danh các phương ngữ tiếng Anh [159], tiếng Trung [102], tiếng Thái [149], tiếng Hindi [146], nhận dạng ngơn ngữ [25, 160]. Lý do tại sao GMM thường được dùng trong nhận dạng người nĩi, định danh ngơn ngữ và định danh phương 31 ngữ... cĩ thể được suy diễn như sau. Ngay cả trong trường hợp khơng nghe rõ nội dung câu nĩi, con người vẫn cĩ khả năng cảm nhận đang nghe giọng người, ngơn ngữ, phương ngữ nào... mà mình đã biết. Trong trường hợp như vậy, thơng tin tổng quát hay đường bao thơng tin về ngữ âm đã giúp con người nhận ra giọng, ngơn ngữ, phương ngữ mà chưa cần dùng đến các thơng tin chi tiết khác về nội dung cũng như về ngữ âm mà người nĩi truyền tải. Bằng cách lựa chọn thích hợp số các thành phần phân bố Gauss, điều chỉnh trung bình và phương sai của chúng cũng như các trọng số trong tổ hợp tuyến tính, GMM cĩ thể xấp xỉ phần lớn các mật độ phân bố liên tục với độ chính xác tùy chọn. Cũng chính vì vậy, GMM cho phép mơ hình hĩa chỉ các phân bố cơ bản của cảm nhận về ngữ âm của người nĩi hay cũng là cảm nhận đường bao thơng tin ngữ âm đã nĩi ở trên. Yếu tố của phép trung bình trong khi xác định mơ hình GMM cĩ thể loại đi các nhân tố chi tiết ảnh hưởng đến đặc trưng âm học như biến thiên ngữ âm theo thời gian của người nĩi khác nhau và chỉ giữ lại những gì là đặc trưng cơ bản cho giọng vùng, miền như trong trường hợp định danh phương ngữ. Mặt khác, việc sử dụng GMM như là hàm khả hiện sẽ cho phép tính tốn khơng tốn kém, dựa trên mơ hình thống kê đã được biết rõ. Một mơ hình hỗn hợp Gauss đa thể hiện là tổng cĩ trọng số của M thành phần mật độ Gauss như biểu thức (1.3): 𝑝(𝑿|𝜆) =∑𝜋𝑖 𝑔𝑖(𝑿|𝝁𝒊, 𝚺𝒊) 𝑀 𝑖=1 (1.3) Trong (1.3), 𝑿 là véc tơ dữ liệu (chứa tập các véc tơ tham số của đối tượng cần biểu diễn, mỗi phần tử của tập giả thiết cĩ kích thước D), πi, i=1, ..., M là các trọng số của hỗn hợp và 𝑔𝑖(𝑿|𝝁𝒊, 𝚺𝒊) là các hàm mật độ Gauss thành phần theo biểu thức (1.4) với véc tơ trung bình 𝝁𝒊 của véc tơ kích thước D và ma trận hiệp phương sai 𝚺𝒊 kích thước DxD. 𝑔𝑖(𝑿|𝝁𝒊, 𝚺𝒊) = 1 (2𝜋)𝐷/2|𝚺𝒊|1/2 𝑒𝑥𝑝 {− 1 2 (𝑿 − 𝝁𝒊) 𝑇𝚺𝒊 −1(𝑿 − 𝝁𝒊)} (1.4) Các trọng số hỗn hợp cần thỏa mãn điều kiện ∑ 𝜋𝑖 = 1 𝑀 𝑖=1 . Một GMM đầy đủ được tham số hĩa bởi véc tơ trung bình, ma trận hiệp phương sai và các trọng số hỗn hợp từ tất cả các thành phần Gauss. Các tham số này cĩ thể được biểu diễn gọn lại theo (1.5): 𝜆 = {𝝅𝒊, 𝝁𝒊, 𝚺𝒊}, 𝑖 = 1,2, ,𝑀 (1.5) Để định danh phương ngữ, mỗi phương ngữ được biểu diễn bằng một GMM và được tham chiếu bởi mơ hình 𝜆 của phương ngữ đĩ. Trong trường hợp dùng MFCC như là véc tơ đặc trưng, đường bao phổ của lớp âm học thứ i được biểu diễn bằng trung bình 𝝁𝒊 của thành phần thứ i, cịn biến thiên của đường bao phổ trung bình được biểu diễn bằng ma trận hiệp phương sai 𝚺𝒊. 32 Giả thiết 𝑇 là số lượng véc tơ đặc trưng hay cũng là tồn bộ số lượng khung (frame) tiếng nĩi, M là số thành phần Gauss: 𝑿 = {𝒙1, 𝒙2, , 𝒙𝑇 } (1.6) Khả hiện GMM là : 𝑝(𝑿|𝜆) =∏𝑝(𝒙𝑡|𝜆) 𝑇 𝑡=1 (1.7) Biểu thức (1.7) là hàm phi tuyến đối với 𝜆 nên khơng thể trực tiếp cực đại hĩa mà các tham số khả hiện cực đại cĩ thể nhận được bằng cách dùng thuật giải cực đại hĩa kỳ vọng EM (Expectation Maximization). Ý tưởng của thuật giải EM là bắt đầu với mơ hình khởi đầu λ, đánh giá mơ hình mới �̅� sao cho 𝑝(𝑿|�̅�) ≥ 𝑝(𝑿|λ) (1.8) Mơ hình mới lại là mơ hình khởi đầu cho bước lặp tiếp theo và quá trình lặp lại cho đến khi ngưỡng hội tụ đạt được. Trên thực tế, thuật giải cực đại hĩa kỳ vọng là đi tìm 𝜆sao cho log 𝑝(𝑿|𝜆) của dữ liệu 𝑿 đạt cực đại. Trong trường hợp thử nghiệm nhận dạng phương ngữ tiếng Việt với mơ hình GMM, véc tơ 𝒙𝑡 sẽ chứa các tham số đặc trưng của tín hiệu tiếng nĩi như hệ số MFCC, các tham số liên quan đến F0, formant và dải thơng tương ứng... 1.4.2. Bộ phân lớp SVM SVM cơ bản là một bộ phân lớp nhị phân phi tuyến cĩ khả năng đốn nhận liệu một véc tơ vào x thuộc về lớp 1 (khi đĩ đầu ra mong muốn là y = +1) hoặc thuộc lớp 2 (y = -1) [150]. Lần đầu tiên thuật giải phân lớp này được đề xuất là vào năm 1992 [21] và là phiên bản phi tuyến của thuật giải tuyến tính cũ hơn nhiều, cũng chính là thuật giải về luật quyết định siêu phẳng tối ưu (cịn gọi là thuật giải hướng dọc tổng quát), đã được giới thiệu vào những năm 60. Cho một tập dữ liệu khả tách, mục đích là tìm ra hàm quyết định tối ưu. Cĩ thể dễ dàng nhận thấy, cĩ vơ số lời giải tối ưu cho bài tốn này, nghĩa là chúng cĩ thể tách các mẫu huấn luyện với sai số bằng khơng. Tuy nhiên, bởi vì ta cần tìm hàm quyết định cĩ khả năng tổng quát hĩa cho những mẫu chưa biết, nên cĩ thể nghĩ tới các tiêu chí bổ sung để tìm ra lời giải tốt nhất trong số các lời giải cĩ sai số bằng khơng. Nếu đã biết mật độ xác suất của các lớp, cĩ thể dùng tiêu chí cực đại hậu nghiệm (Maximum a Posteriori - MAP) để tìm lời giải tối ưu. Tiếc là, trong phần lớn trường hợp thực tế, thơng tin này khơng cĩ sẵn. Vì vậy, cĩ thể áp dụng tiêu chí khác đơn giản hơn: trong số những hàm khơng cĩ sai số huấn luyện, sẽ chọn ra hàm cĩ lề cực đại với lề là khoảng cách giữa mẫu gần nhất và ranh giới quyết định được xác định bởi hàm đĩ. Tất nhiên, tối ưu theo nghĩa lề cực đại 33 khơng nhất thiết đi với tối ưu theo nghĩa tối thiểu hĩa số sai số khi kiểm thử, nhưng là tiêu chí đơn giản cho lời giải tốt nhất trên thực tế đối với nhiều bài tốn [49]. Hình 1.1: Quyết định lề mềm Như cĩ thể suy ra từ Hình 1.1 [151], hàm phân biệt phi tuyến 𝑓(𝒙𝑖) cĩ thể được viết thành: 𝑓(𝒙𝑖) = 𝒘 𝑇 . ∅(𝒙𝑖) + 𝑏, (1.9) Trong đĩ, ∅(𝒙𝑖) là ánh xạ ℜ 𝑛 ↦ ℜ𝑛 ′ , (𝑛 ≪ 𝑛′), là hàm phi tuyến ánh xạ véc tơ 𝒙𝑖 vào khơng gian đặc trưng (feature space) cĩ kích thước lớn hơn (cĩ thể là vơ hạn) ở đĩ các lớp được giả thiết là khả tách tuyến tính. Véc tơ w biểu diễn cho siêu phẳng phân tách trong khơng gian như vậy. Cần lưu ý rằng, nghĩa của khơng gian đặc trưng ở đây khơng liên quan đến khơng gian đặc trưng của tiếng nĩi thường được gọi là khơng gian vào. Mặt khác, 𝑟𝑥 là khoảng cách giữa các mẫu được biến đổi ∅(𝒙𝑖) và siêu phẳng phân tách, cịn ‖𝑤‖ là chuẩn Ơ-Clít của 𝒘. Gọi véc tơ hỗ trợ là những véc tơ gần biên quyết định nhất. Các véc tơ này xác định lề và là các mẫu duy nhất cần dùng để tìm ra lời giải. Như vậy, với mỗi mẫu xi ta cĩ 𝑟𝑥 = 𝑓(𝒙𝑖)/||𝑤||. Do đĩ, mục đích là tìm ra bộ phân lớp tối ưu được thực hiện bằng cách tối tiểu hĩa ‖𝑤‖ cho tất cả các mẫu được phân lớp đúng, tức là: 𝑦𝑖(𝒘 𝑇 . ∅(𝒙𝑖) + 𝑏) ≥ 1 (1.10) Điều này cĩ thể được thiết lập như bài tốn tối ưu hĩa bậc hai: min 𝑤,𝑏 1 2 ‖𝑤‖2, Yêu cầu là 𝑦𝑖(𝒘 𝑇 . ∅(𝒙𝑖) + 𝑏) ≥ 1 Để cĩ được bộ phân lớp với khả năng tổng quát hĩa tốt hơn và cĩ thể xử lý được trường hợp khơng khả tách, nên cho phép một số lượng dữ liệu nào đĩ bị phân loại nhầm. Điều này được thực hiện bằng cách đưa ra điểm phạt tùy thuộc vào hàm được tối thiểu hĩa: min 𝑤,𝑏,𝜉𝑖 𝐿𝑃 = 1 2 ‖𝑤‖2 + 𝐶∑𝜉𝑖 𝑁 𝑖=1 (1.11) 34 Yêu cầu là 𝑦𝑖(𝒘 𝑇 . ∅(𝒙𝑖) + 𝑏) ≥ 1 − 𝜉𝑖 , 𝜉𝑖 ≥ 0 , với i=1,,N, Ở đây, 𝒙𝑖 ∈ ℜ 𝑛 (i=1,,N) là các véc tơ huấn luyện tương ứng với nhãn 𝑦𝑖 ∈ {±1}, cịn các biến 𝜉𝑖 được gọi là các biến nới lỏng (slack) cho phép sai số nhất định cĩ được lời giải trong trường hợp khơng khả tách. 𝜉𝑖 thỏa mãn 0 ≤ 𝜉𝑖 ≤ 1 cho các mẫu được phân lớp tốt nhưng trong lề và 𝜉𝑖 > 1 cho các mẫu bị phân lớp sai. Mặt khác, số hạng C biểu diễn cho sự thỏa hiệp giữa số sai số huấn luyện và khả năng tổng quát hĩa. Bài tốn này thường được giải quyết bằng cách đưa ra ràng buộc cho hàm cần tối thiểu hĩa với việc sử dụng nhân tử Lagrange, dẫn tới việc cực đại hĩa của đối ngẫu Wolfe: max 𝛼𝑖 𝐿𝐷 =∑𝛼𝑖 − 1 2 ∑∑𝑦𝑖𝑦𝑖𝛼𝑖𝛼𝑖∅ 𝑇(𝒙𝑖)∅(𝒙𝑗), 𝑛 𝑗=1 𝑛 𝑖=1 𝑛 𝑖=1 Yêu cầu là ∑𝛼𝑖𝑦𝑖 = 0 𝑣à 0 ≤ 𝛼𝑖 ≤ 𝐶 𝑛 𝑖=1 (1.12) Đây là bài tốn lồi bậc 2, vì vậy sự hội tụ tới cực tiểu tồn cục sẽ được đảm bảo bằng cách sử dụng sơ đồ quy hoạch tồn phương (Quadratic Programming - QP). Biên quyết định cuối cùng 𝒘 được cho bởi: 𝒘 =∑𝛼𝑖𝑦𝑖∅(𝒙𝑖) 𝑛 𝑖=1 (1.13) Theo (1.13), chỉ các véc tơ với 𝛼𝑖 ≠ 0 liên đới sẽ gĩp phần định xác định véc tơ trọng số 𝒘 và do vậy xác định được biên phân tách. Đây là các véc tơ hỗ trợ đã được nĩi ở trên xác định biên giới phân tách và lề. Nĩi chung, khơng biết hàm ∅(𝑥𝑖) một cách tường minh (thực tế, trong phần lớn các trường hợp, khơng thể đánh giá hàm này chừng nào mà kích thước của khơng gian đặc trưng cịn là vơ hạn). Tuy nhiên, thực ra khơng cần phải biết hàm này, bởi vì chỉ cần đánh giá các tích điểm ∅𝑇(𝑥𝑖). ∅(𝑥𝑗) bằng cách sử dụng thủ thuật kernel, trong đĩ tích này cĩ thể được đánh giá bằng cách dùng hàm 𝐾(𝑥𝑖, 𝑥𝑗). Cĩ nhiều cài đặt SVM tính hàm này cho mỗi cặp của các mẫu vào bằng cách tạo ra ma trận kernel lưu trong bộ nhớ. Bằng cách sử dụng phương pháp này và thay 𝒘 ở (1.9) bằng biểu thức (1.13), dạng cuối cùng của SVM như sau: 𝑓(𝒙) =∑𝛼𝑖𝑦𝑖𝐾(𝒙𝑖, 𝒙) + 𝑏 𝑛 𝑖=1 . (1.14) Các hàm kernel được sử dụng rộng rãi nhất là: - Hàm kernel tuyến tính đơn giản (Linear Kernel): 35 𝐾𝐿(𝒙𝑖, 𝒙𝑗) = 𝒙𝑖 𝑇 . 𝒙𝑗; (1.15) - Hàm kernel cơ bản hướng Gauss RBF (Radial Basis Function Kernel): 𝐾𝑅𝐵𝐹(𝒙𝑖, 𝒙𝑗) = 𝑒𝑥𝑝 (−𝛾‖𝒙𝑖 − 𝒙𝑗‖ 2 ), (1.16) Ở đây, 𝛾 là tỷ lệ với nghịch đảo của phương sai hàm Gauss và khơng gian đặc trưng liên kết với nĩ cĩ kích thước vơ hạn; - Hàm kernel đa thức (polynomial kernel): 𝐾𝑃(𝒙𝑖, 𝒙𝑗) = (1 + 𝒙𝑖 𝑇 . 𝒙𝑗) 𝑃 , (1.17) Khơng gian đặc trưng liên kết với nĩ là đa thức cho tới bậc p - Hàm kernel sigmoid (sigmoid kernel): 𝐾𝑆𝐼𝐺(𝒙𝑖, 𝒙𝑗) = 𝑡𝑎𝑛ℎ(𝑎𝒙𝑖 𝑇 . 𝒙𝑗 + 𝑏) 𝑃 , (1.18) Cần lưu ý rằng, cĩ một số điều kiện mà một hàm cần phải thỏa mãn để được sử dụng như kernel. Các điều kiện này thường được gọi là KKT (Karush-Kuhn-Tucker) [53] và cĩ thể được giảm xuống để chỉ kiểm tra ma trận kernel là đối xứng và bán xác định dương. Lý do khiến SVM trở nên hiệu quả hơn trong nhiều ứng dụng so với các phương pháp khác dựa trên biệt thức tuyến tính là tiêu chí học của nĩ. Mục tiêu của bất cứ bộ phân lớp nào là tối thiểu hĩa được số lượng các phân lớp nhầm lẫn với bất kỳ tập mẫu nào cĩ thể cĩ. Điều này được gọi là tối thiểu hĩa rủi ro (Risk Minimization - RM). Tuy nhiên, trong các bài tốn phân lớp điển hình, ta chỉ cĩ số lượng giới hạn các mẫu sẵn cĩ (trong một số trường hợp cĩ thể cĩ một số lượng vơ hạn các mẫu mà ta cũng chỉ cĩ thể làm với một tập con) và vì vậy, tất cả những điều cĩ thể làm được là cố gắng cực tiểu số lượng phân lớp nhầm trong tập huấn luyện. Điều này được gọi tối thiểu hĩa rủi ro theo kinh nghiệm (Empirical Risk Minimization - ERM) và phần lớn các bộ phân lớp đều dựa trên ERM cho tiến trình học. Mặc dầu vậy, việc cĩ bộ phân lớp với ERM tốt (hoặc thậm chí là muốn như vậy) là khơng đủ. Tính phức tạp của các bộ phân lớp thường phải được cố định từ trước và vì vậy, hoặc cĩ thể lựa chọn một cấu trúc quá đơn giản nên khơng thể mơ hình hĩa một cách đúng đắn biên phân lớp của bài tốn, hoặc lại quá phức tạp, vượt trên mức tập huấn luyện và khơng thể tổng quát hĩa các mẫu thiếu. Điều này được gọi là rủi ro cấu trúc và một bộ phân lớp tốt phải duy trì được sự thỏa hiệp giữa các ERM và SRM (Structural Risk Minimization - tối thiểu hĩa rủi ro cấu trúc). Với SVM, khơng cần phải cố định trước độ phức tạp của máy sinh ra, nhưng cĩ một tham số (là 𝐶 trong phương trình (1.11)) sẽ thiết lập thỏa hiệp giữa ERM và SRM. 36 Tiếc là khơng cĩ phương pháp nào để biết trước giá trị thích hợp nhất cho tham số này. Vì vậy, phải chọn ra tham số này bằng quá trình tìm kiếm. Một số phương pháp huấn luyện SVM: Do cĩ kích thước rất lớn, bài tốn QP sinh ra từ SVM khơng thể dễ dàng giải được thơng qua các kỹ thuật QP chuẩn. Dạng bậc hai trong (1.12) kéo theo ma trận cĩ số phần tử bằng bình phương mẫu huấn luyện. Ma trận này khơng thể chứa gọn trong 128 MB bộ nhớ nếu cĩ nhiều hơn 4000 mẫu huấn luyện (giả thiết là mỗi phần tử được lưu trữ như là một số chính xác kép 8-byte). Vapnik [166] mơ tả một phương pháp để giải bài tốn QP SVM mà từ đĩ cĩ tên gọi là phân khúc dữ liệu ("chunking"). Cĩ một yếu tố mà thuật giải chunking sử dụng là giá trị của dạng bình phương là như nhau nếu bỏ các hàng và cột của ma trận tương ứng với các nhân tử Lagrange bằng khơng. Do vậy, bài tốn QP lớn cĩ thể được chia thành một loạt các bài tốn QP nhỏ hơn, mà mục đích cuối cùng của các bài tốn này là tìm ra tất cả các nhân tử Lagrange khác khơng và loạ...er output voting error reduction (ROVER). In Automatic Speech Recognition and Understanding, IEEE Workshop, pp. 347-354. [53] Fletcher, Roger (2013) Practical methods of optimization. John Wiley & Sons. [54] Fox, Robert Allen, and Ewa Jacewicz (2009) Cross-dialectal variation in formant dynamics of American English vowels. The Journal of the Acoustical Society of America, vol. 126, no. 5, pp. 2603-2618. [55] Frederick Jelinek (1997) Statistical Methods for Speech Recognition. MIT Press, Cambridge, MA. [56] Fridland, V., Kendall, T., & Farrington, C. (2014) Durational and spectral differences in American English vowels: Dialect variation within and across regions. The Journal of the Acoustical Society of America, vol. 136, no. 1, pp. 341- 349. [57] Furui, Sadaoki (2001) Digital Speech Processing, Synthesis and Recognition, 2nd ed. New York Marcel Dekker Inc. [58] Garner, Philip N., and Wendy J. Holmes (1998) On the robust incorporation of formant features into hidden Markov models for automatic speech recognition. Acoustics, Speech and Signal Processing, 1998. Proceedings of the 1998 IEEE International Conference, vol. 1, pp. 1-4. [59] Gelfer, Marylou Pausewang, and Victoria A. Mikos (2005) The relative contributions of speaking fundamental frequency and formant frequencies to gender identification based on isolated vowels. Journal of Voice, vol. 19, no. 4, pp. 544-554. [60] Glass, James R (2003) A probabilistic framework for segment-based speech recognition. New Computational Paradigms for Acoustic Modeling in Speech Recognition, Computer, Speech and Language, vol. 17, no. (2–3), pp. 137–152. [61] Godfrey, J. J., Holliman, E. C., & McDaniel, J. (1992) SWITCHBOARD: Telephone speech corpus for research and development. In Acoustics, Speech, and Signal Processing IEEE, vol. 1, pp. 517-520. [62] Goel, V., Kumar, S., & Byrne, W. (2000) Segmental minimum Bayes-risk ASR voting strategies. INTERSPEECH, pp. 139-142. [63] Gold, B. and N. Morgan (2000) Speech and Audio Signal Processing. New York John Wiley & Sons. [64] Graves, A., Mohamed, A. R., & Hinton, G. (2013) Speech recognition with deep recurrent neural networks. In Acoustics, speech and signal processing (icassp), IEEE International Conference, pp. 6645-6649. [65] H. Tang, and A. A. Ghorbani (2003) Accent classification using Support Vector Machine and Hidden Markov Models. Proceedings 16th Canadian conference on Artificial Intelligence AI‘03, pp. 629-631. [66] Hagiwara, Robert (1997) Dialect variation and formant frequency: The American English vowels revisited. The Journal of the Acoustical Society of America, vol. 102, no. 1, pp. 655-658. 141 [67] Hakkani-Tür, D., Béchet, F., Riccardi, G., & Tur, G. (2006) Beyond ASR 1-best: Using word confusion networks in spoken language understanding. Computer Speech & Language, vol. 20, no. 4, pp. 495-514. [68] Hanani, Abualsoud, Martin J. Russell, and Michael J. Carey (2013) Human and computer recognition of regional accents and ethnic groups from British English speech. Computer Speech & Language, vol. 27, no. 1, pp. 59-74. [69] Haykin, Simon S (2001) Neural networks: a comprehensive foundation, 2nd ed. Tsinghua University Press. [70] Hermansky, H. (1990) Perceptual linear predictive analysis of speech. Journal of the Acoustical Society of America, vol. 87(4), pp. 1738–1752. [71] Hillenbrand, J., Getty, L. A., Clark, M. J., & Wheeler, K. (1995) Acoustic characteristics of American English vowels. The Journal of the Acoustical society of America, vol. 97, no. 5, pp. 3099-3111. [72] Hillenbrand, James M., and Michael J. Clark (2009) The role of f 0 and formant frequencies in distinguishing the voices of men and women. Attention, Perception, & Psychophysics, vol. 71, no. 5, pp. 1150-1166. [73] Hirayama N., Yoshino K., Itoyama K., Mori S., Okuno, H.G (2015) Automatic Speech Recognition for Mixed Dialect Utterances by Mixing Dialect Language Models. Audio, Speech, and Language Processing, IEEE/ACM Transactions, vol. 23, no. 2, pp. 373 - 382. [74] Huang, X. D. and K.-F. Lee (1993) On speaker-independent, speaker-dependent and speaker adaptive speech recognition. IEEE Transactions on Speech and Audio Processing, vol. 1(2), pp. 150–157. [75] Huang, X. D., A. Acero, and H. Hon (2001) Spoken Language Processing - A Guide to Theory, Algorithms, and System Development. Prentice Hall, Upper Saddle River, NJ. [76] J. K. BAKER (1974) Stochastic Modeling as a Means of Automatic Speech Recognition. Ph. D.dissertation, Carnegie-Mellon Univ. [77] J. K. Chambers and P. Trudgill (1998) Dialectology, chapter one, 2nd ed. Cambridge University press. [78] J. Li, T. F. Zheng, W. Byrne, and D. Jurafsky (2006) A dialectal chinese speech recognition framework. Journal of Computer Science and Technology, vol. 21, no. 1, pp. 106-115. [79] Jacewicz, Ewa, and Robert Allen Fox (2015) The effects of dialect variation on speech intelligibility in a multitalker background. Applied Psycholinguistics, vol. 36, no. 3, pp. 729-746. [80] Jean-Franҫois Bonastre, Frédéric Wils (2005) ALIZE, A FREE TOOLKIT FOR SPEAKER RECOGNITION. IEEE International Conference, pp. I 737 - I 740. [81] Jean-Luc Rouas (2007) Automatic prosodic variations modelling for language and dialect discrimination. IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 6, pp. 1904-1911. [82] Jelinek, F. (1976) Continuous speech recognition by statistical methods. Proceedings of the IEEE, vol. 64(4), pp. 532–557. [83] Jelinek, Frederick (1969) A fast sequential decoding algorithm using a stack. IBM Journal of Research and Development, vol. 13, no. 6, pp. 675–685. [84] JING, Y. P., ZHENG, J., & HU, W. X. (2014) Belongingness of Chinese dialect speech recognition based on deep neural network. Journal of East China Normal University (Natural Science), vol. 1, p. 008. 142 [85] John C. Platt (1998) Microsoft Research, jplatt@microsoft.com, Technical Report MSR-TR-98-14,April 21, 1998.. [86] Juang, B. H. (1984) On the hidden Markov model and dynamic time warping for speech recognition - A unified view. Bell Labs Technical Journal, vol. 63, no. 7, pp. 1213-1243. [87] Juang, B. H. (1985) Maximum-likelihood estimation for mixture multivariate stochastic observations of Markov chains. AT&T technical journal, vol. 64, no. 6, pp. 1235-1249. [88] Juang, B. H., Levinson, S., & Sondhi, M. (1986) Maximum likelihood estimation for multivariate mixture observations of Markov chains (corresp.). IEEE Transactions on Information Theory, vol. 32, no. 2, pp. 307-309. [89] Kingsbury, N. G., & Rayner, P. J. (1971) Digital Filtering Using Logarithmic Arithmetic. Electronics Letters, vol. 7, no. 2, pp. 56-58. [90] Kumar, N. and A. Andreou (1998) Heteroscedastic analysis and reduced rank HMMs for improved speech recognition. Speech Communication, vol. 26(4), pp. 283–297. [91] L. Mangu, E. Brill, and A. Stolcke (2000) Finding consensus among words: Latticebased word error minimisation. Computer Speech and Language, vol. 14, no. 4, pp. 373–400. [92] L. R. Rabiner, B.-H. Juang, S. E. Levinson, and M. M. Sondhi (1985) Recognition of isolated digits using HMMs with continuous mixture densities. AT and T Technical Journal, vol. 64, no. 6, pp. 1211-1233. [93] L.E. Baum, T. Petrie (1966) Statistical Inference for Probabilistic Functions of Finite State Markov Chains. Annals of Math. Statistics, vol. 37, pp. 1,554-1,563. [94] Lee, Chin-Hui, Frank K. Soong, and Kuldip Paliwal, eds (2012) Automatic speech and speaker recognition: advanced topics. Springer Science & Business Media, vol. 355. [95] Lee, Kai-Fu (1988) Automatic Speech Recognition: The Development of the Sphinx Recognition System. Berlin, Germany Springer Science & Business Media, vol. 62. [96] Leggetter C. and P. Woodland (1995) Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Computer Speech and Language., ch. 9, pp. 171–185. [97] Levinson, S. E., Rabiner, L. R., & Sondhi, M. M. (1983) An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition. The Bell System Technical Journal, vol. 62, no. 4, pp. 1035-1074. [98] Liu, Gang A., and John HL Hansen (2011) A systematic strategy for robust automatic dialect identification. 19th European Signal Processing Conference, pp. 138-2141. [99] Lopez-Moreno, I., Gonzalez-Dominguez, J., Plchot, O., Martinez, D., Gonzalez- Rodriguez, J., & Moreno, P. (2014) Automatic language identification using deep neural networks. In Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference, pp. 5337-5341. [100] Luo, X., & Jelinek, F. (1999) Probabilistic classification of HMM states for large vocabulary continuous speech recognition. In Acoustics, Speech, and Signal Processing, 1999. Proceedings., 1999 IEEE International Conference on, pp. 353- 356. 143 [101] M. Gales and S. Young (2007) The Application of Hidden Markov Models in Speech Recognition. Foundations and Trends in Signal Processing, vol. 1, no. 3, pp. 195-304. [102] Ma, Bin, Donglai Zhu, and Rong Tong (2006) Chinese Dialect Identification Using Tone Features Based On Pitch. 2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings, vol. 1, pp. I-I. [103] Mannepalli, Kasiprasad, P. Nrahari Sastry, and V. Rajesh (2015) Accent detection of Telugu speech using prosodic and formant features. Signal Processing And Communication Engineering Systems (SPACES), 2015 International Conference on. IEEE, pp. 318-322. [104] Martin, Alvin, et al (1997) The DET curve in assessment of detection task performance. National Inst. Of Standards and Technology Gaithersburg Md. [105] Martin, S., Liermann, J., & Ney, H. (1998) Algorithms for bigram and trigram word clustering. Speech communication, vol. 24, no. 1, pp. 19-37. [106] Matsoukas, S., Gauvain, J. L., Adda, G., Colthurst, T., Kao, C. L., Kimball, O.,. & Nguyen, L. (2006) Advances in transcription of broadcast news and conversational telephone speech within the combined EARS BBN/LIMSI system. IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 5, pp. 1541- 1556. [107] McCowan, I. A., Moore, D., Dines, J., Gatica-Perez, D., Flynn, M., Wellner, P., & Bourlard, H. (2004) On the use of information retrieval measures for speech recognition evaluation. No. EPFL-REPORT-83156,. [108] Mehrabani, M., Bořil, H., & Hansen, J. H (2010) Dialect distance assessment method based on comparison of pitch pattern statistical models. Acoustics Speech and Signal Processing (ICASSP), IEEE International Conference, pp. 5158-5161. [109] Mohamed BELGACEM, Georges ANTONIADIS, Laurent BESACIER (2010) Automatic Identification of Arabic Dialects. International Conference on Language Resources and Evaluation (LREC), MALTA, pp. 17-23. [110] Mohri, M., Pereira, F., & Riley, M. (2002) Weighted finite-state transducers in speech recognition. Computer Speech & Language, vol. 16, no. 1, pp. 69-88. [111] Morgan, N., Q. Zhu, A. Stolcke, K. Sonmez, S. Sivadas, T. Shinozaki, M. Ostendorf, P. Jain, H. Hermansky, D. Ellis, G. Doddington, B. Chen, O. Cetin, H. Bourlard, and M. Athineos (2005) Pushing the envelope-Aside. IEEE Signal Processing Magazine, pp. 22, 81–88. [112] Nagy, N., Zhang, X., Nagy, G., & Schneider, E. W. (2006) Clustering dialects automatically: A mutual information approach. University of Pennsylvania Working Papers in Linguistics, vol. 12, no. 2, p. 12. [113] Navia-Vázquez, A., Pérez-Cruz, F., Artes-Rodriguez, A., & Figueiras-Vidal, A. R (2001) Weighted least squares training of support vector classifiers leading to compact and adaptive schemes. IEEE Transactions on Neural Networks, vol. 12, no. 5, pp. 1047-1059. [114] Ney, Hermann (1984) The use of a one-stage dynamic programming algorithm for connected word recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32(2), pp. 263–271. [115] Nguyen Hong Quang, P. Nocera, E. Castelli, Trinh Van Loan (2008) A Novel Approach in Continuous Speech Recognition for Vietnamese, an Isolating Tonal Language. Proceedings of the INTERSPEECH, Brisbane, Australia, pp. 1149- 1152. 144 [116] Nguyen Hong Quang, P. Nocera, E. Castelli, Trinh Van Loan (2008) Large Vocabulary Continuous Speech Recognition for Vietnamese, a Under-resourced Language. Proceedings of the 1st International Workshop on Spoken Languages Technologies for Under-resourced Languages (SLTU-2008), Hanoi, Vietnam, pp. 23-26. [117] Nguyen Hong Quang, P. Nocera, E. Castelli, Trinh Van Loan (2008) Tone recognition of Vietnamese continuous speech using hidden Markov model. Proceedings of the 2nd International Conference on Communication and Electronics, Hoi An, Vietnam, pp. 235-238. [118] Nguyen Hong Quang, P. Nocera, E. Castelli,Trinh Van Loan (2008) Reconnaissance de la parole continue à grand vocabulaire en vietnamien, une langue syllabique tonale. Actes des XXVIIes Journée d’Etude sur la Parole, Avignon, France, pp. 281-284. [119] Nguyen Hong Quang, Pascal Nocera and Eric Castelli (2008) Tone Recognition of Vietnamese Continuous Speech Using Hidden Markov Model. Communications and Electronics, 2008. ICCE 2008. Second International Conference on. IEEE, pp. 235-239. [120] Nguyễn Phú Bình, Trịnh Văn Loan (2006) Vietnamese Speech Recognition using Subword Models and Test Experiments for Comparing Some Methods of Vietnamese Recognition. Proceedings of the 3rd National Symposium on Research, Developpment and Application of Information and Communication Technology (ICT.rda’06), Hanoi-Vietnam, pp. 187-196. [121] Nguyễn Phú Bình, Trịnh Văn Loan, E. Castelli (2003) Real-time system for Vietnamese isolated word recognition. Kỷ yếu Hội thảo khoa học Quốc gia lần thứ nhất về nghiên cứu, phát triển và ứng dụng Cơng nghệ Thơng tin và truyền thơng ICT.rda, Hà Nội, pp. 310-316. [122] Nguyen Quoc Cuong, Pham Thi Ngoc and Castelli, E. (2001) Shape vector characterization of Vietnamese tones and application to automatic recognition. Automatic Speech Recognition and Understanding – ASRU'01 IEEE Workshop on, Italy, pp. 437-440. [123] Odell, J. J., Valtchev, V., Woodland, P. C., & Young, S. J. (1994) A one pass decoder design for large vocabulary recognition. In Proceedings of the workshop on Human Language Technology, pp. 405-410. [124] Ondřej Plátek (2014) Speech recognition using KALDI. MASTER THESIS, Charles University in Prague Faculty of Mathematics and Physics. [125] Ortmanns, S., Ney, H., & Aubert, X. (1997) A word graph algorithm for large vocabulary continuous speech recognition. Computer Speech & Language, vol. 11, no. 1, pp. 43-72. [126] Osuna, E., Freund, R., Girosi, F. (1997) An Improved Training Algorithm for Support Vector Machines. IEEE NNSP '97, pp. 276-285. [127] Pallett, D., Fiscuss, J., Garofolo, J., Martin, A., & Przybocki, M. (1999) 1998 broadcast news benchmark test results: English and non-English word error rate performance measures. In Proc. DARPA Broadcast News Workshop, pp. 5-12. [128] Paul, D. B. (1991) Algorithms for an optimal A* search and linearizing the search in the stack decoder. In Acoustics, Speech, and Signal Processing, pp. 693-696. [129] Peterson, G. E., & Barney, H. L. (1952) Control methods used in a study of the vowels. The Journal of the acoustical society of America, vol. 24, no. 2, pp. 175- 184. 145 [130] Platt, John C (1999) Fast Training of Support Vector Machines. Advances in kernel methods, pp. 185-208. [131] Povey, B., Kingsbury, L. Mangu, G. Saon, H. Soltau, and G. Zweig (2005) FMPE: Discriminatively trained features for speech recognition. Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, Philadelphia, PA, pp. 961-964. [132] Povey, D., Kanevsky, D., Kingsbury, B., Ramabhadran, B., Saon, G., & Visweswariah, K. (2008) Boosted MMI for model and feature-space discriminative training. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 4057-4060. [133] Quinlan, J. R. (1993) C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers. [134] Rabiner, L. and B. Juang (1993) Fundamentals of Speech Recognition. Prentice Hall, Englewood Cliffs, NJ. [135] Rao, K. S. (2011) Role of neural network models for developing speech systems. Sadhana, vol. 36, no. 5, pp. 783-836. [136] Rao, K. S., & Koolagudi, S. G. (2011) Identification of Hindi dialects and emotions using spectral and prosodic features of speech. IJSCI: International Journal of Systemics, Cybernetics and Informatics, vol. 9, no. 4, pp. 24-33. [137] Richardson, F., Ostendorf, M., & Rohlicek, J. R. (1995) Lattice-based search strategies for large vocabulary speech recognition. In Acoustics, Speech, and Signal Processing. ICASSP-95., 1995 International Conference, pp. 576-579. [138] Rosenberg, A., C. H. Lee, and F. K. Soong (1994) Cepstral channel normalization techniques for HMMbased speaker verification. Proceedings of the International Conference on Acoustics. Speech, and Signal Processing, Adelaide, SA, pp. 1835– 1838. [139] S. Furui (1986) Speaker independent isolated word recognition using dynamic features of. IEEE Transactions ASSP, vol. 34, pp. 52–59. [140] S. J. Young and L. L. Chase (1998) Speech recognition evaluation: A review of the US CSR and LVCSR programmes. Computer Speech and Language, vol. 12, no. 4, pp. 263-279. [141] Sak, H., Senior, A. W., & Beaufays, F. (2014) Long short-term memory recurrent neural network architectures for large scale acoustic modeling. In Interspeech, pp. 338-342. [142] Sakoe, Hiroaki, and Seibi Chiba (1971) A dynamic programming approach to continuous speech recognition. Proceedings of the 7th International Congress on Acoustics, vol. 3, Budapest, Hungary, pp. 65–69. [143] Saon, G., & Povey, D. (2008) Penalty function maximization for large margin HMM training. INTERSPEECH, pp. 920-923. [144] Shen, W., Chen, N. F., & Reynolds, D. A. (2008) Dialect recognition using adapted phonetic models. In Interspeech , pp. 763-766. [145] Shweta Sinha (2015) Analysis and Recognition of Dialects of Hindi Speech. International Journal of Scientific Research in Multidisciplinary Studies, vol. 1, no. 1, pp. 26-33. [146] Shweta Sinha, Aruna Jain, S. S. Agrawal (2015) Acoustic-Phonetic Feature Based Dialect Identification in Hindi Speech. International Journal on Smart Sensing & Intelligent Systems, vol. 8, no. 1, pp. 235-254. [147] Simon Haykin (2005) Neuron Networks A Comprehensive Foundation, 2nd ed. 146 McMaster University Hamilton. [148] Sinha, S., Jain, A., & Agrawal, S. S. (2014) Speech Processing for Hindi Dialect Recognition. Advances in Signal Processing and Intelligent Recognition Systems. Springer International Publishing., pp. 161-169. [149] Sittichok Aunkaew, Montri Karnjanadecha, Chai Wutiwiwatchai (2013) Development of a Corpus for Southern Thai Dialect Speech Recognition: Design and Text Preparation. The 10th International Symposium on Natural Language Processing, Phuket, Thailand. [150] Solera-Uređa, R., Padrell-Sendra, J., Martín-Iglesias, D., Gallardo-Antolín, A., Peláez-Moreno, C., & Díaz-de-María, F. (2007) SVMs for Automatic Speech Recognition: A Survey. Progress in nonlinear speech processing, pp. 190-216. [151] Soltau, H., Kingsbury, B., Mangu, L., Povey, D., Saon, G., & Zweig, G. (2005) The IBM 2004 conversational telephony system for rich transcription. In Acoustics, Speech, and Signal Processing, 2005. Proceedings.(ICASSP'05). IEEE International, Philadelphia, PA, pp. I-205. [152] Song, Y., Cui, R., Hong, X., Mcloughlin, I., Shi, J., & Dai, L. (2015) Improved language identification using deep bottleneck network. In Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference, pp. 4200-4204. [153] Stantic, Dejan, and Jun Jo (2012) Accent Identification by Clustering and Scoring Formants. World Academy of Science, Engineering and Technology, International Journal of Computer, Electrical, Automation, Control and Information Engineering, vol. 6, no. 3, pp. 379-384. [154] Stolcke, A., Zheng, J., Wang, W., & Abrash, V. (2011) SRILM at sixteen: Update and outlook. IEEE Automatic Speech Recognition and Understanding Workshop, vol. 5. [155] T.T. Vu, D.T. Nguyen, M.C. Luong, and J-P. Hosom (2005) Vietnamese large vocabulary continuous speech recognition. INTERSPEECH 2005, Lisbon, Portugal. [156] Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong and John-Paul Hosom (2006) Vietnamese Large Vocabulary Continuous Speech Recognition. Proceedings of Eurospeech, Lisboa. [157] Thompson, Henry (1990) Best-first enumeration of paths through a lattice - An active chart parsing solution. Computer Speech & Language, vol. 4, no. 3, pp. 263- 274. [158] Tommie Gannert (2007) A Speaker Verification System under the Scope: Alize. Stockholm, Sweden School of Computer Science and Engineering. [159] Torres-Carrasquillo, P. A., Gleason, T. P., and Reynolds, D. A. (2004) Dialect Identification Using Gaussian Mixture Models. Odyssey: The Speaker and Language Recognition Workshop, pp. 297-300. [160] Torres-Carrasquillo, P. A., Singer, E., Kohler, M. A., Greene, R. J., Reynolds, D. A., and Deller Jr., J. R. (2002) Approaches to Language Identification Using Gaussian Mixture Models and Shifted Delta Cepstral Features. International Conference on Spoken Language Processing, Denver, CO, ISCA, pp. 33-36, 82-92. [161] Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc (2004) Xây dựng cơ sở dữ liệu lớn về tiếng nĩi cho tiếng Việt. Tạp chí Khoa học và Cơng nghệ các trường đại học kỹ thuật, vol. 46+47, pp. 13-17. [162] Trần Thị Ngọc Lang (1995) Phương ngữ Nam Bộ. Những khác biệt về từ vựng - ngữ nghĩa so với phương ngữ Bắc Bộ. NXB Khoa học Xã hội. 147 [163] Trịnh Văn Loan, Nguyễn Nam Hà, Phạm Việt Hà (1999) Determining characteristics of Vietnamese non-accent vowels. Post and telecommunication Journal, Special issue: R&D on telecommunication and IT, vol. 2, pp. 77-82. [164] Tuan Vu Hai, Kris Demuynck and Dirk Van Compernolle Vietnamese Automatic Speech Recognition: the FLaVoR Approach. International Symposium on Chinese Spoken Language Processing, Singapore, p. 2006. [165] V.B. Le, D.D. Tran, E. Castelli, L. Besacier, and J-F. Serignat (2004) Spoken and written language resources for vietnamese. LREC 2004, vol. II, Lisbon, Portugal, pp. 599–602. [166] Vapnik, Vladimir Naumovich (1982) Estimation of dependences based on empirical data. New York Springer-Verlag, vol. 40. [167] Vijayarani, S., & Muthulakshmi, M. (2013) Comparative analysis of bayes and lazy classification algorithms. International Journal of Advanced Research in Computer and Communication Engineering, vol. 2, no. 8, pp. 3118-3124. [168] Vintsyuk, Taras K. (1968) Speech discrimination by dynamic programming. Cybernetics and Systems Analysis, vol. 4(1), pp. 52-57. [169] Viterbi, A. (1967) Error bounds for convolutional codes and an asymptotically optimum. IEEE transactions on Information Theory, vol. 13, no. 2, pp. 260-269. [170] Viterbi, Andrew (1967) Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. IEEE Transactions on Information Theory, vol. 13(2), pp. 260–269. [171] Võ Xuân Trang (1997) Phương ngữ Bình Trị Thiên. Nhà xuất bản Khoa học xã hội. [172] Vu, Quan, Kris Demuynck, and Dirk Van Compernolle (2006) Vietnamese automatic speech recognition: the FLaVoR approach. ISCSLP 2006, Kent Ridge, Singapore. [173] W. Labov (1972) Sociolinguistic Patterns. Philadelphia: University of Pennsylvania. [174] W. Labov, C. Boberg, and B. Sharon (2006) The Atlas of North American English. Walter de Gruyter. [175] Wang, Y., M. Mahajan, and X. Huang (2000) A unified context-free grammar and n-gram model for spoken language processing. Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, vol. 3, Istanbul, Turkey, pp. 1639-1642. [176] Witten, Ian H., and Eibe Frank (2005) Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann. [177] Woodland, P. C., Gales, M. J. F., Pye, D., & Young, S. J. (1997) The development of the 1996 HTK broadcast news transcription system. DARPA speech recognition workshop, pp. 73-78. [178] Xuedong Huang and Li Deng (2010) Handbook of Natural Language Processing, Fred J. Damerau Nitin Indurkhya, Ed. Chapman and Hall/CRC, vol. 2. [179] Xuedong Huang, Alejandro Acero, Hsiao-Wuen Hon (2010) Spoken language processing. Prentice Hall Ptr. [180] Young, S. J., Odell, J. J., & Woodland, P. C. (1994) Tree-based state tying for high accuracy acoustic modelling. In Proceedings of the workshop on Human Language , pp. 307-312. [181] Young, S. J., Russell, N. H., & Thornton, J. H. S. (1989) Token passing: a simple conceptual model for connected speech recognition systems. Cambridge, UK Cambridge University Engineering Department. 148 [182] Young, S. J., Russell, N. H., & Thornton, J. H. S. (1991) The use of syntax and multiple alternatives in the VODIS voice operated database inquiry system. Computer Speech & Language, vol. 5, no. 1, pp. 65-80. [183] Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X.,. & Valtchev, V. (2002) The HTK book, 175th ed., 3, Ed. Cambridge university engineering department. [184] Yusnita, M. A., et al (2013) Acoustic analysis of formants across genders and ethnical accents in Malaysian English using ANOVA. Procedia Engineering 64, pp. 385-394. [185] Zissman, M. A., Gleason, T. P., Rekart, D. M., & Losiewicz, B. L. (1996) Automatic dialect identification of extemporaneous conversational, Latin American Spanish speech. In Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., pp. 777-780. 149 DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN 1. Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, Trần Xuân Thương (2011) Một phương pháp lựa chọn nhanh tham số cho hệ thống nhận dạng tiếng nĩi tiếng Việt. Tạp chí Nghiên cứu khoa học và cơng nghệ quân sự, Số 16 năm 2011 (tháng 12), ISSN 1859-1043, trang 169-178. 2. Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, Đào Thị Thu Diệp (2012) Cải thiện hiệu năng của hệ thống nhận dạng tiếng Việt nĩi bằng phương pháp lưới từ hậu nghiệm. Tạp chí Nghiên cứu khoa học và cơng nghệ quân sự, Số đặc san ACEIT’12 năm 2012 (tháng 11), ISSN 1859-1043, trang 25-32 3. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang (2013) Một hướng tiếp cận dựa trên tần số cơ bản để phân biệt phương ngữ tiếng Việt theo phương thức phát âm. Kỷ yếu Hội nghị Quốc gia lần thứ VI về Nghiên cứu cơ bản và ứng dụng Cơng nghệ thơng tin (FAIR) - Huế, ngày 20 – 21/6/2013, ISBN: 978-604-913-165- 3, trang 265-269. 4. Diep Dao Thi Thu, Loan Trinh Van, Quang Nguyen Hong, Hung Pham Ngoc (2013) Text-dependent Speaker Recognition for Vietnamese. 2013 Fixfth International Conference of Soft Computing and Pattern Recognition (SoCPaR 2013), Hanoi, Vietnam, 15-18 December 2013, pp. 203-206, ISBN 978-1-4799- 3400-3, IEEE Catalog Number: CFP1395H-ART. 5. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Phạm Quốc Hùng (2014) Nhận dạng phương ngữ tiếng Việt sử dụng mơ hình Gauss hỗn hợp. Kỷ yếu Hội nghị Quốc gia lần thứ VII về Nghiên cứu cơ bản và ứng dụng Cơng nghệ thơng tin (FAIR) – Thái Nguyên, ngày 19-20/6/2014, ISBN: 978-604-913-300-8, trang 449-552. 6. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang (2015) Nhận dạng phương ngữ tiếng Việt sử dụng MFCC và tần số cơ bản. Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Cơng nghệ thơng tin (FAIR) – Hà Nội, 09-10/7/2015, ISBN: 978-604-913-397-8, trang 523-528. 7. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2015) Corpus and Statistical Analysis of F0 Variation for Vietnamese Dialect Identification. The 3rd International Conference on Computer and Computing Science Proceedings, Hanoi, Vietnam, October 22-24, 2015. ISSN: 2287-1233 ASTL, Vol.111 (COMCOMS 2015), pp.205-210. 8. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2015) “Building of corpus for Vietnamese dialect identification”, Journal of Science and Technology Technical Universities, No.109-2015. ISSN 2354-1083, pp.49-55. 9. Nguyễn Hồng Quang, Phạm Ngọc Hưng, Trịnh Văn Loan, Phạm Quốc Hùng (2016) “So sánh một số bộ phân lớp dùng cho nhận dạng phương ngữ tiếng Việt”. Kỷ yếu Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Cơng 150 nghệ thơng tin (FAIR) – Cần Thơ, 4-5/8/2016. ISBN: 978-604-913-472-2, trang 663-667. 10. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Trần Vũ Duy (2016) “Cải thiện hiệu năng hệ thống nhận dạng tiếng việt với thơng tin về phương ngữ”. Kỷ yếu Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Cơng nghệ thơng tin (FAIR) – Cần Thơ, 4-5/8/2016. ISBN: 978-604-913-472-2, trang 63-69. 11. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2016) “Automatic identification of Vietnamese dialects”. Journal of Computer Science and Cybernetics, V.32, N.1 (2016), 18-29, DOI: 10.15625/1813-9663/32/1/7905. 12. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2016) “Statistical Analysis of Vietnamese Dialect Corpus and Dialect Identification Experiments”. International Journal of Scientific Engineering and Applied Science (IJSEAS) – Volume-2, Issue-8, August 2016, ISSN: 2395-3470, pp. 255-266.

Các file đính kèm theo tài liệu này:

luan_an_nhan_dang_tu_dong_tieng_noi_phat_am_lien_tuc_cho_cac.pdf