Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ việt-Anh bằng kỹ thuật back-translation và lựa chọn thích nghi

Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 23 PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT BACK - TRANSLATION VÀ LỰA CHỌN THÍCH NGHI Đặng Thanh Quyền1*, Nguyễn Chí Thành1, Nguyễn Phương Thái2 Tóm tắt: Dịch ngược (Back-translation - BT) đã được sử dụng rộng rãi và trở thành một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron (Neural Machine Translati

10 trang | Chia sẻ: huongnhu95 | Lượt xem: 386 | Lượt tải: 0

Tóm tắt tài liệu Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ việt-Anh bằng kỹ thuật back-translation và lựa chọn thích nghi, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

on - NMT). Việc sử dụng BT đã được chứng minh là có hiệu quả trong việc cải thiện hiệu suất dịch thuật, đặc biệt đối với các trường hợp tài nguyên hạn chế. Hiện nay, phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các ngôn ngữ châu Âu, chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác trên thế giới. Trong bài báo này, chúng tôi nghiên cứu, áp dụng BT để tăng chất lượng dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức. Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn luyện ban đầu. Trong khi đó, việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm 0.8 điểm BLEU. Từ khóa: Back-translation; Dịch máy thống kê; Tăng cường dữ liệu. 1. ĐẶT VẤN ĐỀ Dữ liệu huấn luyện có vai trò quan trọng quyết định chất lượng các hệ thống học máy, hệ thống học máy thực sự hiệu quả khi chúng ta có lượng dữ liệu đủ lớn để máy học, tuy nhiên, trong nhiều trường hợp, dữ liệu đã gán nhãn để máy học rất hạn chế. Việc gia tăng dữ liệu huấn luyện bằng cách bổ sung dữ liệu giả lập đã được quan tâm và áp dụng trong nhiều mô hình học máy khác nhau. Trong học máy cho nhận dạng hình ảnh, có thể áp dụng các phương pháp biến đổi ảnh từ ảnh ban đầu (xoay ảnh, lật ảnh, thay đổi độ tương phản,...) để làm phong phú hơn kho dữ liệu huấn luyện. Đối với dịch máy, việc nâng cao chất lượng dữ liệu huấn luyện song ngữ phục vụ huấn luyện đã và đang được quan tâm nghiên cứu nhằm mang lại những hệ thống dịch máy tốt hơn bên cạnh việc nghiên cứu cải tiến và áp dụng mô hình mới. Trong các phương pháp làm giàu ngữ liệu song ngữ, dịch ngược được sử dụng rộng rãi với nhiều phương pháp sinh dữ liệu giả lập khác nhau, ý tưởng của dịch ngược rất đơn giản: câu trong ngôn ngữ ban đầu được dịch sang câu trong một ngôn ngữ trung gian, sau đó lại được dịch về câu trong ngôn ngữ ban đầu, do sự phong phú của ngôn ngữ, cũng như khả năng của các hệ thống dịch máy, câu thu được sau khi dịch ngược thường khác (về mặt hình thức) so với câu ban đầu. Đối với các ngôn ngữ nhiều tài nguyên, dịch ngược được áp dụng cho cả phía nguồn và phía đích, toàn bộ câu thu được sau khi dịch ngược được thêm vào dữ liệu huấn luyện, tuy nhiên, đối với các ngôn ngữ có tài nguyên hạn chế (ví dụ tiếng Việt), chúng tôi đã thử nghiệm và thấy rằng việc bổ sung toàn bộ dữ liệu sau khi dịch ngược có thể làm cho hệ thống dịch kém đi, do đó, cần phải có phương pháp lựa chọn ra những câu “tốt” để bổ sung làm giàu dữ liệu huấn luyện song ngữ. Các phương pháp lựa chọn câu thường được sử dụng Công nghệ thông tin 24 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.” là: lựa chọn câu đầu vào cho hệ thống BT nhằm tăng khả năng dịch trong miền (domain adaptation) dựa trên sự khác biệt về cross-entropy để lựa chọn câu “trong miền” [1] sau đó đưa vào dịch ngược nhằm tăng thêm số lượng câu trong miền quan tâm [2], trong [3], các tác giả đề xuất các chiến lược lựa chọn câu dựa trên sự đánh giá về khả năng “mất” các từ khó dự đoán trong khi dịch, từ đó lựa chọn các câu để dịch ngược phù hợp với mục đích giúp hệ thống dịch máy dự đoán tốt hơn cho các từ “khó” này. Có thể thấy rằng, các phương pháp lựa chọn câu thường tập trung vào việc lựa chọn câu trước khi đưa vào dịch ngược, điều này phù hợp với những ngôn ngữ giàu tài nguyên, đối với các ngôn ngữ có tài nguyên hạn chế, phương pháp lựa chọn này không khả thi. Trong bài báo này, chúng tôi đề xuất một phương pháp lựa chọn câu sau khi đã thực hiện dịch ngược nhằm làm tăng số lượng (và chất lượng) dữ liệu huấn luyện, từ đó làm tăng chất lượng của hệ thống dịch máy thống kê. Mô hình của hệ thống được mô tả trong hình 1. Chúng tôi cũng tiến hành thử nghiệm với các phương án lựa chọn câu khác nhau từ đó cho thấy việc áp dụng dịch ngược với phương án lựa chọn câu phù hợp có thể làm tăng chất lượng của hệ thống dịch máy thống kê. Các đóng góp mới của nghiên cứu này bao gồm: 1. Áp dụng kỹ thuật BT để tăng cường dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh. 2. Đề xuất 02 phương pháp lựa chọn dữ liệu thích nghi sau khi áp dụng kỹ thuật BT để nâng cao chất lượng dữ liệu huấn luyện cho dịch máy thống kê. Hình 1. Mô hình tăng cường dữ liệu đề xuất. 2. CÁC NGHIÊN CỨU LIÊN QUAN Trong phần này, chúng tôi sẽ giới thiệu một số nghiên cứu về dịch ngược và dịch máy Việt-Anh. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 25 2.1. Dịch ngược Năm 2016, dịch ngược được Sennrich và các cộng sự [4] sử dụng lần đầu tiên cho NMT và đã cho thấy hiệu quả đáng kể trong việc cải thiện hiệu suất dịch thuật. Đặc biệt trong trường hợp dữ liệu song ngữ hạn chế, BT được sử dụng rộng rãi để tận dụng dữ liệu đơn ngữ làm giàu dữ liệu huấn luyện. Gibadullin và cộng sự [5] thực hiện một nghiên cứu tổng quan về việc tận dụng dữ liệu đơn ngữ trong NMT. Gần đây đã có nhiều nghiên cứu chứng minh việc sử dụng BT có tác động tốt hơn đến hiệu suất NMT. Năm 2017, Park và cộng sự [6] đã xây dựng mô hình NMT chỉ sử dụng dữ liệu song ngữ tổng hợp từ cả ngôn ngữ nguồn và ngôn ngữ đích. Năm 2018, Edunov và các cộng sự [7] đã nghiên cứu một số phương pháp để tạo ra các câu nguồn tổng hợp và các ảnh hưởng tương ứng của chúng trong NMT. Poncelas và các cộng sự [8] đã xây dựng lộ trình thực nghiệm để đánh giá lượng dữ liệu BT ảnh hưởng đến hiệu suất của hệ thống cuối cùng, họ tiếp tục nghiên cứu thêm các yếu tố của dữ liệu BT trong các phương pháp khác nhau: dịch máy thống kê (Statistical Machine Translation - SMT) và NMT [9]. Nghiên cứu của Cong Duy Vu Hoang và các cộng sự [10] chỉ ra rằng việc huấn luyện BT lặp lại nhiều lần có thể mang lại hiệu quả cho hệ thống dịch máy. Nghiên cứu này cũng chỉ ra rằng chất lượng của hệ thống dịch máy được sử dụng trong quá trình BT có ý nghĩa quan trọng trong việc nâng cao chất lượng bộ dữ liệu huấn luyện, từ đó nâng cao chất lượng hệ thống dịch máy. Mặc dù BT rất hữu ích, nghiên cứu của Stahlberg [11] và một số tác giả khác cũng cho thấy hiệu suất sẽ giảm sau khi kích thước của dữ liệu BT đạt đến giới hạn nhất định. BT được nghiên cứu và thử nghiệm trên rất nhiều cặp ngôn ngữ khác nhau, trong đó việc sinh ra dữ liệu giả lập để làm giàu dữ liệu huấn luyện được thực hiện bằng các cách khác nhau: - Sử dụng các phương pháp khác nhau trong quá trình giải mã (decode) dữ liệu (beam search, TopK probability search, Sampling probability search,...) - Lựa chọn dữ liệu đơn ngữ để đưa vào huấn luyện BT: theo chủ đề, theo độ dài câu, theo số lượng từ hiếm trong dữ liệu huấn luyện, lựa chọn ngẫu nhiên theo một phép phân tích và ước lượng,... - Dữ liệu giả lập được sinh ra trên các mô hình dịch khác nhau để thu được dữ liệu phong phú và đa dạng cũng như tận dụng được thế mạnh của các mô hình dịch khác. - Cách lựa chọn ngữ liệu giả lập để đưa vào dữ liệu huấn luyện song ngữ nhằm làm giàu dữ liệu huấn luyện để từ đó nâng cao chất lượng hệ thống dịch máy: Đưa toàn bộ ngữ liệu giả lập được sinh ra, lựa chọn theo độ dài câu,... 2.2. Dịch máy Việt-Anh Dịch máy thống kê được quan tâm và nghiên cứu cách đây hơn 20 năm, trong những năm gần đây, do xu hướng phát triển của thế giới, dịch máy đã chuyển dịch sang NMT, tuy nhiên, dịch máy thống kê vẫn có những thế mạnh như: đòi hỏi năng lực tính toán thấp, không đòi hỏi ngữ liệu huấn luyện nhiều,... bên cạnh đó, việc làm giàu dữ liệu huấn luyện cho hệ thống dịch máy hoàn toàn không phụ thuộc vào hệ thống dịch hay mô hình dịch. Kết quả nghiên cứu về dịch máy thống kê có thể kể đến một số nghiên cứu công bố trong hội nghị IWSLT2015 với kết quả còn hạn chế. Công nghệ thông tin 26 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.” Bảng 1. Kết quả công bố trong hội nghị IWSLT2015, tiểu ban dịch máy cho cặp ngôn ngữ Việt – Anh với bộ ngữ liệu song ngữ TED (iwslt2015). Phương pháp BLEU NIST TER PJAIT[12] 23.46 5.7314 62.20 UMD[13] 21.57 5.7831 59.19 JAIST[14] 21.53 5.6413 62.35 UNETI[15] 20.18 5.1443 66.33 TUT[16] 19.78 5.4559 62.69 BASELINE 24.61 5.9259 59.32 Mặc dù BT được coi là phương pháp hiệu quả để làm giàu dữ liệu huấn luyện song ngữ cho dịch máy trên các cặp ngôn ngữ tài nguyên hạn chế, tuy nhiên, ứng dụng cho dịch máy tiếng Việt chưa được đề cập và nghiên cứu. 3. PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU BẰNG BACK-TRANSLATION VÀ LỰA CHỌN DỮ LIỆU THÍCH NGHI Chúng tôi đề xuất một phương pháp tăng cường dữ liệu cho dịch máy thống kê cặp ngôn ngữ Việt-Anh sử dụng BT. Dữ liệu huấn luyện song ngữ ban đầu là dữ liệu huấn luyện song ngữ của cặp ngôn ngữ Việt-Anh. Sau khi thực hiện các bước dữ liệu sẽ được tăng cường, bổ sung thêm các cặp câu mới giúp nâng cao độ chính xác của mô hình dịch máy thống kê. Đối với các phương pháp tăng cường dữ liệu bằng BT thông thường, tất cả các dữ liệu được sinh ra bởi BT sẽ được đưa vào bổ sung cho bộ dữ liệu. Tuy nhiên, trong các dữ liệu được sinh ra bởi BT có thể có cả các dữ liệu có chất lượng kém làm ảnh hưởng đến chất lượng của mô hình dịch máy. Cải tiến ở phương pháp đề xuất là thêm vào một bước lựa chọn dữ liệu với ý tưởng là loại bỏ bớt các dữ liệu có chất lượng kém để nâng cao độ chính xác của mô hình dịch máy thống kê. Phương pháp tăng cường dữ liệu đề xuất bao gồm 3 bước như sau (minh họa trong sơ đồ ở hình 2). - Bước 1: Back-translation: Bước này sử dụng kỹ thuật BT để sinh ra các câu tiếng Anh có nghĩa tương đương từ danh sách câu tiếng Anh trong kho dữ liệu song ngữ ban đầu, giúp làm giàu thêm dữ liệu. Kỹ thuật BT gồm 2 bước. Đầu tiên, câu tiếng Anh được dịch sang một câu ngôn ngữ trung gian và sau đó, câu thu được lại được dịch ngược lại tiếng Anh để sinh ra câu tiếng Anh mới. Ngôn ngữ trung gian được lựa chọn cần có kho dữ liệu song ngữ (giữa ngôn ngữ đó và tiếng Anh) lớn để giúp cho mô hình dịch giữa tiếng Anh và ngôn ngữ trung gian có chất lượng tốt. Ví dụ có thể lựa chọn tiếng Đức làm ngôn ngữ trung gian vì dữ liệu huấn luyện song ngữ Anh-Đức có kích thước lớn, mô hình dịch máy huấn luyện sẵn cho kết quả cao [17]. Hình 3 minh họa việc sử dụng kỹ thuật BT với ngôn ngữ trung gian là tiếng Đức. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 27 - Bước 2: Lựa chọn dữ liệu: Các câu tiếng Anh mới được sinh ra sẽ được ghép cặp với các câu tiếng Việt tương ứng trong dữ liệu huấn luyện song ngữ ban đầu để thành một cặp câu song ngữ Việt-Anh. Việc áp dụng kỹ thuật BT giúp tăng số lượng dữ liệu huấn luyện cho mô hình học máy thống kê. Tuy nhiên, bên cạnh số lượng thì chất lượng dữ liệu cũng là một yếu tố rất quan trọng quyết định độ chính xác của các mô hình học máy. Việc bổ sung các dữ liệu chất lượng kém có thể dẫn tới làm giảm độ chính xác của mô hình học máy. Do đó, chúng tôi bổ sung thêm bước lựa chọn dữ liệu để loại bỏ bớt dữ liệu trước khi đưa vào huấn luyện bằng cách đề xuất hai phương pháp lựa chọn thích nghi dựa trên độ phức tạp (perplexity). Đầu ra của Bước 2 là dữ liệu huấn luyện song ngữ tăng cường, bao gồm các cặp câu song ngữ Việt-Anh mới được lựa chọn. Hình 2. Các bước thực hiện của phương pháp tăng cường dữ liệu đề xuất. Hình 3. Ví dụ về kỹ thuật Back-translation. - Bước 3: Huấn luyện mô hình dịch máy thống kê: Dữ liệu huấn luyện song ngữ tăng cường được bổ sung vào dữ liệu huấn luyện ban đầu để tạo thành một dữ liệu huấn luyện huấn luyện lớn hơn. Dữ liệu huấn luyện này được sử dụng để huấn luyện cho mô hình dịch máy thống kê Việt-Anh. Công nghệ thông tin 28 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.” Trong bước 2, chúng tôi đề xuất sử dụng độ đo perplexity để lựa chọn các câu. Độ đo perplexity là một trong những độ đo phổ biến nhất để đánh giá các mô hình ngôn ngữ và cũng có thể áp dụng cho các câu. Cho một câu s với n từ 𝑠 = 𝑤1𝑤2𝑤𝑛, độ đo perplexity của câu s được tính như sau [18]: 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) = √ 1 𝑃(𝑤1𝑤2𝑤𝑛) 𝑛 Độ đo perplexity càng nhỏ thì xác suất của câu càng lớn, nghĩa là một mặt nào đó câu có độ tương đồng cao với các câu trong kho dữ liệu huấn luyện. Do đó, chúng tôi chọn độ đo perplexity để lựa chọn dữ liệu đưa vào bộ huấn luyện và cố gắng chọn các câu có perplexity thấp, loại bỏ các câu có perplexity cao. Cách đơn giản nhất để thực hiện là so sánh perplexity của câu với một ngưỡng hằng số 𝜃 và chỉ lựa chọn các câu thỏa mãn điều kiện sau: 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) < 𝜃 Với 𝑠′ là câu được sinh ra bằng kỹ thuật BT từ câu gốc 𝑠. Tuy nhiên, vấn đề với cách lựa chọn này là đặc tính của độ đo perplexity là câu càng dài thì perplexity càng cao, do đó, việc lựa chọn một ngưỡng hằng số là không hợp lý và vì nó sẽ loại bỏ các câu dài. Do đó, chúng tôi đề xuất hai độ đo thích nghi để lựa chọn dữ liệu là độ đo thích nghi theo hiệu và độ đo thích nghi theo tỉ lệ để đánh giá perplexity của câu 𝑠′ theo tương quan với perplexity của câu gốc 𝑠. Độ đo thích nghi theo hiệu được đề xuất như sau: 𝐻 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) − 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện 𝐻 < 𝜃𝐻, trong đó, 𝜃𝐻 là giá trị ngưỡng. Độ đo thích nghi theo tỉ lệ được đề xuất như sau: 𝑇 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện 𝑇 < 𝜃𝑇, trong đó, 𝜃𝑇 là giá trị ngưỡng. 4. THỬ NGHIỆM, ĐÁNH GIÁ Trong phần này, chúng tôi tiến hành thử nghiệm dịch thuật Việt-Anh với mô hình SMT dựa trên cụm từ phân cấp [19] sử dụng phần mềm Moses. Độ đo BLEU [20] được sử dụng để đánh giá chất lượng hệ dịch máy. 4.1. Dữ liệu và môi trường thử nghiệm Do cặp ngôn ngữ Việt-Anh là cặp ngôn ngữ có nguồn dữ liệu rất hạn chế, không có nhiều bộ dữ liệu công khai, một số bộ dữ liệu được sử dụng trong các nghiên cứu trước đây cũng không có sẵn. Để thử nghiệm và đánh giá, chúng tôi sử dụng dữ liệu huấn luyện song ngữ IWSLT’15 English-Vietnamese gồm 133.317 cặp câu từ nhóm Stanford NLP (https://nlp.stanford.edu/projects/nmt/): IWSLT'15 English-Vietnamese data [Small]. Ban đầu, chúng tôi sử dụng dữ liệu huấn luyện là dữ liệu song ngữ Việt-Anh gồm 133.317 cặp câu. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 29 Thử nghiệm tiếp theo, chúng tôi áp dụng BT để tăng cường dữ liệu cho dữ liệu huấn luyện ban đầu. Từ tập tiếng Anh ở dữ liệu huấn luyện gốc, chúng tôi sử dụng một hệ thống dịch máy đã được huấn luyện trước để dịch sang tiếng Đức, sau đó, dịch trở lại từ tiếng Đức sang tiếng Anh. Sau đó, sử dụng một số độ đo để đánh giá tập câu tiếng Anh thu được, sử dụng các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện gốc để làm dữ liệu huấn luyện. Các mô hình được sử dụng trong thử nghiệm như sau. Mô hình SMT: Moses ( với mô hình cụm từ phân cấp. Mô hình BT: Sử dụng các mô hình đã được huấn luyện sẵn cho cặp ngôn ngữ Anh- Đức của nhóm Facebook Research [17]. Mô hình ngôn ngữ tiếng Anh sử dụng để đánh giá độ đo perplexity : Sử dụng mô hình ngôn ngữ tiếng Anh đã được huấn luyện sẵn của nhóm Facebook Research [17]. 4.2. Kết quả thử nghiệm 4.2.1. Thử nghiệm với dữ liệu huấn luyện IWSLT15 gốc (MOSES - Hierachical) Đây là kết quả thử nghiệm với dữ liệu huấn luyện IWSLT15 gốc khi chưa áp dụng BT. Bảng 2. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với dữ liệu huấn luyện IWSLT15 gốc. Số lượng cặp câu song ngữ BLEU BLEU-c 133.317 24.45 24.05 4.2.2. Các thử nghiệm sử dụng BT để làm giàu dữ liệu huấn luyện gốc, kết hợp với tính điểm perplexity Trong thử nghiệm này, chúng tôi sử dụng 133.317 cặp câu từ dữ liệu huấn luyện gốc, và áp dụng phương pháp làm giàu dữ liệu được đề xuất với độ đo thích nghi theo hiệu và độ đo thích nghi theo tỉ lệ với các giá trị ngưỡng 𝜃𝐻 và 𝜃𝑇 khác nhau (thử nghiệm với các giá trị 0, -10, -20, -30 của ngưỡng 𝜃𝐻; và các giá trị 0,5, 0,4, 0,3, 0,25, 0,2 của ngưỡng 𝜃𝑇). Dữ liệu thu được được dùng để huấn luyện mô hình dịch máy thống kê Việt-Anh và tính điểm BLEU để so sánh, đánh giá hiệu quả của phương pháp tăng cường dữ liệu đề xuất. Bảng 3. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES. Số lượng cặp câu ban đầu Số lượng cặp câu tăng cường Tổng số lượng cặp câu của dữ liệu huấn luyện Điểm BLEU Điểm BLEU-c ΔBLEU Với dữ liệu huấn luyện IWSLT15 (không sử dụng BT) 133.317 0 133.317 24,45 24,05 Thêm toàn bộ câu BT vào dữ liệu huấn luyện 133.317 133.317 266.634 24,39 23,95 -0,06 Công nghệ thông tin 30 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.” Với H < 0 133.317 72.394 205.711 24,62 24,22 0,17 Với H < -10 133.317 50144 183.416 24,50 24,04 0,05 Với H < -20 133.317 38.520 171.837 24,76 24,35 0,31 Với H < -30 133.317 31.158 164.475 24,29 23,91 -0,16 Với T < 0,5 133.317 25.093 158.410 24,58 24,20 0,13 Với T < 0,4 133.317 18.314 151.631 24,37 23,95 -0,08 Với T < 0,3 133.317 15.044 148.361 24,55 24,13 0,1 Với T < 0,25 133.317 8.926 142.243 25,24 24,84 0,79 Với T < 0,2 133.317 6.149 139.466 24,76 24,36 0,31 Các kết quả thử nghiệm được trình bày ở bảng 3, trong đó, BLEU = BLEU(Back- translation) - BLEU(IWSLT15) (hiệu số độ đo BLEU khi áp dụng phương pháp BT và độ đo BLEU khi sử dụng dữ liệu huấn luyện IWSLT15 gốc). Bảng kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES ở trên cho thấy, việc áp dụng BT mà không áp dụng lựa chọn dữ liệu không làm tăng điểm BLEU của mô hình (thậm chí giảm 0,06). Khi áp dụng BT với độ đo thích nghi theo hiệu cho kết quả điểm BLEU tăng lên với giá trị tăng cao nhất là 0.31 điểm khi áp dụng ngưỡng 𝜃𝐻 = −20. Khi áp dụng BT với độ đo thích nghi theo tỉ lệ (với ngưỡng 𝜃𝑇 = 0,25) cho kết quả điểm BLEU tăng 0.79 điểm đối với dịch máy cho cặp ngôn ngữ Việt-Anh. Kết quả thử nghiệm cho thấy việc sử dụng phương pháp tăng cường dữ liệu đề xuất giúp nâng cao độ chính xác cho mô hình dịch máy thống kê Việt-Anh, trong đó việc sử dụng độ đo thích nghi theo tỉ lệ cho phép nâng cao điểm BLEU nhiều hơn so với độ đo thích nghi theo hiệu. 5. KẾT LUẬN Trong bài báo, chúng tôi đã đề xuất phương pháp tăng cường dữ liệu huấn luyện cho dịch máy thống kê Việt-Anh bằng kỹ thuật dịch ngược và sử dụng độ đo perplexity với mô hình ngôn ngữ để tính toán độ thích nghi của câu giả lập so với câu ban đầu. Chúng tôi cũng thử nghiệm và chỉ ra rằng, đối với cặp ngôn ngữ có tài nguyên hạn chế, việc sử dụng toàn bộ câu giả lập được sinh ra sau khi dịch ngược có thể không giúp cho hệ thống dịch tốt hơn, mặc dù dữ liệu huấn luyện được tăng gấp đôi về mặt số lượng. Trong các thử nghiệm, chúng tôi đã sử dụng độ đo thích nghi đề xuất để lựa chọn các câu giả lập, bổ sung vào dữ liệu huấn luyện song ngữ ban đầu và đánh giá trên hệ thống SMT, kết quả thử nghiệm cho thấy việc sử dụng độ đo thích nghi có thể lựa chọn ra các câu giả lập phù hợp và tăng cường dữ liệu huấn luyện, có hiệu quả trong việc nâng cao chất lượng hệ thống dịch máy thống kê. Chất lượng dữ liệu huấn luyện huấn luyện có vai trò quan trọng trong các hệ thống học máy nói chung, do vậy, chúng tôi sẽ tiếp tục thử nghiệm và đánh giá phương pháp đã đề xuất trên các hệ thống NMT, bên cạnh đó chúng tôi sẽ tiếp tục nghiên cứu và thử nghiệm các độ đo khác để tính toán độ thích nghi dựa trên những đặc trưng của tiếng Việt và tiếng Anh. Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 31 TÀI LIỆU THAM KHẢO [1]. Moore, Robert C., and Will Lewis. “Intelligent selection of language model training data.” (2010). [2]. Axelrod, Amittai, et al. “Class-based n-gram language difference models for data selection.” IWSLT (International Workshop on Spoken Language Translation). 2015. [3]. Fadaee, Marzieh, and Christof Monz. “Back-translation sampling by targeting difficult words in neural machine translation.” arXiv preprint arXiv:1808.09006 (2018). [4]. Sennrich, Rico, Barry Haddow, and Alexandra Birch. “Improving neural machine translation models with monolingual data.” arXiv preprint arXiv:1511.06709 (2015). [5]. Gibadullin, Ilshat, et al. “A Survey of Methods to Leverage Monolingual Data in Low- resource Neural Machine Translation.” arXiv preprint arXiv:1910.00373 (2019). [6]. Park, Jaehong, Jongyoon Song, and Sungroh Yoon. “Building a neural machine translation system using only synthetic parallel data.” arXiv preprint arXiv:1704.00253 (2017). [7]. Edunov, Sergey, et al. “Understanding back-translation at scale.” arXiv preprint arXiv:1808.09381 (2018). [8]. Poncelas, A., et al. “Investigating backtranslation in neural machine translation.” arXiv preprint arXiv:1804.06189. [9]. Poncelas, Alberto, et al. “Combining SMT and NMT back-translated data for efficient NMT.” arXiv preprint arXiv:1909.03750 (2019). [10]. Hoang, Vu Cong Duy, et al. “Iterative back-translation for neural machine translation.” Proceedings of the 2nd Workshop on Neural Machine Translation and Generation. 2018. [11]. Stahlberg, Felix, James Cross, and Veselin Stoyanov. “Simple fusion: Return of the language model.” arXiv preprint arXiv:1809.00125 (2018). [12]. Wołk, Krzysztof, and Krzysztof Marasek. “PJAIT systems for the IWSLT 2015 evaluation campaign enhanced by comparable corpora.” arXiv preprint arXiv:1512.01639 (2015). [13]. Axelrod, Amittai, et al. “The UMD Machine Translation Systems at IWSLT 2015.” Proceedings of IWSLT. 2015. [14]. Trieu, Hai-Long, et al. “The JAIST-UET-MITI machine translation systems for IWSLT 2015.” Proceedings of the 12th International Workshop on Spoken Language Translation (IWSLT’15). 2015. [15]. Thuong, Viet Tran Hong Huyen Vu, V. N. Van, and T. Le Tien. “The English-Vietnamese Machine Translation System for IWSLT 2015.” Proceeding of the 12th International Workshop on Spoken Language Translation. 2015. [16]. Nomura, Takahiro, Hajime Tsukada, and Tomoyoshi Akiba. “Improvement of Word Alignment Models for Vietnamese-to-English Translation.” 2015. [17]. Ng, Nathan, et al. “Facebook FAIR's WMT19 News Translation Task Submission.” arXiv preprint arXiv:1907.06616 (2019). [18]. Jurafsky, Dan, and James H. Martin. “Speech and language processing. Vol. 3.” (2014). [19]. Chiang, David. “Hierarchical phrase-based translation.” computational linguistics 33.2 (2007): 201-228. [20]. Papineni, Kishore, et al. “BLEU: a method for automatic evaluation of machine translation.” Proceedings of the 40th annual meeting of the Association for Computational Linguistics. 2002. Công nghệ thông tin 32 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.” ABSTRACT DATA AUGMENTATION FOR VIETNAMESE-ENGLISH STATISTICAL MACHINE TRANSLATION USING BACK-TRANSLATION AND ADAPTIVE SELECTION TECHNIQUE Back-translation (BT) has become one of the effective techniques for data augmentation in Neural Machine Translation, especially for low resource languages. Most research related to BT in machine translation mainly focuses on Neural Machine Translation of European languages. In this article, we study on applying BT to increase the quality of training data for Vietnamese-English statistical machine translation. Two adaptive measures were proposed to evaluate the generated English sentence set and select “good” sentences to enhance the training data. Experimental results on the MOSES statistical machine translation system with Vietnamese-English language pairs show that our proposed method yields approximately 0.8 BLEU improvement. Keywords: Back-translation; Statistical machine translation; Data augmentation. Nhận bài ngày 20 tháng 10 năm 2020 Hoàn thiện ngày 10 tháng 12 năm 2020 Chấp nhận đăng ngày 15 tháng 12 năm 2020 Địa chỉ: 1Viện Công nghệ thông tin, Viện KH-CN quân sự; 2Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. *Email: dangthanhquyen@gmail.com.

Các file đính kèm theo tài liệu này:

phuong_phap_tang_cuong_du_lieu_huan_luyen_dich_may_thong_ke.pdf