Luận văn Nghiên cứu các phương pháp lọc thư rác tại Việt Nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác Tiếng Việt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÂM TĂNG DOAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP LỌC THƯ RÁC TẠI VIỆT NAM VÀ TRÊN THẾ GIỚI, XÂY DỰNG VÀ ĐỀ XUẤT PHƯƠNG ÁN LỌC THƯ RÁC TIẾNG VIỆT Ngành: Công nghệ Thông tin Chuyên ngành: Quản lý hệ thống thông tin Mã Số: 8480205.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Hà Nam Hà nội – 11/2020 i Mục lục LỜI CẢM ƠN ...............................................................................

73 trang | Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 458 | Lượt tải: 2

Tóm tắt tài liệu Luận văn Nghiên cứu các phương pháp lọc thư rác tại Việt Nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

................. iii LỜI CAM ĐOAN ........................................................................................... iv DANH MỤC HÌNH VẼ .................................................................................. v Chương 1: Giới thiệu ...................................................................................... 1 1.1. Mục tiêu của nghiên cứu .............................................................. 1 1.2. Phương pháp nghiên cứu ............................................................. 2 1.3. Cấu trúc luận văn ......................................................................... 2 1.4. Tổng quan về thư rác ................................................................... 2 1.4.1. Định nghĩa ......................................................................... 2 1.4.2. Thống kê và tác hại của thư rác ...................................... 3 1.4.3. Phương pháp phân loại thư rác ...................................... 6 1.4.4. Các loại thư rác ................................................................. 7 1.4.5. Mơ hình lọc thư rác ........................................................ 10 1.4.6. Quy trình hoạt động của lọc thư rác ............................ 13 1.4.7. Quy trình lọc thư điện tử sử dụng học máy ................. 14 1.4.8. Mơ hình lọc thư rác của Zimbra ................................... 14 Chương 2. Các kỹ thuật lọc thư rác thư rác .............................................. 19 2.1. Các kỹ thuật giảm thiểu thư rác ................................................ 19 2.1.1. Lọc IP ............................................................................... 19 2.1.2. Danh sách xám và phản hồi - thách thức ..................... 20 2.1.3. Cải thiện xác thực thư để phịng chống thư rác .......... 20 2.1.4. Bảo vệ địa chỉ .................................................................. 22 2.2. Các kỹ thuật lọc thư rác ............................................................. 22 2.2.1. Phương thức trích xuất thư điện tử .............................. 23 2.2.2. Các kỹ thuật lọc thư rác cơ bản .................................... 32 2.2.3. Các kỹ thuật lọc thư rác thơng minh ............................ 35 2.3. Các nghiên cứu về lọc thư rác trên thế giới ............................. 40 2.4. Một số nghiên cứu về thư rác tại Việt Nam ............................. 42 ii Chương 3. Đề xuất và Thực nghiệm ........................................................... 44 3.1. Đề xuất giải pháp lọc thư rác .................................................... 44 3.1.1. Mơ hình thực nghiệm vật lý ........................................... 45 3.1.2. Lọc thư rác sử dụng SVM và Nạve Bayes ................... 46 3.1.3. Xây dựng quy tắc lọc tiếng Việt .................................... 48 3.2. Thực nghiệm ............................................................................... 55 3.2.1. Dữ liệu huấn luyện ......................................................... 55 3.2.2. Kiểm thử hệ thống khi chưa cài Nạve Bayes .............. 55 3.2.3. Kiểm thử hệ thống chỉ cĩ Nạve Bayes ......................... 56 3.2.4. Tỉ lệ lọc sau khi tích hợp SVM-NB ............................... 59 3.2.5. Kiểm tra các quy tắc tự xây dựng ................................. 61 KẾT LUẬN .................................................................................................... 64 TÀI LIỆU THAM KHẢO ............................................................................ 65 iii LỜI CẢM ƠN Trước tiên tơi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo, PGS. TS. Nguyễn Hà Nam – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho tơi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hồn thành cơng việc của mình. Tơi xin dành lời cảm ơn chân thành tới các thầy cơ giáo khoa Cơng nghệ thơng tin, trường Đại học Cơng nghệ, ĐHQGHN đã tận tình huấn luyện, cung cấp cho tơi những kiến thức vơ cùng quý giá và đã tạo điều kiện tốt nhất cho tơi trong suốt quá trình học tập, nghiên cứu tại trường. Đồng thời tơi xin cảm ơn tất cả những người thân yêu trong gia đình tơi cùng tồn thể bạn bè những người đã luơn giúp đỡ, động viên tơi những khi vấp phải những khĩ khăn, bế tắc. Cuối cùng, tơi xin chân thành cảm ơn các đồng nghiệp của tơi tại Trường Đại Học Kinh tế - Đại học Quốc Gia Hà Nội đã giúp đỡ, tạo điều kiện thuận lợi cho tơi học tập và nghiên cứu chương trình thạc sĩ tại Đại học Cơng nghệ, Đại học Quốc Gia Hà Nội. iv LỜI CAM ĐOAN Tơi xin cam đoan rằng luận văn thạc sĩ cơng nghệ thơng tin “Nghiên cứu các phương pháp lọc thư rác tại việt nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt” là cơng trình nghiên cứu của riêng tơi, khơng sao chép lại của người khác. Trong tồn bộ nội dung của luận văn, những điều đã được trình bày hoặc là của chính cá nhân tơi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo đều cĩ xuất xứ rõ ràng và hợp pháp. Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này. Hà Nội, ngày 20 tháng 12 năm 2020. Lâm Tăng Doan v DANH MỤC HÌNH VẼ Hình 1.1. Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3] ................................................................. 3 Hình 1.2. Thống kê phân loại các nội dung của thư rác năm 2020 [5] .............................................. 7 Hình 1.3. Mơ hình khái quát về gửi, nhận thư điện tử .................................................................... 10 Hình 1.4. Mơ hình lọc thư rác [9] .................................................................................................... 12 Hình 1.8. Quy trình lọc nội dung thư rác [9] ................................................................................... 13 Hình 1.9. Quy trình lọc nội dung thư điện tử [9] ............................................................................. 14 Hình 1.5. Mơ hình xử lý thư của Zimbra ......................................................................................... 15 Hình 1.6. Chi tiết điểm số trên tiêu đề thư rác được đánh dấu bởi Spamassassin ........................... 17 Hình 1.7. Thành phần chính của mơ đun lọc của Spamassassin [11] .............................................. 17 Hình 3.1. Kiến trúc mơ hình lọc thư rác .......................................................................................... 45 Hình 3.2. Tỉ lệ xuất hiện của các cụm từ ......................................................................................... 51 Hình 3.3. Thống kê các cụm từ tiếng Việt xuất hiện nhiều nhất trong dữ liệu huấn luyện ............. 51 Hình 3.4. Các quy tắc tạo ra để ổn định hệ thống lọc ...................................................................... 54 Hình 3.5. Quá trì huấn luyện dữ liệu mẫu của Nạve Bayes ............................................................ 55 Hình 3.6. Thư rác chưa được phân loại đúng khi chưa được huấn luyện Nạve Bayes ................... 56 Hình 3.7 Thư rác được phân loại là thư rác sau khi huấn luyện Nạve Bayes ................................. 56 Hình 3.8. Kết quả kiểm tra mass-check ........................................................................................... 57 Hình 3.9. Phân bổ điểm của tập thư rác ........................................................................................... 57 Hình 3.10. Điểm của 1 thư rác đã cĩ lọc Nạve Bayes .................................................................... 58 Hình 3.11. Thống kê khả năng lọc thư của hệ thống ....................................................................... 59 Hình 3.12. Tỉ lệ nhận định thư rác đúng .......................................................................................... 59 Hình 3.13. Tỉ lệ chính xác của lọc thư rác hợp lệ ............................................................................ 60 Hình 3.14.Thư rác kiểm thử các quy tắc đã tạo ............................................................................... 62 Hình 3.15. Chi tiết tính điểm cho 1 thư đáp ứng quy tắc được tạo .................................................. 62 1 Chương 1: Giới thiệu Mạng Internet ra đời đã mở ra nhiều phương thức liên lạc mới, cho phép liên lạc cách xa hàng nghìn kilomet. Một trong những phương tiện được sử dụng nhiều nhất để giao tiếp trong cơng việc cũng như cá nhân đĩ là thư điện tử. Thư điện tử cho phép người dùng tiếp cận hàng trăm nghìn người trong vịng vài giây và hầu như miễn phí. Do đĩ, số lượng người sử dụng thư điện tử cho cơng việc và giao tiếp ngày càng nhiều. Tuy nhiên, do khả năng tiếp cận nhiều người dễ dàng và miễn phí nên phương thức liên lạc này hay bị lợi dụng cho mục đích xấu. Trong vài năm gần đây, thư rác (hay cịn gọi là spam) đã trở thành một vấn đề đáng lưu tâm đối với doanh nghiệp và người dùng cá nhân. Một số thư rác cĩ mục đích thương mại, một số khác để để bày tỏ ý kiến chính trị hoặc tơn giáo, hoặc lừa đảo khán giả hoặc phát tán virus. Thư rác đã trở thành một cơng cụ phổ biến phục vụ cho mục đích xấu do thư rác dễ triển khai, cĩ khả năng gửi hàng loạt, chi phí thấp và khả năng tiếp cận người dùng cao. Hơn nữa do trở ngại về cơng nghệ với cơ sở hạ tầng thư điện tử, để theo dõi hoặc truy vết cá nhân hoặc nhĩm gửi thư rác rất khĩ và tốn thời gian. Ngồi ra, những kẻ gửi thư rác thường hay che giấu hoặc giả mạo địa chỉ của thơng điệp. Ngay cả khi chúng được truy tìm, kiến trúc phi tập trung của Internet gây khĩ khăn cho việc thực hiện các biện pháp bảo vệ pháp lý. Tại các trường đại học, các cán bộ cơng nhân viên cũng như sinh viên đều đang sử dụng thư điện tử để trao đổi cơng việc, học tập. Do đĩ, việc ngăn chặn thư rác, để làm tăng đường truyền băng thơng cho người dùng, giảm lưu trữ trên máy chủ thư điện tử ngăn chặn phát tán thư độc hại, nội dung tuyên truyền phản động, phản cảm hay những hành vi lừa đảo trên mạng là vơ cùng cần thiết. Thực tế và qua quá trình thư thập dữ liệu thư tiếng Việt cho thấy cĩ rất nhiều thư rác Tiếng Anh ở hịm thư người dùng Việt, thậm chí nhiều hơn thư rác tiếng Việt. Do đĩ, ta cần triển khai một bộ lọc thư rác cĩ thể lọc cả thư rác Tiếng Việt và Tiếng Anh. 1.1. Mục tiêu của nghiên cứu Dựa theo bối cảnh trên, căn cứ nhu cầu thực tế, đề tài nghiên cứu và triển khai được hình thành nhằm xây dựng một hệ thống lọc thư rác tiếng Việt. Hiện nay các hệ thống lọc thư rác được tích hợp sẵn đã lọc thư rác khá hiệu quả đối với thư điện tử Tiếng Anh và tuy nhiên chưa được tối ưu hĩa đối với các thư 2 điện tử tiếng Việt. Các tập luận để lọc được xây dựng chỉ cho thư tiếng Anh. Do đĩ, đề tài này mong muốn sẽ tối ưu và nâng cao khả năng lọc thư rác tiếng Việt. 1.2. Phương pháp nghiên cứu Phương pháp luận được sử dụng trong đề tài này bao gồm phương pháp nghiên cứu và tổng hợp lý thuyết và phương pháp thực nghiệm. Mục lý thuyết được nghiên cứu và thu thập từ các sách, bài báo tạp chí chuyên ngành. Sau khi cĩ được nền tảng lý thuyết và mơ hình thực nghiệm sẽ tiến hành. Mơ hình thực nghiệm được xây dựng, hỗ trợ bởi một số nền tảng lý thuyết. Các kết quả thực nghiệm thu được sẽ được đánh giá và kiểm chứng lại trên nền lý thuyết. 1.3. Cấu trúc luận văn Đề tài bao gồm 3 chương chính. Đề tài được nghiên cứu và xây dựng đi lên từ những nghiên cứu tổng quan về thư rác, thảo luận tổng quan về thư rác, mơ hình tổng quan về gửi và nhận thư điện tử cũng như các phương thức xác thực để phịng chống thư rác (Chương 1). Chương 2 sẽ trình bày các phương pháp trích xuất thơng tin thư điện tử, kỹ thuật giảm thiểu thư rác phổ biến như chặn IP, lọc theo luật, lọc theo nhận dạng và các kỹ thuật lọc rác cơ bản và thơng minh. Tiếp theo, luận văn so sánh, nghiên cứu về các hướng đi lọc thư rác ở Việt Nam và trên thế giới, để từ đĩ đưa ra đề xuất phù hợp. Cuối cùng, Chương 3 mơ tả thực nghiệm bao gồm đề xuất mơ tả kiến trúc thực nghiệm, kỹ thuật áp dụng trong thực nghiệm và kết luận và đánh giá kết quả thực nghiệm. 1.4. Tổng quan về thư rác 1.4.1. Định nghĩa Cĩ rất nhiều định nghĩa khác nhau cho thư rác. Theo [1], thư rác (spam) là hoạt động gửi thư điện tử khơng được yêu cầu, với số lượng lớn và trong một số trường hợp liên tục gửi đến những cá nhân mà khơng cĩ liên hệ trước đĩ và địa chỉ e-mail của họ được thu thập khơng hợp pháp, hoặc spam thường được hiểu là việc gửi đi hàng loạt các thư thương mại khơng được yêu cầu bởi một người gửi ngụy trang hoặc giả mạo danh tính, hay được định nghĩa là tin 3 nhắn điện tử khơng được yêu cầu, bất kể nội dung [1] [2]. Định nghĩa này cĩ tính đến các đặc điểm của thư điện tử hàng loạt [2]. Các định nghĩa về thư rác đều cĩ những đặc điểm chung như sau: • Gửi bằng thư điện tử • Sử dụng các địa chỉ được thu thập mà khơng cĩ sự đồng ý • Gửi hàng loạt • Khơng mong muốn nhận • Lặp đi lặp lại • Nhầm mục đích thương mại hoặc tài chính • Khơng cĩ mục tiêu và bừa bãi • Khơng thể ngăn cản • Ẩn danh và / hoặc ngụy trang • Nội dung bất hợp pháp hoặc xúc phạm • Nội dung lừa đảo hoặc gian lận 1.4.2. Thống kê và tác hại của thư rác Thư rác chiếm một phần rất lớn của băng thơng mạng, theo thống kê của Statista [3], từ những năm 2012 đến 2018, số lượng thư rác luơn nhiều hơn so với số lượng thư hợp lệ (ham). Mặc dù số lượng thư rác cĩ giảm xuống so với những năm trước đây từ 69% giảm xuống 55%, tuy nhiên, cĩ thể thấy thư rác vẫn chiếm một lượng băng thơng mạng lớn. Hình 1.1. Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3] Theo thống kê mới nhất của Statista [4], thư rác chiếm 53,95 phần trăm lưu lượng thư điện tử vào tháng 3 năm 2020. Trong khoảng thời gian gần đây 4 nhất, Nga chiếm phần lớn nhất trong số các thư rác với 20,74 % tổng lượng thư rác tồn cầu. Bất chấp sự phổ biến của nĩ, tỷ lệ thư rác e-mail tồn cầu thực sự đang giảm: tỷ lệ thư rác hàng năm tồn cầu trong năm 2018 là 55%, giảm so với 69% vào năm 2012 [5]. Trong năm 2018, 281,1 tỷ thư điện tử được gửi và nhận hàng ngày [6]. Phần lớn trong số đĩ là các e-mail quảng cáo được gửi bởi các nhà tiếp thị mỗi ngày. Trong khi nhiều người sử dụng cho rằng nội dung đĩ nằm trong thư mục thư rác của họ, e-mail tiếp thị nĩi chung là vơ hại, tuy gây khĩ chịu cho người dùng. Tính đến quý 2 năm 2018, chỉ 85% thư điện tử tiếp thị đến được hộp thư đến của khách hàng và 7% đã bị bộ lọc thư rác bắt được [6]. Tuy nhiên, mọi thứ đang được cải thiện đối với các nhà tiếp thị: vào năm 2018, tỷ lệ gửi thư rác của các e-mail tiếp thị thương mại đã giảm xuống cịn 9%, giảm từ 14% vào năm 2017 [6]. Tuy nhiên, khơng phải tất cả các thư rác đều là những e- mail quảng cáo lành tính. Một phần đáng kể các thư rác cĩ tính chất độc hại hơn, nhằm phá hoại hoặc chiếm quyền điều khiển hệ thống của người dùng [6]. Thống kê trong quý đầu tiên của năm 2020, về các nguồn của thư rác, 9,64% khối lượng thư rác tồn cầu bắt nguồn từ các IP cĩ trụ sở tại Hoa Kỳ tuy nhiên phần lớn thư rác bắt nguồn là Nga chiếm 20,74 phần trăm tổng thư rác tồn cầu [6]. Thư rác là thư điện tử được gửi khơng mong muốn, gây ra nhiều ảnh hưởng đến nhiều mặt khác nhau: • Quá tải băng thơng: Thư rác chặn các kênh liên lạc và tạo ra lưu lượng băng thơng lớn (chi phí băng thơng này cơng ty/doanh nghiệp phải trả tiền). Ngồi ra, cĩ những máy chủ thư phải xử lý thư rác và những máy chủ này phải được bảo trì bởi các chuyên gia được trả lương cao. Do đĩ, chi phí vận hành cơ sở hạ tầng tăng đáng kể. • Tốn thời gian. Nếu thư rác đến hộp thư đến của người dùng, người nhận phải xĩa nĩ theo cách thủ cơng. Một người đọc 10-20 thư điện tử mỗi ngày cĩ thể nhận được khoảng 160-180 tin nhắn rác cùng với thư từ cơng việc của họ. Điều đĩ cĩ nghĩa là họ sẽ dành 5-6 giờ mỗi tháng chỉ để xĩa thư rác, gây phương hại đến thời gian làm việc hiệu quả của họ. • Khĩ chịu và phiền tối. Bằng cách xĩa thủ cơng thư rác, người dùng trở thành một kỹ thuật viên xử lý rác thải ‘điện tử’. Việc buộc phải thực hiện các biện pháp như vậy khơng thể khơng gây khĩ chịu cho người dùng, dẫn đến những cảm xúc tiêu cực khơng 5 mong muốn. Cũng cĩ thể trong quá trình xĩa, người dùng cũng cĩ thể vơ tình xĩa mất một thư điện tử quan trọng cùng với vơ số thư rác. Tất cả những ai đã đối mặt với tình huống như vậy đều cảm thấy khĩ chịu và phiền tối. • Ảnh hưởng của thư rác đối với cá nhân: Thư rác gây tốn kém chi phí cho người dùng và cho xã hội nĩi chung. Cho dù tài khoản doanh nghiệp hay cá nhân, người nhận thường sẽ tốn thời gian để phân loại thư điện tử và xĩa các thư khơng mong muốn và do đĩ phải chịu chi phí cơ hội về thời gian. Thư rác cũng gia tăng chi phí của các nhà cung cấp dịch vụ Internet (ISP) do tiêu thụ nhiều băng thơng. Cuối cùng, thư rác được sử dụng để đạt được các mục tiêu gian lận hoặc tội phạm khác, gây ra các chi phí gián tiếp tiềm ẩn cĩ liên quan đến nĩ. Theo ước tính [1] rằng các cơng ty và người tiêu dùng Mỹ phải chịu chi phí gần 20 tỷ đơ la mỗi năm do thư rác. Con số của người tiêu dùng phải gánh chịu chi phí gần 20 tỷ đơ la hàng năm do thư rác. Ước tính rằng những người gửi thư rác và người bán quảng cáo bằng thư rác thu thập tổng doanh thu trên tồn thế giới theo đơn đặt hàng là 200 triệu đơ la mỗi năm. Do đĩ, "tỷ lệ" của chi phí bên ngồi cho lợi ích bên trong cho thư rác là khoảng 100:1 [1]. • Ảnh hưởng của thư rác đối với doanh nghiệp Trong mơi trường kinh doanh, thư rác gây ra tốn kém cho chi phí bảo mật dịch vụ, phần cứng và phần mềm; chi phí huấn luyện; mất năng suất do mất thời gian xĩa các thư điện tử khơng mong muốn (hoặc tìm kiếm những cái đã xĩa) và chi phí mua dung lượng lưu trữ bổ sung. Theo ước tính [7] của về chi phí spam từ các nhà xuất bản và tạp chí lên tới 1,1 tỷ đơ la Mỹ mỗi năm. Tính tất cả các loại spam, chi phí tăng lên khoảng 2,6 tỷ đơ la Mỹ mỗi năm. Ngồi ra, các doanh nghiệp cũng bị từ các tác động gián tiếp của thư rác, chẳng hạn như phải trả giá cao hơn cho các dịch vụ ISP. Ở cấp độ nhà cung cấp dịch vụ (ISP), chi phí xử lý thư rác là một phần của ngân sách bảo mật. Cách đây vài năm, ISP coi vẫn coi thư rác là một vấn đề của người dùng cá nhân [6]. Tuy nhiên, với một lượng lớn thư rác gia tăng, các ISP phải đối mặt với các khoản đầu tư cĩ thể tốn kém vào cơ sở hạ tầng thư và đầu tư mua thêm thiết bị lưu trữ, khiến cho các nhà ISP ngày càng quan tâm vấn đề này và giúp làm sáng tỏ những chi phí tiềm ẩn này. 6 1.4.3. Phương pháp phân loại thư rác Các phương pháp khác nhau đang được sử dụng để đo lường và phân tích thư rác. Ba phương pháp tiếp cận chính đang được sử dụng cho việc này: khảo sát (dựa trên lấy mẫu); phương pháp tiếp cận dựa trên báo cáo; và phương pháp tiếp cận dựa trên cơng cụ kỹ thuật. 1.4.3.1. Phương pháp khảo sát Phương pháp khảo sát gắn chặt với kích thước mẫu cũng như thái độ của những người tham gia khảo sát. Trong phương pháp, điều quan trọng là những người được chọn trong khảo sát cĩ thể trở thành đại diện mẫu được khơng. So với các cơng cụ kỹ thuật, cách tiếp cận này ít tốn kém hơn và cĩ thể được thiết lập và thực hiện trong thời gian tương đối ngắn. Một ví dụ về nghiên cứu dựa trên khảo sát là khảo sát của AOL và DoubleClick, hai nhà cung cấp giải pháp tiếp thị qua thư điện tử. Bảng câu hỏi được gửi cho hơn 2000 người, nhằm khảo sát điều gì khiến người sử dụng phàn nàn, quy trình báo cáo spam cho AOL hoặc quy trình hủy đăng ký qua thư điện tử (unsubscribe) [2]. 1.4.3.2. Phương pháp dựa trên báo cáo Phương pháp dựa trên báo cáo phụ thuộc vào báo cáo của chính những người nhận thư rác, sau đĩ được phân tích. Mục đích chính của phương pháp này là phân tích nội dung của thư rác một cách chi tiết và xác định các loại thư rác, người gửi thư rác và các đặc điểm của việc gửi thư rác. Phương pháp này dựa trên cơ sở phân tích thư rác được báo cáo, thay vì cố gắng tính tốn khối lượng thư rác hoặc xác định phần trăm e-mail là thư rác. Với cách tiếp cận này, dữ liệu được thu thập trên cơ sở tự nguyện từ người dùng và do đĩ, định nghĩa về thư rác (theo báo cáo) là chủ quan, dựa trên nhận thức của cá nhân người nhận. Phương pháp này được sử dụng bởi SpamCop và Abuse.net nhằm thu thập và phân tích các báo cáo tự nguyện của người dùng [2]. Trên Google thư điện tử hay các phần mềm thư điện tử đều cĩ mục ‘Report spam’ để gửi báo cáo cho các nhà cung cấp về một thư điện tử theo cảm nhận cá nhân là thư rác. Điều này sẽ giúp các nhà cung cấp dịch vụ cĩ những mẫu thu thập về thư rác đa dạng và tổng quan hơn. 1.4.3.3. Phương pháp kỹ thuật Phương pháp dựa trên cơng cụ kỹ thuật khơng cần sự tham gia tích cực của người dùng. Về cơ bản, phương pháp này sẽ chính xác và khách quan hơn do nĩ khơng địi hỏi chủ quan diễn giải của người dùng so với hai cách tiếp 7 cận cịn lại. Trên mặt khác, tuy nhiên, phương pháp này bị hạn chế ở chỗ khơng thể đánh giá phản ứng chủ quan đối với thư rác, chẳng hạn như báo cáo thư rác, hay xĩa bỏ thư rác. Cách tiếp cận kỹ thuật phụ thuộc vào độ chính của các thuật tốn và kỹ thuật được sử dụng, địi hỏi cập nhật liên tục để nhận ra các dạng thư rác mới. Các cơng cụ kỹ thuật khơng đảm bảo độ chính xác hồn tồn, do đĩ dẫn đến nhiều kết quả dương tính giả (thư hợp lệ bị phân loại nhầm thành spam) và âm tính giả (thư rác bị nhầm lẫn khơng được phân loại) [2]. 1.4.4. Các loại thư rác Thư rác cĩ thể được phân loại theo mục tiêu của người gửi thư rác. Nhiều người gửi thư rác gửi e-mail hàng loạt vì lý do quảng cáo như gửi quảng cáo thương mại hoặc mời tham gia vào các chiến dịch chính trị, hoặc nhằm mục đích lừa đảo hay phân phối phần mềm độc hại như virus hay trojan. Phần này trình bày các loại thư rác phổ biến và đưa ra số liệu thống kê, nếu cĩ. Theo Statista [5], trong năm 2018, 281,1 tỷ thư điện tử được gửi và nhận hàng ngày. Điều này bao gồm hàng tỷ thư quảng cáo được gửi bởi các nhà tiếp thị mỗi ngày. Trong khi nhiều người dùng e-mail tin rằng nội dung như sẽ nằm trong mục thư rác (Spam), hay thư tiếp thị nĩi chung là vơ hại, hoặc chỉ là gây khĩ chịu cho người dùng. Tính đến quý 2 năm 2018, chỉ 85% thư điện tử tiếp thị nằm trong Hộp thư đến (Inbox) của người dùng và 7% đã bị bộ lọc thư rác bắt được. Tuy nhiên, mọi thứ đang được cải thiện vào năm 2018, tỷ lệ đặt thư rác thương mại đã giảm xuống cịn 9%, giảm từ 14% vào năm 2017. Hình 1.2 Thống kê phân loại các nội dung của thư rác năm 2020 [5] 8 Theo thống kê [4], các danh mục nội dung thư rác năm 2019, đứng đầu là nội dung về sức khỏe (39%), sau đĩ là quảng cáo các sản phẩm (12%), và các nội dung khác (người lớn, độc hại, lừa đảo, hẹn hị,) chiếm từ 2% đến 10%. Nhìn chung, các thư rác được phân thành các loại phổ biến như sau: 1.4.4.1. Thư rác quảng cáo Thư rác quảng cáo hay cịn được gọi là thư rác mục đích thương mại (viết tắt là UCE). Hầu hết, các thư rác quảng cáo được coi là một loại hình tiếp thị trực tiếp và được các cơng ty coi là một cơng cụ quan trọng để tiếp cận khách hàng (tiềm năng), vì thư điện tử chi phí rẻ (hầu như miễn phí) và dễ dàng để liên hệ với một nhĩm lớn khách hàng. Tuy nhiên, hầu hết thư rác khơng được gửi bởi chính các cơng ty quảng cáo, mà bởi những người gửi thư rác (spammer), là những người nhận hoa hồng từ các cơng ty này [1] một nghiên cứu ước tính rằng chi phí gửi một thư điện tử là từ 0,01 đơ la Mỹ đến 0,05 đơ la Mỹ [1]. Vì chi phí gửi thư rác rất thấp nên những người gửi thư rác cĩ thể kiếm được lợi nhuận mặc dù tỷ lệ phản hồi cực kỳ thấp. Theo [1] chỉ ra mặc dù chi phí thấp, tỷ lệ phản hồi thấp, tuy nhiên khoảng 8% người trả lời thừa nhận họ đã thực sự mua một sản phẩm quảng cáo qua thư rác. Miễn là những kẻ gửi thư rác cĩ thể kiếm được nhiều tiền hơn hơn chi phí của họ, họ cĩ thể sẽ tiếp tục gửi thư rác. Đây là hành vi “hợp lý” theo nghĩa kinh tế. Ngồi các thư rác nhằm mục đích quảng cáo trực tiếp cịn cĩ các thư rác gián tiếp sẽ khuyến nghị mua một cổ phiếu cụ thể, nhằm tác động đến giá cổ phiếu nào đĩ. Một nghiên cứu thực nghiệm [8] cho thấy trong ngắn hạn, cổ phiếu thư rác cĩ tác động đáng kể đến cả khối lượng giao dịch và định giá thị trường. Theo thống kê của Symantec, 80% thư rác về lĩnh vực tài chính, sức khỏe, Internet và các sản phẩm dành cho người lớn. Theo một thống kê khác thì thư rác về quảng cáo các loại thuốc chức năng chiếm ưu thế. Hai số liệu thống kê cĩ sự khác biệt rõ ràng, điều này phụ thuộc vào dữ liệu mẫu của hai thống kê thu thập được. Tuy nhiên, khơng thể phủ nhận rằng thư rác quảng cáo chiếm một thị phần rất lớn của thư rác. 1.4.4.2. Thư rác tuyên truyền, vận động Các thư quảng cáo khơng cần thiết phải cĩ mục đích thương mại. Họ cũng cĩ thể tuyên truyền các ý tưởng và/hoặc tổ chức chính trị, văn hĩa hoặc tơn giáo. Ví dụ, vào năm 2003, các thành viên của Quốc hội Hoa Kỳ đã gửi hàng trăm nghìn thư khơng được yêu cầu cho thành viên nhằm vận động các 9 chiến dịch. Các loại thư điện tử này thường nhằm mục đích kêu gọi sự ủng hộ, đồng thuận của những người nhận thư. 1.4.4.3. Thư rác lừa đảo Lừa đảo qua thư điện tử là các tin nhắn lừa đảo cung cấp số tiền lớn và yêu cầu chi tiết tài khoản ngân hàng hoặc lừa đảo giả mạo các dịch vụ phổ biến và lừa người nhận cung cấp chi tiết thẻ tín dụng /tài khoản của họ [2]. Một trong những trị lừa đảo rửa tiền phổ biến là người dùng nhận được thư điện tử từ một người tự xưng là quan chức chính phủ, thành viên gia đình của một quan chức đã qua đời hoặc luật sư đại diện cho một khách hàng giàu cĩ đã qua đời. Thư điện tử hỏi chi tiết ngân hàng hoặc yêu cầu người nhận thanh tốn trước như một cử chỉ thiện chí, với lời hứa sẽ hồn lại tiền trong tương lai. Nếu người nhận cung cấp thơng tin chi tiết, thì tài khoản của khách hàng sẽ bị tấn cơng và trừ tiền. Ở mỗi quốc gia khác nhau lại cĩ nhiều phiên bản lừa đảo khác nhau tồn tại. Một dạng lừa đảo qua thư rác nữa là một doanh nghiệp hợp pháp được thành lập, nhằm lừa người dùng cung cấp thơng tin cá nhân, thơng tin này sẽ được sử dụng để đánh cắp danh tính. Thư gửi đến sẽ hướng dẫn người dùng truy cập một trang web nơi họ được yêu cầu cập nhật thơng tin cá nhân, chẳng hạn như mật khẩu và thẻ tín dụng, số an sinh xã hội và số tài khoản ngân hàng mà tổ chức hợp pháp đã cĩ. Tuy nhiên, trang web này là giả mạo và được thiết lập chỉ để lấy cắp thơng tin của người dùng. Sự nguy hiểm của các trị gian lận lừa đảo là trang web mà nạn nhân hướng đến thường giống thật, vì đĩ là trang web giả mạo nhằm sao chép trang web của doanh nghiệp hợp pháp. Lừa đảo qua thư điện tử này được gọi là phishing, là một biến thể của "câu cá", ý tưởng là mồi được ném ra với hy vọng rằng trong khi hầu hết sẽ bỏ qua mồi, một số sẽ bị dụ cắn [2]. 1.4.4.4. Thư rác chứa mã độc Tuy nhiên, khơng phải tất cả các thư rác đều là thư quảng cáo lành tính. Một phần đáng kể các tin nhắn rác cĩ tính chất độc hại hơn, nhằm mục đích phá hoại hoặc chiếm đoạt hệ thống của người dùng. Các biến thể phổ biến nhất của thư rác độc hại trên tồn thế giới bao gồm vi rút, trojan, phần mềm gián điệp và phần mềm tống tiền [2]. Vi rút là một chương trình, giống như vi rút sinh học, cĩ thể sao chép và đơi khi làm hỏng máy tính bị nhiễm. Bằng phương thức này, vi rút là một chương trình hoặc tài liệu được đính kèm với một thư điện tử mà khi mở ra, nĩ sẽ lây lan bằng cách tự chuyển tiếp hàng loạt người nhận trong danh bạ của người gửi hoặc người dùng sẽ tải xuống và cài đặt giúp 10 kẻ tấn cơng chiếm quyền điều khiển hệ thống. Đối với thư điện tử từ người lạ, khơng nên mở bất kỳ tệp đính kèm nào nếu khơng chắc chắn là nĩ khơng gây hại. Thư rác phát tán phần mềm độc hại để lây nhiễm sang máy chủ nhằm chiếm quyền điều khiển từ xa và được sử dụng để gửi nhiều thư rác hơn. Các máy chủ bị nhiễm được gọi là "zombie". Nhiều người tin rằng hầu hết thư rác được gửi qua mạng botnet, là một mạng lưới các máy tính cá nhân bị lây nhiễm mã độc, tuy nhiên giả thuyết này cũng khĩ được chứng minh. 1.4.4.5. Thư rác bơi nhọ Thư rác bơi nhọ - “Joe job” là thuật ngữ Internet để chỉ địa chỉ thư giả mạo, nhìn cĩ vẻ đúng là địa chỉ thư của ai đĩ, nhưng thực sự đĩ là địa chỉ thư được giả mạo bởi một người khác, với ý định tạo ra các phiền tối, bơi nhọ hoặc làm tổn hại đến danh tiếng của nạn nhân vơ tội. Ví dụ, kẻ xấu cĩ thể gửi một thư rác chứa nội dung khiêu dâm trẻ em cho hàng nghìn người sử dụng địa chỉ trả lại giả mạo để khiến người nhận phẫn nộ và kích động. Tên "joe job" lần đầu tiên được sử dụng để mơ tả một kế hoạch hướng đến Joe Doll, người đã cung cấp dịch vụ lưu trữ cho các trang web miễn phí. Một người dùng cĩ tài khoản bị xĩa vì quảng cáo thơng qua thư rác; để trả đũa, anh ta đã gửi một thư rác khác cho vài triệu nạn nhân vơ tội, nhưng với tiêu đề "trả lời" được giả mạo Joe Doll. 1.4.5. Mơ hình lọc thư rác 1.4.5.1. Mơ hình gửi nhận thư điện tử Để hiểu về phương thức lọc thư rác, cần tìm hiểu mơ hình gửi nhận thư điện tử. Mơ hình sau biểu diễn khái quát về cách thức gửi nhận thư: Hình 1.3: Mơ hình khái quát về gửi, nhận thư điện tử 11 - SMTP: là viết tắt của phương thức Send Mail Tranfer Protocol, là phương thức gửi thư. Để nhận tải thư điện tử xuống chương trình của người dùng cĩ 2 protocol sau: - POP: quản lý thư trên máy tính của người dùng. - IMAP: quản lý thư trên máy chủ. • MUA (Mail User Agent) Ứng dụng của người dùng cho phép nhận và gửi email. Nĩ cĩ thể là một ứng dụng như Microsoft Outlook/Thunderbird / hoặc dựa trên trình duyệt web như Gmail / Hotmail / (sau này cịn được gọi là Webmail). • MSA (Mail Subssmions Agent) Ứng dụng máy chủ nhận thư từ MUA, kiểm lỗi và chuyển tiếp (qua SMTP) đến MTA được lưu trữ trên cùng server. • MTA (Máy chủ chuyển thư) Ứng dụng máy chủ nhận thư từ MSA hoặc từ MTA khác. Nĩ sẽ tìm bản ...dạng nén hình ảnh và các thơng tin khác. Nghiên cứu này phân tích và so sánh hai phương pháp phát hiện hình ảnh thư rác. Đầu tiên, họ xem xét phân tích thành phần chính (PCA), trong đĩ họ xác định các eigenvectơ tương ứng với một tập hợp các hình ảnh của thư rác và tính tốn điểm bằng cách chiếu hình ảnh lên khơng gian eigens. Cách tiếp cận thứ hai tập trung vào việc trích xuất một tập hợp chung của các tính năng hình ảnh và lựa chọn một tập hợp con tối ưu bằng cách sử dụng máy vectơ hỗ trợ (SVM). Cả hai chiến lược phát hiện này đều cung cấp độ chính xác cao với độ phức tạp tính tốn thấp. Hơn nữa, nghiên cứu phát triển một bộ dữ liệu hình ảnh spam mới chưa bị phát hiện bằng cách sử dụng phương pháp PCA hoặc SVM. Bộ dữ liệu mới này sẽ tỏ ra cĩ giá trị trong việc cải thiện khả năng phát hiện spam hình ảnh. Tương tự, Uemura et al. sử dụng tên hình ảnh, kích thước lưu trữ làm các tính năng và đồng thời bổ sung thơng tin tỷ lệ nén hình ảnh [12]. Họ chỉ ra rằng hình ảnh spam thường cĩ tỷ lệ nén cao hơn của một hình ảnh bình thường vì nội dung của một hình ảnh spam tương đối đơn giản. Nghiên cứu cũng chỉ ra rằng tỷ lệ khung hình của một hình ảnh spam là khá 28 khác với hình ảnh bình thường [12]. Cĩ một số lượng lớn các biểu ngữ giữa các hình ảnh spam và sự khác biệt giữa chiều dài và chiều rộng của một hình ảnh biểu ngữ là hiển nhiên. • Tính năng màu sắc và kết cấu của hình ảnh Phân tích [12] chỉ ra rằng hình ảnh bình thường cĩ màu sắc khác nhau đáng kể trong khi đĩ cĩ sự khác biệt đáng kể giữa các thư rác hình ảnh và hình ảnh bình thường về khía cạnh phân bố màu sắc, cường độ màu,.. Sự giống nhau giữa các vùng của một hình ảnh thư hợp lệ khá cao, trong khi các ảnh thư rác cĩ màu sắc khơng đồng nhất. Độ bão hịa màu của ảnh thư rác cũng khác với ảnh bình thường. Hình ảnh được chia thành nhiều danh mục bằng cách trích xuất các đặc điểm màu này, trong đĩ năm loại hình ảnh thư rác thường thấy bao gồm hình ảnh tổng hợp, hình nền phức tạp, v.v., và ba loại hình ảnh bình thường, cụ thể là ảnh chụp, bản đồ và truyện tranh. Nghiên cứu cũng chỉ ra rằng sự phân bố màu sắc của hình ảnh thư rác khơng mượt như hình ảnh bình thường, bởi vì các hình ảnh trong thư rác nĩi chung là tổng hợp và chứa các vật rõ ràng và sắc nét. Vì số lượng thư điện tử rác được gửi là rất lớn, các hình ảnh thư rác được gửi trong cùng một đợt nĩi chung cĩ rất nhiều điểm tương đồng. Trong giai đoạn huấn luyện, khoảng cách tương tự giữa hình ảnh thư rác và hình ảnh bình thường được tính tốn và khoảng cách tương tự tối thiểu được sử dụng để tạo thành giá trị ngưỡng. Trong giai đoạn phân loại, sẽ tính ra điểm tương đồng giữa vectơ đặc trưng của hình ảnh mới. Vectơ trong thư viện được tính tốn và tạo danh mục hình ảnh mới thơng qua trọng số. • Tính năng cạnh ký tự Trên cơ sở trích xuất cạnh của ký tự theo chiều dọc, hình ảnh được chia thành vùng văn bản và vùng khơng phải văn bản bằng cách tính độ giống nhau của cạnh ký tự trong mỗi vùng và hợp nhất các vùng tương tự [12]. Sau sự phân chia, các tính năng của mỗi hình ảnh được xây dựng bằng cách tính tốn kích thước của văn bản vùng trong mỗi hình ảnh cũng như độ bão hịa màu và độ đồng nhất màu ở các vùng văn bản và vùng khơng phải văn bản tương ứng. Cuối cùng, vectơ đặc trưng của một thư điện tử đạt được bằng cách tính tổng trọng số các tính năng liên quan của tất cả các hình ảnh cĩ trong thư điện tử 29 tùy theo diện tích của mỗi hình ảnh sử dụng máy vectơ hỗ trợ (SVM) để phân loại. Ngồi ra, tuật tốn tăng cường cũng được sử dụng để phát hiện mẫu bằng cách huấn luyện về mẫu tính năng để phát hiện văn bản các khu vực trong hình ảnh [12]. • Các tính năng dựa trên OCR Để tránh bộ lọc thư rác, những người gửi thư rác thường gửi hình ảnh thay vì văn bản. Các bộ lọc thư rác hình ảnh truyền thống cĩ những điểm yếu trong việc quét tài liệu và ảnh. Tài liệu [17] đề xuất trích xuất thơng tin văn bản trong hình ảnh bằng cách sử dụng Quang học nhận dạng ký tự (OCR) và thơng tin văn bản được xử lý thêm bằng cách áp dụng các phương pháp tiếp cận dựa trên văn bản. Xem xét tính tốn cao độ phức tạp của cơng nghệ OCR, họ cũng chỉ ra rằng phương pháp này nên kết hợp với những phương pháp lọc khác và chỉ áp dụng cho những thư điện tử khĩ phân loại. Do đĩ, trong nghiên cứu [17] đã đề xuất phân loại ảnh thư theo chữ cái và hình ảnh [18]. Trích xuất tính năng dựa trên OCR chỉ cĩ thể đạt được hiệu suất tốt khi khơng cĩ tạp âm trong thư rác hình ảnh [12]. Để chống lại phương pháp phát hiện dựa trên OCR, những kẻ gửi thư rác thêm nhiễu thơng tin vào các hình ảnh spam, chẳng hạn như phơng chữ hỗn hợp, nền mờ, biến dạng văn bản, v.v. Tuy nhiên, những thơng tin nhiễu này đã trở thành tính năng phân biệt ảnh trong thư rác với ảnh bình thường. Phân tích nguyên tắc chính của các kỹ thuật làm mờ đối với hình ảnh spam cũng như tác động chính của các kỹ thuật này đối với OCR, và hơn thế nữa, cĩ thể trích xuất các tính năng nhiễu bằng cách phát hiện bất thường trong các bước xử lý OCR. Một phương pháp được đề xuất để phát hiện nhiễu trong đĩ hình ảnh được chuyển đổi thành một hình ảnh nhị phân và độ phức tạp của hình ảnh hiển thị được tính tốn [16] [19]. Vì độ phức tạp của hình ảnh bình thường nằm trong một phạm vi cĩ giá trị khác với của hình ảnh thư rác cĩ nhiễu, họ cĩ thể trích xuất các đặc điểm nhiễu của ký tự cạnh và nền bằng cách sử dụng số liệu này [17]. 2.2.1.4. Trích xuất thư điện tử theo hành vi Cĩ sự khác biệt đáng kể giữa thư rác và thư điện tử bình thường khơng chỉ trên nội dung mà cịn về mục đích gửi, phương thức truyền tải, phạm vi 30 tương tác, v.v. Ngồi ra, những người gửi spam thường thực hiện các biện pháp nhất định để tránh bộ lọc thư rác. Do đĩ, cĩ thể phân biệt thư rác và thư điện tử bình thường bằng cách trích xuất các tính năng hành vi trong quá trình gửi của thư điện tử. • Đặc điểm hành vi của người gửi thư rác Trong quá trình gửi, những kẻ gửi thư rác thường giả mạo thơng tin tiêu đề của thư điện tử để che giấu danh tính của họ. Điều này làm cho thơng tin tiêu đề của thư rác cĩ sự khác biệt đáng kể so với thơng tin của thư điện tử thơng thường và các đặc điểm hành vi tương ứng của thư giả mạo cĩ thể được trích xuất bằng cách phân tích thơng tin tiêu đề của thư điện tử. Các tính năng hành vi đã được trích xuất để phát hiện thư rác bằng cách kiểm tra sự bất thường của mục nhập đơn lẻ được phân biệt và kiểm tra các trường thơng tin trong thư điện tử header như “From”, “To”, “Delivered-To”, “Return Path”, “Date” và các thơng tin khác xem cĩ bất thường hay khơng, ví dụ như độ chính xác của định dạng, liệu nĩ cĩ trống khơng, thời gian cĩ hợp lý khơng [12] [20]. Thơng qua việc phân tích các đặc điểm của thư điện tử, người ta thấy rằng cĩ nhiều khả năng những kẻ gửi thư rác xuất hiện trong nhiều hơn một nhĩm để gửi lại thư rác. Nghiên cứu phân tích các liên kết URL trong thư điện tử và cụm thư điện tử bằng cách theo dõi máy chủ của các trang web được liên kết [20]. Họ chỉ ra cĩ một máy chủ thường cung cấp dịch vụ cho một số trang spam được liên kết, cho phép gửi thư điện tử [12]. • Các đặc điểm hành vi mạng của thư rác Hành vi, đặc điểm trên mạng của thư rác và thư điện tử thơng thường khá khác nhau, và các nghiên cứu đã trích xuất các đặc điểm hành vi liên quan đến địa chỉ IP, phân tích thơng tin đăng nhập của hộp thư và những thay đổi về IP đăng nhập và kết luận rằng hầu hết các thư điện tử được gửi từ địa chỉ IP động là thư rác, nghiên cứu cho thấy một nửa số thư rác trong Hotmail được gửi từ các địa chỉ IP động [12]. Ngồi ra, họ phát hiện ra rằng dữ liệu lịch sử trong danh sách đen cĩ giá trị tham chiếu tốt trong dự báo thư rác. Họ đề xuất một phương pháp đánh giá theo khơng gian-thời gian bằng cách kết hợp các 31 đặc điểm khơng gian và dữ liệu lịch sử, kết quả cĩ lỗi tỷ lệ thấp hơn một nửa so với lọc danh sách đen IP truyền thống. Nghiên cứu các đặc điểm của mạng hành vi trong quá trình gửi thư rác và họ phân tích việc phân phối các địa chỉ IP gửi thư rác, định tuyến, sự tồn tại của máy chủ gửi thư rác và đặc điểm của botnet thư rác. Thơng qua phân tích, họ thu được rằng phần lớn thư rác đến từ một loạt địa chỉ IP nhỏ (ví dụ: 60. * - 70. *) và quá trình gửi thư rác của botnet khơng liên tục [12] [20]. Họ chỉ ra rằng những các tính năng liên quan đến mạng cần được quan tâm trong quá trình lọc thư rác và chú ý để xác định botnet. Các phương pháp khơng giám sát (unsupervised methods) được sử dụng để phân tích các đặc điểm liên quan trong quá trình gửi thư rác. Các phân tích cĩ hệ thống đã chỉ ra các đặc điểm hành vi của những người gửi thư rác về khía cạnh máy chủ thư và lớp mạng, chẳng hạn như việc phân phối các máy chủ thư, tỷ lệ thư rác, thời gian hoạt động của những người gửi thư rác, v.v. Họ chỉ ra rằng các phương pháp mới về cơ chế xác thực người gửi và kiểm sốt việc gửi thư điện tử cần được nghiên cứu để để giảm thư rác một cách hiệu quả [12] [20]. • Đặc điểm hành vi dựa trên mạng xã hội Mạng lưới gửi và nhận thư điện tử thơng thường và mạng thư rác cĩ sự khác biệt đáng kể. Thư điện tử thơng thường được sử dụng để tương tác giữa bạn bè, đồng nghiệp và người thân, tạo thành các tính năng mạng xã hội bình thường, trong khi kẻ gửi thư rác luơn cần trích xuất một số lượng lớn các địa chỉ thư điện tử từ các trang web để gửi thư rác, tạo thành mạng tương tác bất thường [12]. Mỗi tài khoản thư điện tử được coi là một nút và các cạnh giữa các nút được xây dựng phù hợp với việc gửi và nhận thư điện tử. Đối với mạng gửi thư rác, số lượng nút trong mạng lớn trong khi quan hệ giữa các nút liền kề là tương đối đơn giản. Các phương pháp về tính tốn hệ số phân cụm được đưa ra để phân biệt các mạng gửi thư điện tử thơng thường và các mạng gửi thư rác dựa trên sự liên kết giữa các nút và sự chia sẻ giữa các nút liền kề [12]. Thư rác càng ngày càng gia tăng do sự bùng nổ của nội dung do người dùng tạo ra trên Internet. Những kẻ gửi thư rác thường chèn các từ khĩa phổ biến hoặc đơn giản là sao chép và dán các bài báo gần đây từ trang web cĩ chèn 32 các liên kết spam, cố gắng vơ hiệu hĩa tính năng phát hiện thư rác. Để phát hiện hiệu quả thư rác trong nội dung do người dùng tạo, trước tiên, [20] tiến hành phân tích tồn diện các hoạt động gửi thư rác trên một trang web thương mại lớn trong 325 ngày với hơn 6 triệu bài đăng và gần 400 nghìn người dùng. Phân tích cho thấy rằng những người gửi thư rác thể hiện các đặc tính riêng về hoạt động đăng bài, số liên kết được quảng cáo và lưu trữ thư. Những kết quả này càng thúc đẩy sự phát triển BARS, một hệ thống được xây dựng để phát hiện các bài đăng spam dựa trên các mẫu gửi thư rác này. Kết quả thử nghiệm chứng minh tính hiệu quả và mạnh mẽ của BARS [20]. • Đặc điểm hành vi dựa trên miễn dịch Các hành vi của người gửi thư rác cịn được trích xuất từ địa chỉ IP, giao thức SMTP, liên kết URL và địa chỉ phản hồi và “điểm” [12]. Các điểm thư rác này được kết hợp để tạo ra các kháng thể. Trên cơ sở này, bộ kháng thể ban đầu được điều chỉnh bằng cách sử dụng lý thuyết mạng lưới miễn dịch nhân tạo và các kháng thể cĩ lực cao được nhân bản và được thay đổi bằng cách áp dụng thuật tốn lựa chọn vơ tính, trong đĩ số lượng các kháng thể cĩ lực thấp bị triệt tiêu [21]. Cuối cùng, các kháng thể của mạng lưới miễn dịch được nhĩm lại. Việc sử dụng mạng lưới miễn dịch nhân tạo làm cho các đặc tính hành vi cĩ mối quan hệ cao được giữ nguyên, trong khi các tính năng hành vi cĩ mối quan hệ thấp được lọc ra [12] [21]. 2.2.2. Các kỹ thuật lọc thư rác cơ bản 2.2.2.1. Lọc theo luật Đối với lọc thư rác dựa theo luật (rule), các quy tắc được sử dụng để lọc thư rác cĩ thể tạo theo cách thủ cơng, hoặc tự động. • Quy tắc cho nội dung thư Một quy tắc đơn giản cĩ thể trơng như thế này: body LOCAL_DEMONSTRATION_RULE /thư rác/ score LOCAL_DEMONSTRATION_RULE 0.1 describe LOCAL_DEMONSTRATION_RULE test rule 33 Quy tắc này thực hiện tìm kiếm trong phần thân (body) của thư điện tử cĩ phân biệt chữ hoa chữ thường cho chuỗi chứa ký tự "thư rác" và thêm 0,1 vào điểm của thư điện tử (score) nếu tìm thấy nĩ. Trong trường hợp này, cĩ thể khớp với trường hợp “thư rácc”.Từ khĩa describe dùng để mơ tả luật và thơng tin này sẽ được đưa vào báo cáo chi tiết khi tính điểm cho thư điện tử. Trong biểu thức chính quy, \b cĩ thể được sử dụng để chỉ ra sự bắt đầu và kết thúc của từ. Quy tắc sau sẽ khơng khớp với chuỗi ký tự chứa "thư rácc" hoặc "1thư rác" mà chỉ khớp với chính xác ký tự “thư rác”. body LOCAL_DEMONSTRATION_RULE /\bthư rác\b/ Để khớp với các chuỗi ký tự chứa “thư rác” khơng phân biệt viết hoa và viết thường thì cĩ thể sử dụng /i body LOCAL_DEMONSTRATION_RULE /\bthư rácb/i score LOCAL_DEMONSTRATION_RULE 0.1 Quy tắc này sẽ khớp với bắt cứ từ “thư rác”, “THƯ RÁC” hay “Thư rác”, viết hoa hay thường đều được. • Quy tắc cho tiêu đề thư Bây giờ chúng ta hãy chuyển sang quy tắc tiêu đề. Quy tắc tiêu đề cho phép bạn kiểm tra tiêu đề thư. Thơng thường nhất, các quy tắc này kiểm tra Subject, From hoặc To, nhưng chúng cĩ thể được viết để kiểm tra bất kỳ tiêu đề thư nào, kể cả những tiêu đề khơng chuẩn. Ví dụ sau đây là quy tắc tiêu đề cho ký tự "thư rác". header LOCAL_DEMONSTRATION_SUBJECT Subject =~ /\bthư rácb/i score LOCAL_DEMONSTRATION_SUBJECT 0.1 Trong các quy tắc này, phần đầu tiên trước dấu = ~ cho biết tên của tiêu đề bạn muốn kiểm tra là gì và phần cịn lại là một biểu thức chính quy quen thuộc. Bản thân tên tiêu đề luơn khơng phân biệt chữ hoa chữ thường, vì vậy quy tắc trên sẽ khớp với chủ đề chứa "thư rác" hoặc “THƯ RÁC”. Một vài chú ý về cách chấm điểm của quy tắc: 1. Các quy tắc cĩ điểm đặt thành 0 (score=0) hồn tồn khơng được áp dụng để lọc 2. Các quy tắc khơng ghi điểm sẽ được cho điểm là 1,0, trừ khi 3 hoặc 4 là đúng 3. Các quy tắc bắt đầu bằng dấu gạch dưới kép được đánh giá khơng cĩ điểm và được sử dụng trong các quy tắc meta mà bạn khơng muốn các quy tắc phụ cĩ điểm. 34 4. Bất kỳ quy tắc nào bắt đầu bằng T_ sẽ được coi là quy tắc "thử nghiệm" và sẽ được chạy với điểm 0,01(gần 0). Điều này cĩ thể hữu ích vì khi đĩ bạn khơng phải lưu điểm cho chúng nếu bạn nghĩ rằng bạn sẽ khơng giữ chúng. Khi tạo một quy tắc, nên cho một số điểm thấp để sẽ khơng ảnh hưởng nhiều đến thư rác, chẳng hạn như 0,1. Xem xét cân nhắc các quy tắc và đảm bảo quy tắc đĩ kích hoạt khi muốn và khơng kích hoạt khi khơng muốn. Sau đĩ, bắt đầu tăng điểm để nĩ cĩ tác dụng hơn, nhưng khơng nên tăng quá mức. Chúng ta nên cân nhắc kỹ khi cĩ một quy tắc tùy chỉnh cĩ điểm trên 1,0 trừ khi phải chắc chắn rằng quy tắc đĩ sẽ khơng nhận được bất kỳ thơng báo spam nào. Cũng nên nhớ rằng các quy tắc được viết ra để chỉ so sánh với các tin nhắn khơng phải là spam và cho chúng điểm tiêu cực để tránh các lỗi dương tính giả. Nĩi chung dương tính giả cĩ thể gây ra vấn đề vì thư cĩ giá trị cĩ thể bị bỏ qua, nhưng âm tính giả chỉ gây phiền tối nhỏ. 2.2.2.2. Lọc theo nhận dạng Phương pháp này khơng xử lý tồn bộ thư hoặc từ ngữ cụ thể nhưng biến đổi thư thành một chữ ký (signature). Điều này cĩ thể được thực hiện theo nhiều cách khác nhau ví dụ như sử dụng một hàm băm. Tuy nhiên, phương pháp này hiệu quả khi kiểm tra những thay đổi nhỏ trong e-mail, chẳng hạn như như một lời chào được cá nhân hĩa hoặc các thay đổi nhỏ của thơng điệp. Chữ ký này cần được cập nhật và phân phối rất thường xuyên vì nội dung của thư rác nhanh chĩng thay đổi. Quy trình chung để sàng lọc thư rác là xây dựng chữ ký của nĩ và so sánh nĩ với các chữ ký của các thư rác trong cơ sở dữ liệu. Các phương pháp lọc dựa trên chữ ký khơng chỉ khác nhau về cách chúng xây dựng chữ ký; chúng cĩ thể dựa trên mơ hình máy trạm- máy chủ hoặc chia sẻ ngang hàng để phân phối chữ ký. Đặc biệt khi người dùng báo cáo thư rác, điều quan trọng là phải thiết lập ngưỡng báo cáo khi số lượng người dùng báo cáo thư rác vượt qua ngưỡng, thư đĩ sẽ trở thành thư rác. Một ví dụ của hệ thống này là Razor, một mạng phân tán, cộng tác, phát hiện và lọc thư rác. Dự án này thơng qua đĩng gĩp của người dùng, Razor thiết lập một kênh phân phối và cập nhật liên tục danh mục thư rác được đĩng gĩp bởi chính người dùng. Việc phát hiện được thực hiện với các chữ ký thống kê và ngẫu nhiên giúp phát hiện nội dung thư rác đột biến một cách hiệu quả. Damiani và cộng sự đã đề xuất một mơ hình lọc thư rác cộng tác với các máy chủ e-mail, chia sẻ thơng tin qua mạng P2P [2]. Đối với mỗi tin nhắn đã được người dùng báo cáo là thư rác, một chuỗi hàm băm 256 bit được tính 35 tốn. Hai thơng điệp được coi là tương tự nếu hàm băm của chúng khác nhau nhiều nhất là 74 bit. Các tác giả sử dụng một kiến trúc ba tầng bao gồm một tầng người dùng, một tầng ngang hàng chứa e-mail máy chủ và một tầng siêu cấp ngang hàng chứa những máy chủ e-mail đĩng vai trị thu thập và đánh giá các báo cáo thư rác. Các máy chủ chia sẻ thơng tin (thơng tin về thư rác) với nhau bằng cách gửi và nhận báo cáo thư rác đến/từ các máy chủ siêu ngang hàng của họ. Máy chủ siêu ngang hàng chia sẻ thơng tin của họ với nhau. Giao thức bao gồm chữ ký của thư rác. Zhou và cộng sự cũng sử dụng mạng P2P [2]. Thay vì một chữ ký duy nhất, họ tạo một tập hợp các mẫu dấu (fingerprint) cho mỗi tin nhắn và phân phối mẫu dấu thơng qua hệ thống gọi là DOLR. Mục tiêu là phát hiện thư rác hiệu quả, các mẫu dấu được phân phối trên tồn mạng, chia sẻ những điểm tương đồng về nội dung của thư rác. Trong khi đĩ, hệ thống phân phối DCC dựa trên một số máy chủ mở duy trì cơ sở dữ liệu chữ ký của các thư rác [2]. 2.2.3. Các kỹ thuật lọc thư rác thơng minh Các phương pháp phát hiện thư rác thơng minh đang được đánh giá là cách hiệu quả nhất và được sử dụng rộng rãi trong lĩnh vực này. Các phương pháp phát hiện thơng minh cĩ khả năng tự động hĩa cao và khơng cần nhiều sự can thiệp của con người. Các phương pháp này được đặc trưng bởi độ chính xác cao và cĩ thể thích ứng với những biến đổi về nội dung thư điện tử và sở thích của người dùng. Theo quan điểm của các phương pháp tiếp cận thơng minh, phân loại và phát hiện thư rác là một vấn đề phân loại điển hình, cĩ thể được giải quyết bằng các phương pháp học máy cĩ giám sát. Thơng thường, các phương pháp học máy cĩ giám sát trích xuất thơng tin dưới dạng các tính năng từ tập huấn luyện và xây dựng các bộ phân loại dựa trên các tính năng được trích xuất theo các nguyên tắc học tập tương ứng. Ngoại trừ sự tham gia của con người trong quá trình huấn luyện, quá trình học tập và phân loại quy trình được hồn thành tự động. Trong khi đĩ, mơ hình học tập cĩ thể thích ứng với những thay đổi động của nội dung thư điện tử và sở thích của người dùng thơng qua điều chỉnh các tập huấn luyện và cập nhật các bộ phân loại [12]. Rất nhiều phương pháp học máy cổ điển đã được áp dụng thành cơng trong việc phát hiện thư rác, bao gồm Naive Bayes, SVM, k-Hàng xĩm gần nhất (k-NN), Mạng thần kinh nhân tạo (ANN) và Tăng cường [12]. 36 2.2.3.1. Lọc thư dựa trên mơ hình phân lớp thống kê Nạve Bayes Naive Bayes là một phương pháp thống kê cơ bản dựa trên xác suất được đề xuất bởi Sahami cùng cộng sự [14]. Thuật tốn dự đốn và phân loại thư mới là thư rác hay hợp pháp bằng cách sử dụng “training set”- là một tập dữ liệu mẫu và được “huấn luyện”. Từ đĩ, thuật tốn sẽ sử dụng thơng tin từ dữ liệu mẫu để đưa ra thống kê và so sánh, đối chiếu các đặc điểm của thư mới với các bộ mẫu [2]. Bộ lọc thống kê dựa trên "Định lý xác suất Nạve Bayes" được coi là rất hữu ích trong việc phát hiện thư rác từ những năm 1998-2000 [2]. Hiện nay, nĩ vẫn rất phổ biến và được triển khai rộng rãi và sử dụng phương pháp thống kê tốn học và vectơ đặc trưng– ví dụ như là cụm từ “ưu đãi” Cơng thức Nạve Bayes là: )Pr()|Pr()Pr()|Pr( )Pr()|Pr( )|Pr( HHWSSW SSW WS +  = 4 Với: P(S) là xác suất xuất hiện của tổng số thư rác P(H) là xác suất xuất hiện của tổng số thư hợp lệ P(W|H) là xác suất từ, cụm từ đĩ xuất hiện trong thư hợp lệ P(W|S) là xác suất từ, cụm từ đĩ xuất hiện trong các thư rác Với P(S|W) là xác suất thư cĩ chứa từ “ưu đãi” là thư rác Cho ví dụ cụ thể hơn như sau: - Số lượng thư thư rác là 5000. Trong đĩ 600 thư điện tử chứa từ “ưu đãi” - Số lượng thư hợp lệ là 500, trong đĩ 9 thư cĩ từ “ưu đãi” Như vậy xác suất một thư chứa từ “ưu đãi” cĩ khả năng là spam được tính như sau: 𝑃(𝑆|𝑊) = (600/5000) X (5000/5500) ( 600 5000) x ( 5000 5500) + ( 9 500) x ( 500 5500) ≈ 88% Trên thực tế, để xem xét một thư cĩ phải là thư rác hay khơng, ta phải xem xét rất nhiều từ ngữ, dẫn đến việc tính tốn xác suất khả năng của một thư cĩ phải là thư rác hay khơng như sau: )1()1)(1( 2121 21 NN N pppppp ppp p −−−+  = 5 37 Với: p là xác suất là thư rác của một thư điện tử đang kiểm tra. p1 là xác suất P(S|W1) thư rác cĩ chứa từ thứ nhất p2 là xác suất P(S|W2) thư rác cĩ chứa từ thứ hai pn là xác suất P(S|W2) của thư rác cĩ chứa từ thứ n. Thuật tốn Nạve Bayes cho phân loại thư rác như sau: Thuật tốn 1. Nạve Bayes 1. Nhập tập thư điện tử 2. Trích xuất văn bản thành các token thành phần wi 3. Xác suất spam cho mỗi token là P (S/wi), xác suất ham cho mỗi token là P(H|wi) 4. Lưu giá trị xác suất spam cho mỗi token này 5. for each (M) do //chạy vịng lặp duyệt thư từ đầu đến cuối 6. while (M not end) do //chạy vịng lặp cho đến cuối thư 7. Chạy thư cho đến token kế tiếp wi 8. Tìm trong database xác suất spam của P(S|wi) 9. Tính xác suất spam của thư M là P(S|M) và xác suất ham của thư P(H|M) 10. Tính tốn khả năng xác suất thư rác của tồn thư điện tử P(M) 11. if P(M) > ngưỡng 12. thư được đánh dấu là spam 13. else if 14. thư được đánh dấu là ham 15. end if 16. end if 17. end while 18: end for 19. return kết quả phân loại thư rác. 20. Kết thúc chương trình Thuật tốn trên trải qua những bước sau: Giai đoạn 1. Huấn luyện Đầu vào: Thư cần kiểm tra là thư rác hay khơng. Phân tích cú pháp mỗi email thành các từ, cụm từ hay cịn gọi là token. Tính tốn xác suất cho các token này. 38 Giai đoạn 2. Lọc Đối với mỗi thư M, duyệt tuần tự từ đầu cho đến cuối thư và tính tốn xác suất là spam của từng token wi, sau đĩ tính tốn xác suất ham của từng token. Sau đĩ tính tổng giá xác suất của thư, xác tổng xác suất P(M) lớn hơn ngưỡng, thư sẽ bị đánh dấu là thư rác khác, nếu khơng sẽ được đánh dấu là thư hợp lệ. Đầu ra: Trả lại kết quả phân loại là thư rác hay thư hợp lệ. 2.2.3.2. Máy hỗ trợ vectơ Máy hỗ trợ vectơ (Support Vectơ Machine, viết tắt là SVM) là một phương pháp học máy cĩ giám sát dựa trên giảm thiểu rủi ro cấu trúc [22], là một nhĩm các thuật tốn được đề xuất bởi Vapnik năm 1995 để giải quyết các vấn đề phân loại và hồi quy. SVM tạo danh mục bằng một bộ phân loại nhị phân. Ưu điểm của SVM là nĩ khơng bị ảnh hưởng bởi kích thước của khơng gian đối tượng, thay vào đĩ tập trung vào việc tối ưu hĩa ranh giới giữa những điển hình tích cực và tiêu cực trong các tài liệu huấn luyện. Phương pháp này cố gắng tránh sử dụng nhiều tài liệu huấn luyện, chỉ sử dụng những tài liệu gần ranh giới phân loại, để tạo ra một biên giới ngăn cách giữa các mẫu tích cực và tiêu cực. SVM cĩ thể học bộ phân loại đa thức, hàm cơ sở xuyên tâm và mạng nơron sigmoid ba cấp, do đĩ cĩ được khả năng học lớn. SVM được ứng dụng trong việc cung cấp giải pháp cho các vấn đề lập trình bậc hai cĩ các ràng buộc về đẳng thức và bất đẳng thức tuyến tính bằng mặt siêu phẳng. SVM vẽ một đường hoặc một siêu phẳng chia một khơng gian ra làm 2 khơng gian phụ, một khơng gian phụ chứa các vec tơ thuộc 1 nhĩm, khơng gian kia chứa các vec tơ thuộc nhĩm cịn lại. Những vec tơ sẽ biểu diễn văn bản huấn luyện và văn bản sẽ được phân chia vào nhĩm định phân loại, trong trường hợp lọc thư rác là thư hợp lệ hoặc thư rác. Mặc dù SVM cĩ thể khơng nhanh bằng các phương pháp phân loại khác, nhưng thuật tốn cĩ độ chính xác cao vì khả năng mơ hình hĩa các đường biên giới đa chiều khơng tuần tự hoặc đơn giản. SVM khơng dễ bị ảnh hưởng bởi một tình huống hay mơ hình phức tạp chẳng hạn như cĩ nhiều tham số so với số lượng quan sát. Những chất lượng làm cho SVM trở thành thuật tốn lý tưởng để ứng dụng trong các lĩnh vực nhận dạng chữ ký điện tử, phân loại văn bản, nhận dạng giọng nĩi. 1) SMSVM (SVM phân chia mềm): Vì khơng thể luơn luơn cĩ sự phân tách rõ, SMSVM cố gắng phân chia rõ ràng nhất cĩ thể đối với các mẫu ví dụ, 39 trong khi cố gắng tối đa hĩa khoảng cách giữa các ví dụ đã được phân chia rõ ràng [13]. 2) Bộ phân loại kết hợp: Tretyakov đã thử kết hợp hai bộ lọc, cả hai đều hiển thị kết quả xác suất dương tính giả thấp [13]. Sự kết hợp của SMSVM và Nạve Bayes đã được thử nghiệm trên tập tin PU1. Kết quả thực nghiệm chỉ ra 94,4% phân loại đúng, 12,7% sai và 0,0% dương tính giả. Trong khi đĩ, độ chính xác của SMSVM là 98,1%, với 1,6% dương tính giả và 2,3% âm tính giả. Điều chỉnh tham số của SMSVM giảm số dương tính giả xuống 0,0%, nhưng điều này dẫn đến giảm rõ rệt độ chính xác xuống 90,8% và sai âm tính giả đến 21%. Do đĩ, phương pháp này cĩ thể giải quyết vấn đề dương tính giả trong khi vẫn duy trì độ chính xác ở mức chấp nhận được [13]. Do khả năng giải quyết các vấn đề phân loại phi tuyến bằng cách áp dụng thủ thuật kernel, SVM gần đây đã trở nên phổ biến. Nguyên tắc của SVM là xây dựng một hypherlane để đảm bảo rằng khoảng cách giữa hai loại cấu trúc là tối đa. Trong khi tối đa hĩa khoảng cách, SVM vẫn cần giảm nguy cơ điểm bị phân loại sai nhĩm. Bằng cách này, chúng ta cĩ thể thấy SVM thực chất là một phương pháp tối ưu hĩa bậc hai. Thuật tốn Máy hỗ trợ vectơ được sử dụng để phân loại thư rác như sau: Thuật tốn 2. SVM 1. Nhập thư mẫu để phân loại 2. Tập dữ liệu huấn luyện S, hàm kernel, {c1, c2, cnum} and {γ1, γ2, γnum}. 3. Số lượng của hàng xĩm gần nhất là k 4. for i:=1 to n //chạy vịng lặp n lần 5. set C= Ci // đặt giá trị C= Ci 6. for j:=1 to q //cho chạy j q lần 7. Đặt γ=γ; 8. Tạo ra phân loại SVM f(x) thơng qua tham số merger (C, γ); 9. if (f (x) là hàm phân biệt được tạo ra đầu tiên 10. f (x) là hàm SVM lý tưởng nhất f *(x) 11. else 12. So sánh hàm phân loại f(x) với hàm SVM lý tưởng nhất hiện tại, sử dụng xác thực chéo k lần. 13. Giữ lại bộ phân loại chính xác hơn 14. end if 15. end for 16. end for 17. return kết quả phân loại thư điện tử là spam hay ham 18. Kết thúc chương trình Thuật tốn SVM để phân loại thư như sau: Đầu vào: Thư điện tử cần phân loại 40 Đầu ra: Kết quả phân loại là thư rác hay thư hợp lệ. Ở đây C biểu thị tham số chi phí để điều chỉnh lỗi mơ hình phát sinh khi một hàm gần khớp với một tập hợp điểm dữ liệu giới hạn bằng cách phạt lỗi. Trong quá trình huấn luyện, giả sử chúng ta cĩ một tập dữ liệu cần được đào tạo, theo giả thuyết chỉ cĩ sự hợp nhất của tham số (C, γ) cĩ khả năng tạo ra bộ phân loại SVM ưu việt nhất. Tìm kiếm theo lưới trên tham số C và γ là kỹ thuật khả thi duy nhất thường được áp dụng trong đào tạo SVM để cĩ được sự hợp nhất của tham số này. Gán hàm SVM lý tưởng nhất cho hàm SVM đầu tiên. Ước tính xoay vịng k-lần được sử dụng trong tìm kiếm lưới để chọn bộ phân loại SVM với ước tính chính xác nhất. Mỗi lần, giá trị hàm SVM lý tưởng nhất f*(x) được so sánh và tính tốn lại, để tìm được bộ phân loại chính xác hơn. Cuối cùng, kết thúc chương trình, bộ phân loại chính xác nhất sẽ được sử dụng để xác định thư điện tử là thư rác hay khơng. 2.3. Các nghiên cứu về lọc thư rác trên thế giới Kể từ vài thập kỷ trước, các nhà nghiên cứu đang cố gắng bảo vệ thư điện tử khỏi thư rác. Về vấn đề này, một số loại nghiên cứu đã được đã tiến hành nhưng vẫn cịn chưa được quyết liệt. Dần dần theo thời gian, phân loại thư rác đã trở thành một những lĩnh vực nghiên cứu hẹp với số lượng lớn các nghiên cứu về các kỹ thuật để phân loại thư rác hiệu quả hơn. Nhĩm nghiên cứu của Mohammed và cộng sự [23] đã đề xuất phương thức phân loại thư rác sử dụng kỹ thuật học máy Python bằng cách tạo từ điển spam-ham từ những từ khĩa trong dữ liệu huấn luyện và áp dụng thuật tốn khai thác dữ liệu để lọc và thử nghiệm. Sau khi áp dụng nhiều phân loại trên tập dữ liệu, phương pháp tiếp cận này dự đốn rằng, Nạve Bays và bộ phân loại SVM là những thuật tốn nổi trội trong việc lọc và phân loại thư. Phần lớn các nghiên cứu đều đánh giá cao các kỹ thuật học máy sử dụng thuật tốn Nạve Bayes và SVM. Ví dụ, Rathi và cộng sự giới thiệu bộ lọc xem xét sử dụng đồng thời Nạve Bayes, Bayes Net, SVM và Rừng ngẫu nhiên để đạt hiệu quả cao hơn chiếm (99.72% độ chính xác). Một nghiên cứu khác Adwad đề xuất phương pháp sử dụng “Nạve Bayes”, “SVM”, “K-hàng xĩm gần nhấ”, “mạng nơ ron nhân tạo”, “rough sets” và đã đạt 99.46% tính chính xác và hiệu quả tốt. Qua các nghiên cứu đều chỉ ra rằng NB và SVM đều là 2 thuật tốn học máy hiệu quả và đem lại xác suất phân loại cao tuy nhiên NB 41 vẫn được đánh giá nhỉnh hơn SVM [9]. Tuy nhiên, mơ hình Nạve Bayes được đánh giá là cần cĩ nhiều cải biến hơn để đạt được độ chính xác cao hơn khi phân loại [13] [24]. Tương tự, theo các nghiên cứu khác [13] [22] cũng đánh giá các phương pháp phân loại và học máy, cho kết quả là phương pháp Nạve Bayes cĩ độ chính xác cao hơn cả. Shahi và đồng nghiệp [25] đã phát triển tính năng Lọc thư rác trên di động di động cho tiếng Nepal bằng Nạve Bayesian và SVM. Mối quan tâm cơ bản của nghiên cứu này là xem xét hiệu quả của các bộ lọc Nạve Bayesian và SVM. Nghiên cứu chỉ ra rằng Nave Bayes tạo ra độ chính xác tốt hơn SVM. Rusland và nhĩm nghiên cứu [26] đã thực hiện sử dụng thuật tốn Nạve Bayes để lọc thư rác trên hai tập dữ liệu để đánh giá độ chính ...uật tốn 3. SVM-NB Với: X = {x1, x2, ··· , xm}, Y = {y1, y2, ··· , ym} và V = {v1, v2, ··· , vm}. 1. for i:=1 to m //chạy vịng lặp m lần 2. for j:=1 to m //chạy vịng lặp con m lần 3. if i #j //so sánh chỉ mục i và j 4. Dij ← D(xi, xj ) 5. end if 6. end for 7. end for 8. for i: 1 ← m //chạy vịng lặp m lần 9. Min ← ∞ //chạy Min đến vơ cùng 10. NN ← i //chạy i đến nn 11. for j:=1 ← m //chạy vịng lặp từ 1 đến m lần 12. if Min > D(xi, xj ) //nếu giá trị Min lớn hơn giá trị hiện tại 13. Min ← D(xi, xj ) //gán Min bằng D(xi, xj) 14. NN ← j //chạy j đến nn 15. end if 16. end for 48 17. if yi # yj then ///nếu yi khơng giống giá trị yj 18. Xĩa bỏ vi khỏi vectơ V 19. end if 20. end for 21: return V //trả lại giá trị vec tơ V Trong thuật tốn, ta sử dụng X = {x1, x2, ···, xm} và Y = {y1, y2, ···, ym} để biểu thị các vectơ đặc trưng và các danh mục tương ứng. Cho V = {v1, v2, ···, vm} biểu thị kết quả phân loại. Kết quả phân loại thu được sẽ được tinh chỉnh bởi thuật tốn SVM-NB, ví dụ như các vectơ đặc trưng phụ thuộc sẽ bị xĩa khỏi bộ huấn luyện. Sau đĩ, vectơ kết quả V sẽ được sử dụng bởi thuật tốn để thực hiện nhiệm vụ phân loại. 3.1.2.2. Thành phần cấu tạo của plugin SVM-NB Mơ đun plugin SVM-NB, bao gồm 3 tệp như sau: - svm.cf – Đây là têp cấu hình của plugin. - svm.pre – Đây là tệp được sử dụng làm preproccessor, gọi đến plugin SVM - svm.pm – Đây là tệp plugin được viết bằng code Perl. Plugin SVM đã được tích hợp hiệu quả với Nạve Bayes nhằm cải thiện khả năng lọc thư rác của hệ thống. 3.1.3. Xây dựng quy tắc lọc tiếng Việt Song song với việc sử dụng Nạve Bayes và SVM làm phương pháp lọc thư rác, hệ thống thực nghiệm sử dụng các luật đã cĩ được nghiên cứu sẵn để lọc thư rác nhanh hơn mà khơng cần phải trải qua quá trình huấn luyện, học của Bayes. Ngồi ra, lọc theo quy tắc cũng tăng thêm tính chính xác của Nạve Bayes vì Nạve Bayes phụ thuộc nhiều vào dữ liệu mẫu, nếu dữ liệu mẫu khơng cĩ độ chuẩn cao trong trường hợp thư điện tử thu thập được khơng cĩ đủ phổ rộng cao. Việc xây dựng quy tắc dựa trên n-gram hồn tồn phù hợp với tính chất của Tiếng Việt bao gồm cả từ đơn và từ ghép. Ngồi, ra quá trình tự động trích xuất tokens sẽ gặp phải rất nhiều cụm từ phổ thơng như “dear”, “thân mến”, “kính gửi”, “do not”, “reply”, do đĩ, để tăng tính chính xác cho bộ lọc, cần cĩ sự can thiệp của con người để loại bỏ các token này. Do đĩ, luận văn này lấy các token được trích xuất tự động và từ đĩ xây dựng lên các quy tắc cho các “từ và cụm từ kép” theo thuật tốn Generic Algorithm. 49 Quá trình để tạo ra 1 quy tắc như sau: 1- Thu thập dữ liệu huấn luyện Đầu tiên ta phải thu thập một tập các thư rác và thư “ham” (khơng phải thư rác) và cố gắng thu thập nguồn thư đủ chuẩn để bao trùm được nhiều trường hợp và lĩnh vực. 2- Tiền xử lý Sau đĩ, các nội dung văn bản sẽ được tiền xử lý để lấy nội dung chính: 4. Giải mã cấu trúc thư MIME 5. loại bỏ các phần khơng phải văn bản hoặc các phần khơng được hiển thị cho người xem (chẳng hạn như tệp đính kèm) 6. giải mã văn bản được trích dẫn hoặc mã base64 7. lọc lấy nội dung của trang HTML (nếu cĩ) 8. Chuẩn hĩa khoảng trắng, “đây \nlà \ n1 \ nbài” -> “đây là 1 bài” 3- Phân loại và xử lý Tiếp theo, tệp dữ liệu được xử lý và phân loại bằng thuật tốn sau: • Chiết xuất N-gram Cho chạy tuần từ từng thư điện tử trong tập hợp spam. Mỗi thư được gắn một ID ngắn. Cắt tất cả ngoại trừ 32 kbytes đầu tiên của văn bản (thuật tốn này cho rằng nội dung thư của spammers thường khơng quá 32 KBs, nội dung thể hiện spam chủ yếu ở 32Kbbytes). Lưu bản sao của chuỗi văn bản rút gọn này. Chia văn bản thành "từ" – là phần ký tự khơng cĩ khoảng trắng được phân tách bằng dấu cách. Nén mỗi “từ” thành một ID ngắn hơn để tiết kiệm dung lượng: Ví dụ như: "Đây là một bài kiểm tra" được nén thành "a b c d". Sau đĩ từ điển nén này được chia sẻ cho tất cả các thư để phục vụ tra cứu ngược sau này. Sau đĩ chia ra thành đoạn mã 2 từ hoặc 3 từ (cịn được gọi là N-gram): Ví dụ như mã rút gọn sẽ "a b c d" được chia thành các cặp mã như sau ["a b", "b c", "c d", "a b c", "b c d"]. Loại bỏ N-gram trùng lặp, vì vậy mỗi N-gram chỉ xuất hiện một lần trên mỗi thơng báo. Đếm và tăng bộ đếm mã (token counter) và thêm ID vào “message subset hit”. 50 Tiếp theo, chúng ta sẽ chạy thuật tốn cho thư hợp lệ. Thực hiện cùng một thuật tốn, tuy nhiên, khơng cắt gọn văn bản, khơng cắt ở 32KB và thay vì tăng token counter, khi tìm thấy cụm từ N-gram chỉ cần xĩa danh sách trong “token counter” và “message subset hit”. Cuối quy trình, sau khi tất cả thư rác và thư hợp lệ được xử lý, chúng ta sẽ cĩ: a. Bảng thống kê số lần xuất hiện của các văn bản chứa các cụm từ N-gram. b. Bảng thống kê phụ chứa thơng tin chính xác về tập con nào của văn bản chứa N-gram đĩ. c. Bảng tra cứu đảo ngược mã (token-to-words). Sau đĩ chạy tuần tự bảng hit-counts table để loại bỏ các mục khơng thường xuyên và một lần (loại bỏ những cụm từ cĩ xác suất xuất hiện thấp). Tạo một băm ánh xạ các tập con với tập các mẫu N-gram của tập con đĩ. Đối với mỗi tập hợp con, hãy chọn một N-gam duy nhất và lưu lại số lần xuất hiện. Chạy lại cho các tập con tin nhắn, theo số lần xuất hiện của chúng. Lấy tất cả các mẫu của tập con thơng báo, giải mã N-gam trong tất cả các mẫu bằng cách sử dụng bảng tra cứu ngược và áp dụng bước sau sau cho tập mẫu đĩ: • Thu gọn các mẫu Đầu vào là một mảng các mẫu N-gram, cùng các tập con của văn bản. Chúng ta cũng cĩ một loạt các chuỗi văn bản rút gọn của tất cả các thư rác đã lưu, từ bước trích xuất N-gram. Do đĩ, chúng ta cĩ thể áp dụng một dạng của thuật tốn BLAST để tra cứu ngược. Lấy mẫu đầu tiên, sau đĩ tìm bất kỳ một thư nào từ mảng thư đã lưu so sánh với mẫu này. Tìm ký tự đơn trước mẫu trong thư và thêm ký tự đĩ vào mẫu. Xem số lần xuất hiện cho mẫu mới này cĩ bằng mẫu cũ khơng; nếu khơng, khơi phục lại mẫu cũ và dừng lại. Nếu là đầu văn bản của thư, dừng lại. Sau đĩ, áp dụng thuật tốn tìm về phía sau của ký tự mẫu. Cuối cùng, bạn đã mở rộng mơ hình từ N-gram cơ bản đến mức cĩ thể để đi theo cả hai hướng trước và sau của mẫu cho đến khi chạm đầu hoặc cuối văn bản. Tiếp theo, loại bỏ tất cả các mẫu trong mảng mẫu được cộng dồn lại (tức là xuất hiện trong) mẫu mở rộng mới này. Thuật tốn này chạy với 3 từ N-gam sẽ cho kết quả nhanh hơn 2 từ N- gam đơn thuần. 51 Cuối cùng, xuất ra một dịng liệt kê tỷ lệ phần trăm số tin nhắn rác xuất hiện bằng cách tính: Tỉ lệ = số lần xuất hiện/ tổng số thư rác và danh sách các mẫu mở rộng cho tập con của tin nhắn đĩ, sau đĩ để chuyển sang tin nhắn tiếp theo, cĩ cấu trúc như sau: Hình 3.11: Tỉ lệ xuất hiện của các cụm từ Chi tiết về thống kê tỉ lệ phần trăm của các cụm từ tiếng Việt được xuất hiện nhiều nhất trong thư rác được biểu diễn như hình dưới: Hình 3.12. Thống kê các cụm từ tiếng Việt xuất hiện nhiều nhất trong dữ liệu huấn luyện • Cách tính điểm cho các cụm từ Để tính điểm cho các cụm từ, luận văn này đề xuất sử dụng thuật tốn Perceptron (sử dụng mơ hình mạng nơron). 52 Perceptron là dạng mạng nơron đơn giản nhất. Nĩ bao gồm một chức năng chuyển và một chức năng kích hoạt. Chúng mơ phỏng tốc độ phĩng điện của một nơron sinh học theo thời gian. Hàm truyền là tổng của các trọng số và đầu vào. Nĩ mơ phỏng điện thế màng của một tế bào thần kinh. Khi tích lũy điện tích trên màng vượt quá một ngưỡng nhất định, tế bào thần kinh kích hoạt, gửi một xung điện xuống sợi trục. Việc triển khai này sử dụng hàm chuyển tuyến tính:  =+= n i ii xwbiasxf 0 *)( 7 Trong đĩ bias là độ biến thiên wi: là trọng số, xi: bật hoặc tắt bộ lọc (0 là tắt, 1 là bật). Điều này khá giống với cách thức hoạt động của hệ thống điểm của lọc thư rác nếu đặt biến thiên (bias) là là 0, w_i là điểm cho quy tắc i và x_i là bật hoặc tắt bộ lọc. Chức năng kích hoạt mơ phỏng luồng điện chạy xuống sợi trục. Nĩ lấy đầu ra của hàm truyền làm đầu vào và biến đổi nĩ, sử dụng hàm activation sau: )))(exp(1( 1 )( xf xy −+ = 8 Với y(x) là hàm phi tuyến tính. Hàm phi tuyến tính này hạn chế đầu ra của hàm truyền từ 0 đến 1. Trên biểu đồ, nĩ trơng giống hình chữ S, x thì tiến đến âm vơ cùng và 1 khi x tiến tới dương vơ cùng. Hệ số gĩc của hàm lớn nhất khi x = 0 và giảm dần khi tiếp cận đường cong. Phương pháp phổ biến nhất để huấn luyện mạng nơron được gọi là ‘gradient descent’. Nĩ liên quan đến việc điều chỉnh lặp đi lặp lại các tham số của mạng để rằng tỷ lệ lỗi trung bình luơn giảm. Điều này được thực hiện bằng cách phương dốc nhất của gradient lỗi, giảm giá trị của hàm lỗi cho lần lặp tiếp theo của thuật tốn. Nếu cả chức năng chuyển và chức năng kích hoạt đều khả vi, gradient lỗi của mạng nơ-ron cĩ thể được tính tốn bằng trọng số và độ chệch. Nếu khơng đi vào giải tích, lỗi gradient cho một perceptron cĩ chức năng truyền tuyến tính. Hàm activation logig và hàm lỗi bình phương trung bình là: 53 E (x) = y (x) * (1-y (x)) * (ydự kiến - y (x)) 9 Với E(x) là tỉ lệ lỗi trung bình. Với y(x) là hàm phi tuyến tính. Các trọng số được cập nhật bằng cách sử dụng hàm: wi = wi + E (x) * xi * rate 10 Với: wi là trọng số E(x): tỉ lễ lỗi trung bình rate: tỉ lệ học Vì các lần truy cập quy tắc lọc thư rác khơng nhiều nên phần dốc xuống cơ bản thuật tốn là khĩ khả thi. Do đĩ, cần sử dụng một biến thể được gọi là Giảm dần độ dốc ngẫu nhiên.f Thay vì thực hiện cập nhật hàng loạt, tập huấn luyện được thực hiện một cách ngẫu nhiên, làm tăng dần các bản cập nhật. Ngồi ra, trong việc triển khai này, tỷ lệ học tập là được sửa đổi bởi số lần xuất hiện của quy tắc cho một phiên bản huấn luyện nhất định. Kết hợp với nhau, chúng cho phép tính tốn được trọng số tốt cho các quy tắc khơng thường xuyên xảy ra. Cuối cùng, trọng số được chuyển đổi thành điểm và xuất ra định dạng tệp quen thuộc. Trọng số (weight) được chuyển đổi thành điểm (score) bằng cách sử dụng chức năng này score = threshold * weight/bias 11 Với score là điểm số, threshold: ngưỡng weight: trọng số bias: độ biến thiên. Dựa trên thuật tốn trên, luận văn này đã xây dựng được 79 quy tắc cho bộ lọc tiếng Việt, cĩ nhiều hơn 79 n-grams, tuy nhiên, chỉ những token được xuất hiện với tỉ lệ cao và cĩ nghĩa sẽ được sử dụng để tạo quy tắc. Quá trình này phải tự sàng lọc cẩn thận nếu các từ ngữ được gọi là “common words” khơng phải spam cĩ tỉ lệ xuất hiện cao sẽ dễ dẫn đến kết quả âm tính giả khiến cho nhiều thư điện tử hợp lệ sẽ bị đánh dấu là spam. Các từ ngữ “chung chung” được sử dụng thường xuyên khơng cĩ ý nghĩa spam sẽ được loại bỏ, ví dụ như “Do not”, “thư điện tử”, “sincerely” mặc dù cĩ tần suất xuất hiện cao. Trong 54 giới hạn của luận văn này, 79 quy tắc đã được xây dựng và áp dụng, giúp cho việc lọc thư rác được nhanh hơn, hiệu quả cao đối với các hệ thống chưa huấn luyện học Nạve Bayes hoặc hệ thống mới xây dựng lại, ví dụ: Hình 3.13 Các quy tắc tạo ra để ổn định hệ thống lọc Các quy tắc trên được viết để lọc nội dung thư (body) do chủ yếu nội dung thư rác nằm ở nội dung thư, do nội dung trích xuất để xây dựng quy tắc trên lấy từ nội dung thư. Sau khi bộ quy tắc được xây dựng, các bộ quy tắc này sẽ được lưu trong tệp tin cĩ tên là myrules.cf trong đường dẫn /opt/zimbra/data/spamassassin/localrules/ hoặc opt/zimbra/data/spamassassin/rules/ hoặc lưu trực tiếp lên file cấu hình của hệ thống hoặc lưu ở mục ~/.spamassassin/user_pref, nơi lưu trữ những tùy chỉnh của người dùng. 55 Khi khởi động hệ thống, Spamassassin sẽ kiểm tra thư theo các quy tắc đã lưu trên các đường dẫn trên, nếu tìm thấy một quy tắc khớp thì điểm sẽ được cộng lại. Điểm cuối cùng là tổng điểm của các quy tắc và điểm được tạo ra bởi thuật tốn Nạve Bayes. 3.2. Thực nghiệm 3.2.1. Dữ liệu huấn luyện Hệ thống được cài đặt sẽ trải qua quá trình huấn luyện. Dữ liệu mẫu thư tiếng Anh được thu thập từ nguồn Spamassassin corpus. Nguồn dữ liệu tiếng Anh này được đánh giá cĩ độ chuẩn cao. Tuy nhiên, việc chia sẻ thư rác tiếng Việt vẫn cịn ít ỏi. Do đĩ, việc thu thập dữ liệu thư tiếng Việt cịn hạn chế về số lượng. Thống kê và các thư được sử dụng để huấn luyện như sau: Tổng số thư Thư rác Thư bình thường 1650 Anh Việt Anh Việt 500 223 642 285 Dữ liệu mẫu sẽ được chia ra làm 2 thư mục: spam và ham. Dữ liệu spam và ham tiếng Anh và tiếng Việt sẽ được chia khá đồng đều để tránh việc “học lệch” dẫn đến sai số cao. Sau đĩ phần mềm sẽ được huấn luyện dựa theo thuật tốn Nạve Bayes. Hình 3.14. Quá trì huấn luyện dữ liệu mẫu của Nạve Bayes 3.2.2. Kiểm thử hệ thống khi chưa cài Nạve Bayes Khi chưa cài Nạve Bayes, phần lớn các thư điện tử tiếng Việt đều được cho là thư điện tử hợp lệ, do hệ thống mặc định chỉ cĩ quy tắc tiếng Anh, chưa cĩ quy tắc tiếng Việt cũng như hệ thống chưa được huấn luyện nên thư điện tử chưa được phân loại đúng. Dưới đây là ví dụ về một thư rác tiếng Việt nhưng chưa được phân loại là spam: 56 Hình 3.15. Thư rác chưa được phân loại đúng khi chưa được huấn luyện Nạve Bayes 3.2.3. Kiểm thử hệ thống chỉ cĩ Nạve Bayes Sau khi được huấn luyện và tích hợp Nạve Bayes, phần lớn thư rác đã được phân loại đúng và cho vào folder Junk và đánh dấu là ***SPAM*** ở header. Hình 3.16 Thư rác được phân loại là thư rác sau khi huấn luyện Nạve Bayes Tổng kiểm tra trên tồn bộ file dữ liệu spam và ham sử dụng Nạve Bayes, gồm 1650 thư, kết quả như sau: 57 Hình 3.17: Kết quả kiểm tra mass-check Tổng số thư spam 723 Tổng số thư ham 927 Số thư điện tử được phát hiện là spam 655 Số thư điện tử được phát hiện là ham 839 Tỉ lệ phát hiện spam ~91% Tỉ lệ phát hiện ham ~91% • Độ chính xác là: ~ 91% • Tỉ lệ recall là: ~91% Thống kê về sự phân bổ điểm của các thư rác như sau: Hình 3.18: Phân bổ điểm của tập thư rác -50 0 50 100 150 200 250 300 350 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Phân bổ điểm của các thư rác Spam scores Number of Messages 58 Cĩ thể nhận thấy chủ yếu các thư rác cĩ phổ điểm từ 4-8, do đĩ hệ thống nội bộ đặt threshold trong khoảng ~ 5 để đảm bảo cĩ khả năng lọc được nhiều thư rác nhất. Hệ thống đã nhận Nạve Bayes và hiển thị điểm số của BAYES, ví dụ thư dưới đây đã được lọc Nạve Bayes, và được chấm 3 điểm theo luật của Nạve Bayes. Hình 3.19. Điểm của 1 thư rác đã cĩ lọc Nạve Bayes Kiếm tra thực tế người dùng trải nghiệm hệ thống Zimbra đã tích hợp Nạve Bayes, kết quả kiểm tra chi tiết như sau: Tổng số thư điện tử thực nghiệm Số thư điện tử được nhận định là spam Số thư điện tử được nhận định là ham Số thư ham được nhận định là spam Số thư spam được nhận định là ham Tỉ lệ thu hồi recall (nhận định đúng spam) Độ chính xác (Precision rate) 500 247 253 19 23 91% 91.6% 59 3.2.4. Tỉ lệ lọc sau khi tích hợp SVM-NB Hình 3.20. Thống kê khả năng lọc thư của hệ thống Tổng số thư điện tử thực nghiệm Số thư điện tử được nhận định là spam Số thư điện tử được nhận định là ham Số thư ham được nhận định là spam Số thư spam được nhận định là ham Tỉ lệ thu hồi recall (nhận định đúng spam) Độ chính xác 500 275 222 13 6 95% 95.6% Hình 3.21. Tỉ lệ nhận định thư rác đúng 53% 3% 43% 1% Thống kê khả năng lọc thư của SVM-NB Tổng số spam được nhận định đúng Spam được nhận định Ham Tổng số ham được nhận định đúng Ham được nhận định là Spam 95% 5% Tỉ lệ recall Thư rác đúng Thư rác sai 60 Hình 3.22. Tỉ lệ chính xác của lọc thư rác hợp lệ • Đánh giá chung Luận văn đã đề xuất hệ thống Support Vectơ Machine và Nạve Bayes để đạt được hiệu quả và lọc thư rác hiệu quả. Sự kết hợp này nhằm mục đích loại bỏ giả định về tính độc lập giữa các tính năng được trích xuất từ tập huấn luyện, khi thuật tốn Nạve Bayes được áp dụng. Sử dụng SVM để phân chia các mẫu huấn luyện thành các loại khác nhau và xác định các mẫu huấn luyện phụ thuộc. Loại bỏ những mẫu đĩ dẫn đến một tập huấn luyện với ít tính năng trùng lặp hơn. Dựa vào thử nghiệm, cĩ thể nhận thấy thuật tốn SVM-NB đạt được độ chính xác và tỷ lệ thu hồi cao trong việc phát hiện thư rác và SVM-NB là một hệ thống phân loại hiệu quả hơn, so với giải pháp dựa trên Nạve Bayes thuần túy. Hệ thống được thiết kế cho các thư điện tử cĩ sự phụ thuộc mạnh mẽ giữa nhau, điều này thường đúng trong hệ thống thư điện tử hiện tại. Với sự phát triển nhanh chĩng của hệ thống thư điện tử, thư rác khơng chỉ giới hạn cho các thư điện tử dựa trên văn bản. Trên thực tế, cĩ những thư điện tử rác chứa nhiều định dạng dữ liệu khác nhau, ví dụ: hình ảnh và các các loại tệp đa phương tiện. Hiện tại, thuật tốn SVM-NB là chỉ áp dụng cho phát hiện thư rác dựa trên text, luận văn vì vậy sẽ cĩ thể mở rộng SVM-NB và làm cho nĩ phù hợp để lọc thư rác với các định dạng dữ liệu khác nhau. • Phân tích chi tiết của kết quả lọc thư rác như sau: Thư hợp lệ: nếu gửi từ thư mail.vnu.vn thì độ chính xác là thư hợp lệ cao nhưng độ chính xác là thư rác lại thấp. Do quan hệ tin tưởng trong tên miền. 96% 4% Tỉ lệ lọc thư hợp lệ Thư hợp lệ nhận định đúng Thư hợp lệ nhận định sai 61 Thư rác gửi từ tên miền khác thì khả năng thư rác sẽ cao hơn là thư cùng domain. Chủ yếu thư được lọc là thư tiếng Việt, một số thư Tiếng Anh và cả thư lẫn tiếng Anh và tiếng Việt để đảm bảo đúng phong cách viết thư hiện hành. Đánh giá tỉ lệ lọc thư rác khá khả quan. • Gửi thư rác từ IP trong blacklist Kết quả: Địa chỉ IP bị chặn nên khơng gửi thư được do IP kết nối sẽ bị kiểm tra và khi IP nằm trong danh sách đen sẽ bị chặn. • Gửi thư rác từ địa chỉ IP trong whitelist Kết quả: Thư rác được cho phép đi qua. Lý do: IP kết nối sẽ bị kiểm tra và khi IP nằm trong danh sách trắng sẽ được cho phép đi qua mà khơng cần kiểm tra nội dung. • Gửi thư rác từ máy khơng phải là máy chủ mail Kết quả: Thư rác bị chặn, khơng kết nối để gửi được. • Gửi thư rác từ các máy khơng cĩ hostname hợp lệ Kết quả: Thư rác khơng gửi được do bị chặn kết nối. • Gửi thư rác từ from mail.spammer.vn Kết quả: Thư rác được nhận định là spam. Đây là kết quả chính xác. • Gửi thư rác from mail.vnu.vn Kết quả: Thư rác được nhận định là ham do cĩ kết nối nội bộ và thư điện tử từ cùng tên miền nội bộ. Lý do: Cĩ thể nhận thấy Nạve Bayes đã huấn luyện đối với thư điện tử từ tên miền nội bộ (mail.vnu.vn) thì sẽ được huấn luyện là thư hợp lệ, được đánh dấu auto-learn=ham khi xem thư điện tử header. • Gửi thư rác từ mạng Ip cục bộ Kết quả: Thư được nhận định là ham do đối với những IP từ địa chỉ cục bộ (LAN) sẽ được nhận định là đáng tin cậy, mặc dù địa chỉ thư điện tử khơng phải là cùng domain. 3.2.5. Kiểm tra các quy tắc tự xây dựng Để củng cố thêm và tăng khả năng lọc thư điện tử, và cũng như cĩ khả năng ổn định khi cĩ sự thay đổi về hệ thống sau này do bất cứ lý do gì chẳng 62 hạn như sập máy chủ thì việc tìm lại nguồn data để huấn luyện lại rất tốn nhiều thời gian và cơng sức, đồng thời cũng các mẫu huấn luyện đều cĩ độ sai lệch cao, do đĩ, luận văn này đề xuất xây dựng thêm tập luật từ dữ liệu cĩ sẵn, dựa trên N-grams, đáp ứng được đặc tính của tiếng Việt bao gồm cả từ đơn và từ kép. Hệ thống được cấu hình sao cho tự động cập nhật các quy tắc (rule) mới nhất từ nhà cung cấp. Ngồi ra, 79 quy tắc mới được xây dựng đều đã được thêm vào. Kết quả, các quy tắc đã được hệ thống lọc nhận và lọc những thư điện tử phù hợp với quy tắc. Hình 3.23.Thư rác kiểm thử các quy tắc đã tạo Kết quả, các quy tắc đã được hệ thống lọc nhận và lọc những thư điện tử phù hợp với quy tắc. Hình 3.24. Chi tiết tính điểm cho 1 thư đáp ứng quy tắc được tạo 63 Thư trên đã đáp ứng quy tắc LOCAL_RULE_21, LOCAL_RULE_48, LOCAL_RULE_72, LOCAL_RULE_74, LOCAL_RULE_79 và được phân loại vào thư rác sau khi tính tổng score là 5.198 vượt ngưỡng threshold 4. (Ngưỡng threshold 4 đến 5 chỉ để được đặt cho hệ thống máy chủ nội bộ để nhằm test thư rác, trong thực tế cần đặt threshold cao hơn để tránh mất thư hợp lệ, giảm tỉ lệ âm tính giả). 64 KẾT LUẬN • Nội dung đã thực hiện Luận văn đã nghiên cứu tổng quan về thư rác, các phương pháp trích xuất thư điện tử, các mơ hình cũng như kỹ thuật lọc thư rác. Ngồi ra, luận văn cịn nghiên cứu các bài báo về lọc thư rác trên thế giới và Việt Nam để học tập kinh nghiệm. Luận văn đã dựa trên bối cảnh nghiên cứu và đặc trưng của ngơn ngữ tiếng Việt, đã tìm ra hướng đi cho phương án lọc thư rác Tiếng Việt. Sau khi cân nhắc về khả năng lọc, tốc độ lọc, tính khả thi cũng như tính chính xác, thuật tốn Nạve Bayes kết hợp SVM (SVM-NB) đã được lựa chọn để lọc thư rác trong bối cảnh ở Việt Nam thư điện tử được sử dụng cả Tiếng Việt, Tiếng Anh và tiếng Việt khơng dấu và kết hợp. Kết quả thử nghiệm cho thấy rằng cách tiếp cận của chúng tơi đạt được độ chính xác khá cao khi phân loại thư rác bằng tiếng Việt và tiếng Anh. Ngồi ra, luận văn cịn xây dựng các quy tắc để lọc thư rác dựa trên quy tắc N- gram, giúp cho hệ thống lọc thư được ổn định, và giúp ích cho các hệ thống lọc thư mới mà chưa qua huấn luyện dữ liệu mẫu. • Định hướng tương lai Thư rác Việt Nam đang trong giai đoạn phát triển, do đĩ, độ chính xác của hệ thống phụ thuộc rất nhiều vào tập huấn dữ liệu mẫu của thư rác và thư hợp lệ của người Việt. Thư rác và thư hợp lệ tiếng Anh được chia sẻ nhiều trên các corpus, tuy nhiên, dữ liệu về thư rác Tiếng Việt chưa được chia sẻ. Do đĩ, mức độ bao quát vẫn cịn hạn chế. Vì vậy, với các nghiên cứu tiếp theo sẽ tiếp tục tập hợp để cĩ được bộ huấn luyện lớn và chuẩn hơn nhằm cải thiện độ chính xác của phương pháp này. Vấn nạn thư rác ở Việt Nam đang trở thành ngày nay phức tạp. Người dùng cĩ thể nhận được một thư rác bằng chữ hoặc bằng nhiều định dạng khác nhau như HTML, ảnh, ảnh động,... Do đĩ, cần cĩ nghiên cứu sâu hơn về vấn đề này để đề xuất một phương pháp tối ưu lọc thư rác trong bối cảnh trên. Phương hướng nghiên cứu trong tiếp theo sẽ đề xuất tích hợp thêm modun OCR để cĩ thể lọc những thư rác bằng ảnh và chữ song song để tăng cường khả năng và mức độ lọc thư rác của hệ thống. 65 TÀI LIỆU THAM KHẢO [16] A. Annadatha & M. Stamp, "Image spam analysis and detection," J Comput Virol Hack Tech , vol. 14, pp. 39-52, 2018. [37] A. H. A. &. S. A. T., "YouTube Spam Comments Detection Using Artificial Neural Network," Journal of Engineering and Applied Sciences, , vol. 13, no. 22, pp. 9638- 9642., 2018. [2] A., Granacher, D. Harz, J., Kader, J., Noll, & M., Usher, Unsolicited bulk email detection using URL tree hashes, Washington, DC: U.S.: Patent and Trademark Office, 2020. [21] A.J. Saleh, A. Karim,B., Shanmugam, S., Azam, K., Kannoorpatti, M., Jonkman, M., & F.,D., Boer, " An intelligent spam detection model based on artificial immune system.," Information 10, vol. 10, no. 6, p. 209, 2019. [14] A.T. Sabri, A.H. Mohammads, B. Al-Shargabi & M.A Hamdeh, "Developing new continuous learning approach for spam detection using artificial neural network (CLA_ANN).," European Journal of Scientific Research, vol. 42, no. 3, pp. 525-535, 2010. [19] Biggio, B., Fumera, G., Pillai, I., & Roli, F. (2011), "A survey and experimental evaluation of image spam filtering techniques," Pattern recognition letters, vol. 32, no. 10, pp. 1436-1446, 2011. [39] C. &. C. G. T., "Xgboost: A scalable tree boosting system.," in In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining , 785-794, 2016. [11] C., Taylor, A., McDonald, D., Rusenko, P.B., Koetter, R.,Hildebrandt & M., Back, Linux Email: Set up and Run a Small Office Email Server., 2005. [13] D.R. Amancio, C.H. Comin, D. Casanova, G. Travieso, O.M Bruno, and F.A. Rodrigues, F.A., "A Systematic Comparison of Supervised Classifiers-Supporting Information," 2014. [31] DD.Quan, Q. A. Tran and F. Jiang, , "Automated generation of ham rules for Vietnamese spam filtering," in The 2014 Seventh IEEE Symposium on Computational Intelligence for Security and Defense Applications (CISDA), Hanoi, 2014. [20] E. Tan, L. Guo, S. Chen, X. Zhang & Y. Zhao, "Spammer Behavior Analysis and Detection in User Generated Content on Social Networks," IEEE 32nd International Conference on Distributed Computing Systems, pp. 305-314, 2012. [41] E.G.,Dada, J.S., Bassi, H. Chiroma, A.O, Adetunmbi and O.E, Ajibuwa, "Machine learning for email spam filtering: review, approaches and open research problems," Heliyon, vol. 5, no. 6, p. e01802, 2019. [40] G., Jain, M., Sharma, M., & B., Agarwal., "Spam detection in social media using convolutional and long short term memory neural network," Annals of Mathematics and Artificial Intelligence, vol. 85, no. 1, pp. 21-44, 2019. [9] H. Bhuiyan, A, Ashiquzzaman, T.I. Juthi, S. Biswas, J. Ara, "A survey of existing e- mail spam filtering methods considering machine learning techniques," Global Journal of Computer Science and Technology, 2018. [24] H. Bhuiyan, A.Ashiquzzaman, T.I. Juthi, S.Biswas & J.Ara, "A Survey of Existing E- Mail Spam Filtering," Global Journal of Computer Science and Technology: Computer Software & Data Engineering, vol. 18, no. 2, pp. 22-29, 2018. 66 [32] H. Nguyen, H. Nguyen, T., Vu, N. Tran, & K.Hoang, "Internet and genetics algorithm- based text categorization for documents in Vietnamese," in Research, Innovation and Vision of the Future, the 3rd Int. Conf. in Computer Science. RIVF, 2005. [4] J. Clement, "Global spam categories 2019," 14 5 2020. [Online]. Available: https://www.statista.com/statistics/263452/most-common-content-of-spam-messages- worldwide-by-category/. [Accessed 5 9 2020]. [5] J. Clement, "Global spam volume as percentage of total e-mail traffic from January 2014 to March 2020, by month," 24 June 2020. [Online]. Available: https://www.statista.com/statistics/420391/spam-email-traffic-share/. [Accessed 5 9 2020]. [1] J., M., Rao, & D.,H., Reiley, "The economics of spam.," Journal of Economic Perspectives, vol. 26, no. 3, pp. 87-110, 2012. [18] K. &. C. D. M., "Image Spam Detection: A Review.," in In International Conference on Advances in Computer science and electronics engineering., 2017. [38] M. &. S. S. M.A., "Using an Artificial Neural Network to Improve Email Security.," In Implementing Computational Intelligence Techniques for Security Systems Design, pp. 131-145, 2020. [33] N. D. L. V. D. V. a. B. N.Long, "Detecting Vietnamses spams using a muti-objective evolutionary approach," Tạp chí Nghiên cứu KH&CN quân sự, pp. 203-216, 2017. [26] N.F. Rusland, N. Wahid, S., Kasim, S., & H. Hafit, "Analysis of Nạve Bayes Algorithm for Email Spam Filtering across Multiple Datasets," IOP Conference Series: Materials Science and Engineering, vol. 226, no. 1, 2017. [30] N.T.Anh, T.Q. Anh and N.B. Binh, "Vietnamese spam detection based on language classification," in Second International Conference on Communications and Electronics, Hoian, 2008. [8] R. B¨ohme and T. Holz, "The Effect of Stock Spam on Financial Markets," in The Workshop on the Economics of Information Security (WEIS) 2006, University of Cambridge, 2006. [27] S. C. I. &. Ü. A.S. Yüksel, "Design of a Machine Learning Based Predictive Analytics System for Spam Problem," Acta Physica Polonica, 2017. [23] S. Mohammed, O. Mohammed, J. Fiaidhi, S. Fong and T.H. Kim, "Classifying unsolicited bulk email (UBE) using python machine learning techniques.," International Journal of Hybrid Information Technology, vol. 6, no. 1, pp. 43-56, 2013. [7] Silva, J. A. T.d.,A. Al-Khatib, & P.Tsigaris, " Spam emails in academia: issues and costs.," Scientometrics, , vol. 122, no. 2, pp. 1171-1188, 2020. [3] Statista, [Online]. Available: https://www.statista.com/statistics/270899/global-e- mail-spam-rate/. [Accessed 5 September 2020]. [25] T. B. Shahi & A. Yadav, "Mobile SMS spam filtering for Nepali text using nạve bayesian and support vector machine," International Journal of Intelligence Science, vol. 4, no. 1, p. 24, 2013. [35] T. V. V.D. Lung, "Bayesian Spam Filtering for Vietnamese Emails," in 2012 International Conference on Computer & Information Science (ICCIS), 2012. [10] T., Ichimura, K., Mera & A., Hara, "A Knowledge Acquisition Method of Judgment Rules for Spam E-mail by using Self Organizing Map and Automatically Defined Groups by Genetic Programming," 2010. [34] T.A. Nguyen, Q.A. Tran and N.B.Nguyen, "Vietnamese spam detection based on language classifcation," in The Second Internatonal Conference on Communications and Electronics (ICCE 2008), 2008. [15] Tan, A. Janecek & Y., "Iterative improvement of the multiplicative update nmf algorithm using nature-inspired optimization," IEEE, vol. 3, pp. 1688-1672, 2011. 67 [22] U. Pandey and S.Chakraverty, "A review of text classification approaches for e-mail management. International Journal of Engineering and Technology," vol. 3, no. 2, p. 137, 2011. [28] U.K. Sah & N. Parmar, "An approach for malicious spam detection in email with comparison with different classifiers," 2017. [17] Uehara, P. & M. Wan, "Spam Detection Using Sobel Operators and OCR.," in 2012 26th International Conference on Advanced Information Networking and Applications Workshops, 2012. [36] V. Mardi, A., Kini, V.,M., Sukanya & S. Rachana, "Text-Based Spam Tweets Detection Using Neural Networks," In Advances in Computing and Intelligent Systems, pp. 401-408, 2020. [29] V.K. Singh & S.Bhardwaj, "Spam Detection using Classification Techniques and Global Training set," Intelligent Computing and Information and Communication, 2018. [12] Y. Tan, Anti-Spam Techniques Based on Artificial Immune System, CRC Press, 2016.

Các file đính kèm theo tài liệu này:

luan_van_nghien_cuu_cac_phuong_phap_loc_thu_rac_tai_viet_nam.pdf