Luận văn Xây dựng bộ lọc phát hiện các website có nội dung khiêu dâm dựa trên url và text content

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG -------- NGUYỄN THANH PHONG XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT Luận văn Thạc sĩ Công nghệ Thông tin ĐỒNG NAI, 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG -------- NGUYỄN THANH PHONG XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT Chuyên ngành: Công nghệ Thông tin Mã số: 60480201 Luận văn Thạc sĩ Công nghệ Thông

73 trang | Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 315 | Lượt tải: 0

Tóm tắt tài liệu Luận văn Xây dựng bộ lọc phát hiện các website có nội dung khiêu dâm dựa trên url và text content, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

tin NGƢỜI HƢỚNG DẪN KHOA HỌC TS. VŨ ĐỨC LUNG ĐỒNG NAI, 2014 LỜI CẢM ƠN Với những lời đầu tiên, em xin dành sự cảm ơn chân thành và sâu sắc tới thầy tiến sỹ Vũ Đức Lung đã hƣớng dẫn và giúp đỡ em tận tình trong quá trình hồn thành luận văn. Em cũng xin cảm ơn quý Thầy Cơ Trƣờng Đại học Lạc Hồng đã tận tình truyền dạy kiến thức trong quá trình em học tập tại trƣờng, những kiến thức đĩ đã giúp em rất nhiều trong việc học tập và nghiên cứu sau này. Cuối cùng, xin gửi lời cảm ơn tới những ngƣời thân trong gia đình và bạn bè, đồng nghiệp đã giúp đỡ và tạo điều kiện tốt trong quá trình làm luận văn. Đồng Nai, tháng 08 năm 2014 Trân trọng Nguyễn Thanh Phong LỜI CAM ĐOAN Tơi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá nhân, là kết quả của quá trình học tập và nghiên cứu khoa học độc lập. Trong tồn bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là của cá nhân hoặc là đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều cĩ xuất xứ rõ ràng và đƣợc trích dẫn hợp pháp. Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Đồng Nai, tháng 08 năm 2014 Tác giả Nguyễn Thanh Phong MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT DANH SÁCH CÁC BẢNG BIỂU, HÌNH VẼ MỞ ĐẦU ..................................................................................................................... 1 Lý do chọn đề tài ......................................................................................................... 1 Mục tiêu đề tài ............................................................................................................. 2 Nội dung thực hiện ...................................................................................................... 2 Phƣơng pháp thực hiện ................................................................................................ 3 CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE ..... 4 1.1 Giới thiệu ............................................................................................................. 4 1.2 Các loại bộ lọc WEB cĩ nội dung khiêu dâm ..................................................... 4 1.2.1 Bộ lọc WEB dựa vào địa chị mạng .................................................................. 4 1.2.2 Bộ lọc WEB dựa vào URL .............................................................................. 6 1.2.3 Bộ lọc WEB dựa vào DNS .............................................................................. 9 1.2.4 Bộ lọc WEB dựa vào từ khĩa ........................................................................ 10 1.2.5 Bộ lọc WEB dựa vào nội dung text và hình ảnh ............................................ 10 1.3 Các cơng trình liên quan .................................................................................. 11 CHƢƠNG 2. CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN ............. 15 2.1 Rút trích nội dung của website .......................................................................... 15 2.1.1 Phân tích mã HTML ...................................................................................... 15 2.1.2 So sánh khung mẫu ........................................................................................ 16 2.1.3 Xử lý ngơn ngữ tự nhiên ................................................................................ 17 2.2 Phân tích nội dung thành các token .................................................................. 18 2.2.1 Tiền xử lý dữ liệu ........................................................................................... 19 2.2.2 Tách câu dựa trên Maximum Entropy ........................................................... 19 2.2.3 Tách từ ........................................................................................................... 21 2.2.3.1 Phƣơng pháp Maximum Matching .............................................................. 25 2.2.3.2 Phƣơng pháp Transformation – based learning – TBL................................ 25 2.2.3.3 Mơ hình tách từ bằng WFST và mạng Neural ............................................. 26 2.2.3.4 Phƣơng pháp tách từ tiếng việt dựa trên thống kê từ Internet và thuật giải di truyền ........................................................................................................... 28 2.2.4 Thuật tốn KEA ............................................................................................. 29 2.2.4.1 Chọn cụm ứng viên ...................................................................................... 31 2.2.4.2 Tính tốn đặc trƣng ...................................................................................... 33 2.2.4.3 Huấn luyện ................................................................................................... 33 2.2.4.4 Rút trích những cụm từ khĩa ....................................................................... 34 2.2.5 Thuật tốn KIP ............................................................................................... 34 2.2.6 Nhận diện thực thể cĩ tên............................................................................... 36 2.3 Phân tích URL .................................................................................................. 37 CHƢƠNG 3. GIẢI PHÁP LỌC WEBSITE KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT ............................................................................................ 38 3.1 Phân tích mơ hình hệ thống .............................................................................. 38 3.2 Module xử lý dựa vào URL .............................................................................. 40 3.3 Module lọc theo nội dung ................................................................................. 40 3.3.1 Giai đoạn huấn luyện ..................................................................................... 41 3.3.1.1 Tiền xử lý văn bản ....................................................................................... 41 3.3.1.2 Trích lọc đặc trƣng ....................................................................................... 42 3.3.1.3 Thuật tốn Nạve Bayes ............................................................................... 44 3.3.2 Giai đoạn phân lớp, nhận dạng ...................................................................... 47 CHƢƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ................................. 50 4.1 Mơi trƣờng thử nghiệm ...................................................................................... 50 4.2 Giao diện chƣơng trình ...................................................................................... 50 4.2.1 Giao diện chính .............................................................................................. 50 4.2.2 Giao diện học từ lấy TOKEN phân lớp nội dung Website ............................ 53 4.2.3 Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách TOKEN ................ 54 4.2.4 Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách TOKEN ............... 54 4.2.5 Giao diện danh sách các TOKEN từ phân lớp nội dung Website................. 55 4.2.6 Giao diện lấy TOKEN URL........................................................................... 55 4.2.7 Giao diện danh sách các TOKEN URL để phân lớp URL của Website ........ 56 4.3 Thu thập dữ liệu ................................................................................................ 56 4.3.1 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN URL ................................... 56 4.3.2 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN nội dung .............................. 57 4.4 Đánh giá kết quả thực nghiệm .......................................................................... 58 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ............................................................. 60 TÀI LIỆU THAM KHẢO KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT Từ viết tắt Ý nghĩa KNN K-Nearest Neighbor LDA Latent Drichlet Allocation LLSF Linear Least Square Fit LRMM Left Right Maximum Matching MM Maximum Matching NB Nạve Bayes pLSA Probabilistic Latent Semantic Analysis SVM Support Vector Machine TBL Transformation -based Learning TF Term Frequency WFST Weighted Finit State Transducer DANH SÁCH CÁC HÌNH VẼ Hình 2.1 - Hệ thống bĩc tách nội dung của VietSpider ............................................ 16 Hình 2.2 – Mơ hình bĩc tách nội dung chính bằng so sánh khung mẫu ................... 17 Hình 2.3 – Sơ đồ thuật tốn KEA ............................................................................. 30 Hình 3.1 – Mơ hình hệ thống lọc Website cĩ nội dung khiêu dâm .......................... 39 Hình 3.2 – Quy trình huấn luyện lấy TOKEN URL ................................................. 40 Hình 3.3 – Quy trình huấn luyện TOKEN nội dung ................................................. 41 Hình 3.4 – Quy trình tách từ ..................................................................................... 42 Hình 3.5 – Mơ hình huấn luyện từ ............................................................................ 44 Hình 3.6 – Mơ hình giai đoạn phân lớp .................................................................... 48 Hình 4.1 – Giao diện lúc khởi động bộ lọc ............................................................... 50 Hình 4.2 – Giao diện đăng nhập................................................................................ 51 Hình 4.3 – Giao diện khi duyệt một địa chỉ WEB tốt ............................................... 51 Hình 4.4 – Giao diện khi duyệt một địa chỉ WEB xấu ............................................. 52 Hình 4.5 – Giao diện danh sách địa chỉ WEB tốt, xấu ............................................. 52 Hình 4.6 – Giao diện chức năng hệ thống ................................................................. 53 Hình 4.7 – Giao diện huấn luyện từ đơn, từ ghép ..................................................... 53 Hình 4.8 – Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách ToKEN ......... 54 Hình 4.9 – Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách ToKEN ........ 54 Hình 4.10 – Giao diện duyệt TOKEN từ đơn và từ ghép ......................................... 55 Hình 4.11 – Giao diện huấn luyện TOKEN URL ..................................................... 55 Hình 4.12 – Giao diện danh sách các TOKEN URL sau huấn luyện ....................... 56 Hình 4.13 – Địa chỉ URL thu thập đƣợc ................................................................... 56 Hình 4.14 – File tốt thu thập đƣợc ............................................................................ 57 Hình 4.15 – File xấu thu thập đƣợc ........................................................................... 57 Hình 4.16 – Cơ sở dữ liệu TOKEN nội dung sau quá trình huấn luyện .................. 58 DANH SÁCH CÁC BẢNG BIỂU Bảng 1.1 – Kết quả đánh giá NET PROJECT ............................................................ 5 Bảng 1.2 – Một số sản phẩm lọc WEB theo URL ...................................................... 7 Bảng 2.1 – Xác định cụm ứng viên ........................................................................... 32 Bảng 3.1 – Thống kê một số từ điển thơng dụng tiếng việt ...................................... 43 Bảng 3.2 – Số liệu thống kê bảng từ điển ................................................................. 43 Bảng 3.3 – Ví dụ minh họa tần số xuất hiện các TOKEN ........................................ 46 Bảng 3.4 –Ví dụ minh họa tần số xuất hiện các TOKEN chƣa làm trơn .................. 47 Bảng 3.5 –Ví dụ minh họa tần số xuất hiện các TOKEN đã làm trơn ...................... 47 Bảng 4.1 – Kết quả thực nghiệm File nội dung ........................................................ 59 Bảng 4.2 – Kết quả thực nghiệm URL ...................................................................... 59 1 MỞ ĐẦU 1. Lý do chọn đề tài Internet bắt đầu xuất hiện từ những năm thập niên 60. Tuy nhiên tại thời điểm đĩ nĩ chỉ đƣợc sử dụng nội bộ và phục vụ chủ yếu cho quân sự. Ngày 19/11/1997 là ngày đầu tiên Việt Nam chính thức hịa vào mạng Internet tồn cầu, sau mƣời mấy năm hoạt động Internet trở thành một thuật ngữ hầu nhƣ ai cũng biết, một phƣơng tiện truyền thơng ai ai cũng đang sử dụng, thậm chí với một số bộ phận cịn phụ thuộc hồn tồn. Tầm ảnh huởng của Internet phát tán mạnh mẽ khi nĩ bắt đầu phát huy cơng dụng giải trí của mình, ngƣời ta khơng chỉ cĩ thể tìm tƣ liệu mà cịn xem phim, nghe nhạc, chơi game trên mạng. Hàng triệu triệu ngƣời vào mạng mỗi ngày, nhƣng số ngƣời vào mạng để làm việc, học tập, truy cập tài liệu thì rất ít. Với sự phát triển nhanh chĩng của Internet hiện nay, đĩ là dấu hiệu đáng mừng trƣớc sự phát triển của cơng nghệ thơng tin trong một xã hội hiện đại. Nhƣng đằng sau nĩ là những hệ lụy từ Internet mang lại cho con ngƣời, trong đĩ đặc biệt là giới trẻ. Song song với các trị chơi trên mạng, thì việc tị mị truy cập vào các trang cĩ nội dung khơng lành mạnh để đọc truyện Sex, xem các hình ảnh khiêu dâm, xem phim Sex cũng trở nên phổ biến và tác hại làm cho ngƣời xem muốn cĩ hành vi quan hệ tình dục ngay, dẫn đến tình trạng sa đà vào tệ nạn mại dâm, hiếp dâm khi chƣa đủ tuổi vị thành niên. 1 Website khiêu dâm khơng chỉ ảnh hƣởng đến hành vi tình dục của giới trẻ mà cịn ảnh hƣởng đến đạo đức làm việc nơi cơng sở 2. Ngồi ra, nĩ cịn gây mất an ninh cho máy tính cá nhân của ngƣời sử dụng và hệ thống mạng máy tính nơi cơ quan, bởi các phần mềm độc hại. Vậy làm sao để ngăn chặn khơng cho ngƣời sử dụng truy cập vào các Website cĩ nội dung khiêu dâm là vấn đề đang đƣợc xã hội quan tâm. Hiện nay trong nƣớc và ngồi nƣớc cũng cĩ nhiều phần mềm đƣợc nghiên cứu nhƣ: Nghiên cứu trong nƣớc cĩ thể đề cập đến một số phần mềm sau: Phần mềm Killporn của tác giả Nguyễn Hữu Bình; Phần mềm VwebFilter (viết tắt VWF) của Cơng ty Điện tốn và Truyền số liệu xây dựng; Phần mềm Depraved Web Killer 1 2 tri-o-chon-cong-so.html 2 (DWK) của Vũ Lƣơng Bằng, nhân viên cơng ty Điện thoại Đơng, quận 10 (TP HCM); Phần mềm MiniFireWall 4.0 (MFW) của tác giả Huỳnh Ngọc Ẩn (cơng tác tại phịng Tin học - Bƣu điện tỉnh Đồng Tháp); Bộ lọc phát hiện các Website cĩ nội dung khơng lành mạnh, luận văn thạc sĩ cơng nghệ thơng tin của Cao Nguyễn Thủy Tiên. Nghiên cứu ngồi nƣớc cĩ thể kể đến một số phần mềm sau: STOP P-O-R- N 5.5 đƣợc phát hành bởi PB Software LLC; K9 Web Protection đƣợc phát hành bởi Blue Coat Systems; Media Detective 2.3 đƣợc phát hành bởi Tap Tap Software; Parental Filter 3.0 đƣợc phát hành bởi NWSP Software Design; ScrubLT 3.2.2.0 đƣợc phát hành bởi CrubLT; CyberSitter đƣợc phát hành bởi Solid Oak Software ; iShield 1.0 đƣợc phát hành bởi Guardware. Thực tế cho thấy các phần mềm ngồi nƣớc đa phần muốn sử dụng thì phải trả phí và thƣờng lọc hình ảnh khiêu dâm cịn lọc nội dung khiêu dâm chủ yếu bằng tiếng anh cịn bằng tiếng việt thì hạn chế, cịn các phần mềm trong nƣớc thì cũng cịn những hạn chế trong việc chặn từ khĩa khiêu dâm thơng dụng và chặn URL cụ thể của Website. Qua đĩ cho thấy cịn nhiều vấn đề cần phải nghiên cứu làm sáng tỏ, làm tốt hơn và đĩ là cũng là lý do mà đề tài “Xây dựng bộ lọc phát hiện các Website cĩ nội dung khiêu dâm dựa trên URL và TEXT CONTENT” đƣợc lựa chọn cho luận văn này. 2. Mục tiêu đề tài Xây dựng bộ lọc WEB cĩ thể tự động phát hiện các Website cần truy cập cĩ nội dung khiêu dậm dựa trên URL và TEXT CONTENT của Website. 3. Nội dung thực hiện Thu thập các URL và TEXT CONTENT của các Website cĩ nội dung khiêu dâm và khơng khiêu dâm để tạo bộ dữ liệu các token từ đã đƣợc huấn luyện để phục vụ cho việc phân loại các Website cĩ nội dung khiêu dâm và khơng khiêu dâm. Nghiên cứu cách khai phá URL và TEXT CONTENT của Website từ đĩ đề xuất mơ hình lọc các Website cĩ nội dung khiêu dâm dựa trên URL và TEXT CONTENT. Cài đặt bộ lọc Website hiện thực hĩa vấn đề nghiên cứu. 3 4. Phƣơng pháp thực hiện Dùng các cơng cụ, phần mềm đã cĩ trong nƣớc và ngồi nƣớc để thu thập dữ liệu của các trang tin tức, các trang Web cĩ nội dung khiêu dâm. Dữ liệu cần thu thập là URL và nội dung của Website. Để phân lớp URL của một Website cần duyệt thuộc lớp tốt hay xấu thì dựa vào danh sách ToKenURL. Danh sách ToKenURL là các từ, cụm từ đƣợc huấn luyện từ các URL thu thập đƣợc. Để phân lớp nội dung của một Website cần duyệt thuộc lớp cĩ nội dung Khiêu dâm hay khơng thì dựa vào danh sách ToKen nội dung. Danh sách ToKen nội dung này đƣợc xây dựng từ việc huấn luyện các tập dữ liệu tốt và tập dữ liệu xấu thu thập đƣợc, tính tỉ lệ xuất hiện của các ToKen từ trên các tập dữ liệu tốt và xấu để chọn ra các ToKen từ cĩ trọng số cao rồi so sánh với bộ từ điển dữ liệu để chọn ra các ToKen từ đặc trƣng dùng để phân lớp nội dung của Website. Nghiên cứu và áp dụng các thuật tốn tách câu, tách từ trong văn bản tiếng việt, kết hợp với thuật tốn Nạve Bayes để tính xác suất nội dung văn bản của Website cần duyệt để phân lớp Website là khiêu dâm hay khơng khiêu dâm. 4 CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE 1.1. Giới thiệu Lọc trang WEB là một vấn đề khơng phải là mới. Làm sao để phát hiện đƣợc các trang WEB cĩ nội dung và hình ảnh khiêu dâm là vấn đề cần thiết. Các gia đình cĩ sử dụng Internet thì cha mẹ khơng muốn con mình tiếp xúc với các trang WEB cĩ nội dung và hình ảnh khiêu dâm. Hiện nay, một số quốc gia trên thế giới, trong đĩ cĩ cả Việt Nam đã và đang nghiên cứu các giải pháp ngăn chặn các trang WEB khiêu dâm sao cho cĩ hiệu quả, vì thế yêu cầu đặt ra là liên tục phát triển các phần mềm phát hiện và ngăn chặn các trang WEB khiêu dâm là một biện pháp an tồn bổ sung. Nhiều trang WEB khiêu dâm khơng chỉ cĩ nội dung khiêu dâm và hình ảnh khiêu dâm mà cĩn chứa cả phần mềm độc hại, phần mềm quảng cáo, phần mềm gián điệp và Virus Nĩi chung các trang WEB và các trang WEB cĩ thể đƣợc phân loại là WEB khiêu dâm chủ yêu dựa trên các yếu tố nhƣ: hình ảnh khiêu dâm và nội dung khiêu dâm. Trong phạm vi của đề tài này chỉ giới hạn phát hiện và ngăn chặn các trang WEB cĩ nội dung khiêu dâm dựa trên URL và TEXT CONTENT của trang WEB. 1.2. Các loại bộ lọc WEB cĩ nội dung khiêu dâm Lọc chặn nội dung khiêu dâm trên mạng khơng phải là vấn đề đơn giản, nguyên nhân nằm ở chỗ cĩ hàng tỷ liên kết, và thực chẳng dễ dàng chút nào để biết chắc chắn đâu là liên kết bẩn trong khối lƣợng thơng tin khổng lồ và lộn xộn nhƣ thế. Dƣới đây là một vài cách thức thƣờng đƣợc dùng trong các bộ lọc WEB đen, WEB khiêu dâm. 1.2.1. Bộ lọc WEB dựa vào địa chỉ mạng  Bộ lọc dựa vào danh sách đen (Back List) và danh sách trắng (White List) Đây là biện pháp mà hầu hết các cơng cụ chặn web đen áp dụng, họ xây dựng, chia nhĩm và phân loại các trang web để biết chắc chắn nội dung chủ yếu của một tên miền nào đấy thuộc về danh sách đen hay danh sách trắng (danh sách trắng là danh sách các website đƣợc phép truy cập, danh sách đen là danh sách những trang cấm), điều này cĩ thể đƣợc thực hiện bằng máy, hoặc thơng qua cộng đồng Internet đơng đảo giúp sức. Nĩ tỏ ra khá hiệu quả, ngăn chặn hầu nhƣ 99% các trang web 5 sex phổ biến, tuy nhiên nhƣợc điểm của chƣơng trình là đơi khi bỏ sĩt các trang web sex cỡ nhỏ, bởi vì các trang nhƣ thế sinh ra rất nhiều mỗi ngày, và khơng cĩ một phần mềm nào cĩ thể thêm đầy đủ tất cả vào danh sách đen của nĩ đƣợc.  Lọc qua địa chỉ IP Đây là kỹ thuật ngăn chặn trực tiếp trên đƣờng mạng bằng các địa chỉ IP của một website. Kỹ thuật này cĩ thể là thiết thực trong bối cảnh các website thƣờng bị truy cập thơng qua địa chỉ IP hay nĩ cĩ thể truy cập thơng qua IP thay cho tên DSN. Đa số trƣờng hợp, khơng đƣợc khuyến khích dùng do 3 sự kém cỏi sau: Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lƣu thơng mạng đến những site cĩ host ảo trên cùng IP ngay cả khi nĩ cĩ nội dung liên quan đến vấn đề cấm hay khơng. Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lƣu thơng mạng đến mỗi thành viên của cổng thơng tin nằm trên IP đĩ. Nĩ sẽ ngăn chặn một thành phần của website khơng phải là một phần hay một tập các trang con. Đĩ là sự thay đổi thƣờng xuyên của các website bị lọc ngay khi chủ nhân website phát hiện ra bị lọc. Hành động này dựa trên DNS để cho phép ngƣời dùng vẫn cịn truy cập đến trang web. Bảng thống kê phía dƣới sẽ so sánh kết quả lọc của một số phần mềm theo dự án khảo sát website của dự án NetProject. Bảng 1.1 – Kết quả đánh giá của NetProject Phần mềm lọc Tỉ lệ khĩa dùng Efectiveness Rate BizGuard 55% 10% Cyber Patrol 52% 2% Cyber Sitter 46% 3% Cyber Snoop 65% 23% Norton Internet Secủity 45% 6% SurfMonkey 65% 11% X-Stop 65% 4%  Bức tường lửa (Firewall) Firewall là một kỹ thuật đƣợc tích hợp vào hệ thống mạng để chống sự truy cập trái phép, nhằm bảo vệ các nguồn thơng tin nội bộ và hạn chế sự xâm nhập khơng 6 mong muốn vào hệ thống. Thơng thƣờng Firewall đƣợc đặt giữa mạng bên trong (Intranet) của một cơng ty, tổ chức,  vai trị chính là bảo mật thơng tin, ngăn chặn sự truy cập khơng mong muốn từ bên ngồi và cấm truy cập từ bên trong (Intranet) tới một số địa chỉ nhất định trên Internet. Ưu điểm: Đa số các các hệ thống firewall đều sử dụng bộ lọc packet. Một trong những ƣu điểm của phƣơng pháp này là chi phí thấp vì cơ chế lọc packet đã đƣợc bao gồm trong mỗi phần mềm router. Hạn chế: việc định nghĩa các chế độ lọc packet là một việc phức tạp, địi hỏi ngƣời quản trị mạng cần cĩ hiểu biết chi tiết về các dịch vụ Internet, các dạng Packet header,  1.2.2. Bộ lọc WEB dựa vào URL (Universal Resoure Locator)  Dựa vào từ khĩa của URL Thơng thƣờng các bộ lọc web nhƣ thế này sẽ cĩ một danh sách các từ khĩa dành cho ngƣời lớn đƣợc tạo ra sẳn để nhận dạng đƣợc những địa chỉ web bị chặn. Từ khĩa URL là chuỗi con nằm trong một địa chỉ web, những URL của trang web cĩ chứa chuỗi con này thƣờng là những trang web cĩ nội dung khiêu dâm. Các trang web cĩ nội dung khiêu dâm thƣờng dùng từ ngữ khiêu dâm, tình dục làm tên miền cho website với mục đích gợi nhớ để ngƣời dùng dễ tìm kiếm bằng các cơng cụ tiềm kiếm. Thực tế cho thấy cĩ trang web nào mà nội dung lành mạnh lại đặt tên miền cho website nhƣ thế. Vì vậy, những trang web cĩ từ khĩa URL nhƣ vậy cần chặn trực tiếp ngay từ đầu mà khơng cần phải tìm hiểu nội dung bên trong. Ví dụ: các trang web này đều là web cĩ nội dung khiêu dâm www.sexviet.com www.sex700.com www.sexygirls.com do đều chứa các từ khĩa là "sex" Hoặc các trang web khiêu dâm sau đây www.freeporns.com www.asiaporns.com www.childporn.com các trang này đều chứa các từ khĩa là "porn" 7 Ưu điểm: Đơn giản nhƣng khá tin cậy. Hạn chế: Đơi khi cĩ một trang nào đấy chẳng chứa bất kỳ từ khĩa khiêu dâm nào trong URL nhƣng bản thân trang đĩ lại cĩ nội dung bẩn sẽ đƣợc chƣơng trình bỏ qua hoặc ngƣợc lại một trang web về giáo dục giới tính lành mạnh cĩ thể chứa từ khĩa sex trong URL sẽ lại bị chặn.  Dựa vào URL Đây là kỹ thuật lọc bằng cách quan sát lƣu thơng web (HTTP) bằng cách theo dõi URL và các host field bên trong các yêu cầu HTTP để nhận ra đích đến của yêu cầu. Host field đuợc dùng riêng biệt bởi các máy chủ web hosting để nhận ra tài nguyên nào đƣợc trả về. Lọc web qua URL thƣờng đƣợc xếp vào loại chủ đề rộng lớn về "Content Management". Các kỹ thuật lọc qua URL ra đời từ 2 kiểu lọc "pass-by" và "pass- through". Lọc theo "pass-by": xử lý trên đƣờng mạng mà khơng cần phải trực tiếp trong đƣờng nối giữa ngƣời dùng và internet. Yêu cầu ban đầu đƣợc chuyển đến máy chủ web đầu cuối. Nếu yêu cầu bị cho là khơng thích hợp thì bộ lọc sẽ ngăn chặn những trang gốc từ bất cứ yêu cầu truy cập nào. Kỹ thuật này cho phép thiết bị lọc khơng bao gồm bộ định hƣớng yêu cầu. Nếu thiết bị lọc bị hỏng, lƣu thơng mạng vẫn tiếp tục hoạt động một cách bình thƣờng. Lọc theo "pass-through": gồm việc sử dụng một thiết bị trên đƣờng của tất cả yêu cầu của ngƣời dùng. Vì thế lƣu thơng mạng đi qua bộ lọc "pass-through" là thiết bị lọc thực sự. Thƣờng bộ lọc này nằm trong các kiểu firewall, router, application switch, proxy server, cache server.  Tùy chọn bộ lọc URL Điểm đặc biệt của các sản phẩm theo phƣơng pháp này cho phép ngƣời dùng chỉ định các URL bằng cách thêm hay bớt các URL khỏi "danh sách các site xấu" (Bad Site List) mặc dù các website nguyên thủy trong danh sách khơng thể bị loại bỏ. Dƣới đây là danh sách các sản phẩm lọc web phổ biến. Bảng 1.2 - Một số sản phẩm lọc web theo phƣơng thức URL Sản phẩm Hãng (Cơng ty) Smartfilter Secure Computing 8 Web Filter SurfControl Web Security Symatec Bt-WebFilter Burst Technology CyBlock WebFilter Wavecrest Computing Ưu điểm: Những Website ảo khơng bị ảnh hƣởng: Kỹ thuật này khơng ảnh hƣởng đến các máy chủ web ảo khi chúng cùng dùng một IP nhƣ những website hạn chế. Một website bị chặn và website khơng bị chặn cĩ thể chia sẻ cùng một địa chỉ IP. Khơng ảnh hƣởng đối với việc thay đổi IP: Trong phần lớn tình huống, sự thay đổi IP của website bị hạn chế sẽ khơng ảnh hƣởng đến phƣơng pháp này. Vì phƣơng pháp lọc này khơng phụ thuộc vào địa chỉ IP. Chủ sở hữu những trang web cĩ thể địi bất cứ IP nào họ muốn, nhƣng ngƣời dùng đứng sau bộ lọc khơng thể truy cập đƣợc. Những Website ảo khơng bị ảnh hƣởng: Kỹ thuật này khơng ảnh hƣởng đến các máy chủ web ảo khi chúng cùng dùng một IP nhƣ những website hạn chế. Một website bị chặn và website khơng bị chặn cĩ thể chia sẻ cùng một địa chỉ IP. Khơng ảnh hƣởng đối với việc thay đổi IP: Trong phần lớn tình huống, sự thay đổi IP của website bị hạn chế sẽ khơng ảnh hƣởng đến phƣơng pháp này. Vì phƣơng pháp lọc này khơng phụ thuộc vào địa chỉ IP. Chủ sở hữu những trang web cĩ thể địi bất cứ IP nào họ muốn, nhƣng ngƣời dùng đứng sau bộ lọc khơng thể truy cập đƣợc. Hạn chế:  Thƣờng khơng thể ngăn chặn các cổng phi tiêu chuẩn:  Những Web server làm việc với cổng tiêu chuẩn rất tốt.  Website trên các cổng phi tiêu chuẩn thì khĩ khăn cho việc ngăn cấm vì chúng yêu cầu một cấp độ cao hơn trong bộ lọc.  Một giải pháp lọc qua URL cĩ thể là kỹ thuật cĩ khả năng cần thiết cho những kết nối HTTP trên các cổng phi tiêu chuẩn  Khơng làm việc với các lƣu thơng bị mã hĩa: vì HTTP yêu cầu sử dụng SSL/TLS bị mã hĩa. Phƣơng pháp lọc theo URL khơng thể đọc các hostfield. Cho nên, bộ lọc khơng cĩ hiệu quả phát hiện một tài nguyên nào trên một địa chỉ IP mà yêu cầu thực sự định hƣớng vào. 9 Tĩm lại, các server cần cĩ bộ lọc để thực hiện loại bỏ một số trang web khơng tốt, nhƣng nĩ cĩ thể làm cho hệ thống chậm lại. 1.2.3. Bộ lọc WEB dựa vào DNS Những website bị lọc sẽ hồn tồn khơng thể truy cập đƣợc đến tất cả các cấu hình sử dụng bộ lọc nameserver cho bộ phân giải tên do tất cả các bộ lọc nameserver sẽ trả về thơng tin bất hợp lệ khi yêu cầu phân giải một hostname của website bị lọc. Nhƣ vậy khơng thể truy cập đến tài liệu trên của máy chủ chứa Website. Tuy nhiên, các website khơng bị lọc sẽ cho phép truy cập miễn là chúng nĩ cĩ một hostname khác từ các website bị lọc. Vì tên của chúng khơng đƣợc hỗ trợ thơng tin bất hợp lệ bởi bộ lọc nameserver nên dữ liệu đúng sẽ trả về cho bất cứ ngƣời dùng nào yêu cầu phân giải tên và website hiển nhiên là cĩ thể truy cập vào đƣợc. Ƣu điểm: Sử dụng đa nghi thức (multi-protocol): http, ftp, gropher và bất kỳ nghi thức nào khác dựa trên hệ thống tên. Khơng bị ảnh hƣởng bởi việc thay đổi IP: Khi thay đổi IP của một website khơng ảnh hƣởng đến phƣơng pháp lọc này, đây là phƣơng pháp lọc hồn tồn độc lập với địa chỉ IP. Hạn chế:  Khơng hiệu quả đối với các URL cĩ chứa địa chỉ IP:  Phần lớn những địa chỉ của một website ở dạng DNS (www.lhu.edu.vn), tuy nhiên cũng cĩ những địa chỉ đƣợc chỉ định bằng một địa chỉ IP thay vì là dạng DNS (  Trong trƣờng hợp này nĩ đƣợc truy cập đến bằng địa chỉ IP mà khơng phải dùng địa crhỉ DNS của nĩ.  Tồn bộ web server bị chặn hồn tồn: Kỹ thuật khơng cho phép việc khĩa cĩ chọn lựa các trang cịn lại trên một webserver. Vì thế, nếu một trang bị cấm là www.exp.com/bad.htm thì cĩ thể tất cả các truy cập khơng thể truy xuất đến www.exp.com dù nĩ khơng trong danh sách bị khĩa.  Ảnh hƣởng đến các subdomain: Xét về kỹ thuật, một tên miền đơn nhƣ example.com trong URL đƣợc dùng truy cập đến web server. Cùng một thời điểm, domain name cĩ thể phục vụ nhƣ một domain cấp trên của các cổng khác nhƣ 10 host1.example.com. Trong trƣờng hợp này, những địa chỉ DNS dạng www.example.com cĩ thể bị phân giải sai. Ngồi ra, nĩ cũng làm cho bộ phân giải tên miền bị sai đối với các miền con. Và nĩ cịn ảnh hƣởng đến các dịch vụ chạy trên mạng nhƣ e-mai 1.2.4. Bộ lọc WEB dựa vào từ khĩa Tƣơng tự nhƣ cách tiếp cận dựa vào URL keyword cũng cĩ một danh sách các từ khĩa để nhận ra những trang web bị chặn. Một trang web cấm sẽ chứa nhiều từ khĩa khơng hợp lệ, đây là cơ sở để nhận ra trang web bị cấm. Điều quan trọng đối với phƣơng pháp này là ngữ nghĩa của từ khĩa theo ngữ cảnh, điều này làm cho hệ thống cĩ những nhầm lẫn khi đƣa ra một quyết định về một trang web cĩ đƣợc thể hiện hay khơng. Một website chuyên đề bệnh ung thƣ cĩ thể bị khĩa với lý do bài viết về "bệnh ung thư vú", ta thấy đƣợc rằng nếu trong bài viết cĩ đề cập quá nhiều đến từ khĩa nằm trong danh sách từ khĩa chặn là "vú" thì vơ tình hệ thống sẽ nhầm lẫn và khĩa trang này. Vấn đề tiếp theo đĩ là các từ cố ý hay vơ ý đánh vần sai, ở một số trang chứa nội dung xấu thì ngơn từ đƣợc dùng trong trang web của nĩ bị thay đổi để đánh lừa hệ thống lọc, tuy nhiên khi ngƣời sử dụng đọc thì cĩ thể hiểu ngay đĩ chỉ là sai chính tả thơi cịn đối với hệ thống lọc...háp từ đầu chuỗi. Đầu tiên kiểm tra xem C1 cĩ phải là từ hay khơng, sau đĩ kiểm tra xem C1C2 cĩ phải là từ hay khơng. Tiếp tục thực hiện nhƣ thế cho đến khi tìm đƣợc từ dài nhất. Dạng phức tạp: Quy tắc của dạng này là phân đoạn từ. Thơng thƣờng ngƣời ta chọn phân đoạn ba từ cĩ chiều dài tối đa. Thuật tốn bắt đầu từ dạng đơn giản, cụ thể là nếu phát hiện ra những cách tách từ gây nhập nhằng, nhƣ ở ví dụ trên, giả sử C1 là từ và C1C2 cũng là một từ, khi đĩ chúng ta kiểm tra ký tự kế tiếp trong chuỗi C1, C2 , .. , Cn để tìm tất cả các đoạn ba từ cĩ bắt đầu với C1 hoặc C1C2. Giả sử chúng ta cĩ đƣợc các đoạn sau: - C1C2 C3C4 -C1C2 C3C4 C5 -C1C2 C3C4 C5C6 Khi đĩ chuỗi dài nhất sẽ là chuỗi thứ ba. Do đĩ từ đầu tiên của chuỗi thứ ba (C1C2) sẽ đƣợc chọn. Thực hiện các bƣớc cho đến khi đƣợc chuỗi từ hồnh chỉnh. Ƣu điểm của phƣơng pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào từ điển để thực hiện. Tuy nhiên, khuyết điểm của phƣơng pháp này cũng chính là từ điển, vì độ chính xác khi thực hiện tách từ phụ thuộc hồn tồn vào tính đủ và chính xác của từ điển. 2.2.3.2. Phƣơng pháp Transformation – based Learning – TBL: Phƣơng pháp TBL (Transformation-Based Learning) cịn gọi là phƣơng pháp học cải tiến, đƣợc Eric Brill giới thiệu lần đầu vào năm 1992. Ý tƣởng của phƣơng pháp này áp dụng cho bài tốn phân đoạn nhƣ sau: đầu tiên gọi văn bản chƣa đƣợc phân đoạn là D1 sẽ khởi tạo các xử lý cho chƣơng trình phân đoạn ban đầu P1. Chƣơng trình P1 cĩ độ phức tạp tùy chọn, cĩ thể chỉ là chú thích văn bản bằng cấu 26 trúc ngẫu nhiên, hoặc phúc tạp hơn là phân đoạn văn bản một cách thủ cơng. Sau khi qua chƣơng trình P1, ta đƣợc văn bản D2 đã đƣợc phân đoạn. Văn bản D2 đƣợc so sánh với văn bản đã đƣợc phân đoạn trƣớc một cách chính xác là D3. Chƣơng trình P2 sẽ thực hiện học từng phép chuyển đổi (transformation) để khi áp dụng thì D2 sẽ giống với văn bản chuẩn D3 hơn. Quá trình học đƣợc lặp đi lặp lại đến khi khơng cịn phép chuyển đổi nào tốt hơn nữa và kết quả sẽ thu đƣợc bộ luật R dùng cho phân đoạn. Cĩ thể hiểu cách tiếp cận này dựa trên tập ngữ liệu đã đánh dấu, hệ thống cĩ thể nhận biết ranh giới giữa các từ để việc tách từ chính xác với phƣơng pháp này sẽ cho máy học các câu mẫu trong tập ngữ liệu đã đƣợc đánh dấu ranh giới giữa các từ đúng. Ƣu điểm của phƣơng pháp này là đơn giản vì chỉ cần cho máy học các tập câu mẫu và sau đĩ máy sẽ tự rút ra qui luật của ngơn ngữ để từ đĩ sẽ áp dụng chính xác khi cĩ những câu đúng dựa theo luật mà máy đã rút ra. Tuy nhiên nhƣợc điểm là mất rất nhiều thời gian học và tốn nhiều khơng gian bộ nhớ do nĩ phải sinh ra các luật trung gian trong quá trình học. Để tách từ đƣợc chính xác trong mọi trƣờng hợp thì địi hỏi phải cĩ một tập ngữ liệu tiếng Việt đầy đủ và phải qua thời gian huấn luyện lâu để cĩ thể rút ra các luật đầy đủ. 2.2.3.3. Mơ hình tách từ bằng WFST và mạng Neural Mơ hình mạng chuyển dịch trạng thái hữu hạn cĩ trọng số WFST– Weighted Finit State Transducer, áp dụng WFST với trọng số là xác suất xuất hiện của mỗi từ trong kho ngữ liệu, dùng WFST để duyệt qua các câu cần xét, khi đĩ từ cĩ trọng số lớn nhất là từ đƣợc chọn để tách. Mơ hình WFST đã đƣợc ứng dụng vào việc phân đoạn từ cho tiếng Trung Quốc đƣợc tác giả Richard Sproat và các cộng sự trình bày năm 1996. Năm 2001 tác giả Đinh Điền [12] đã cơng bố cơng trình sử dụng mơ hình lai WFST kết hợp với mạng Neural để khử nhập nhằng khi tách từ, trong cơng trình này tác giả đã xây dựng hệ thống tách từ gồm tầng WFST để tách từ và xử lý các vấn đề liên quan đến một số đặc thù riêng của ngơn ngữ tiếng Việt nhƣ từ láy, tên riêng, ... và tầng mạng Neural dùng để khử nhập nhằng về ngữ nghĩa sau khi đã tách từ. Mơ hình WFST căn cứ trên các trọng số này để chọn ra một cách tách từ thích hợp. Sau khi cĩ đƣợc tất cả trạng thái tách từ cĩ thể cĩ của câu, với mỗi trạng thái, mơ hình tính tổng trọng số và chọn trạng thái tách từ đúng nhất là câu cĩ tổng trọng số nhỏ nhất. 27 Chi tiết về 2 tầng này nhƣ sau: Tầng WFST gồm cĩ 3 bƣớc: - Bƣớc 1: Xây dựng từ điển trọng số theo mơ hình WFST, thao tác phân đoạn từ đƣợc xem nhƣ là một sự chuyển dịch trạng thái cĩ xác suất. Chúng ta miêu tả từ điển D là một đồ thị biến đổi trạng thái hữu hạn cĩ trọng số. Giả sử: H là tập các từ chính tả tiếng Việt cịn gọi là “tiếng”. + P là từ loại của từ. Mỗi cung của D cĩ thể là: + Từ một phần tử của H tới một phần tử của H + Các nhãn trong D biểu diễn một chi phí đƣợc ƣớc lƣợng theo cơng thức: Cost =-log(f/N) Trong đĩ: f là tần số của từ, N là kích thƣớc tập mẫu. - Bƣớc 2: Xây dựng các khả năng phân đoạn từ: để giảm sự bùng nổ tổ hợp khi sinh ra dãy các từ cĩ thể từ một dãy các tiếng trong câu, tác giả đã đề xuất phƣơng pháp kết hợp dùng thêm từ điển để hạn chế sinh ra các bùng nổ tổ hợp, cụ thể là nếu phát hiện thấy một cách phân đoạn từ nào đĩ khơng phù hợp khơng cĩ trong từ điển, khơng cĩ phải là từ láy, khơng phải là danh từ riêng thì tác giả loại bỏ các nhánh xuất phát từ cách phân đoạn đoạn đĩ. - Bƣớc 3: Lựa chọn khả năng phân đoạn từ tối ƣu: Sau khi cĩ đƣợc danh sách các cách phân đoạn từ cĩ thể cĩ của câu, tác giả đã chọn trƣờng hợp phân đoạn từ cĩ trọng số bé nhất. Tầng mạng Neural: Mơ hình đƣợc sử dụng để khử nhập nhằng khi tách từ bằng cách kết hợp so sánh với từ điển, đƣợc tác giả đề xuất dùng dùng để luợng giá 3 dãy từ loại: NNV, NVN, VNN (N: Noun, V:Verb). Mơ hình này đƣợc học bằng chính các câu mà cách phân đoạn từ vẫn cịn nhập nhằng sau khi qua mơ hình thứ nhất. Theo nhƣ cơng bố trong cơng trình của tác giả Đinh Điền, mơ hình này đạt đƣợc độ chính xác trên 97% qua việc sử dụng thêm mạng Neural kết hợp với từ điển để khử các nhập nhằng cĩ thể cĩ khi tách từ và tƣơng tự nhƣ phƣơng pháp TBL mơ hình này cần tập ngữ liệu học đầy đủ. Ƣu điểm của phƣơng pháp: sẽ cho độ chính xác cao nếu xây dựng đƣợc một dữ liệu học đầy đủ và chính xác. Nhƣợc điểm chính của thuật tốn: việc đánh trọng 28 số dựa trên tần số xuất hiện của từ khi tiến hành phân đoạn, khơng tránh khỏi các nhập nhằng trong tiếng Việt nếu gặp những văn bản quá dài. 2.2.3.4. Phƣơng pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền Phƣơng pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) do H. Nguyễn [13] đề xuất năm 2005 nhƣ một hƣớng tiếp cận mới trong tách từ với mục đích phân loại văn bản mà khơng cần dùng đến một từ điển hay tập ngữ liệu học nào.Trong hƣớng tiếp cận này, tác giả kết hợp giữa thuật tốn di truyền với dữ liệu thống kê đƣợc lấy từ Internet. Trong tiếp cận của mình, tác giả đã mơ tả hệ thống tách từ gồm các thành phần 2.2.3.4.1. Online Extractor: Thành phần này cĩ tác dụng lấy thơng tin về tần số xuất hiện của các từ trong văn bản bằng cách sử dụng một search engine nổi tiếng nhƣ Google hay Yahoo chẳng hạn. Sau đĩ, tác giả sử dụng các cơng thức dƣới đây để tính tốn mức độ phụ thuộc lẫn nhau (mutual information) để làm cơ sở tính fitness cho GA engine. - Tính xác suất các từ xuất hiện trên Internet:   MAX )w2&w1count()w2&w1p( MAX count(w) wp   Trong đĩ MAX = 4 * 109 count(w) số lƣợng văn bản trên Internet đƣợc tìm thấy cĩ chứa từ w hoặc cùng chứa w1 và w2 đối với count(w1&w2). - Tính xác suất độ phụ thuộc của một từ lên một từ khác:  w1p )w2&w1p()w2|w1p(  Thơng tin phụ thuộc lẫn nhau (mutual information) của các từ ghép đƣợc cấu tạo bởi n tiếng (cw = w1w2wn)      n 1j )wn&.....&w2&w1p(w jp )wn&.....&w2&w1p(MI(cw) 29 2.2.3.4.2. GA Engine for Text Segmentation: Mỗi cá thể trong quan thể đƣợc biểu diễn bởi chuỗi các bit 0, 1, trong đĩ, mỗi bit đại diện cho một tiếng trong văn bản, mỗi nhĩm bit cùng loại đại diện cho cho một segment. Các cá thể trong quần thể đƣợc khởi tạo ngẫu nhiên, trong đĩ mỗi segment đƣợc giới hạn trong khoảng 5 GA Engine sau đĩ thực hiện các bƣớc đột biến và lai ghép nhằm mục đích làm tăng giá trị fitness của các cá thể để đạt đƣợc cách tách từ tốt nhất cĩ thể. KẾT LUẬN: Xem xét tổng quan một số phƣơng pháp tiếp cận trong tách từ văn bản tiếng Việt và dựa trên các nghiên cứu đã đƣợc cơng bố thì phƣơng pháp tách từ dựa trên từ mang lại kết quả cĩ độ chính xác khá cao. Điều này cĩ đƣợc nhờ vào tập huấn luyện lớn và các thơng tin đƣợc đánh dấu trong tập dữ liệu giúp cho việc học để rút ra các luật tách từ cho các văn bản khác đƣợc chính xác, tuy nhiên cũng dễ nhận thấy kết quả của phƣơng pháp này hồn tồn phụ thuộc vào tập dữ liệu huấn luyện. Hƣớng tiếp cận dựa trên ký tự cĩ ƣu điểm là dễ thực hiện, thời gian thực hiện tƣơng đối nhanh, nhƣng lại cho kết qủa khơng chính xác bằng hƣớng tiếp cận dựa trên từ. Hƣớng tiếp cận này nĩi chung phù hợp cho các ứng dụng khơng cần độ chính xác tuyệt đối trong tách từ văn bản nhƣ ứng dụng lọc spam mail, firewall, Nhìn chung với hƣớng tiếp cận này nếu chúng ta cĩ thể cải tiến để nâng cao độ chính xác trong tách từ thì hƣớng tiếp cận này là hồn tồn khả thi và cĩ khả năng thay thế hƣớng tiếp cận tách từ dựa trên từ vì khơng phải xây dựng kho ngữ liệu, một cơng việc địi hỏi nhiều cơng sức, thời gian và sự hỗ trợ của nhiều chuyên gia trong các lĩnh vực khác nhau. 2.2.4. Thuật tốn KEA Turney (2000) đƣợc xem là ngƣời đầu tiên giải quyết bài tốn rút trích các keyphrase dựa trên phƣơng pháp học giám sát [17][18], trong khi các nghiên cứu khác dùng heuristic, kỹ thuật phân tích n-gram, phƣơng pháp nhƣ mạng Neural [13][14][15]. KEA [19] là một thuật tốn trích xuất các cụm từ khĩa (keyphrases) từ dữ liệu văn bản. KEA xác định danh sách các cụm ứng viên dùng các phƣơng pháp từ vựng học, sau đĩ tiến hành tính tốn giá trị đặc trƣng cho mỗi ứng viên, tiếp đến dùng thuật tốn học máy để tiên đốn xem các cụm ứng viên nào là các cụm từ khĩa. Hiện nay KEA đƣợc xem là một thuật tốn đơn giản và hiệu quả nhất để rút 30 các keyphrases [13]. KEA dùng phƣơng pháp học máy Nạve Bayes để huấn luyện và rút trích các keyphrases. Theo nhận định của các tác giả, KEA là thuật tốn cĩ khả năng độc lập ngơn ngữ. Thuật tốn KEA cĩ thể đƣợc tĩm tắt thơng qua các bƣớc sau: Bƣớc 1: Rút trích cụm ứng viên: KEA rút các cụm ứng viên n-gram (chiều dài 1 đến 3 từ) mà khơng bắt đầu hay kết thúc bằng các “stop word”. Trong trƣờng hợp bài tốn gán cụm từ khĩa (keyphrase assignment) dùng từ điển định nghĩa trƣớc (controlled indexing), KEA chỉ chọn ra các cụm ứng viên mà khớp với các thuật ngữ đã định nghĩa trong từ điển. Với các cụm n-gram thu đƣợc KEA tiến hành loại bỏ ra khỏi cụm ứng viên các “stop word” và chuyển về dạng gốc của từ (stemming) cho cụm ứng viên. Hình 2.3 - Sơ đồ thuật tốn KEA (tham khảo: Bƣớc 2: Tính tốn đặc trƣng: mỗi cụm ứng viên, KEA tính 4 giá trị đặc trƣng sau:  TF×IDF: thể hiện mức độ quan trọng của một cụm ứng viên trong tài liệu đang xét so với các tài liệu khác trong tập dữ liệu. Một cụm ứng viên cĩ TF×IDF càng cao thì càng cĩ khả năng trở thành cụm từ khĩa. Kho Tài liệu Từ điển lĩnh vực Rút trích ứng viên Cụm ứng viên Huấn luyện? Tính đặc trƣng Tính xác suất Cụm từ khĩa Xây dựng mơ hình dùng Nạve Bayes Mơ hình Cĩ Khơng Cụm từ khĩa đƣợc gán nhãn trƣớc 31  Vị trí xuất hiện đầu tiên: theo quan niệm tác giả các cụm ứng viên mà cĩ vị trí xuất hiện gần đầu hay cuối tài liệu thì càng cĩ khả năng trở thành cụm từ khĩa.  Chiều dài cụm: số lƣợng từ trong cụm. Theo tác giả các cụm cĩ chiều dài là 2 thƣờng đƣợc quan tâm.  Độ tƣơng quan: là số lƣợng các cụm trong danh sách các cụm ứng viên cĩ liên quan ngữ nghĩa với cụm đang xét. Độ tƣơng quan đƣợc tính nhờ vào từ điển định nghĩa trƣớc. Một cụm ứng viên cĩ độ tƣơng quan cao thì càng cĩ khả năng trở thành cụm từ khĩa. Bƣớc 3: Huấn luyện và xây dựng mơ hình: dùng tập tài liệu huấn luyện mà các cụm từ khĩa đã đƣợc gán bởi tác giả để xây dựng mơ hình. Với danh sách các cụm ứng viên đã xác định dùng các kỹ thuật n-gram, loại bỏ “stop word” và chuyển về gốc từ (stemming) ở trên. KEA sẽ đánh dấu những cụm nào là “cụm +” (là cụm từ khĩa) và những cụm nào là “cụm -“ (khơng là cụm từ khĩa). Mơ hình sẽ đƣợc xây dựng bằng cách tiến hành phân tích, tính tốn giá trị cho các đặc trƣng cụm (nhƣ mơ tả phía trên) cho các “cụm +” và “cụm -”. Mơ hình xây dựng sẽ phản ánh phân bố của các giá trị đặc trƣng cho mỗi cụm từ. Bƣớc 4: Rút trích cụm từ khĩa: KEA sẽ dùng mơ hình đã xây dựng bƣớc 3 và tính tốn giá trị đặc trƣng cho các cụm ứng viên. Sau đĩ tính xác suất để cụm ứng viên là cụm từ khĩa. Các cụm ứng viên với xác suất xếp hạng cao nhất đƣợc chọn đƣa vào danh sách các cụm từ khĩa. Ngƣời dùng cĩ thể chỉ định số lƣợng các cụm từ khĩa cho một tài liệu. 2.2.4.1. Chọn cụm ứng viên (candidate phrases) Việc chọn cụm ứng viên đƣợc tiến hành thơng qua 3 bƣớc nhỏ sau: Tiền xử lý (Input Cleaning): các files dữ liệu đầu vào đƣợc “dọn dẹp” và chuẩn hĩa và xác định biên giới ban đầu của các cụm. Chuỗi đầu vào sẽ đƣợc chặt thành các tokens  Các dấu chấm câu, ngoặc đơn và những con số đƣợc thay thế bởi các đƣờng biên của các cụm (phrase boundaries).  Xĩa các dấu nháy đơn  Tách những từ cĩ dấu ở giữa thành hai 32  Xĩa những ký tự cịn lại khơng phải là token. (vì khơng cĩ token nào mà khơng chứa các ký tự). Kết quả  Tập hợp các lines  Mỗi line là một dãy các token (mỗi token chứa ít nhất 1 ký tự)  Những từ viết tắt chứa các dấu ngăn cách phải đƣợc giữ lại là token (nhƣ C4.5 chẳng hạn) Xác định cụm (phrase): KEA xem xét tất cả các dãy con (subsequences) trong mỗi dịng và xác định dãy con nào thích hợp là một cụm ứng viên. Một số phƣơng pháp khác cố gắng xác định các noun phrase, tuy nhiên KEA dùng các luật để xác định các phrase nhƣ sau:  Chiều dài tối đa: phrase ứng viên thƣờng tối đa là 3 từ  Phrase ứng viên khơng thể là tên riêng  Phrase ứng viên khơng đƣợc phép bắt đầu và kết thúc với 1 stopword.  Tất cả các dãy từ liền nhau trong mỗi dịng sẽ đƣợc kiểm tra dùng 3 luật trên. Kết quả là một tập các cụm ứng viên. Ví dụ: Bảng 2.1 - Xác định cụm ứng viên Dịng Cụm ứng viên the programming by demonstration method programming demonstration method programming by demonstration demonstration method programming by demonstration method Xác định gốc từ (stemming): bƣớc sau cùng trong việc xác định các cụm ứng viên là xác định gốc từ (stemming) dùng thuật tốn Lovins (1968) để bỏ đi các hậu tố. Việc làm này giúp hệ thống cĩ thể xem nhiều biến thể khác nhau của cụm (phrase) nhƣ là một. (chẳng hạn cut elimination sẽ trở thành cut elim). Và hệ thống cũng dùng stemming để so sánh những cụm từ khĩa kết quả của KEA với các cụm từ khĩa do tác giả định nghĩa. 33 2.2.4.2. Tính tốn đặc trƣng (Feature calculation) Tính tốn các đặc trƣng cho mỗi cụm ứng viên và chúng sẽ đƣợc dùng trong huấn luyện và rút trích. Hai đặc trƣng đƣợc dùng đĩ là: tần số tf*idf, vị trí xuất hiện đầu tiên của cụm. Tần số TF*IDF (t): đặc trƣng này thể hiện tần suất xuất hiện của một cụm trong một tài liệu so với tần suất của cụm trong cả kho dữ liệu. Số lƣợng tài liệu chứa một cụm càng ít thì khả năng cụm đĩ là cụm từ khĩa (keyphrase) cho tài liệu đang xét càng cao. Thuật tốn KEA đã tạo một tập tin để lƣu trử giá trị tần xuất của đặc trƣng này. ( ) ( ) ( ) Freq(P, D) là sồ lần cụm P xuất hiện trong tài liệu D Size(D) là số lƣợng từ của tài liệu D df(P) là số lƣợng tài liệu chứa cụm P trong kho dữ liệu. N: kích thƣớc của kho dữ liệu Vị trí xuất hiện đầu tiên (d: disttance): đây là đặc trƣng thứ 2, là số lƣợng từ phía trƣớc vị trí xuất hiện đầu tiên của cụm từ chia cho kích thƣớc của tài liệu (tổng số từ). Giá trị của đặc trƣng này thuộc khoảng [0, 1]. 2.2.4.3 Huấn luyện Bƣớc huấn luyện dùng một tập tài liệu huấn luyện trong đĩ các cụm từ khĩa đã đƣợc tác giả xác định trƣớc. Đối với mỗi tài liệu trong tập huấn luyện, những cụm ứng viên sẽ đƣợc xác định và các giá trị đặc trƣng của từng cụm ứng viên sẽ đƣợc tính tốn. Để giảm kích thƣớc của tập huấn luyện, tác giả bỏ qua các cụm mà chỉ xuất hiện một lần trong tài liệu. Mỗi cụm ứng viên sẽ đƣợc gán nhãn là cụm từ khĩa hay khơng là cụm từ khĩa dựa vào những cụm từ khĩa do tác giả chỉ định. Quá trình huấn luyện sẽ sinh ra một một mơ hình và mơ hình này đƣợc dùng để tiên đốn phân lớp cho các mẫu dữ liệu mới dùng các giá trị của hai đặc trƣng. Nhĩm tác giả đã thử nghiệm với một số phƣơng pháp học máy khác nhau và quyết định chọn kỹ thuật Nạve Bayes cho thuật tốn KEA, vì theo tác giả phƣơng pháp học dựa trên xác suất Nạve Bayes đơn giản nhƣng cho kết quả khá tốt. 34 2.2.4.4 Rút trích những cụm từ khĩa Để rút trích các cụm từ khĩa từ một tài liệu mới, KEA xác định các cụm ứng viên và các giá trị đặc trƣng, sau đĩ áp dụng mơ hình đã xây dựng trong quá trình huấn luyện. Mơ hình xác định xác suất mà mỗi ứng viên là một cụm từ khĩa. Sau đĩ KEA sẽ thực hiên thao tác hậu xử lý để chọn ra tập hợp những cụm từ khĩa tốt nhất cĩ thể. Khi mơ hình Nạve Bayes đƣợc áp dụng cho các cụm ứng viên với các giá trị đặc trƣng t(TF*IDF) và d (distance), hai lƣợng sau đƣợc tính tốn đĩ là [ ] [ ] [ ] (1) [ ] [ ] [ ] Y: số lƣợng các cụm là cụm từ khĩa (do tác giả chỉ định) N: số lƣợng các cụm ứng viên khơng phải là cụm từ khĩa. Xác suất tổng thể mà cụm ứng viên là cụm từ khĩa đƣợc tính nhƣ sau: [ ] [ ] [ ] (2) Sau khi tính tốn giá trị xác suất p. Các ứng viên đƣợc sắp theo thứ tự (tăng hay giảm dần) của giá trị p này. Tiếp sau đĩ sẽ là 2 bƣớc hậu xử lý. Thứ nhất, TF*IDF sẽ là giá trị quyết định trong trƣờng hợp 2 cụm ứng viên cĩ cùng xác suất p. Thứ hai, tác giả quyết định loại bỏ ra khỏi danh sách các cụm mà là “cụm con” của một cụm cĩ xác suất cao hơn. Từ danh sách cịn lại, thuật tốn sẽ chọn ra r cụm cĩ xác suất cao nhất (với r là số lƣợng các cụm từ khĩa cần xác định theo yêu cầu). 2.2.5 Thuật tốn KIP 2.2.5.1 Ý tƣởng Một cụm danh từ chứa những từ khĩa hay cụm từ khĩa về một lĩnh vực cụ thể sẽ cĩ khả năng trở thành cụm từ khĩa trong lĩnh vực đĩ. Một cụm danh từ càng chứa nhiều từ khĩa hay cụm từ khĩa thì cụm danh từ này càng cĩ nhiều khả năng trở thành cụm từ khĩa. Hệ thống xây dựng sẵn một cơ sở dữ liệu từ vựng lƣu giữ các từ khĩa, cụm từ khĩa về một lĩnh vực cụ thể. Và các từ khĩa trong từ điển định nghĩa trƣớc đĩ sẽ dùng để tính tốn điểm hay trọng số cho một cụm danh từ. Từ đĩ quyết định cụm ứng viên nào là cụm từ khĩa dựa trên trọng số, điểm số đã tính đƣợc cao hơn. 2.2.5.2 Mơ tả thuật tốn 35 KIP đơn giản gồm các bƣớc nhƣ: rút trích các cụm danh từ (noun phrase) ứng viên từ tài liệu đầu vào. Sau đĩ kiểm tra cấu thành của cụm ứng viên và tính điểm cho nĩ. Từ đĩ quyết định cụm ứng viên nào là cụm từ khĩa dựa trên trọng số, điểm số đã tính đƣợc cao hơn. Điểm của một cụm danh từ đƣợc tính dựa vào các yếu tố:  Tần xuất xuất hiện trong tài liệu  Cấu thành của cụm danh từ (chứa từ hay cụm con nào)  Những từ và cụm từ cấu thành cụm danh từ liên quan nhƣ thế nào đến lĩnh vực của tài liệu KIP bao gồm các thành phần chính: gán nhãn từ loại (POS tagger), rút trích cụm danh từ (Noun phrase extractor), cơng cụ rút trích cụm từ khĩa.  Gán nhãn từ loại (POS tagger): KIP đã dùng phƣơng pháp gán nhãn từ loại dùng phổ biến của Brill [20].  Rút trích cụm danh từ: bộ rút trích cụm danh từ dựa vào các nhãn từ loại đã gán trong bƣớc trƣớc và rút ra các cụm danh từ dựa vào mẫu {[A]} {N} (A adjective; N noun; {}  lặp lại nhiều lần; []  cĩ thể cĩ hoặc khơng)  Rút trích cụm từ khĩa: để tính trọng số cho các cụm danh từ, thuật tốn xây dựng một từ điển từ vựng chứa các từ khĩa, cụm từ khĩa với các giá trị khởi tạo về một lĩnh vực cụ thể. Từ điển bao gồm 2 danh sách: một danh sách các cụm từ khĩa (chứa 1 hay nhiều từ), một danh sách các từ khĩa (chứa 1 từ đơn đƣợc phân tích từ danh sách thứ 1, cụm từ khĩa). Trọng của một cụm danh từ: WNP = F x S F: tần số xuất hiện của cụm danh từ trong tài liệu. S: tổng trọng số của những từ đơn và các kết hợp cĩ thể trong cụm ứng viên. ∑ + ∑ j Wi: trọng số của một từ trong cụm danh từ này Pj: trọng số của của cụm con trong cụm danh từ. Mục tiêu của việc tính tốn trọng số của tất cả những từ đơn và những cụm con là nhằm xác định xem một “cụm con” cĩ phải là một cụm từ khĩa đã đƣợc định nghĩa sẵn trong từ điển hay khơng. Nếu nĩ tồn tại trong từ điển thì cụm danh từ đang xét càng quan trọng hơn. KIP sẽ truy vấn danh sách các 36 từ khĩa và cụm từ khĩa từ từ điển lĩnh vực để cĩ đƣợc trọng số cho các từ đơn (Wi) và “cụm con” (Pj). 2.2.6. Nhận diện thực thể cĩ tên 2.2.6.1 Khái niệm Nhận diện thực thể cĩ tên (NER-Named Entity Recognition)5 là một cơng việc thuộc lĩnh vực trích xuất thơng tin nhằm tìm kiếm, xác định và phân lớp các thành tố trong văn bản khơng cấu trúc thuộc vào các nhĩm thực thể đƣợc xác định trƣớc nhƣ tên ngƣời, tổ chức, vị trí, biểu thức thời gian, con số, giá trị tiền tệ, tỉ lệ phần trăm, v.v. Thực thể cĩ tên (Named Entity) cĩ rất nhiều ứng dụng, đặc biệt trong các lĩnh vực nhƣ hiểu văn bản, dịch máy, truy vấn thơng tin, và hỏi đáp tự động. 2.2.6.2 Phƣơng pháp tiếp cận và các hệ thống phổ biến Hiện nay, hầu hết các hệ thống nhận diện thực thể cĩ tên áp dụng các kỹ thuật khai thác dữ liệu văn bản, xử lý ngơn ngữ tự nhiên và tiếp cận theo các hƣớng chính sau:  Kỹ thuật dựa trên văn phạm ngơn ngữ: qui tắc, luật văn phạm đƣợc xây dựng bằng tay nhờ ý kiến chuyên gia ngơn ngữ, và tốn nhiều thời gian cho việc xây dựng qui tắc văn phạm. Qui tắc văn phạm sẽ phải thay đổi khi cĩ sự thay đổi vễ lĩnh vực ứng dụng hay ngơn ngữ.  Các mơ hình học thống kê: ít phụ thuộc ngơn ngữ, và cũng khơng phụ thuộc vào chuyên gia lĩnh vực nhƣng cần chuẩn bị tập dữ liệu huấn luyện thật tốt vả đủ lớn để cĩ thể xây dựng đƣợc một bộ phân lớp tối ƣu.  Kết hợp máy học và các kỹ thuật xử lý ngơn ngữ tự nhiên. Hệ thống nhận diện thực thể cĩ tên phổ biến: cĩ thể kể đến các hệ thống phổ biến hiện nay nhƣ:  Hệ thống Standford NER6: xây dựng bộ phân lớp CRFClassifier dựa trên mơ hình thuộc tính ngẫu nhiên cĩ điều kiện (CRF-Condictional Random Field)  Hệ thống GATE-ANNIE 7: là một hệ thống con của GATE Framework (General Architecture of Text Engineering) một trong các dự án lớn nhất thuộc khoa Khoa học Máy tính, Đại học Sheffield của Anh. Đây là hệ thống dựa trên các từ điển, Ontology và việc xây dựng luật để đánh dấu 5 6 7 37 (annotation) các thành tố trong văn bản. Việc xác định các thực thể cĩ tên trong văn bản thực hiện trong quá trình đánh dấu văn bản. 2.3. Phân tích URL URL, viết tắt của Uniform Resource Locator (Định vị Tài nguyên thống nhất), đƣợc dùng để tham chiếu tới tài nguyên trên Internet. URL mang lại khả năng siêu liên kết cho các trang mạng. Các tài nguyên khác nhau đƣợc tham chiếu tới bằng địa chỉ, chính là URL, cịn đƣợc gọi là địa chỉ web hay là liên kết mạng (hay ngắn gọn là liên kết). Về kỹ thuật, URL là một dạng của URI, nhƣng trong nhiều tài liệu kỹ thuật và các cuộc thảo luận bằng lời nĩi, URL thƣờng đƣợc sử dụng nhƣ một từ đồng nghĩa với URI, và điều này khơng bị coi là một vấn đề. Một URL gồm cĩ nhiều phần đƣợc liệt kê dƣới đây:  URL scheme thƣờng là Tên giao thức (ví dụ: http, ftp) nhƣng cũng cĩ thể là một cái tên khác (ví du: news, mailto). Muốn hiểu rõ về URL scheme xin xem URI scheme  Tên miền (ví dụ:  Chỉ định thêm cổng (cĩ thể khơng cần)  Đƣờng dẫn tuyệt đối trên máy phục vụ của tài nguyên (ví dụ: thumuc/trang)  Các truy vấn (cĩ thể khơng cần)  Chỉ định mục con (cĩ thể khơng cần) Cụ thể hơn: \__/ \______________/\_/\___________/ \____________/ \_____/ | | | | | | URL scheme tên miền | đường dẫn truy vấn mục con cổng Hiện nay trên thế giới mỗi ngày cĩ rất nhiều tên miền (domain) mới xuất hiện. Để cĩ thể tìm đến một đƣờng dẫn internet để chỉ mục nội dung cần thiết phục vụ cho ngƣời sử dụng internet, chúng ta cĩ thể sử dụng các cơng cụ trên mạng internet. Hiện nay các cơng cụ tìm kiếm trên mạng Internet ngày càng phổ biến và đƣợc sử dụng rộng rãi. Hoặc chúng ta cĩ thể sử dụng việc tìm kiếm đến URL thích hợp thơng qua danh bạ các website hay là các cơng cụ tìm kiếm. 38 CHƢƠNG 3. GIẢI PHÁP LỌC WEBSITE KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT 3.1. Phân tích mơ hình hệ thống Bài tốn lọc website thực chất là một bài tốn Phân loại văn bản, là một vấn đề cấp thiết cho sự bùng nổ thơng tin hiện nay. Vấn đề cần làm của bài tốn là gán nhãn cho các tài liệu văn bản vào các chủ đề cho trƣớc. Cĩ rất nhiều ứng dụng thực tế, điển hình nhƣ một ngƣời phân tích chính trị cần tổng hợp rất nhiều tài liệu về chính trị để đọc nghiên cứu, tuy nhiên anh ta khơng thể lên mạng đọc tất cả các bài báo bài viết rồi phân loại chúng đâu là tài liệu chính trị, sau đĩ mới đọc kỹ chúng cho mục đích của mình. Việc này khơng thể bởi vì số lƣợng bài báo, bài viết hiện nay rất nhiều. Đặc biệt là trên internet, việc đọc tất cả tài liệu gần nhƣ khơng thể và tốn rất nhiều thời gian . Trong khuơn khổ luận văn này, chi tiết các bƣớc thực hiện bài tốn “ Phân loại văn bản” dùng thuật tốn Nạve Bayes và một số cách tiếp cận cải tiến để giải quyết bài tốn cho việc phân loại nội dung khiêu dâm là mục tiêu chính. Trong luận văn khái niệm nội dung khơng lành mạnh là các nội dung theo văn hĩa Việt Nam là đồi trụy nhƣ là các nội dung chứa các thơng tin về sex, và nĩ đặc biệt cĩ hại cho lứa tuổi chƣa đến vị thành niên (ở Việt Nam là dƣới 18 tuổi). Những nội dung khiêu dâm hoặc truyện gợi dục bằng tiếng Việt hiện nay rất nhiều. Việc phân loại các nội dung này để ngăn chặn khơng cho trẻ chƣa đủ tuổi vị thành niên là một thách thức lớn cho gia đình và xã hội. Bài tốn phân loại website cĩ nội dung khiêu dâm cĩ thể đƣợc phát biểu nhƣ sau: cho trƣớc tập các trang web cĩ nội dung D={d1,d2..dn} và đƣợc gán trƣớc thuộc một trong 2 lớp C={C1=Bad, C2=Good}; tập các URL_Bad chứa nội dung khơng lành mạnh và tập các URL_Good chứa nội dung lành mạnh. Nhiệm vụ của bài tốn là gán lớp Di thuộc về Cj đã đƣợc định nghĩa cụ thể trong đồ án này là là gán lớp Di thuộc về 2 tập đƣợc định nghĩa là Ctốt (nội dung lành mạnh) và Cxấu (nội dung khiêu dâm) Cụ thể mục tiêu bài tốn là đi tìm hàm f: f : (URL,D)  C 39 f(URL, D) = {Bad, Good}. Mơ hình hệ thống lọc website cĩ nội dung khiêu dâm trong luận văn nhƣ trên hình vẽ 3.1. Trong đĩ chia làm 2 giai đoạn riêng gồm huấn luyện và nhận dạng nhƣng cĩ cùng 2 bƣớc là tiền xử lý và trích trọng đặc trƣng. Các đặc trƣng ở đây là các từ đƣợc tách ra dựa vào bộ từ điển sẽ đề cập đến sau. Hệ thống sẽ gồm 2 Module chính là xử lý URL và xử lý dựa vào nội dung của trang web. 40 3.2. Module xử lý dựa vào URL Module này đơn giản dựa vào số lƣợng các từ khĩa rút trích ra đƣợc từ bộ dữ liệu URL danh sách đen và danh sách trắng để tìm ra tập các từ khĩa đặc trƣng cho tên các trang web nhƣ sex, girl, xxl, xx, porn,Giai đoạn huấn luyện là thống kê xem trong các danh sách đen và trắng thì các từ khĩa này xuất hiện bao nhiêu lần để từ đĩ cĩ thể tính xác suất của một trang web bất kỳ sẽ cĩ khả năng lớn là web khiêu dâm hay khơng.  Dữ liệu huấn luyện: là kho dữ liệu tập các URL danh sách đen (địa chỉ các Website cĩ nội dung khiêu dâm) và tập các URL danh sách trắng (địa chỉ các Website cĩ nội dung lành mạnh) đƣợc thu thập từ các trang web sex, giáo dục giới tính, trang báo mạng  Tiền xử lý : chuyển đổi kho dữ liệu thành một hình thức phù hợp để phân loại.  Trích lọc đặc trƣng: Tiến hành loại bỏ các thành phần (http://, WWW, dấu “/”, dấu “-“, .com/vn/gov/info/net) để lọc lấy những từ đơn và từ ghép gọi chung là các Token, mang ý nghĩa bao quát của URL đang trích lọc.  Áp dụng thuật tốn Bayes : Áp dụng cơng thức bayes để tính các xác suất tiên nghiệm của 2 lớp Bad và Good, cũng nhƣ các giá trị xác suất của từng Token thuộc từng lớp tƣơng ứng để sử dụng nhận dạng hay phân loại URL sau này.  CSDL Token URL: là các từ đơn, từ ghép đã qua huấn luyện và chọn lọc. 3.3. Module lọc theo nội dung Đây là Module chính của luận văn. Dựa vào dữ liệu các trang web thu đƣợc thuộc cả 2 lớp Bad và Good để huấn luyện tìm ra các từ (gồm từ đơn và từ ghép từ 2 tiếng gọi là Token) cùng tần số xuất hiện tƣơng ứng của các từ này trong 2 lớp để Dữ liệu huấn luyện Tiền xử lý Trích lọc đặc trƣng Áp dụng thuật tốn Bayes huấn luyện CSDL Token URL Hình 3.2 – Quy trình huấn luyện lấy Token URL 41 khi gặp một trang web bất kỳ sẽ tình xác suất của trang này thuộc lớp nào nhiều hơn thì phân vào lớp đĩ. Nếu thuộc lớp Bad thì cần ngăn chặn khơng cho trang web này hiển thị, ngƣợc lại thì cho hiển thị bình thƣờng. Các giai đoạn của Modue này thực hiện theo các thứ tự trình bày tiếp theo sau. 3.3.1. Giai đoạn huấn luyện Mục đích chính của giai đoạn này là dựa vào bộ dữ liệu thu thập cĩ sẵn thuộc 2 lớp Bad và Good để tìm ra các từ khĩa (Token) đại diện cho các dữ liệu. Trong đĩ:  Dữ liệu huấn luyện: là kho dữ liệu text cĩ nội dung khiêu dâm và lành mạnh đƣợc thu thập từ các trang web sex, giáo dục giới tính, trang báo mạng  Tiền xử lý : chuyển đổi kho dữ liệu thành một hình thức phù hợp để phân loại.  Trích lọc đặc trƣng: Tiến hành lọc lấy những từ đơn và từ ghép gọi chung là các Token, mang ý nghĩa bao quát tồn văn bản.  Áp dụng thuật tốn Bayes : Áp dụng cơng thức bayes để tính các xác suất tiên nghiệm của 2 lớp Bad và Good, cũng nhƣ các giá trị xác suất của từng Token thuộc từng lớp tƣơng ứng để sử dụng nhận dạng hay phân loại sau này.  CSDL Token nội dung: là các từ đơn, từ ghép đã qua huấn luyện và chọn lọc. 3.3.1.1. Tiền xử lý văn bản Văn bản

Các file đính kèm theo tài liệu này:

luan_van_xay_dung_bo_loc_phat_hien_cac_website_co_noi_dung_k.pdf