Tóm tắt Luận án - Nghiên cứu và phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN QUỐC HÙNG NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT ĐỊNH VỊ DỰA TRÊN HÌNH ẢNH, ỨNG DỤNG TRỢ GIÚP DẪN ĐƯỜNG CHO NGƯỜI KHIẾM THỊ Chuyên ngành: Khoa học Máy tính Mã số: 62480101 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội − 2016 Công trình được hoàn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: 1. TS. Trần Thị Thanh Hải 2. PGS.TS. Nguyễn Quang Hoan Phản biện 1: Phản biện 2: Phản biện 3: Luận á

27 trang | Chia sẻ: huong20 | Ngày: 08/01/2022 | Lượt xem: 388 | Lượt tải: 0

Tóm tắt tài liệu Tóm tắt Luận án - Nghiên cứu và phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

n được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tại Trường Đại học Bách khoa Hà Nội: Vào hồi..............giờ, ngày.......tháng.......năm....... Cĩ thể tìm hiểu luận án tại thư viện: 1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội 2. Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết, ý nghĩa khoa học của luận án Năm 2013, theo cơng bố của Tổ chức Y tế thế giới (WHO) trên thế giới cĩ khoảng 285 triệu người suy giảm thị lực, trong đĩ 246 triệu người cĩ thị lực kém ở mức độ vừa phải đến mức độ nặng và 39 triệu người mù [19]. Tại Việt Nam, theo số liệu của Viện mắt Trung ương cung cấp, cĩ khoảng 1.2 triệu người khiếm thị (NKT), trong đĩ 820.503 người khơng cịn khả năng nhìn thấy ánh sáng. Nếu tính cả những người bị các tật về mắt như cận hoặc viễn thì con số này cịn lớn hơn rất nhiều. Số lượng NKT lớn, bản thân NKT gặp nhiều khĩ khăn trong cuộc sống cũng như nắm bắt các cơ hội việc làm. Chính vì vậy, trợ giúp NKT là vấn đề thu hút sự quan tâm của nhiều nhà khoa học trong thời gian gần đây. Trong số các yêu cầu trợ giúp, trợ giúp định hướng là cần thiết và chỉ dẫn để giúp họ tránh các vật cản trên đường đi hay đưa ra các thơng báo về mơi trường xung quanh. Trên thực tế, nhiều phương pháp đã được nghiên cứu và triển khai nhằm hỗ trợ định hướng cho NKT, như sử dụng gậy [8], chĩ dẫn đường [8], hay thiết bị điện tử [2]. Mỗi phương pháp cĩ những ưu nhược điểm riêng: gậy dẫn đường bị hạn chế phạm vi phát hiện vật cản theo kích thước của gậy; chĩ dẫn đường thường cĩ chi phí cao và gây trở ngại về tâm sinh lý đối với người dùng; thiết bị điện tử như các điện cực đặt trên lưỡi cĩ thể gây tâm lý ngại ngần khi sử dụng. Trong bối cảnh này, nghiên cứu và phát triển một hệ thống trợ giúp dẫn đường hiệu quả và thân thiện trợ giúp NKT vẫn là chủ đề đầy thách thức, động lực để NCS thực hiện đề tài: “Nghiên cứu phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị”. Mục tiêu và những thách thức Xuất phát từ ý tưởng tạo ra một hệ thống hỗ trợ giống như một người bạn đồng hành cĩ khả năng giao tiếp thân thiện và hiệu quả. Luận án hướng đến phát triển một hệ thống trợ giúp định hướng và cảnh báo vật cản cho NKT sử dụng robot di động. Để đạt được mục tiêu này, robot cần cĩ khả năng nhận biết và di chuyển giữa các vị trí trong mơi trường và nhận dạng được các vật cản trên đường đi. Do vậy, chúng tơi chia các mục tiêu đạt được thành ba bài tốn cụ thể: 1. Biểu diễn mơi trường và định vị: Với mục tiêu dẫn đường cho NKT đi từ vị trí hiện tại đến vị trí mong muốn trong mơi trường, robot phải biết mình đang ở đâu trong mơi trường và đường đi đến vị trí đích như thế nào. Để giải quyết vấn đề này, bản đồ mơi trường phải được xây dựng từ trước và robot phải cĩ khả năng định vị từ một vị trí bất kỳ trên bản đồ. Mặc dù cĩ nhiều phương pháp đã được đề xuất, hướng tiếp cận tổng quát và bền vững với các yếu tố mơi trường đang là những mục tiêu mà các nhà khoa học theo đuổi. 2. Phát hiện và ước lượng khoảng cách vật cản: Trong quá trình di chuyển, để đảm bảo an tồn cho NKT cũng như cho sự di chuyển của robot, các vật cản trong mơi trường bao gồm vật cản tĩnh và động cần phải được phát hiện và cảnh báo về mức độ nguy hiểm cĩ thể gây ra. Ngồi các thách thức chung của bài tốn phát hiện đối tượng trong lĩnh vực thị giác máy tính như điều kiện chiếu sáng thay đổi, che khuất, 1 bĩng, luận án cịn phải giải quyết với chất lượng ảnh khơng tốt do rung lắc của thiết bị, camera di chuyển và ước lượng khoảng cách giữa NKT và vật cản trong thời gian thực. 3. Dẫn đường, điều khiển và tương tác người robot: Trong ngữ cảnh của bài tốn robot dẫn đường thì việc tìm đường tối ưu là một phần quan trọng, đặc biệt với việc dẫn đường cần phải thực hiện với độ chính xác cao trong khi vẫn đảm bảo an tồn cho NKT. Bên cạnh đĩ, điều khiển robot di chuyển đúng hành trình, giảm sai số định vị là một thách thức trong lĩnh vực điều khiển động học. Tương tác người-robot phải thân thiện, tự nhiên và hiệu quả để NKT cảm nhận được các trạng thái hệ thống đang hoạt động và đưa ra các phản hồi kịp thời mà khơng mất đi các giác quan tự nhiên là một bài tốn địi hỏi nhiều thời gian thử nghiệm trên người dùng khiếm thị. Những điểm mới của luận án Để giải quyết 03 bài tốn nêu trên, chúng tơi đã đề xuất và cải tiến một số phương pháp với những đĩng gĩp chính sau đây: 1. Đề xuất mơ hình biểu diễn mơi trường theo hướng tiếp cận lai ngữ nghĩa trong đĩ bản đồ số liệu và bản đồ topo được tích hợp cùng với các thơng tin về vật cản tĩnh trong mơi trường. 2. Nâng cao độ chính xác của giải thuật xây dựng bản đồ và định vị sử dụng hình ảnh, vốn thường được thiết kế cho mơi trường ngồi trời nhưng gặp phải các khĩ khăn khi hoạt động trong mơi trường trong nhà. 3. Đề xuất phương pháp phát hiện một số vật cản phù hợp với ngữ cảnh của bài tốn robot dẫn đường. 4. Chứng minh bằng thực nghiệm tính khả thi của giải pháp đề xuất thơng qua việc phát triển ứng dụng trợ giúp định hướng NKT sử dụng robot. Cấu trúc của luận án Luận án gồm 4 chương với nội dung tĩm tắt như sau: ◦ Chương 1: Tổng quan về thống trợ giúp người khiếm thị giới thiệu một số nghiên cứu trong và ngồi nước về trợ giúp định hướng NKT, phân tích ưu nhược điểm của các phương pháp và đề xuất hệ thống “Trợ giúp dẫn đường cho NKT di chuyển trong mơi trường diện hẹp sử dung robot”. ◦ Chương 2: Biểu diễn mơi trường và định vị đề xuất mơ hình biểu diễn mơi trường và định vị dựa trên hình ảnh. Hai giải thuật với những cải tiến sẽ được giới thiệu là giải thuật đo hành trình VO nhằm xây dựng bản đồ số liệu, giải thuật xây dựng bản đồ topo và định vị FAB-MAP sử dụng hình ảnh. ◦ Chương 3: Phát hiện và ước lượng khoảng cách vật cản trình bày một phương pháp đề xuất cho việc phát hiện vật cản dựa trên kỹ thuật đối sánh ảnh và ước lượng khoảng cách vật cản dựa trên tính tốn ảnh sai khác từ các quan sát khác nhau trên 01 camera. ◦ Chương 4: Thử nghiệm và đánh giá hệ thống dẫn đường, trình bày hệ thống dẫn đường hồn chỉnh tích hợp các thiết bị phần cứng và phát triển thêm một số chức năng khác như tìm đường, điều khiển, tương tác người robot sử dụng các kỹ thuật cơ bản sẵn cĩ. Phần thử nghiệm và đánh giá trên người dùng khiếm thị 100% khơng nhìn thấy ánh sáng tại 03 mơi trường khác nhau. 2 CHƯƠNG 1 TỔNG QUAN VỀ HỆ THỐNG TRỢ GIÚP NGƯỜI KHIẾM THỊ 1.1 Đặt vấn đề 1.2 Các nghiên cứu liên quan 1.2.1 Các nghiên cứu trên thế giới 1.2.2 Các nghiên cứu trong nước 1.2.3 Thảo luận Các nghiên cứu và phân tích trên đây cho thấy các phương pháp trợ giúp NKT hiện tại cĩ một số ưu nhược điểm sau: Các phương pháp sử dụng laser, lidar, siêu âm cho phép xác định nhanh và trợ giúp cảnh báo thơng tin vật cản cho NKT hoặc hỗ trợ trong quá trình đi lại. Tuy nhiên nhĩm các phương pháp này khơng xác định đối tượng vật cản là gì, mức độ nguy hiểm ra sao và khơng cĩ khả năng dẫn đường NKT trong mơi trường. Các phương pháp sử dụng hình ảnh địi hỏi kỹ thuật xử lý hình ảnh phức tạp hơn, tuy nhiên lượng tin nhiều hơn, cho phép phân loại đối tượng, xác định khoảng cách và mức độ nguy hiểm. Cho nên nhĩm các phương pháp này gặp nhiều thách thức của các bài tốn thị giác máy tính, dẫn hướng sử dụng hình ảnh, v.v. Trong tất cả các phương pháp nêu trên, khơng cĩ phương pháp nào thực hiện dẫn đường cho NKT đến vị trí mong muốn mà chỉ hỗ trợ trong quá trình đi lại. Các phương pháp cảnh báo vật cản chỉ dừng lại ở cảnh báo cĩ hay khơng mà khơng chỉ rõ đối tượng và mức độ nguy hiểm là gì. 1.3 Mục tiêu nghiên cứu và phương pháp đề xuất 1.3.1 Mục tiêu và phạm vi nghiên cứu Trong khuơn khổ của LATS, chúng tơi đi theo hướng tiếp cận sử dụng cảm biến camera bởi lượng thơng tin hình ảnh thu thập được phong phú, cho phép đồng thời thực hiện bài tốn dẫn đường và phát hiện vật cản. Hơn nữa, cảm biến hình ảnh ngày càng cĩ giá thành rẻ và thơng dụng với người dùng. Mục tiêu chúng tơi muốn hướng đến là: − Nghiên cứu và phát triển một số kỹ thuật định vị sử dụng thơng tin hình ảnh hiệu quả phù hợp với mơi trường trong nhà − Ứng dụng triển khai hệ thống trợ giúp dẫn đường và cảnh báo vật cản cho NKT một cách hiệu quả và thân thiện. Trong LATS này, trợ giúp dẫn đường được hiểu là dẫn NKT di chuyển đến vị trí mong muốn trên bản đồ với các cảnh báo về vật cản. Khi thiết kế một hệ thống, chúng tơi đều phải dựa trên một số ràng buộc theo đặc thù của mơi trường triển khai. Mơi trường trong nhà hay ngồi trời đều cĩ những thách thức riêng. Do vậy chúng tơi giới hạn pham vi nghiên cứu là mơi trường trong nhà diện hẹp ví dụ như hành lang tịa nhà cĩ gắn các thiết bị (wi-fi), 3 cảm biến (camera) cho phép thu thập các tín hiệu của mơi trường nhằm phục vụ cho các ứng dụng khác nhau. Hệ thống đề xuất chỉ phục vụ 01 người dùng tại một thời điểm. 1.3.2 Phương pháp đề xuất Các thành phần chính của hệ thống đề xuất được mơ tả như trong Hình 1.1 gồm robot di động cĩ gắn camera thu nhận hình ảnh mơi trường, thực hiện các phép xử lý tính tốn để trả lời 02 câu hỏi chính: i) robot đang ở đâu? cĩ những vật cản gì? ii) làm thế nào để dẫn NKT đi đến vị trí mong muốn? khi NKT sử dụng điện thoại di động cĩ kết nối khơng dây để điều khiển và nhận phản hồi từ hệ thống. Trong quá trình dẫn, NKT bám vào một điểm trên robot để đi theo. • Mạng Wireless • Điện thoại thông minh • Camera Hình 1.1 Các thành phần chính của hệ thống đề xuất Robot trợ giúp NKT Để trả lời các câu hỏi đã đặt ra, 5 bài tốn sau sẽ lần lượt giải quyết trong các chương 2, 3, 4 của luận án: Biểu diễn mơi trường (chương 2): Do yêu cầu của bài tốn là dẫn đường giữa hai vị trí nên bản đồ của mơi trường cần phải xây dựng từ trước ở pha ngoại tuyến. Định vị (chương 2): Để dẫn đường đến vị trí mong muốn, robot cần phải biết vị trí hiện tại của nĩ ở đâu trên bản đồ mơi trường. Phát hiện và ước lượng khoảng cách vật cản (chương 3): Để cảnh báo vật cản, các vật cản tĩnh và động trong mơi trường phải được phát hiện và khoảng cách từ robot đến vật cản phải được ước lượng. Tìm đường và điều khiển di chuyển (chương 4): Để dẫn đường, robot phải tìm đường từ vị trí hiện tại đến vị trí đích và phải được điều khiển để di chuyển giữa hai vị trí. Tương tác người - hệ thống (chương 4): Yêu cầu của người dùng và đáp ứng của hệ thống phải được thực hiện một cách tự nhiên, thân thiện và hiệu quả. Trong phạm vi nghiên cứu của luận án, chúng tơi tập trung nghiên cứu giải quyết bài tốn 1, 2, 3 và phát triển ứng dụng hồn chỉnh. Các bài tốn cịn lại được giải quyết dựa trên các cơng cụ cĩ sẵn. 1.4 Kết luận chương 1 4 CHƯƠNG 2 BIỂU DIỄN MƠI TRƯỜNG VÀ ĐỊNH VỊ 2.1 Giới thiệu chung 2.2 Những nghiên cứu liên quan 2.3 Đề xuất hướng tiếp cận lai ngữ nghĩa biểu diễn mơi trường Xuất phát từ mục tiêu của luận án nghiên cứu phương pháp định vị sử dụng hình ảnh hỗ trợ cho bài tốn trợ giúp dẫn đường cho NKT, chúng tơi đề xuất mơ hình biểu diễn mơi trường theo hướng tiếp cận lai ngữ nghĩa. Ý nghĩa của cụm từ lai ngữ nghĩa được giải thích như sau. Bản đồ của mơi trường được cấu thành từ bản đồ số liệu và bản đồ topo. Ngồi ra, các thơng tin vật cản tĩnh của mơi trường ở từng vị trí trên bản đồ cũng được xác định và đưa vào mơ hình biểu diễn mơi trường như mơ tả trong Hình 2.1 dưới đây: bb b bbb Li = {Mi, Z i, Oi} b b b L1 LN b LN = {L1, L2, ..., LN} ◦ Bản đồ được biểu diễn theo cấu trúc topo gồm một tập N điểm trong mơi trường sao cho tồn tại đường đi giữa hai điểm kề cận: Li Điểm mốcbb ◦ Mỗi điểm Li với i = 1, N chứa các thơng tin sau: Trong đĩ: 1. Mi = {xi, yi, zi} tọa độ điểm mốc trong hệ quy chiếu đã được định nghĩa. Tọa độ được tính theo đơn vị (m) 2. Zi: Mơ hình quan sát tại vị trí Li 3. Oi = {Oi1 , Oi2 .., Oij}: Tập vật cản xuất hiện trên ảnh Ii vị trí Li thu nhận ĐỊNH NGHĨA CÁC THÀNH PHẦN: Phịng ngủ Phịng ngủ Phịng ngủ Phịng ngủ Phịng họpWC WC Ii b b b b b b b b b số 6 số 5 số 4 số 3 x(m) (0, 0) y(m) Hội trường Hình 2.1 Mơ hình biểu diễn mơi trường theo hướng tiếp cận lai ngữ nghĩa Để biểu diễn mơi trường theo mơ hình này, các nhiệm vụ sau cần thực hiện: 5 1. Xác định các vị trí mốc trong mơi trường Li với i = 1, N 2. Xác định tọa độ các vị trí mốc trong mơi trường Mi = (xi, yi, zi). 3. Xác định các vật cản Oi = {Oi1, Oi2...Oij} trên ảnh Ii thu tại vị trí Li. Tập vật cản Oi thuộc các tập định nghĩa từ trước và hình dạng vật cản khơng ảnh hưởng đến mơ hình biểu diễn, chi tiết phương pháp xác định vật cản được trình bày tại CHƯƠNG III của luận án. 2.4 Phương pháp xây dựng bản đồ mơi trường 2.4.1 Xây dựng bản đồ số liệu Bài tốn đo hành trình sử dụng hình ảnh được phát biểu như sau: Cho trước chuỗi hình ảnh liên tiếp thu thập từ camera I = {I1, I2, ..., IN} trong đĩ N là tổng số ảnh thu thập được. Xác định vị trí camera của trong quá trình di chuyển P = {P1, P2, ...PN−1}. Nếu vị trí ban đầu được biết trước, vị trí tiếp theo được xác định bởi một phép biến đổi T trừ đi vị trí trước đĩ đến vị trí hiện tại, trong đĩ T cấu thành từ chuyển động tịnh tiến tii−1 và chuyển động quay Rii−1 của camera giữa thời điểm hiện tại i và thời điểm trước đĩ i− 1. T ii−1 = [ Rii−1 t i i−1 0 1 ] (2.1) trong đĩ T ii−1 ∈ ℜ3×3, tii−1 ∈ ℜ1×3, Rii−1 ∈ ℜ2×3. Phương pháp VO của Van Hamme và đồng nghiệp đề xuất năm 2011 [13] được đánh giá trong mơi trường ngồi trời với camera lắp đặt trên xe chạy với tốc độ 70km/h. Khi áp dụng vào mơi trường trong nhà với camera gắn trên robot đi với tốc độ chậm, phương pháp này gặp một số khĩ khăn và thách thức. Trong phần dưới đây, chúng tơi sẽ trình bày trước tiên phương pháp VO, các thích nghi VO trong nhà gọi tắt là VO* sẽ được trình bày sau đĩ. 2.4.1.1 Phương pháp đo hành trình bằng hình ảnh sử dụng mơ hình khơng chắc chắn Ý tưởng của giải thuật VO đề xuất trong [13] sử dụng mơ hình khơng chắc chắn của chuyển động của camera và chuyển động của xe để tính tốn các tứ giác tương ứng với các điểm đặc trưng tại khung hình hiện tại cũng như chuyển động của các điểm đặc trưng trong khung hình trước đĩ. Sau đĩ chuyển động của camera giữa hai khung hình liên tiếp được ước lượng từ sự chồng lấp của các tứ giác. Với chuỗi hình ảnh liên tiếp thu thập được I = {I1, I2, ..., IN}, thuật tốn VO gồm N−1 bước lặp, tại bước lặp thứ i với i = 2, N thực hiện các bước: 1. Trích chọn đặc trưng Harris Corner[14] trên khung hình Ii. Chi tiết phương pháp trích chọn đặc trưng cĩ trong PHỤ LỤC A.1 của luận án. E(u, v) = ∑ w [I(x+ u, y + v)− I(x, y)]2 (2.2) Trong đĩ: E(u, v) là hàm tương quan tính tốn trên ảnh I; u, v là dịch chuyển của điểm x, y trên hàm cửa số w, khi đĩ w nhận hai giá trị 0/1 hoặc thơng qua hàm Gaussian xác định giá trị cho w. Kết quả thu được là tập Mi điểm đặc trưng {KPij} với j = 1,Mi. Số điểm đặc trưng quyết định bởi ngưỡng θV O đưa vào tính Cơng thức (2.3). KPij phụ thuộc vào R là việc lấy ngưỡng θV O (R ≥ θV O) và R là các đáp ứng gĩc tính như sau: R = λ1λ2 − k(λ1 + λ2) 2 (2.3) 6 2. Tính tốn các PUTij tương ứng với các đặc trưng KPij dựa trên mơ hình khơng chắc chắn của camera. Cụ thể mỗi PUTij là một hình tứ giác bao quanh điểm KPij . Mỗi gĩc của tứ giác được xác định từ một tổ hợp của bộ (gĩc ngẩng, gĩc nghiêng) của camera. 3. Tính tốn các MUTij tương ứng với các đặc trưng Harris KPij dựa trên mơ hình chuyển động khơng chắc chắn của robot. Cụ thể mỗi MUTij là một hình tứ giác bao quanh điểm KPij. Mỗi gĩc của tứ giác được xác định từ một tổ hợp của bộ (vận tốc, gĩc lái) của robot. 4. Tạo ảnh tương đồng giữa các PUTij ở thời điểm i với các MUTi−1j ở thời điểm trước đĩ i − 1. Ảnh này thể hiện mức độ tương đồng trong khơng gian của gĩc lái và vận tốc, Giá trị điểm ảnh lớn nhất biểu thị tọa độ sự tương đồng giữa PUT và MUT lớn nhất, tương ứng với giá trị gĩc lái và vận tốc cần xác định cho phép ước lượng tham số chuyển động của camera, từ đĩ tái tạo lại hành trình di chuyển. Bước lặp thứ i: Ii,MUTi−1,k k = 1,Mi−1 Ii Trích chọn đặc trưng Harris trên ảnh Ii KPij j = 1,Mi Tính các PUT trên ảnh Ii Tính các MUT trên ảnh Ii KeyPoint(Harris corners) PUTi MUTi PUTij j = 1,Mi MUTij j = 1,Mi Tính ảnh tương đồng từ PUTij j = 1,Mi và MUTi−1 i = 1,Mi−1 Xếp chồng PUTi và MUTi Ảnh tương đồng -60 -50 -40 -30 -20 -10 0 10 -10 0 10 20 30 40 50 60 70 80 90 Hành trình đo được Ước lượng tham số T ii−1;R i i−1 PUT: Perspective Uncertainty Tetragons MUT: Motion Uncertainty Tetragon   E(u, v) = ∑ w[I(x+ u, y + v) − I(x, y)] 2 R = λ1λ2 − k(λ1 + λ2)2 R ≥ θV O Hình 2.2 Các bước giải thuật đo hành trình bằng thơng tin hình ảnh VO Khi triển khai giải thuật VO ở một số mơi trường trong nhà khác nhau (hành lang của 7 tịa nhà) thì hành trình tái tạo được bị sai số nhiều so với thực tế, nhất là tại một số vị trí khi robot thực hiện phép quay (xem Hình 2.3). 140 120 100 80 60 40 20 5025 y(m) Thực địa Bản đồ (a) Trường THCS Nguyễn Đình Chiểu 0-25-50 x(m) 120 100 80 60 40 20 5025 y(m) 0-25-50 x(m) (b) Thư viện Tạ Quang Bửu – ĐHBK Hà Nội 140 140 60 50 40 30 20 10 10 y(m) 0-30-40 x (m) -10-20 (c) Viện nghiên cứu MICA – ĐHBK Hà Nội Thực địa Bản đồ Thực địa Bản đồ Hình 2.3 Một số trường hợp lỗi tích lũy khi xây dựng bản đồ 2.4.1.2 Thích nghi VO cho mơi trường trong nhà Để nâng cao độ chính xác của bản đồ tái tạo, chúng tơi đề xuất một giải pháp đơn giản dễ thực hiện để nâng số điểm đặc trưng phát hiện được trên mỗi khung hình. Cụ thể chúng tơi tạo các điểm đánh dấu trên đường đi (xem Hình 2.4) với quy trình tạo các điểm đánh dấu trên mặt sàn như sau: (b) Phĩng to vùng đánh dấu(a) Tạo các điểm đánh dấu trên dọc hành trình Hình 2.4 Tạo các điểm đánh dấu dọc hành trình − Số lượng điểm đánh dấu trên mặt sàn diện tích S = 1m2 cĩ từ 16-20 điểm đánh dấu dán cách đều nhau từ 15-20 cm (xem Hình 2.5). − Hình dáng của điểm đánh dấu là hình cĩ gĩc cạnh chữ nhật, hình vuơng, bình hành (do ưu điểm của đặc trưng Harris Corner [14] phát hiện gĩc). Các mẫu khác như hình trịn, elip...khơng khuyến khích sử dụng vì số phát hiện trên các điểm đánh dấu này là rất ít (xem Hình 2.6d) − Khơng phân biệt màu sắc của các điểm đánh dấu như trắng, đen, vàng, đỏ...(xem Hình 2.6b) 8 − Tạo các điểm đánh dấu quá dày (số điểm đánh dấu > 100 điểm/1m2) hoặc quá thưa (số điểm đánh dấu <= 3 điểm /1m2) đều ảnh hưởng đến việc đối sánh ảnh liên tiếp (xem Hình 2.6c), nếu giải ngẫu nhiên khĩ kiểm sốt phân bố đặc trưng (xem Hình 2.6a). Dưới đây là kết quả khi thực hiện thích nghi giải thuật VO* trong nhà với phương pháp tạo điểm đánh dấu. (a) Chưa đánh dấu (b) Đã tạo các điểm đánh dấu Hình 2.5 Minh họa số điểm đặc trưng phát hiện trên mặt sàn Ngồi ra, chúng tơi thực hiện thêm các thí nghiệm khác nhau thể khẳng định những lập luận phía trên và khuyến cáo cho người phát triển hệ thống khi thực hiện VO* trong mơi trường trong nhà. a) Tạo các điểm đánh dấu ngẫu nhiên b) Không phân biệt màu sắc d) Phụ thuộc vào hình dạng của mẫu đánh dấud) Tạo các điểm đánh dấu quá dày Hình 2.6 Minh họa phương pháp thử nghiệm khi tạo các mẫu đánh dấu Cách làm này dễ thực hiện song, cho phép nâng cao độ chính xác của hành trình tái tạo sẽ được trình bày chi tiết trong phần thực nghiệm của luận án. 9 2.4.2 Xây dựng bản đồ topo Trong luận án này, chúng tơi đi theo hướng tiếp cận chỉ xác định một số điểm mốc phân biệt trên bản đồ để tạo bản đồ topo. Thuật tốn FAB-MAP[6] được lựa chọn để thưa hĩa cĩ chọn lọc các vị trí trên bản đồ số liệu. Tuy nhiên FAB-MAP thuộc nhĩm các phương pháp SLAM vừa định vị vừa xây dựng bản đồ khơng cho phép dẫn đường giữa hai vị trí trong mơi trường. Ngồi ra, FAB-MAP được thử nghiệm ngồi trời với camera gắn trên xe chạy với tốc độ cao, khung cảnh thay đổi liên tục. Khi áp dụng vào mơi trường trong nhà giải thuật cũng gặp những khĩ khăn cần khắc phục. Trong phần tiếp theo, chúng tơi sẽ trình bày sơ lược ý tưởng của giải thuật FAB-MAP gốc đồng thời trình bày các cải thiện và thích nghi giải thuật này để tạo bản đồ topo và định vị. 2.4.2.1 Giải thuật FAB-MAP [6] 2.4.2.2 Thích nghi và cải thiện FAB-MAP xây dựng bản đồ topo Trong luận án, chúng tơi thích nghi giải thuật FAB-MAP gốc để xây dựng bản đồ topo ở pha ngoại tuyến là đĩng gĩp chính thứ hai của luận án. Để dễ gợi nhớ, chúng tơi tạm gọi là FAB-MAP* minh họa ở Hình 2.7 dưới đây: Tập ảnh huấn luyện CSDL túi từ Pha ngoại tuyến (Off-line) CSDL từ đồng xuất hiện và Tập vị trí trên bản đồ: Ik Zk Tính P (Li|Zk) i = 1, nk Zk = {Zk, Z k−1} Tại thời điểm k max(P (Li|Z k)) > θ i = 1, nk Cập nhật (t) (k) Biểu diễn mơ hình túi từ (BOW) Xác định khung cảnh phân biệt sử dụng đặc trưng GIST: {Ii1 , Ii2 , ..., Iin} ∈ I I1 I2 Inb bb b b b b b Xây dựng mơ hình túi từ (BOW) Xây dựng cây nhị phân(ChowLiu) CSDL bản đồ lai Ánh xạ lên các vị trí bản đồ mơi trường I1 LN = {L1, L2, ..., LN} I2 I2 IN Lnk = {L1, L2, L3..., Lnk} Đúng Sai Lk Tạo mới Lnk+1 Lk+1 = {L1, ..., Lnk+1} b b b b b b b b b b bb b b b b L1 L2 L3 LN Bản đồ mơi trường Hình 2.7 Minh họa các bước thực hiện giải thuật FAB-MAP* 10 (a) Xác định cảnh phân biệt để giảm các quan sát trùng lặp: Khi áp dụng FAB- MAP gốc vào mơi trường trong nhà với ngữ cảnh là một robot di chuyển với tốc độ chậm (300 mm/s), các quan sát liên tiếp là rất giống nhau ảnh hưởng đến chất lượng của từ điển cũng như khả năng xác định vị trí đã qua. Bài tốn xác định khung cảnh phân biệt được mơ tả như sau: Giả thiết cĩ một chuỗi N khung hình liên tiếp I = {I1, I2, ..., IN}. Xác định tập con của Id ∈ I với Id = {Ii1, Ii2, ..., Iid} trong đĩ các khung cảnh Iij là phân biệt. Để xác định Iij với Iik là phân biệt, cĩ thể kiểm chứng bằng hàm khoảng cách D(Iij, Iik). D(Iij, Iik) = ED(Gist(Iij), Gist(Iik)) (2.4) Trong đĩ ED là khoảng cách giữa hai vector trong khơng gian. Việc xác định các khung cảnh riêng biệt thực hiện bằng giải thuật sau đây. Đầu vào là một chuỗi các hình ảnh liên tiếp thu thập từ camera: I = {I1, I2...IN}. - Tính tốn sai khác giữa hai khung hình liên tiếp Ii và Ii−1: Sai khác này được định nghĩa là khoảng cách Euclid Di giữa hai vector đặc trưng GIST tương ứng Fi, Fi−1. - Kiểm tra nếu Di > θGist thì Ii được lựa chọn là khung hình phân biệt, trong đĩ θGist là ngưỡng xác định trước bằng thực nghiệm quyết định số lượng khung hình giữ lại. Theo [20], [18] đặc trưng GIST trích chọn thể hiện các tính chất quan trọng như tính tự nhiên, tính mở, độ nhám, độ chắc chắn, cho phép trình bày cấu trúc khơng gian của một cảnh. Chi tiết đặc trưng GIST cĩ trong PHỤ LỤC A.4 của luận án. (b) (a) 1 0.8 0.6 0.4 0.2 0 20 40 60 80 100 120 140 160 180 200 Khoảng cách D Số khung hình θGist Hình 2.8 Xác định các khung cảnh cĩ cấu trúc giống nhau Để thực hiện điều này, chúng tơi áp dụng nguyên lý trích đặc trưng GIST dựa trên phép biến đổi Gabor [21] theo các hướng, tần số khác nhau và được tính theo Cơng thức (2.5): h(x, y) = e − 1 2 ( x2 δ2x + y 2 δ2y ) e−j2pi(u0x+v0y) (2.5) Trong đĩ, tham số (δx, δy) là độ lệch chuẩn của hàm Gauss theo hướng x, y; (u0, v0) là các thành phần tần số trung tâm của bộ lọc Gabor. Chúng tơi chuẩn hĩa ảnh đầu vào được đưa về dạng vuơng, chia thành lưới (4×4) theo 8 hướng tương ứng. Do đĩ, vector GIST được tính tốn sử dụng phổ năng lượng của 32 đáp ứng. Đồng thời tính tốn trung bình trên mỗi lưới (16 × 16) điểm ảnh trên mỗi đáp ứng, như thể hiện. Như vậy kích thước vector GIST giảm xuống 512 chiều. Kết quả trích chọn đặc trưng GIST phục vụ việc phân loại khung cảnh minh họa như Hình 2.8. 11 (b) Chuyển pha trực tuyến của FAB-MAP về hoạt động ngoại tuyến để xây dựng tồn bộ bản đồ mơi trường: Sau khi đã xác định các cảnh phân biệt, các ảnh này được đưa vào pha ngoại tuyến để xây dựng từ điển và cây Chow Liu. So với FAB-MAP, đầu vào của FAB-MAP* là tập các ảnh đã thu thập từ trước về trên hành trình khai phá đường đi trong mơi trường. Việc này cĩ thể chạy một lần hoặc nhiều lần với các dữ liệu đường đi khác nhau để làm giàu số vị trí trên bản đồ. ﬀ ﬁﬂ ﬀ ﬁﬂ ﬃ !" ﬀ ﬁﬂ ﬁ# ! $ﬀ ﬁﬂ ﬁ# ! % % &'( '( )*+ ,-. / 012 3 *+ ,-. 4,5 , / 6,7 8 4,5 , / 6,7 9 Hình 2.9 Minh họa bước thực hiện cập nhật điểm mốc quan trọng 2.4.3 Bổ sung thơng tin đối tượng vật cản tĩnh trên bản đồ Bản đồ topo được xây dựng từ giải thuật FAB-MAP* cĩ thêm các thơng tin về tọa độ của mỗi vị trí trên bản đồ từ giải thuật VO*. Sau đĩ trên mỗi vị trí của bản đồ, chúng tơi bổ sung các thơng tin đối tượng vật cản tĩnh để thực hiện dự báo khả năng cĩ vật cản ở pha trực tuyến một cách nhanh chĩng. Thơng tin về tọa độ trên ảnh và tọa độ thể giới thực sẽ được lưu để sử dụng ở pha phát hiện vật cản sẽ trình bày trong CHƯƠNG III của luận án. 2.5 Phương pháp định vị Sau khi đã xây dựng bản đồ topo số liệu ở pha ngoại tuyến, việc định vị ở pha trực tuyến trở nên thuận lợi hơn. Ở pha trực tuyến, camera thu nhận ảnh Ik, quan sát từ đầu đến thời điểm k là Zk như định nghĩa ở phần trên. Thực hiện tính xác suất mà quan sát Zk cĩ thể ở vị trí Li trên bản đồ LN = {L1, L2, ..., LN} với mọi giá trị i = 1, N . p ( Li|Z k ) = p ( Zk|Li, Z N ) p ( Li|Z N ) p (Zk|ZN) (2.6) 2.6 Kết quả thực nghiệm Phần thực nghiệm được tiến hành tại 03 mơi trường khác nhau: (i) Trường THCS Nguyễn Đình Chiểu Hà Nội; (ii) Thư viện Tạ Quang Bửu; (iii) Viện nghiên cứu quốc tế MICA - Trường Đại học Bách Khoa Hà Nội. 2.7 Kết luận chương 2 Kết quả chính của chương này đã được cơng bố tại: Tạp chí KH&CN các trường đại học kỹ thuật, số 101 tháng 7/2014; Hội nghị quốc tế ICCE lần thứ 5, tháng 8/2014; Hội nghị quốc tế ATC lần thứ 6, tháng 10/2003; Tạp chí quốc tế Multimedia Tools and Applications (ISI)- Springer, 01/2016. 12 CHƯƠNG 3 PHÁT HIỆN VÀ ƯỚC LƯỢNG KHOẢNG CÁCH VẬT CẢN 3.1 Định nghĩa bài tốn và các thách thức Bài tốn phát hiện và ước lượng khoảng cách vật cản được phát biểu như sau: + Đầu vào: Quan sát hiện tại của camera Ik. Với quan sát này, chương 2 đã trình bày phương pháp xác định vị trí tương đối của robot Pk = (xk, yk, zk = 0) trên bản đồ mơi trường. + Đầu ra: Tập n vật cản Ok = {Oi(xik, yik), i = 1, n} với các vị trí tương ứng trên bản đồ. Robot Trường nhìn của camera Vật cản Bình cứu hỏa ~ 1.5m Người ~ 2.5m Người Chậu hoa Bình cứu hỏa Chậu hoa Chậu hoa Thùng rác Hình 3.1 Định nghĩa bài tốn phát hiện và ước lượng khoảng cách Hình 3.1 minh họa ngữ cảnh của bài tốn và các kết quả mong muốn đạt được. Trong ví dụ này robot cĩ gắn camera di chuyển trong mơi trường, chậu hoa, bình cứu hỏa, thùng rác là các vật cản tĩnh trong mơi trường, người là vật cản động xuất hiện bất ngờ. 3.2 Những nghiên cứu liên quan 3.3 Đề xuất phương pháp phát hiện và ước lượng khoảng cách Trong luận án, chúng tơi thực hiện hai cơng việc chính: (i) Phát hiện vật cản nằm trên đường đi mà NKT di chuyển qua; (ii) Ước lượng khoảng cách vật cản tới robot nhằm đưa ra các thơng tin cảnh báo. 13 SƠ ĐỒ CÁC BƯỚC TÍNH TỐN b b b b b b b b bbbbbbbb b Ảnh Ik Ảnh Ik−t Xây dựng bản đồ chênh lệch Ik, Ik−t (t: giây) Lk = {(xk, yk), Z k, (O1, O2, ...Ok)} b (t: giây) Lk Lk−t b bb L1 LN Bản đồ mơi trường (thời gian) Ik Phát hiện vật cản tĩnh Phát hiện người HoG-SVM Đối sánh các điểm đặc trưng (Ik, I∗k ) Phát hiện các vật cản: Oi b Tính khoảng cách (từ Oi ֌ Robot) Ảnh I∗k Robot Dự đốn khoảng cách L = {L1, L2, ...Lk, ...LN} Vị trí Lk : Quan sát hiện tại Quan sát trước t(giây) Ảnh huấn luyên trong CSDL L2 Hình 3.2 Mơ hình phát hiện và ước lượng khoảng cách vật cản − Phát hiện vật cản: Chúng tơi phân chia các vật cản thành hai nhĩm: vật cản tĩnh và vật cản động. Vật cản tĩnh là các đối tượng như chậu hoa, bình cứu hỏa, thùng rác. Vật cản động là các đối tượng di chuyển trong mơi trường (người). − Ước lượng khoảng cách vật cản: chúng tơi lấy ý tưởng dự đốn khoảng cách từ hệ thống camera-stereo, trong ngữ cảnh của bài tốn chúng tơi chỉ sử dụng duy nhất 01 camera thơng thường duy nhất gắn trên robot chuyển động, quan sát hình ảnh tại hai thời điểm khác nhau. 3.4 Phát hiện vật cản 3.4.1 Phát hiện vật cản cố định Như đã trình bày trong các CHƯƠNG I và II, bản đồ mơi trường được biểu diễn là một tập các điểm quan trọng trong mơi trường LN = {L1, L2, ...Lk, ...LN}. Với mỗi điểm Li, tương ứng là ảnh Ii, đặc tả bởi quan sát Z i và tập tất cả các đối tượng cĩ thể quan sát được tại thời vị trí Li: {Oi1, Oi2, ..., Oini}. Tại thời điểm k, camera thu nhận ảnh Ik, nhờ giải thuật định vị đã được trình bày trong CHƯƠNG II, vị trí của robot được xác định tương ứng L∗k. Tại vị trí L∗k này, tương ứng với quan sát của robot I∗k , tập các vật cản trong mơi trường cũng đã được xác định và lưu sẵn: {Ok1, Ok2, ..., Oknk}. 14 Ảnh mẫu Ảnh hiện thời Đối sánh điểm đặc trưng bc1 bc2 bc3 Xác định vùng chứa đối tượng Phương pháp đối sánh ảnh mẫu (template matching) Ik I∗k Kết quả định vị Phát hiện Đối tượng Kết quả Hình 3.3 Sơ đồ các bước thực hiện phát hiện vật cản cố định 3.4.2 Phát hiện vật cản động Căn cứ vào kết quả đánh giá, chúng tơi lựa chọn phương pháp sử dụng kết hợp HoG- SVM [7] [5] cho trong bài tốn phát hiện người bởi tính phổ dụng và tính hiệu quả của nĩ trong nhiều ứng dụng. Phần dưới đây chúng tơi phân tích kỹ hơn về phương pháp này. Ảnh huấn luyện Ảnh nhận dạng Tiền xử lý Tính tốn đặc trưng HoG Tính tốn Gradient Tính HoG trên các Cell Chuẩn hĩa Block Nhận dạng Huấn luyện Huấn luyện Mơ hình Kết quả Bộ phân loại SVM bc1 bc2 bc3 bc4 Hình 3.4 Sơ đồ các bước phát hiện người sử dụng HoG-SVM 3.5 Uớc lượng khoảng cách vật cản 3.5.1 Nguyên lý phương pháp ước lượng khoảng cách Gọi D là khoảng cách từ vật cản tới camera tính như sau: D = Bx0 2 tan(ϕ0 2 +∆ϕ)(x1 − x2) (3.1) Từ đây Cơng thức (3.1) đưa về biểu diễn về dạng hàm mũ như sau: D = k ∗ xd (3.2) Trong đĩ: hệ số k = Bx0 2 tan( ϕ0 2 +∆ϕ) ; x =

Các file đính kèm theo tài liệu này:

tom_tat_luan_an_nghien_cuu_va_phat_trien_mot_so_ky_thuat_din.pdf