Dự thảo tóm tắt Luận án - Một số dạng phương trình vi phân ngẫu nhiên trong bài toán thời điểm dừng tối ưu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Nguyễn Thành Trung MỘT SỐ DẠNG PHƯƠNG TRÌNH VI PHÂN NGẪU NHIÊN TRONG BÀI TOÁN THỜI ĐIỂM DỪNG TỐI ƯU Chuyên ngành: Lý thuyết xác suất và thống kê Toán học Mã số: 62 46 01 06 (DỰ THẢO) TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội – 2019 Công trình được hoàn thành tại: Trường Đại học Khoa học Tự nhiên - ĐHQGHN Người hướng dẫn khoa học: PGS. TS Phan Viết Thư Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33 trang | Chia sẻ: huong20 | Ngày: 05/01/2022 | Lượt xem: 345 | Lượt tải: 0

Tóm tắt tài liệu Dự thảo tóm tắt Luận án - Một số dạng phương trình vi phân ngẫu nhiên trong bài toán thời điểm dừng tối ưu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

.............................. Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .............................. Phản biện: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .............................. Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vào hồi giờ ngày tháng năm 2019 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội i MỤC LỤC MỤC LỤC .................................. i MỞ ĐẦU ................................... 1 CHƯƠNG 1. KIẾN THỨC CHUẨN BỊ 4 1.1 Tích phân ngẫu nhiên ........................ 4 1.2 Phương trình vi phân ngẫu nhiên ................ 5 1.3 Bài toán thời điểm dừng tối ưu ................. 6 1.3.1 Khái niệm thời điểm dừng . . . . . . . . . . . . . . . . . . . 6 1.3.2 Bài toán thời điểm dừng tối ưu . . . . . . . . . . . . . . . . 8 1.4 Mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4.1 Tổng quan về mạng nơ-ron . . . . . . . . . . . . . . . . 11 1.4.2 Huấn luyện mạng nơ-ron . . . . . . . . . . . . . . . . . 12 1.4.3 Phương pháp xây dựng mạng nơ-ron MLP . . . . . 12 1.5 Kết luận chương 1 .......................... 12 CHƯƠNG 2. THỜI ĐIỂM DỪNG TỐI ƯU CHO BÀI TOÁN QUẢNG CÁO 14 2.1 Mô hình bài toán quảng cáo ................... 14 2.2 Giải phương trình vi phân ngẫu nhiên . . . . . . . . . . . . . 15 2.3 Xấp xỉ thời điểm dừng tối ưu bằng mạng nơ-ron . . . . . . 17 2.4 Giải thuật giải bài toán thời điểm dừng tối ưu . . . . . . . 17 2.5 Kết quả mô phỏng .......................... 19 2.6 Kết luận chương 2 .......................... 19 ii CHƯƠNG 3. THỜI ĐIỂM DỪNG TỐI ƯU CHO BÀI TOÁN BÁN TÀI SẢN 21 3.1 Bài toán bán tài sản tối ưu và lời giải . . . . . . . . . . . . . 21 3.2 Xấp xỉ thời điểm dừng tối ưu bằng mạng nơ-ron . . . . . . 23 3.3 Kết quả mô phỏng .......................... 25 3.4 Kết luận chương 3 .......................... 25 KẾT LUẬN 27 CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 28 1 MỞ ĐẦU Trong các lĩnh vực mang tính xác suất ngẫu nhiên thì thời điểm dừng tối ưu mang ý nghĩa rất quan trọng. Những người chơi trò chơi Poker thường nói "thắng thua là việc hoàn toàn bình thường, không có gì lạ lẫm cả. Nếu bạn không kiểm soát những rủi ro, bạn sẽ bị những rủi ro kiểm soát". Biết rằng rủi ro là không thể kiểm soát, cũng không thể dự liệu trước, chi bằng ta hãy cố gắng tránh nó, chứ không phải là kiểm soát nó. Việc xác lập được thời điểm dừng tối ưu là việc làm cần thiết để chúng ta tránh được những thất bại nặng nề bởi tình trạng mất kiểm soát khi ưu thế không nằm ở phía mình. Đặc biệt, trong các "trò chơi kinh tế" như chứng khoán, cũng như trong điều hành kinh tế thời điểm dừng tối ưu phải được tính toán cân nhắc thận trọng và ngay cả khi đó cũng nên tiếp tục thực hiện các biện pháp dài hạn để thu về lợi nhuận cao nhất, bền vững và lâu dài. Những tiến bộ của máy tính đầu những năm 1950 giúp cho việc mô hình hóa các nguyên lý của những lý thuyết liên quan tới cách thức con người suy nghĩ đã trở thành hiện thực. Nathanial Rochester sau nhiều năm làm việc tại các phòng thí nghiệm nghiên cứu của IBM đã có những nỗ lực đầu tiên để mô phỏng một mạng nơ-ron. Trong thời kì này tính toán truyền thống đã đạt được những thành công rực rỡ trong khi đó những nghiên cứu về nơ-ron còn ở giai đoạn sơ khai. Mặc dù vậy những người ủng hộ triết lý “thinking machines” (các máy biết suy nghĩ) vẫn tiếp tục bảo vệ cho lập trường của mình. Năm 1956 dự án Dartmouth nghiên cứu về trí tuệ nhân tạo (Artificial Intelligence) đã mở ra thời kỳ phát triển mới cả trong lĩnh vực trí tuệ nhân tạo lẫn mạng nơ-ron. Tác động tích cực của nó là thúc đẩy hơn nữa sự quan tâm của các nhà khoa học về trí tuệ nhân tạo và quá trình xử lý ở mức đơn giản của mạng nơ-ron trong bộ não con người. 2 Bài toán thời điểm dừng tối ưu đã được nhiều tác giả xem xét chủ yếu trong lĩnh vực tài chính và được giải thông qua việc giải các phương trình vi phân đạo hàm riêng. Trong luận án này chúng tôi xem xét một cách tiếp cận khác cho bài toán thời điểm dừng tối ưu đó là tiếp cận học máy. Mỗi một quyết định dừng hay tiếp tục tại thời điểm t được biểu diễn bởi một hàm (gọi là hàm quyết định) nhận giá trị trong tập {0, 1}, trong đó giá trị 0 là tiếp tục chiến dịch, giá trị 1 là dừng lại. Chúng tôi tiếp tục xấp xỉ hàm quyết định bởi một mạng nơ-ron nhiều lớp. Sau khi đã huấn luyện mạng nơ-ron, cho dữ liệu qua mạng ta sẽ nhận được quyết định dừng hay tiếp tục. Bố cục của luận án: Ngoài phần mở đầu và phần kết luận, kiến nghị, Luận án được chia thành 3 chương với bố cục như sau: Chương 1. KIẾN THỨC CHUẨN BỊ. Chương này chúng tôi trình bày một cách tóm lược nhất một số kiến thức cơ bản nhất của giải tích ngẫu nhiên bao gồm tích phân ngẫu nhiên, phương trình vi phân ngẫu nhiên, bài toán thời điểm dừng tối ưu. Nội dung ở chương này chủ yếu được trích dẫn từ các tài liệu [0], [0], [0], [0], [0]. Trong chương này cũng giới thiệu các vấn đề cơ bản về mạng nơ-ron, gồm các khái niệm của mạng nơ-ron nhân tạo, lịch sử phát triển, các mô hình mạng và phương pháp xây dựng cũng như huấn luyện mạng. Trong đó đi sâu vào việc xây dựng một mạng nơ-ron truyền thẳng MLP và thuật toán huấn luyện lan truyền ngược. Chương 2. THỜI ĐIỂM DỪNG TỐI ƯU CHO BÀI TOÁN QUẢNG CÁO. Trong chương này chúng tôi xem xét một bài toán thực tế đó là xác định thời điểm dừng tối ưu cho một chiến dịch quảng cáo. Thị phần (tiềm năng) của công ty đang xét về một sản phẩm A nào đó được mô tả bằng một phương trình vi phân ngẫu nhiên dưới tác động của chiến dịch quảng cáo thông qua truyền thông cũng như sự truyền miệng của các khách hàng đã có của công ty. Hàm mục tiêu là một hàm liên tục xác định trên thời gian t và thị phần đạt được của 3 chiến dịch quảng cáo. Trong chương này ngoài việc giải mô hình chúng tôi xem xét một cách tiếp cận khác cho bài toán thời điểm dừng tối ưu đó là tiếp cận học máy. Chương 3. THỜI ĐIỂM DỪNG TỐI ƯU CHO BÀI TOÁN BÁN TÀI SẢN. Trong chương này chúng tôi xem xét bài toán bài toán tìm thời điểm dừng tối ưu cho quá trình bán tài sản với tốc độ tăng giá là quá trình Markov rời rạc hai trạng thái (tăng giá và giảm giá). Kết quả tìm được các ngưỡng cố định cho quá trình xác suất hậu nghiệm. Nếu quá trình xác suất hậu nghiệm vượt qua ngưỡng này thì ta quyết định bán tài sản. Các kết quả thu được là khả quan và được kiểm tra trên dữ liệu mô phỏng cho thấy tính đúng đắn của các kết quả tìm được. Cũng như trong chương 2, chương này chúng tôi cũng xem xét một cách tiếp cận khác cho bài toán thời điểm dừng tối ưu đó là tiếp cận học máy. Xấp xỉ hàm quyết định bởi một mạng nơ-ron nhiều lớp, sau khi đã huấn luyện mạng nơ-ron, cho dữ liệu qua mạng ta sẽ nhận được quyết định bán tài sản. 4 CHƯƠNG 1. KIẾN THỨC CHUẨN BỊ Chương này chúng tôi sẽ trình bày một cách tóm lược nhất một số kiến thức cơ bản nhất của giải tích ngẫu nhiên bao gồm tích phân ngẫu nhiên, phương trình vi phân ngẫu nhiên, bài toán thời điểm dừng tối ưu. Nội dung ở chương này chủ yếu được trích dẫn từ các tài liệu [0], [0], [0], [0], [0]. 1.1. Tích phân ngẫu nhiên 1.1.1. Tích phân ngẫu nhiên Itô 1.1.2. Công thức Itô Định lý 1.1 (Công thức Itô) Cho u(t, x) là một hàm xác định trên [0,T ] × R có các đạo hàm riêng ut, ux, uxx liên tục. Cho Xt là một quá trình Itô với vi phân ngẫu nhiên dXt = f(t, ω)dt + g(t, ω)dWt Khi đó quá trình Yt = u (t, Xt) cũng là một quá trình Itô với vi phân ngẫu nhiên là 1 dY = du (t, X ) = u (t, X ) + u (t, X ) f(t) + u (t, X ) g2(t) dt t t t t x t 2 xx t +ux (t, Xt) g(t)dWt Ta cũng có thể viết công thức Itô dưới dạng dễ nhớ hơn như sau 1 dY = u (t, X ) dt + u (t, X ) dX + u (t, X )(dX )2 t t t x t t 2 xx t t 2 trong đó khi tính (dXt) ta quy ước 2 2 (dt) = dtdWt = 0, (dWt) = dt 5 Ta có công thức Itô suy rộng sau đây Định lý 1.2 (Công thức Itô mở rộng) Quá trình Yt = u (t, X1(t),X2(t),...,Xn(t)) là một quá trình Itô với vi phân ngẫu nhiên cho bởi n n n X 1 X X dY = u dt + u dX + u dX dX t t xi i 2 xixj i j i=1 i=1 i=1 trong đó tích dXidXj được tính theo quy ước sau 2 2 (dt) = dW dt = dtdW = 0, (dWt) = dt Như vậy dXidXj = gigjdt và n n n ! n ! X 1 X X X dY = u + u f + u g g dt + u g dW . t t xi i 2 xixj i j xi i t i=1 i=1 i=1 i=1 1.2. Phương trình vi phân ngẫu nhiên Phương trình vi phân ngẫu nhiên đóng vai trò rất quan trọng trong kĩ thuật, vật lý, kinh tế và một số ngành khoa học khác. Sự ra đời của nó xuất phát từ nhu cầu xác định mối quan hệ giữa một bên là một đại lượng biến thiên liên tục với một bên là độ biến thiên của đại lượng đó. Các mối quan hệ như thế xuất hiện thường xuyên trong các ứng dụng thực tế. Định lý 1.3 Giả sử các hàm b (t, x) và σ (t, x) thỏa mãn các điều kiện sau |b(t, x)| + |σ(t, x)| ≤ C(1 + |x|), x ∈ R, t ∈ [0,T ] với C là hằng số và |b(t, x) − b(t, y)| + |σ(t, x) − σ(t, y)| ≤ D|x − y| 2 với D là hằng số. Gọi Z là đại lượng ngẫu nhiên độc lập với Wt, t > 0 và EZ < ∞. 6 Khi đó phương trình vi phân ngẫu nhiên dXt = b (t, Xt) dt + σ (t, Xt) dWt; X0 = c (1.1) có nghiệm duy nhất. 1.3. Bài toán thời điểm dừng tối ưu 1.3.1. Khái niệm thời điểm dừng Lý thuyết Martingale bắt nguồn từ trò chơi cờ bạc nay trở thành một loại quá trình ngẫu nhiên có rất nhiều ứng dụng về lý thuyết cũng như thực tiễn, đặc biệt là một công cụ không thể thiếu trong tính toán ngẫu nhiên và toán học trong tài chính. Một công cụ quan trọng trong lý thuyết Martingale và các ứng dụng của chúng là các thời điểm dừng. Thí dụ, chúng ta muốn dừng một Martingale trước khi nó nhận các giá trị quá lớn. Tuy nhiên, dừng nên được thực hiện sao cho đối tượng dừng lại là một Martingale mới thực sự có ý nghĩa quan trọng. Cho không gian xác suất đầy đủ (Ω, F,P ), tức là F chứa tất cả các tập có xác suất 0. (Tập N được gọi là tập có xác suất 0 nếu tồn tại A ∈ F sao cho + N ⊂ A). Một họ Ft, t ∈ R các σ - trường con của F được gọi là một lọc nếu + + Fs ⊂ Ft nếu s < t. Lọc Ft, t ∈ R được gọi là liên tục phải nếu với mọi t ∈ R \ Ft = Ft+ = Fs s>t + Để cho gọn khi nói về lọc (Ft) ta hiểu là xét lọc Ft, t ∈ R . Định nghĩa 1.1 Một hàm T :Ω → [0, ∞) được gọi là một thời điểm Markov đối với lọc (Ft) nếu nó là F - đo được và với mỗi t ta có {T ≤ t} ∈ Ft (1.2) Nếu P (T < ∞) = 1 (T hữu hạn hầu chắc chắn) thì thời điểm Markov T được gọi 7 là thời điểm dừng. Nếu lọc (Ft) liên tục phải thì điều kiện (1.2) tương đương với + {T < t} ∈ Ft, ∀t ∈ R Ví dụ 1.1 Cho X = (Xt) là quá trình liên tục và F là một tập đóng trên đường thẳng. Giả sử T là thời điểm lần đầu tiên (Xt) chạm vào tập F nghĩa là   inf {t : Xt(ω) ∈ F } nếu tồn tại t như thế T (ω) = +  ∞ nếu Xt ∈/ F, ∀t ∈ R Khi đó T là thời điểm Markov đối với lọc (Ft). Thật vậy, đặt G = R\F . Khi đó G là tập mở do đó tồn tại dãy tập đóng (Kn) sao cho G = ∪nKn và do X = (Xt) là quá trình liên tục nên \ [ [ {T ≤ t} = {Xs ∈/ Kn} = {Xr ∈/ Kn} ∈ Ft. n s<t r<t,r∈Q Ví dụ 1.2 Cho X = (Xt) là quá trình liên tục phải và G là một tập mở trên đường thẳng. Giả sử T là thời điểm lần đầu tiên (Xt) chạm vào tập G nghĩa là   inf {t : Xt(ω) ∈ G} nếu tồn tại t như thế T (ω) = +  ∞ nếu Xt ∈/ G, ∀t ∈ R Khi đó nếu lọc (Ft) liên tục phải thì T là thời điểm Markov đối với lọc (Ft). Thật vậy, đặt F = R\G. Khi đó F là tập đóng và do X = (Xt) là quá trình liên tục phải nên \ \ {T ≥ t} = {Xs ∈ F } = {Xr ∈ F } ∈ Ft s<t r<t,r∈Q Suy ra {T < t} ∈ Ft và vì lọc (Ft) liên tục phải nên ta kết luận T là thời điểm 8 Markov. 1.3.2. Bài toán thời điểm dừng tối ưu Giả sử Xt là nghiệm duy nhất của phương trình vi phân ngẫu nhiên (??) và cho g (hàm giá) là hàm số trên Rn, thỏa mãn a) g(ξ) ≥ 0 với mọi ξ ∈ Rn b) g liên tục. Hãy tìm thời điểm dừng τ ∗ = τ ∗(x, ω) (được gọi là thời điểm dừng tối ưu) của {Xt} sao cho x x n E [g(Xτ ∗ )] = sup E [g(Xτ )] với mọi x ∈ R (1.3) τ sup được lấy trên tập tất cả các thời điểm dừng τ của {Xt}. Chúng ta cũng muốn tìm ∗ x g (x) = E [g(Xτ ∗ )] (1.4) x Ở đây g(Xτ ) được hiểu là bằng 0 tại ω ∈ Ω mà τ(ω) = ∞ và E là kỳ vọng với x n quy luật phân phối xác suất Q của quá trình Xt; t ≥ 0 với X0 = x ∈ R . Định nghĩa 1.2 Một hàm đo được, nửa liên tục dưới f : Rn → [0, ∞) được gọi là hàm siêu điều hòa nếu x f(x) ≥ E [f(Xτ )] (1.5) với mọi thời điểm dừng τ và với mọi x ∈ Rn. Định nghĩa 1.3 Cho h là hàm thực đo được trên Rn. Nếu f là hàm siêu điều hòa và f ≥ h ta nói f là hàm trội siêu điều hòa của h. Hàm bh(x) = inf f(x); x ∈ Rn (1.6) f 9 inf được lấy trên tập tất cả các hàm trội siêu điều hòa f của h, được gọi là hàm trội siêu điều hòa tối thiểu của h. Định lý 1.4 (Xây dựng hàm siêu điều hòa tối thiểu) Cho g = g0 là hàm không âm, nửa liên tục dưới trên Rn ta định nghĩa một cách quy nạp như sau x gn(x) = sup E [gn−1(Xt)] (1.7) t∈Sn −n n trong đó Sn = {k · 2 ; 0 ≤ k ≤ 4 }, n = 1, 2,.... Khi đó gn ↑ bg và bg là hàm siêu điều hòa tối thiểu của g. Định lý 1.5 (Định lý về sự tồn tại thời điểm dừng tối ưu) Cho g∗ là hàm giá tối ưu và bg là hàm siêu điều hòa tối thiểu của hàm giá liên tục g ≥ 0. a) Khi đó ∗ g (x) = bg(x) (1.8) b) Với > 0 đặt D = {x; g(x) < bg(x) − } (1.9) Giả sử g bị chặn. Khi đó thời điểm τ lần đầu tiên x rời khỏi tập D gần như là tối ưu, theo nghĩa ∗ x |g (x) − E [g (Xτe )]| ≤ 2 (1.10) với mọi x. c) Đặt D = {x; g(x) < g∗(x)} (1.11) Cho N = 1, 2,... định nghĩa gN = g ∧ N, DN = {x; gN (x) < bgN (x)} và σN = −1 S τDN . Khi đó DN ⊂ DN+1,DN ⊂ D ∩ g ([0,N)),D = N DN . Nếu σN < ∞ 10 h.c.c với mọi N khi đó ∗ x g (x) = lim E [g (XσN )] (1.12) N→∞ d) Đặc biệt, nếu τD < ∞ h.c.c và dãy {g (XσN )}N khả tích, khi đó ∗ x g (x) = E [g (XτD )] ∗ và τ = τD là thời điểm dừng tối ưu. Định lý 1.6 (Định lý về tính duy nhất thời điểm dừng tối ưu) Như trước đã định nghĩa D = {x; g(x) < g∗(x)} ⊂ Rn Giả sử tồn tại thời điểm dừng tối ưu τ ∗ = τ ∗(x, ω). Khi đó ∗ τ ≥ τD với mọi x ∈ D (1.13) và ∗ x n g (x) = E [g (XτD )] với mọi x ∈ R (1.14) Do đó τD là thời điểm dừng tối ưu. 1.4. Mạng nơ-ron Các nghiên cứu về bộ não con người đã được tiến hành từ hàng nghìn năm nay. Cùng với sự phát triển của khoa học kĩ thuật đặc biệt là những tiến bộ trong ngành điện tử hiện đại, việc con người bắt đầu nghiên cứu các nơ-ron nhân tạo là hoàn toàn tự nhiên. Sự kiện đầu tiên đánh dấu sự ra đời của mạng nơ-ron nhân tạo diễn ra vào năm 1943 khi nhà thần kinh học Warren McCulloch và nhà toán học Walter Pitts viết bài báo mô tả cách thức các nơ-ron hoạt động. Họ cũng đã tiến hành xây dựng một mạng nơ-ron đơn giản bằng các mạch điện. Các nơ-ron của họ được xem như là các thiết bị nhị phân với ngưỡng cố định. 11 Kết quả của các mô hình này là các hàm logic đơn giản chẳng hạn như “ a OR b” hay “a AND b”. Nội dung của chương này được tham khảo trong [0]. 1.4.1. Tổng quan về mạng nơ-ron Nơ-ron sinh học và nơ-ron nhân tạo a) Nơ-ron sinh học Hình 1.1: Cấu trúc của một nơ-ron sinh học điển hình b) Nơ-ron nhân tạo Một nơ-ron là một đơn vị xử lý thông tin và là thành phần cơ bản của một mạng nơ-ron. Cấu trúc của một nơ-ron được mô tả ở hình dưới. Mô hình mạng nơ-ron 12 Hình 1.2: Nơ-ron nhân tạo Hình 1.3: Mạng MLP tổng quát 1.4.2. Huấn luyện mạng nơ-ron 1.4.3. Phương pháp xây dựng mạng nơ-ron MLP 1.5. Kết luận chương 1 Chương này chúng tôi đã trình bày một số kiến thức cơ bản nhất của giải tích ngẫu nhiên, trong đó thời điểm dừng tối ưu là khái niệm liên quan trực tiếp tới các chương tiếp theo. 13 Trong chương này chúng tôi cũng trình bày các vấn đề cơ bản về mạng nơ-ron, gồm các khái niệm của mạng nơ-ron nhân tạo, lịch sử phát triển, các mô hình mạng và phương pháp xây dựng cũng như huấn luyện mạng. Trong đó đi sâu vào việc xây dựng một mạng nơ-ron truyền thẳng MLP và thuật toán huấn luyện lan truyền ngược. Các vấn đề cần nghiên cứu triển khai là: • Tìm hiểu về các thuật toán huấn luyện mạng nơ-ron khác, để có thể đưa ra các so sánh, cũng như chọn mô hình thích hợp cho các bài toán cụ thể. • Phát triển chương trình thực nghiệm có ý nghĩa thực tế như nhận dạng chữ viết tay, nhận dạng ảnh, ... 14 CHƯƠNG 2. THỜI ĐIỂM DỪNG TỐI ƯU CHO BÀI TOÁN QUẢNG CÁO Trong chương này chúng tôi xem xét một bài toán thực tế đó là xác định thời điểm dừng tối ưu cho một chiến dịch quảng cáo. Thị phần (tiềm năng) của công ty đang xét về một sản phẩm A nào đó được mô tả bằng một phương trình vi phân ngẫu nhiên dưới tác động của chiến dịch quảng cáo thông qua truyền thông cũng như sự truyền miệng của các khách hàng đã có của công ty. Hàm mục tiêu là một hàm liên tục xác định trên thời gian t và thị phần đạt được của chiến dịch quảng cáo. Bài toán thời điểm dừng tối ưu đã được nhiều tác giả xem xét chủ yếu trong lĩnh vực tài chính và được giải thông qua việc giải các phương trình vi phân đạo hàm riêng. Trong chương này chúng tôi xem xét một cách tiếp cận khác cho bài toán thời điểm dừng tối ưu đó là tiếp cận học máy. Mỗi một quyết định dừng hay tiếp tục chiến dịch quảng cáo tại thời điểm t được biểu diễn bởi một hàm (gọi là hàm quyết định) nhận giá trị trong tập {0, 1}, trong đó giá trị 0 là tiếp tục chiến dịch, giá trị 1 là dừng lại. Chúng tôi tiếp tục xấp xỉ hàm quyết định bởi một mạng nơ-ron nhiều lớp. Sau khi đã huấn luyện mạng nơ-ron, cho dữ liệu qua mạng ta sẽ nhận được quyết định dừng hay tiếp tục. Một số kiến thức liên quan được tham khảo trong các tài liệu [0], [0], [0], [0]. 2.1. Mô hình bài toán quảng cáo Chiến dịch quảng cáo thông qua truyền thông sẽ thay tác động vào những người chưa phải là khách hàng của công ty, còn sự lan tỏa sẽ do những khách hàng đã có của công ty quyết định - bằng truyền miệng những khách hàng của 15 công ty sẽ giới thiệu hoặc khuyến cáo những người tiêu dùng chưa phải là khách hàng nên hoặc không nên mua mặt hàng A, vì vậy sự biến động về khách hàng của công ty được xác định bởi: dn(t) = E(N − n(t)) + Mn(t)(N − n(t)) (2.1) dt ở đây E đại diện cho hiệu quả của chiến dịch truyền thông và M đại diện cho chất lượng của sản phẩm A. n(t) Đặt X(t) = N ∈ [0, 1], khi đó phương trình (2.1) trở thành dX(t) = E(1−X(t))+MNX(t)(1−X(t)) = E(1−x(t))+MNX(t)(1−X(t)) (2.2) dt Đặt b = MN và phân rã E thành hai thành phần, một thành phần tất định a và một thành phần ngẫu nhiên tỉ lệ với a là σa. Khi đó phương trình (2.1) trở thành dX(t) = [a(1 − X(t)) + bX(t)(1 − X(t))]dt + σa(1 − X(t))dW (t) (2.3) Giả sử X(t) là nghiệm của phương trình vi phân (2.3). Gọi F = (Ft)t∈[0,T ] là bộ lọc sinh bởi X(t). Xét hàm liên tục g : [0,T ] × R → R, g (t, Xt) là hàm của thời gian t và thị phần Xt. Bài toán đặt ra là cần xác định thời điểm τ ∗, là nghiệm của bài toán sau ∗ f (τ ,Xτ ∗ ) = sup E [g (τ, Xτ )] τ trong đó τ :Ω → [0,T ] là một F - thời điểm dừng. 2.2. Giải phương trình vi phân ngẫu nhiên Xét phương trình vi phân ngẫu nhiên (2.3) dX(t) = [a(1 − X(t)) + bX(t)(1 − X(t))]dt + σa(1 − X(t))dW (t) 16 Đặt 1 − X(t) = Z(t) ta có −dX(t) = dZ(t) và do đó dZ(t) = −Z(t)[a + b(1 − Z(t))]dt + σaZ(t)dW (t) hay dZ(t) = bZ2(t) − (a + b)Z(t) dt − σaZ(t)dW (t) (2.4) Để giải phương trình (2.4) ta sẽ đi giải phương trình sau dZ(t) = αZ2(t) + βZ(t) dt + λZ(t)dW (t) (2.5) trong đó α, β và λ là các tham số của quá trình ngẫu nhiên X(t). Đặt 1 Y (t) = Z−1 (t) = Z (t) . Theo công thức Itô ([0]) ta có: 1 1 2 dY (t) = − dZ(t) + λ2Z2(t)dt Z2(t) 2 Z3(t) 1 λ2 = − αZ2(t) + βZ(t) dt + λZ(t)dW (t) + dt Z2(t) Z(t) β λ λ2 = − α + dt − dW (t) + dt Z(t) Z(t) Z(t) λ2 − β λ = − α dt − dW (t) Z(t) Z(t) Vì vậy quá trình ngẫu nhiên Y (t) thỏa mãn phương trình sau: dY (t) = λ2 − β Y (t) − α dt − λY (t) dW (t) (2.6) Phương trình cho bởi (2.6) là một phương trình vi phân ngẫu nhiên tuyến tính và có thể giải được. Định lý 2.1 Nghiệm của phương trình (2.4) có dạng: −1 1 Z t ds Z (t) = φ−1 (t) − b (2.7) Z (0) 0 φ (s) 17 trong đó σ2a2 φ (t) = exp + a + b t + σaW (t) 2 2.3. Xấp xỉ thời điểm dừng tối ưu bằng mạng nơ-ron N k−1 P Q Định lý 2.2 Đặt Vn = sup Eg (τ, Xτ ), với τn+1 = kαk (Xk) (1 − αj (Xj)) τ∈Tn k=n+1 j=n cho trước, tồn tại hàm αn : R → {0, 1} sao cho với thời điểm dừng τn = nαn (Xn)+ τn+1 (1 − αn (Xn)) thì bất đẳng thức sau được thỏa mãn Vn − Eg (τn,Xτn ) 6 Vn+1 − Eg (τn+1,Xτn+1 ) Định lý 2.3 Với n ∈ {0, 1, ··· ,N − 1} và thời điểm dừng τn+1 ∈ Tn+1 cho trước. Khi đó với mọi hằng số ε > 0 cho trước, tồn tại hàm θn θn θn θn αn = I[0,∞) ◦ aI ◦ ϕqI−1 ◦ aI−1 ◦ · · · ◦ ϕq1 ◦ a1 (2.8) sao cho θn θn sup E g (n, Xn) αn (Xn) + g (τn+1,Xτn+1 ) 1 − αn (Xn) q θn∈R ε > sup E [g (n, Xn) α (Xn) + g (τn+1,Xτn+1 ) (1 − α (Xn))] − α∈M N trong đó M là tập tất cả các hàm đo được α : R → {0, 1}, q là tổng số các tham θn số của hàm αn . N k−1 P θk Q θj Hệ quả 2.1 Thời điểm dừng τ1 ∈ T1 cho bởi τ1 = kαk (Xk) 1 − αj (Xj) k=1 j=1 thỏa mãn g (τ1,Xτ1 ) > sup E [g (τ, Xτ )] − ε. τ∈T 2.4. Giải thuật giải bài toán thời điểm dừng tối ưu 18 Thuật toán 2.1 Xấp xỉ lời giải cho bài toán thời điểm dừng tối ưu INPUT: • Mô phỏng K thể hiện của quá trình X(t) i i i i Xtn+1 = Xtn + a 1 − Xtn + bXtn 1 − Xtn (tn+1 − tn) i +σa 1 − Xtn (wtn+1 − wtn ) với i = 1,K; n = 0,N − 1 N θN • Khởi tạo θ được chọn sao cho αN ≡ 1 1 2 N−1 θ1 θ2 θN OUTPUT: θ , θ , ..., θ và α1 , α2 , ..., αN . 1: for n = N − 1 to 1 do n,1 2: Ln := 0; Khởi tạo θ ; 3: for j = 1 to Jm do θn,j θn,j θn,j θn,j 4: Tạo lập mạng nơ-ron Φ = ψ ◦ aI ◦ ϕqI−1 ◦ aI−1 ◦ · · · ◦ ϕq1 ◦ a1 ; 5: for i = 1 to K do i n,j i θn,j i i i θn,j i 6: Tính πn θ = g n, xn Φ xn + g τ , x i 1 − Φ xn ; n+1 τn+1 i n,j 7: Ln := Ln + πn θ ; 8: end for Ln 9: Lbn := K ; n,j+1 n,j 10: θ := θ + η∇θLbn; 11: end for 12: θn := θn,Jm θn θn θn θn 13: Đặt mạng nơ-ron mới αn (x) = I[0,∞) ◦ aI ◦ ϕqI−1 ◦ aI−1 ◦ · · · ◦ ϕq1 ◦ a1 (x); 14: end for 1 2 N−1 θ1 θ2 θN 15: Trả về θ , θ , ..., θ và α1 , α2 , ..., αN . 19 2.5. Kết quả mô phỏng Hình 2.1: Thời điểm dừng thu được là τ ∗ = 137; X (τ ∗) = 0.321177633918076 2.6. Kết luận chương 2 Trong chương này chúng tôi đã tìm được lời giải của một dạng phương trình vi phân ngẫu nhiên và xấp xỉ được các quyết định dừng tối ưu bằng các mạng nơ-ron nhiều lớp thông qua quá trình huấn luyện mạng và thực hiện mô phỏng Monte-Carlo. Chúng tôi cũng đã chứng minh được rằng các kết quả thu được từ xấp xỉ bằng mạng nơ-ron sai khác một giá trị ε > 0 tùy ý so với giá trị tối ưu lý thuyết. Chúng tôi đã tiến hành mô phỏng quá trình ngẫu nhiên thể hiện thị phần về một sản phẩm nào đó của công ty và lấy mục tiêu cực đại thị phần cho chiến dịch quảng cáo. Kết quả cho thấy các quyết định thu được tiệm cận tới các thời điểm tối ưu. Tuy nhiên có một thực tế đặt ra là để có độ chính xác cao thì phải rời rạc hóa quá trình ngẫu nhiên “mịn” hơn (N tăng) do vậy cần nhiều mạng nơ-ron hơn (số lượng mạng nơ ron là N) và số tham số trong mỗi mạng phải tăng lên (q tăng dần ra vô cùng), do đó việc xấp xỉ các quyết định bằng 20 nơ-ron nhân tạo cần phải có máy tính tốc độ cao và có hệ thống dữ liệu lớn để huấn luyện mạng tốt hơn. 21 CHƯƠNG 3. THỜI ĐIỂM DỪNG TỐI ƯU CHO BÀI TOÁN BÁN TÀI SẢN Trong chương này chúng tôi xem xét bài toán thời điểm dừng tối ưu mô tả bài toán thanh lý tài sản với độ dịch chuyển là biến ngẫu nhiên rời rạc và kết quả tìm được chiến lược tối ưu để bán tài sản là lần đầu tiên giá tài sản rơi vào một đường bao tất định phụ thuộc thời gian. Hơn nữa, đường bao này là biểu diễn của một hàm đơn điệu tăng, liên tục và thỏa mãn phương trình tích phân phi tuyến. Các kết quả thu được là khả quan và được kiểm tra trên dữ liệu mô phỏng cho thấy tính đúng đắn của các kết quả tìm được. Cũng như trong chương 2, chương này chúng tôi cũng xem xét một cách tiếp cận khác cho bài toán thời điểm dừng tối ưu đó là tiếp cận học máy. Xấp xỉ hàm quyết định bởi một mạng nơ-ron nhiều lớp, sau khi đã huấn luyện mạng nơ-ron, cho dữ liệu qua mạng ta sẽ nhận được quyết định bán tài sản. 3.1. Bài toán bán tài sản tối ưu và lời giải Giả sử giá bán của một tài sản là quá trình ngẫu nhiên Xt được mô hình hóa bởi một chuyển động Brown hình học như phương trình dưới đây dXt = µXtdt + σXtdWt, t ≥ 0 (3.1) trong đó {Wt} là chuyển động Brown tiêu chuẩn và giả sử quá trình Xt độc lập với µ trên không gian xác suất (Ω, F,P ). Chúng ta cũng giả sử độ trượt µ là biến ngẫu nhiên nhận hai giá trị µ1 và µ2 thỏa mãn điều kiện µ1 < r < µ2, trong đó r ≥ 0 là hệ số lãi suất và X0 là giá tài sản lúc ban đầu. Giả sử chủ tài sản muốn bán tài sản của mình nhưng không biết tốc độ tăng trưởng của giá cả là µ1 hay µ2 chỉ biết phân bố lúc ban đầu như trong Bảng 3.1. 22 Bảng 3.1: Phân bố ban đầu của độ trượt µ µ1 µ2 Xác suất π 1-π Mục đích của chủ sở hữu là muốn bán với giá có kỳ vọng cao nhất và mục đích của bài toán này cũng là như vậy. Về mặt toán học ta ký hiệu F X là t t∈[0;∞) σ-trường sinh bởi X và chủ sở hữu chọn F X - thời điểm dừng τ với t ∈ [0; ∞) −rτ V = sup E e Xτ (3.2) τ∈T X đạt được tại một thời điểm dừng xác định. Với t ≥ 0, đặt πt = P µ = µ1|Ft là xác suất có điều kiện mà độ trượt nhận giá trị nhỏ tại thời điểm t, do đó X 1 − πt = P µ = µ2|Ft . Theo Định lý 7.12 và Định lý 9.1 trong [0], quá trình giá Xt được mô hình hóa bởi phương trình vi phân ngẫu nhiên sau đây dXt = [µ1πt + (1 − πt) µ2] Xtdt + σXtdW t và quá trình niềm tin πt thỏa mãn phương trình dπt = −ωπt (1 − πt) dW t x trong đó ω = (µ2 − µ1) /σ và W,F là P - chuyển động Brown được định nghĩa bởi µ(t) − (1 − π ) µ − π µ dW = dW + t 2 t 1 dt (3.3) t t σ π Hệ quả 3.1 Đặt φ = 1−π . Khi đó hàm giá trị V được cho bởi công thức  r r2 (1+B) (C1φ +C2φ )  x r r , 0 < φ < B V = C1B +C2B 2 1+φ  x, φ ≥ B B Hơn nữa, thời điểm dừng τB := inf t ≥ 0 : πt ≥ 1+B là thời điểm dừng tối ưu của bài toán (3.1). 23 3.2. Xấp xỉ thời điểm dừng tối ưu bằng mạng nơ-ron Xét một xích Markov rời rạc X = {Xn : n ≥ 0} trên không gian trạng thái X. Mục đích của chúng ta là xác định thời điểm dừng τ, để cực đại trung bình hàm thu hoạch sau "τ−1 # X t τ E β c(Xt) + β C(Xτ ) (3.4) t=0 Trong đó c : X → R là thu hoạch của một thời kì trung gian, C : X → R thu hoạch ở trạng thái cuối, và β ∈ (0, 1) là hệ số chiết khấu. Kí hiệu {Fn : n ≥ 0} là bộ lọc sinh bởi X. Gọi P là một toán tử biến hàm J thành hàm (PJ) được xác định bởi (PJ)(x) = R P (x, dy)J(y). Tính chất Markov cho ta h : X → R Z E[h (Xt+1) |Ft,Xt = x] = P (x, dy)h(y) = (P h)(x) Thời điểm dừng τ :Ω → [0, ∞) là một biến ngẫu nhiên nhận giá trị nguyên không âm thỏa mãn tính chất {ω : τ(ω) ≤ t, ω ∈ Ω} ∈ Ft với mỗi n ≥ 0. Ta quy ước C (Xτ ) = 0 nếu τ = ∞. Ta xây dựng hàm quyết định φ : X → {0, 1} và định nghĩa thời điểm dừng φ τ = min {n ≥ 0 : φ (Xn) = 1} (3.5) Giá trị tối ưu của kỳ vọng trong (3.4) trên các thời điểm dừng với mọi x ∈ X được ký hiệu bởi "z−1 # "z−1 # ∗ X t z X t z h (x) = sup E β c (Xt) + β C (Xz) |X0 = x = E β c (Xt) + β C (Xz) |X0 = x x t=0 t=0 (3.6) Ta định nghĩa toán tử T được xác định bởi T h = max{C, c + βP h} 24 Định lý 3.1 Với các giả thiết thích hợp, những mệnh đề sau là đúng: ∗ ∗ ∗ 1. Tồn tại hàm h ∈ L2(π) thỏa mãn h = T h . ∗ ∗ ∗ 2. Thời điểm dừng τ được xác định bởi τ = min {t|C (xt) ≥ h (xt)} là thời điểm dừng tối ưu. ∗ 3. h∗ = hτ Lập hàm Qθ(x) := θT ψ(x), x ∈ X (3.7) T trong đó ψ := [ψ1, . . . , ψd] với ψi :X → R, ψi ∈ L2(π), 1 ≤ i ≤ d là các hàm cơ sở. Thuật toán 3.1 Xấp xỉ lời giải cho bài toán thời điểm dừng tối ưu d INPUT: Khỏi tạo θ0 ∈ R OUTPUT: θ = θN 1: repeat 2: Cập nhật vectơ s s θt+1 = θt + γt+1ψ (xt)[c (xt) + α max {Q (xt+1) ,C (xt+1)} − Q (xt)] 3: t := t + 1; 4: until t ≥ N θ ∗ Sau khi có θ và τ˜ = min t ≥ 0|C (xt) ≥ Q (xt) sẽ xấp xỉ thời điểm dừng τ . 25 3.3. Kết quả mô phỏng Hình 3.1: Thời điểm bán và giá bán tối ưu τB = 1; X (τB) = 6.98267216610124 3.4. Kết luận chương 3 Trong chương này chúng tôi xem xét bài toán tìm thời điểm dừng tối ưu cho quá trình bán tài sản với tốc độ tăng giá là quá trình Markov rời rạc hai trạng thái (tăng giá và giảm giá). Kết quả tìm được các ngưỡng cố định cho quá trình xác suất hậu nghiệm. Nếu quá trình xác suất hậu nghiệm vượt qua ngưỡng này thì ta quyết định bán tài sản. Các kết quả thu được là khả quan và được kiểm tra trên dữ liệu mô phỏng cho thấy tính đúng đắn của các kết quả tìm được. Cũng như trong chương 2, chương này chúng tôi cũng xem xét một cách tiếp cận khác cho bài toán thời điểm dừng tối ưu đó là tiếp cận học máy. Xấp xỉ hàm quyết định bởi một mạng nơ-ron nhiều lớp, sau khi đã huấn luyện mạng nơ-ron, cho 26 dữ liệu qua mạng ta sẽ nhận được quyết định bán tài sản. 27 KẾT LUẬN Những đóng góp mới của luận án: Luận án đã xem xét hai bài toán thực tế đó là: 1. Bài toán xác định thời điểm dừng tối ưu cho một chiến dịch quảng cáo. Thị phần (tiềm năng) của công ty đang xét về một sản phẩm A nào đó được mô tả bằng một phương trình vi phân ngẫu nhiên dưới tác động của chiến dịch quảng cáo thông qua truyền thông cũng như sự truyền miệng của các khách hàng đã có của công ty. Hàm mục tiêu là một hàm liên tục xác định trên thời gian t và thị phần đạt được của chiến dịch quảng cáo. 2. Bài toán tìm thời điểm dừng tối ưu cho quá trình bán tài sản với tốc độ tăng giá là quá trình Markov rời rạc hai trạng thái (tăng giá và giảm giá). Tiến hành giải mô hình và kiểm tra trên dữ liệu mô phỏng cho thấy tính đúng đắn của các kết quả tìm được. Xem xét một cách tiếp cận khác cho bài toán thời điểm dừng tối ưu đó là tiếp cận học máy. 28 CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [CT1] Nguyen Khac

Các file đính kèm theo tài liệu này:

du_thao_tom_tat_luan_an_mot_so_dang_phuong_trinh_vi_phan_nga.pdf