Thư viện - Trường Đại học Công nghệ Thông tin
Thư viện UIT

Thư viện UIT - October 14, 2025

Giới thiệu sách.gif

[Giới thiệu Luận án tiến sĩ Trường Đại học Công nghệ Thông tin-ĐHQG-HCM]

Tên đề tài: PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TRONG VIDEO (ABNORMAL EVENT DETECTION IN VIDEOS)
[Luận án tiến sĩ Khoa học máy tính - 2025]

 Tác giả: Trần Minh Tùng
 Giảng viên hướng dẫn:
1. TS. Nguyễn Tấn Trần Minh Khang
2. PGS.TS. Nguyễn Văn Tâm

 GIỚI THIỆU
Việc áp dụng các kỹ thuật xử lý ảnh và video trong các thành phố thông minh đã được nghiên cứu và áp dụng tại nhiều nơi trên thế giới. Các ứng dụng này ngày càng trở nên phổ biến ở cả những khu vực công cộng và riêng tư như: đường giao thông, trung tâm thương mại, trường học, cửa hàng, tòa nhà văn phòng, nhà ga, sân bay, nhà riêng,... Trong đó, nhiệm vụ giám sát an toàn và an ninh nơi công cộng liên quan các hoạt động hoặc sự kiện của con người là một chủ đề thu hút nhiều sự quan tâm của các nhà nghiên cứu trong lĩnh vực thị giác máy tính với một số hướng chính bao gồm: Phát hiện, nhận dạng và phân loại đối tượng, sự tương tác giữa người - đối tượng cũng như môi trường xung quanh trong video; Phân tích hoạt động hoặc sự kiện liên quan đến con người theo không gian - thời gian trong một ngữ cảnh cụ thể; Hỗ trợ hệ thống giám sát thông minh với các camera có góc quay cố định, camera di động dùng để truy vết và ghi nhận các sự kiện bất thường liên quan đến con người và môi trường xung quanh, từ đó đề xuất các giải pháp và cảnh báo các hoạt động rủi ro, có nguy cơ cao ảnh hưởng đến tài sản, tính mạng con người cho các cơ quan quản lý giao thông; Xây dựng các môi trường thực nghiệm với các công cụ giả lập hệ thống giám sát thông minh. Trên cơ sở tìm hiểu các cách tiếp cận, các phương pháp và kỹ thuật phát hiện sự kiện bất thường trong video, cho thấy vẫn còn khoảng trống nghiên cứu đối với bài toán phát hiện sự kiện bất thường trong video được quay bằng thiết bị bay không người lái (drone hoặc UAV) trong lĩnh vực giao thông. Do đó, việc đề xuất phương pháp phát hiện sự kiện bất thường trong video trên không (aerial video) với ngữ cảnh giao thông là rất cần thiết nhằm góp phần cung cấp và mở rộng các nghiên cứu liên quan đến các bài toán phát hiện sự kiện bất thường theo thời gian thực ở các lĩnh vực khác nhau và đưa ra các giải pháp thiết thực phục vụ công tác quản lý, điều hành và giám sát của các cơ quan thực thi pháp luật cũng như tiềm năng ứng dụng của bài toán này trong lĩnh vực giao thông. Vì vậy, luận án trình bày phương pháp luận và cách tiếp cận cho bài toán nghiên cứu, đề xuất phương pháp phát hiện sự kiện bất thường trong video trên không với ngữ cảnh giao thông và xây dựng bộ dữ liệu bất thường được quay bằng thiết bị bay không người lái với ngữ cảnh giao thông tại Thành phố Hồ Chí Minh (TP.HCM), Việt Nam. Bên cạnh đó, luận án nêu bật các đóng góp chính và các công trình nghiên cứu đã công bố. Ngoài ra, luận án cũng thảo luận các hạn chế của phương pháp đề xuất và đề xuất hướng nghiên cứu trong tương lai.

 MỤC TIÊU VÀ NỘI DUNG CỦA LUẬN ÁN
- Mục tiêu nghiên cứu: Luận án nghiên cứu tập trung vào ba mục tiêu chính sau:
+ Mục tiêu thứ nhất: Nghiên cứu, khảo sát và hệ thống hóa các cách tiếp cận và phương pháp nghiên cứu, các bộ dữ liệu chuẩn công khai, hiệu suất các phương pháp tối tân hiện tại, các độ đo phổ biến cho bài toán phát hiện sự kiện bất thường trong video, thảo luận chuyên sâu về các thách thức và ứng dụng của bài toán nghiên cứu.

+ Mục tiêu thứ hai: Đề xuất phương pháp phát hiện sự kiện bất thường ở mức khung hình trong video trên không với ngữ cảnh giao thông.

+ Mục tiêu thứ ba: Thu thập và xây dựng bộ dữ liệu cho bài toán phát hiện sự kiện bất thường trong video trên không với ngữ cảnh giao thông tại TP.HCM, Việt Nam. Bộ dữ liệu này được công bố công khai phục vụ cộng đồng nghiên cứu vì mục đích phi lợi nhuận.

- Nội dung nghiên cứu:
Luận án tập trung nghiên cứu vào các nội dung sau:
+ Nội dung 1: Nghiên cứu, khảo sát các bài toán và các phương pháp giải quyết bài toán phát hiện sự kiện bất thường trong video. Nội dung này được thúc đẩy bởi một số khía cạnh. Thứ nhất, tập trung phân tích các phương pháp truyền thống dựa trên việc rút trích các đặc trưng thủ công (handcrafted features) và các phương pháp dựa trên học sâu (deep learning) để làm nổi bật những tiến bộ gần đây trong kỹ thuật học sâu cho bài toán phát hiện sự kiện bất thường trong video.Thứ hai, xác định các thách thức khi giải quyết các bài toán liên quan đến bất thường gồm: phát hiện bất thường, phân loại bất thường, dự đoán bất thường và định vị bất thường trong video cũng như phạm vi ứng dụng của các bài toán này mà các công trình khảo sát hiện có chưa đề cập đầy đủ về chủ đề này. Thứ ba, so sánh hiệu suất của các kỹ thuật tối tận hiện tại khác nhau trên các bộ dữ liệu chuẩn công khai nhằm chỉ ra tình trạng hiện tại của bài toán nghiên cứu. Cuối cùng, thảo luận về những ưu điểm, hạn chế của các phương pháp hiện đại và gợi mở các hướng nghiên cứu sâu hơn cho bài toán phát hiện sự kiện bất thường trong video.

+ Nội dung 2: Nghiên cứu và đề xuất phương pháp phát hiện sự kiện bất thường ở mức khung hình trong video trên không với ngữ cảnh giao thông. Xuất phát từ sự thành công và đạt được những kết quả đột phá trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) với khả năng khai thác thông tin ngữ cảnh mạnh mẽ của mô hình mạng Transformer [98]. Ban đầu kiến trúc mạng này được đề xuất như một mô hình ngôn ngữ theo trình tự với các cơ chế chú ý (attention mechanisms) dựa trên cấu trúc bộ mã hóa - giải mã để xử lý các tác vụ NLP khác nhau, như dịch ngôn ngữ và trả lời câu hỏi. Ý tưởng chính của mô hình Transformer là sử dụng các cơ chế tự chú ý (self-attention) với các tầng mạng nơ-ron (neural network) để tổng hợp thông tin từ toàn bộ chuỗi đầu vào. Tuy nhiên, không giống như mạng thần kinh hồi quy (Recurrent Neural Networks - RNN), với cơ chế chú ý mô hình Transformer không yêu cầu dữ liệu phải được xử lý theo trình tự vì thế mô hình này có thể học đầy đủ mối quan hệ giữa các từ ở xa trong một câu, nên mô hình này sẽ khắc phục được các vấn đề gặp phải của các mô hình tuần tự (sequence - to - sequence models) trước đó. Do đặc trưng này, mạng Transformer hỗ trợ tính toán song song hoàn toàn, huấn luyện trên các bộ dữ liệu quy mô lớn nên giảm thời gian huấn luyện. Lấy cảm hứng từ các nghiên cứu mới nhất và thành công gần đây của các state - of-the - arts [11, 15, 19] đối với các bài toán liên quan trong lĩnh vực thị giác máy tính bao gồm phân loại hình ảnh [99, 100], phân loại video [101], phát hiện đối tượng [102, 103, 150], phát hiện sự kiện bất thường trong video [77, 135, 139] và sự phổ biến của thiết bị bay không người lái (drone) trong lĩnh vực giao thông và các lĩnh vực khác [165, 166, 167, 168], luận án đề xuất phương pháp phát hiện sự kiện bất thường ở mức khung hình trong video được quay bằng thiết bị bay không người lái với ngữ cảnh giao thông.

+ Nội dung 3: Thu thập và xây dựng bộ dữ liệu cho bài toán phát hiện sự kiện bất thường trong video trên không với ngữ cảnh giao thông tại TP.HCM, Việt Nam. Được thúc đẩy bởi sự khan hiếm của bộ dữ liệu cho bài toán phát hiện sự kiện bất thường trong video trên không với ngữ cảnh giao thông cùng với những khó khăn và thách thức của bài toán bao gồm môi trường giao thông phức tạp, đối tượng tham gia giao thông có kích thước nhỏ và đa dạng, camera chuyển động, góc quay và độ cao thay đổi,... Luận án tiến hành thu thập và xây dựng bộ dữ liệu có tên là UIT- ADrone, với ngữ cảnh thực tế là môi trường giao thông tại TP.HCM, Việt Nam được quay bằng thiết bị bay không người lái.

 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
- Đối tượng nghiên cứu:
+ Sự kiện bất thường trong video.
+ Các kỹ thuật rút trích đặc trưng thủ công: HOG, SURF, SIFT và các kỹ thuật tương tự; Các kỹ thuật rút trích đặc trưng dựa trên học sâu: rút trích đặc trưng cục bộ (local features), đặc trưng toàn cục (global features), đặc trưng chuyển động (motion features), đặc trưng không gian – thời gian (spatio-temporal features), đặc trưng ngoại hình (appearance features), thông tin hình ảnh (visual information), thông tin ngữ cảnh (context information).
+ Các bài toán về xác suất, hàm phân bố xác suất và các phương pháp thống kê (statistical approaches) dùng để thống kê các phân đoạn cục bộ không gian - thời gian (local spatial- temporal segmentation) cho nhiệm vụ phát hiện sự kiện bất thường trong video.
+ Các mô hình phân loại học sâu (deep learning classification models), mô hình mạng đối nghịch tạo sinh (generative adversarial networks models), mô hình mã hóa tự động tích chập (convolutional autoencoder models), mô hình lai (hybrid models), mô hình dựa trên kiến trúc Transformer (Vision Transformer-based models) và các mô hình tương tự.
+ Các môi trường thực nghiệm: OpenCV, Numpy, GitHub và các môi trường tương tự.
+ Các bộ dữ liệu chuẩn phổ biến cho nhiệm vụ phát hiện sự kiện bất thường trong video đã công bố: UFC-Crime, UMN, CUHK Avenue, UCSD Ped1, UCSD Ped2, Avenue, Subway Entrance, Subway Exit, Street Scene, ShanghaiTech, Mini Drone, Drone-Anomaly, UTT Drone và các bộ dữ liệu tương tự.

 PHẠM VI NGHIÊN CỨU
- Ngữ cảnh: video trên không với ngữ cảnh giao thông.
- Phát hiện sự kiện bất thường ở mức khung hình. Trong đó, khung hình có chứa sự kiện bất thường được gán nhãn là 1, ngược lại được gán nhãn là 0.
- Góc quay từ trên cao với không gian và trường nhìn rộng hơn.
- Camera chuyển động với độ cao từ 50m – 70m.
- Điều kiện thời tiết và ánh sáng thuận lợi.

 CÁC ĐÓNG GÓP CHÍNH CỦA LUẬN ÁN
- Đóng góp 1. Đề xuất phương pháp phát hiện sự kiện bất thường ở mức khung hình trong video trên không với ngữ cảnh giao thông [CT.1].

- Đóng góp 2. Khảo sát, phân tích, thực nghiệm và hệ thống hóa các phương pháp giải quyết bài toán phát hiện sự kiện bất thường trong video [CT.2].

- Đóng góp 3. Công bố bộ dữ liệu UIT–ADrone với ngữ cảnh giao thông tại TP.HCM, Việt Nam cho bài toán phát hiện sự kiện bất thường trong video trên không [CT.3]. Bộ dữ liệu được công bố công khai dành cho mục đích nghiên cứu tại địa chỉ https://uit-together.github.io/datasets/UIT-ADrone/.

 BỐ CỤC CỦA LUẬN ÁN
Luận án được bố cục gồm 6 chương và tài liệu tham khảo được tóm tắt như sau:

- Chương 1: Giới thiệu bài toán
Nội dung chính trong chương này gồm: cơ sở nghiên cứu, mục tiêu nghiên cứu, giới thiệu bài toán nghiên cứu, phạm vi và động lực nghiên cứu, các thách thức và ứng dụng của bài toàn nghiên cứu, các vấn đề nghiên cứu trong luận án, ý nghĩa khoa học và thực tiễn của luận án.

- Chương 2: Nghiên cứu tổng quan
Chương này tập trung trình bày tổng quan về các nghiên cứu liên quan đến các bài toán bất thường trong video, phương pháp luận cho bài toán nghiên cứu, học chuyển tiếp và thích ứng miền, các phương pháp phát hiện sự kiện bất thường trong video. Từ đó, phân tích các ưu điểm và hạn chế của các phương pháp tối tân hiện tại. Ngoài ra, các bộ dữ liệu chuẩn, hiệu suất của các phương pháp hiện đại cho bài toán phát hiện sự kiện bất thường trong video cũng được phân tích và trình bày chi tiết.

- Chương 3: Đề xuất phương pháp phát hiện sự kiện bất thường trong video trên không
Chương này tập trung đề xuất phương pháp phát hiện sự kiện bất thường ở mức khung hình trong video được quay bằng thiết bị bay không người lái với ngữ cảnh giao thông dựa trên kiến trúc Vision Transformer theo chiến lược học không giám sát và phát hiện khung hình có chứa sự kiện bất thường dựa trên dự đoán khung hình tương lai. Bên cạnh đó, các ưu điểm và hạn chế của phương pháp đề xuất cũng được thảo luận.

- Chương 4: Xây dựng bộ dữ liệu video trên không với ngữ cảnh giao thông
Chương này mô tả bộ dữ liệu UIT-ADrone, thu thập dữ liệu, thống kê bộ dữ liệu, quy trình gán nhãn và thảo luận những thách thức của bộ dữ liệu được xây dựng.

- Chương 5: Thực nghiệm và kết quả
Chương này trình bày các bộ dữ liệu dùng để thực nghiệm, kết quả thực nghiệm, phân tích đánh giá và so sánh phương pháp đề xuất với các phương pháp tối tân hiện tại trên các độ đo phổ biến cho bài toán phát hiện sự kiện bất thường trong video trên không với ngữ cảnh giao thông. Ngoài ra, luận án tiến hành thực nghiệm các nghiên cứu cắt lát và thảo luận chuyên sâu về phương pháp đề xuất và các phương pháp tối tân hiện đại cho các tình huống thực tế trên các bộ dữ liệu chuẩn công khai.

- Chương 6: Kết luận và hướng phát triển
Chương này tóm tắt các kết quả đạt được, các đóng góp chính, các công trình nghiên cứu đã công bố của luận án và đề xuất hướng nghiên cứu tiếp theo.

* Xem bản tóm tắt: https://link.uit.edu.vn/EUXhp

Bạn đọc có quan tâm đến luận án này xin vui lòng đến Thư viện để đọc bản giấy hoặc truy cập xem toàn văn từ xa tại địa chỉ sau:
-Bản in: https://opac.vnulib.edu.vn/record=b1431972~S1*vie
-Bản điện tử: https://ir.vnulib.edu.vn/handle/VNUHCM/37594

559415015_1383158243810454_3526153220748044391_n.jpg