Konica Minolta vừa công bố bài báo khoa học về công nghệ AI nhận diện hành động con người được hội nghị quốc tế hàng đầu về xử lý ngôn ngữ tự nhiên (NLP) – ACL 2026 – chấp nhận đăng tại hội nghị chính. Bài báo đề xuất phương pháp hiểu hành động từ thông tin quan sát hạn chế với độ chính xác cao, dựa trên dữ liệu điểm ảnh (point cloud) của khung xương người và đường viền vật thể, kết hợp với generative AI để tạo ra mô tả ngôn ngữ về tương tác giữa người và vật, từ đó cải thiện khả năng suy luận.
ACL 2026 là gì và bài báo của Konica Minolta nằm ở đâu?
ACL 2026 (Annual Meeting of the Association for Computational Linguistics) là một trong những hội nghị quốc tế uy tín nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên. Năm nay, hội nghị dự kiến diễn ra vào tháng 7 tại California, Mỹ. Trong số 12.148 bài nộp, chỉ có 2.309 bài được chọn vào hội nghị chính, tương đương tỷ lệ chấp nhận khoảng 19%. Bài báo của Konica Minolta nằm trong số đó.
Công nghệ đằng sau: kết hợp điểm ảnh và generative AI
Nghiên cứu này nằm trong kế hoạch trung hạn 'Corporate Plan 2026-2028' của Konica Minolta, tập trung vào việc nâng cao giá trị khách hàng và năng suất hoạt động thông qua AI và dữ liệu. Cụ thể, công ty kết hợp công nghệ cảm biến (sensing) tích lũy nhiều năm với AI để hiểu chính xác tình huống từ thông tin quan sát hạn chế trong các môi trường như y tế và sản xuất.
Phương pháp mới sử dụng dữ liệu điểm ảnh của khung xương người và đường viền vật thể để nhận diện hành động. Generative AI được dùng để sinh ra các mô tả ngôn ngữ về vật thể tương tác với con người, sau đó tích hợp vào mô hình nhận diện, giúp tăng độ chính xác suy luận dựa trên mối quan hệ người-vật trong ảnh.
Giải pháp cho vấn đề biến thiên môi trường: không cần học thêm
Một điểm đột phá khác là khả năng biểu diễn môi trường chụp ảnh thông qua mô hình đã được huấn luyện sẵn, sử dụng dữ liệu này làm tham chiếu. Nhờ đó, mô hình có thể điều chỉnh để giảm thiểu sự khác biệt về độ chính xác phát hiện do điều kiện chụp khác nhau mà không cần phải học thêm (fine-tuning). Kết quả là, suy luận từ dữ liệu điểm ảnh đạt độ chính xác tương đương với các mô hình xử lý toàn bộ ảnh.
Ứng dụng thực tế: y tế, sản xuất và hơn thế nữa
Công nghệ này có thể xử lý nhận diện hành động chính xác trên các thiết bị nhẹ (lightweight device), mở ra khả năng phát hiện hành động trong nhiều lĩnh vực như y tế và sản xuất. Các ứng dụng tiềm năng bao gồm cải thiện hiệu quả công việc và phát hiện bất thường (anomaly detection), giúp nâng cao an toàn và năng suất.
Theo Konica Minolta
Ảnh: Pavel Danilyuk / Pexels
