Ngày 19/06/2026, nhóm nghiên cứu robot GEAR của NVIDIA do Linxi “Jim” Fan dẫn đầu đã công bố ENPIRE, một framework cho phép robot tự động thực hiện vòng lặp tự cải thiện (recursive self-improvement - RSI) trong thế giới thực. Kết quả thử nghiệm cho thấy robot đạt độ chính xác 99% (pass@8) ở các tác vụ tinh vi như lắp ghép linh kiện điện tử, cắt dây rút, và căn chỉnh chốt.

ENPIRE là gì? Framework cho phép robot tự nghiên cứu

ENPIRE được định nghĩa là một “harness framework” dành cho các tác nhân lập trình (coding agents). Harness, vốn là bộ yên cương cho ngựa, trong AI chỉ hệ thống giúp khai thác tối đa năng lực của mô hình. ENPIRE gồm bốn mô-đun: Môi trường (tự động reset và xác thực kết quả), Cải thiện chính sách (tạo/sửa chương trình điều khiển), Triển khai (chạy song song robot và đánh giá), và Tiến hóa (phân tích log, tham khảo tài liệu để cải tiến thuật toán).

Robot tự học qua đêm: Từ thử nghiệm đến thành thạo

Nhóm nghiên cứu đã giao cho 8 tác nhân Codex của OpenAI quyền điều khiển robot, GPU và token, với mục tiêu đơn giản: “Giải tác vụ nhanh nhất, giữ robot an toàn, không lãng phí tài nguyên”. Các tác nhân tự động reset bàn thí nghiệm, thử nghiệm các kỹ năng mới, viết lại chương trình điều khiển dựa trên kết quả, thậm chí đọc tài liệu trực tuyến để tìm giải pháp. Qua một đêm, robot đã tự cải thiện để thực hiện các thao tác như đẩy khối T đến vị trí mục tiêu, căn chỉnh chốt nhỏ, cắt dây rút, và lắp card đồ họa vào bo mạch chủ, tất cả đều đạt tỷ lệ thành công 99%.

Phát hiện mới: “Physical Scaling” – càng nhiều robot, càng học nhanh

Jim Fan báo cáo rằng khi sử dụng 8 robot song song, tốc độ nghiên cứu tăng đáng kể so với một robot đơn lẻ, một hiện tượng được gọi là “physical scaling”. Điều này cho thấy quy luật scaling vốn quen thuộc trong mô hình ngôn ngữ lớn (LLM) – càng nhiều tài nguyên tính toán, hiệu suất càng cao – nay cũng áp dụng cho số lượng robot vật lý, báo hiệu cuộc đua phát triển AI vật lý bước vào giai đoạn thâm dụng vốn.

Thách thức: Chi phí token và hiệu quả robot

Dù ấn tượng, ENPIRE vẫn đối mặt với hạn chế: các tác nhân lập trình tiêu tốn token khi đọc log, viết code và debug, trong khi robot không hoạt động, dẫn đến lãng phí. Khi tăng số lượng robot, chi phí token càng cao do cần phối hợp và tóm tắt log. Nhóm nghiên cứu đề xuất hai chỉ số mới: Tỷ lệ sử dụng robot trung bình (MRU) và Tỷ lệ sử dụng token trung bình (MTU) để đo hiệu quả. Việc cân bằng giữa chi phí robot và token là bài toán then chốt.

Ý nghĩa và triển vọng

ENPIRE hiện chỉ là bản demo trên 4-5 tác vụ bàn, và bài báo chưa được công bố rộng rãi. Tuy nhiên, nó chứng minh rằng vòng lặp tự cải thiện vốn chỉ tồn tại trong thế giới số nay có thể áp dụng cho robot thực. NVIDIA có kế hoạch mã nguồn mở toàn bộ dự án. Nếu xu hướng này tiếp diễn, các công ty sản xuất và robot Nhật Bản sẽ phải đối mặt với bước ngoặt quan trọng khi cuộc đua AI vật lý chuyển sang giai đoạn cạnh tranh về tài nguyên.

Theo 株式会社エクサウィザーズ

Ảnh: Pavel Danilyuk / Pexels