OpenAI vừa công bố LifeSciBench, một bộ chuẩn đánh giá (benchmark) mới dành cho các hệ thống AI trong lĩnh vực khoa học sự sống, bao gồm 750 tác vụ do các nhà khoa học có trình độ tiến sĩ biên soạn, nhằm đo lường khả năng hỗ trợ nghiên cứu thực tế thay vì chỉ trả lời câu hỏi lý thuyết. Bộ chuẩn này được thiết kế để đánh giá xem AI có thể thực hiện các nhiệm vụ nghiên cứu khoa học sự sống thực tế hay không, chứ không chỉ đơn thuần trả lời các câu hỏi sinh học.
LifeSciBench là gì và nó đo lường điều gì?
LifeSciBench bao gồm 750 tác vụ do 173 nhà khoa học chuyên gia biên soạn, trải dài trên bảy quy trình làm việc (workflows) và bảy lĩnh vực sinh học. Mỗi tác vụ được cấu trúc như một yêu cầu mà một nhà khoa học có thể đưa ra cho một cộng tác viên am hiểu: bao gồm lời nhắc khoa học, bối cảnh hoặc tài liệu liên quan, và câu trả lời dạng tự do. Các tiêu chí chấm điểm (rubric) do chuyên gia xây dựng sẽ đánh giá xem mô hình có thể đưa ra câu trả lời đúng với mức độ chi tiết, biện minh, lưu ý và định dạng mà một nhà khoa học mong đợi hay không.
Bộ chuẩn này đo lường khả năng của AI trong việc hỗ trợ các nhiệm vụ nghiên cứu khoa học sự sống thực tế, không chỉ trả lời các câu hỏi sinh học. Để xác định các hạng mục đánh giá, OpenAI đã khảo sát các nhà khoa học đang hành nghề về các quy trình làm việc họ sử dụng thường xuyên nhất trong nghiên cứu ứng dụng, sau đó nhóm thành bảy hạng mục: xử lý bằng chứng, phân tích, thiết kế và tối ưu hóa, lý luận khoa học, xác thực và vận hành, chuyển giao, và truyền thông khoa học.
Cấu trúc và quy trình xây dựng LifeSciBench
LifeSciBench đánh giá lý luận khoa học cùng với các kỹ năng thực tế, ít được định nghĩa rõ ràng nhưng cần thiết cho nghiên cứu thực tế. Các tác vụ yêu cầu mô hình làm việc thông qua các vấn đề nghiên cứu thực tế: diễn giải bằng chứng, đưa ra phán đoán dựa trên chuyên môn, và truyền đạt kết luận hữu ích cho các chuyên gia đánh giá. Nhiều tác vụ cũng yêu cầu mô hình xử lý sự không chắc chắn và lý luận dựa trên các tệp dữ liệu hỗ trợ thay vì chỉ dựa vào văn bản lời nhắc.
Bộ chuẩn được thiết kế để phản ánh độ phức tạp của công việc khoa học sự sống. Nhìn chung, 79% tác vụ yêu cầu nhiều bước lý luận hoặc ra quyết định, với trung bình bốn bước mỗi tác vụ. LifeSciBench bao gồm 1.062 tài liệu đính kèm (artifacts) như hình ảnh, PDF, bảng biểu, tệp trình tự, tệp cấu trúc/hóa học và tham chiếu web. Hơn một nửa số tác vụ (53%) yêu cầu mô hình diễn giải hoặc tổng hợp thông tin từ ít nhất một tài liệu đính kèm.
Các tác vụ được tạo ra bởi 173 nhà khoa học chuyên gia thuộc nhiều lĩnh vực khoa học sự sống khác nhau. Mỗi nhà khoa học đều có trình độ tiến sĩ và kinh nghiệm trong ngành công nghệ sinh học hoặc dược phẩm. Các tác vụ có thể trải qua nhiều vòng chỉnh sửa trước khi được chấp nhận, với trung bình sáu vòng tự động và ít nhất hai vòng đánh giá chuyên gia. Các đánh giá dựa trên câu trả lời đúng có thể kiểm chứng hoặc sự đồng thuận mạnh mẽ của chuyên gia, với ít nhất 90% sự đồng thuận giữa các chuyên gia trong lĩnh vực liên quan.
Phương pháp chấm điểm và xác thực
Các tác vụ LifeSciBench được chấm điểm bằng một rubric chi tiết, cụ thể cho từng tác vụ, chia nhỏ câu trả lời thành các tuyên bố khoa học, tính toán, quyết định, biện minh cụ thể. Trên toàn bộ chuẩn, các rubric do chuyên gia phát triển bao gồm 19.020 tiêu chí—trung bình 25 tiêu chí mỗi tác vụ—để đánh giá cả tính đúng đắn khoa học và tính hữu ích cho các quyết định nghiên cứu.
Thiết kế này phản ánh cách công việc khoa học được đánh giá trong thực tế: nhiều tác vụ khoa học sự sống không thể được chấm điểm chỉ bằng cách kiểm tra câu trả lời cuối cùng. Một câu trả lời có thể đi đến kết luận đúng ở mức cao nhưng vẫn bị coi là chưa hoàn chỉnh nếu, ví dụ, nó bỏ qua một hạn chế chính của xét nghiệm hoặc không đề cập đến một sắc thái sinh học quan trọng. Ngược lại, một câu trả lời một phần có thể chứa lý luận chất lượng cao ngay cả khi nó không giải quyết hoàn toàn tác vụ.
LifeSciBench đã được xác thực thông qua một đánh giá chuyên gia độc lập với 453 chuyên gia đánh giá không tham gia viết tác vụ. Trong số đó, 97% có bằng tiến sĩ hoặc tương đương, với trung bình 12 năm kinh nghiệm thực địa và 14 ấn phẩm được bình duyệt; 88% cho biết đã nhận được ít nhất một giải thưởng hoặc học bổng. Các chuyên gia đánh giá điểm số cho từng tác vụ dựa trên bốn tiêu chí: sự phù hợp với công việc nghiên cứu thực tế, kiểm tra thích hợp lý luận khoa học và chuyên môn lĩnh vực, dựa trên bằng chứng hoặc sự đồng thuận chuyên gia, và tính hữu ích tổng thể để đánh giá hiệu suất mô hình. Sự đồng thuận vượt quá 96% ở mọi hạng mục.
Kết quả đánh giá: AI mạnh ở đâu và yếu ở đâu?
LifeSciBench báo cáo hai chỉ số bổ sung: tỷ lệ vượt qua (pass rate) là phần trăm tác vụ mà mô hình đạt ngưỡng thành công 70%, và điểm số (score) là phần thưởng rubric trung bình, cho điểm một phần cho các tiêu chí riêng lẻ ngay cả khi tác vụ chưa được giải quyết hoàn toàn. Kết quả cho thấy hiệu suất mô hình thay đổi đáng kể theo loại tác vụ, quy trình làm việc và định dạng phản hồi.
Các mô hình tiên tiến (frontier models) cho thấy sức mạnh tương đối trong các tác vụ liên quan đến tổng hợp khoa học, truyền thông và diễn giải có cấu trúc. GPT-Rosalind, mô hình mới nhất của OpenAI, cải thiện tỷ lệ vượt qua chính xác tổng thể từ 25,7% lên 36,1% so với GPT-5.5. Sự tiến bộ mạnh nhất xuất hiện trong Truyền thông Khoa học (từ 56,3% lên 71,1%) và Chuyển giao (từ 36,8% lên 57,7%). Trên các tác vụ yêu cầu đầu ra hữu ích cho chuyên gia hoặc có thể hành động, GPT-Rosalind đạt 44,7% so với 29,1% của GPT-5.5. Trên các tác vụ yêu cầu xử lý sự không chắc chắn và lưu ý, nó đạt 44,8% so với 29,3%.
Tuy nhiên, hiệu suất vẫn yếu hơn nhiều trong các công việc khoa học nặng về tài liệu đính kèm, thiết kế và ràng buộc vận hành. Cụ thể, Thiết kế, Tối ưu hóa & Dự đoán là một trong những quy trình khó nhất, với tỷ lệ vượt qua của GPT-Rosalind chỉ 30,7%; Phân tích cũng khó tương tự ở 30,3%. Việc sử dụng tài liệu đính kèm là một khoảng cách đặc biệt rõ ràng: tỷ lệ vượt qua của GPT-Rosalind giảm từ 45,1% trên các tác vụ chỉ văn bản xuống 28,1% trên các tác vụ có tài liệu đính kèm hoặc URL. Các tác vụ yêu cầu đầu ra chính xác về trình tự, cấu trúc hoặc xây dựng cho thấy tỷ lệ vượt qua thấp hơn: GPT-Rosalind chỉ đạt 14,8% trên các tác vụ số và 24,0% trên các tác vụ trình tự hoặc cấu trúc.
Ý nghĩa và ứng dụng của LifeSciBench
LifeSciBench được thiết kế để giúp thu hẹp khoảng cách giữa các chuẩn đánh giá hiện tại và nhu cầu thực tế của nghiên cứu khoa học sự sống. Các chuẩn hiện tại thường tập trung vào các lĩnh vực hẹp hoặc kỹ năng riêng lẻ, dẫn đến các câu hỏi có định dạng có cấu trúc và câu trả lời tham chiếu rõ ràng. LifeSciBench nhằm đánh giá liệu một mô hình có thể đóng góp trên phạm vi rộng hơn của công việc nghiên cứu hay không.
Bộ chuẩn này cũng cung cấp một ví dụ đánh giá cụ thể về một gói dữ liệu cho cuộc họp FDA Loại B về liệu pháp gen AAV9-microDys-X cho bệnh loạn dưỡng cơ Duchenne, yêu cầu mô hình phân tích từng mục và chỉ ra những điểm yếu. Kết quả cho thấy các mô hình AI có thể hỗ trợ trong việc đánh giá bằng chứng khoa học, nhưng vẫn còn nhiều hạn chế trong các nhiệm vụ phức tạp, đặc biệt là khi phải xử lý nhiều tài liệu đính kèm và đưa ra các phán đoán chính xác.
Theo OpenAI
Ảnh: tungnguyen0905 / Pixabay
