Chi phí AI đang tăng chóng mặt khi các doanh nghiệp tiêu thụ lượng token khổng lồ, khiến ngân sách cạn kiệt nhanh hơn dự kiến. Uber đã dùng hết ngân sách AI năm 2026 chỉ trong 4 tháng, trong khi AT&T chứng kiến mức tiêu thụ token tăng gấp 27 lần sau 18 tháng. Hiện tượng này được gọi là 'token explosion' (bùng nổ token) – nhu cầu về trí tuệ kỹ thuật số bổ sung cho trí tuệ con người là rất lớn và ngày càng tăng, ảnh hưởng đến mọi doanh nghiệp trên toàn cầu.
Token là gì và tại sao chi phí AI lại tăng vọt?
Token là đơn vị cơ bản của tính toán AI, tương đương với một 'mảnh từ' hoặc 'khối dữ liệu', được tiêu thụ mỗi khi mô hình xử lý đầu vào hoặc tạo ra đầu ra. Mỗi tương tác với mô hình ngôn ngữ lớn (LLM) đều đốt token. Các tác nhân tự động hóa, vòng lặp suy luận nền và quy trình làm việc nhiều bước tiêu thụ nhiều hơn nữa. Khi doanh nghiệp chuyển từ AI dạng chat sang AI tác nhân (agentic AI) – nơi các lệnh gọi được xâu chuỗi, tài liệu được truy xuất, dữ liệu được suy luận và hành động diễn ra tự động – mức tiêu thụ token tăng theo cấp số nhân, không chỉ gấp đôi hay gấp ba.
Hệ thống AI nội bộ của AT&T hiện tiêu thụ 27 tỷ token mỗi ngày, so với 1 tỷ token cách đây 18 tháng. Một công ty bảo hiểm y tế lớn chứng kiến mức tiêu thụ token hàng tháng tăng từ 3 triệu lên hơn 150 triệu trong vòng chưa đầy một năm. Chi phí token đã giảm 1.000 lần trong 3 năm, nhưng 'token explosion' đã nuốt chửng khoản tiết kiệm đó: doanh nghiệp chi tiêu nhiều hơn thay vì ít đi.
Ba lực lượng tạo nên 'bẫy chi phí AI'
Thứ nhất, sự phụ thuộc vào đổi mới: Các nhà cung cấp AI hàng đầu như OpenAI, Anthropic và Google liên tục tung ra các mô hình và tính năng mới với tốc độ mà doanh nghiệp không thể theo kịp. Doanh nghiệp cần chúng, nhưng điều này tạo ra sự bất cân xứng về quyền lực: nhà cung cấp biết bạn không thể rời bỏ họ, và các điều khoản ngày càng đắt đỏ theo từng quý.
Thứ hai, nghịch lý Jevons hiện thực hóa: Chi phí mỗi token giảm, nhưng tiêu thụ tăng nhanh hơn, dẫn đến tổng chi phí tăng. Anthropic đã loại bỏ giá cố định doanh nghiệp sau khi phát hiện các nhà phát triển chi tiêu hàng nghìn đô la cho gói 200 USD/tháng. OpenAI cũng chuyển Codex sang tính phí theo token. Các nhà cung cấp AI lớn đều hội tụ về mô hình trả tiền theo mức sử dụng.
Thứ ba, khóa cấu trúc: Với mô hình trả tiền theo mức sử dụng, mỗi lần triển khai tác nhân mới lại làm tăng sự phụ thuộc vào nhà cung cấp, nơi họ kiểm soát đơn giá và điều khoản. Nếu không có giải pháp thay thế, các cuộc đàm phán gia hạn hàng quý sẽ chỉ có một bên nắm đòn bẩy.
Giải pháp nào cho doanh nghiệp?
Các công cụ hiện tại như bảng điều khiển theo dõi chi tiêu, cảnh báo ngân sách và phân tích chi phí theo mô hình chỉ giúp doanh nghiệp 'nhìn thấy' rủi ro, nhưng không giảm thiểu nó. Giới hạn tốc độ và ngân sách có thể ngăn AI hoạt động khi đạt ngưỡng, nhưng CIO sẽ mất khối lượng công việc. Dung lượng dự trữ từ các nhà cung cấp đám mây lớn cố định đơn giá nhưng chỉ chuyển rủi ro dự đoán sang doanh nghiệp, tạo ra sự không khớp về dung lượng.
Các CIO thông minh đang tìm kiếm các nhà cung cấp hạ tầng AI có thể hấp thụ rủi ro về khối lượng token và chuyển đổi thành chi phí hàng tháng có thể dự đoán được. Các nhà cung cấp này sử dụng định hình lưu lượng, bộ nhớ đệm thông minh, định tuyến mô hình và lập kế hoạch công suất để giữ biến động đơn giá token ở lớp của họ, không ảnh hưởng đến doanh nghiệp. Đây không chỉ là vấn đề mua sắm CNTT, mà là câu hỏi chiến lược về ai nắm đòn bẩy trong chuỗi cung ứng AI.
Doanh nghiệp nào đưa ít nhất một nhà cung cấp hạ tầng AI giá cố định hoặc dựa trên giá trị vào cơ sở cung ứng của mình sẽ đạt được hai điều: khả năng dự đoán chi phí và một 'giải pháp thay thế đáng tin cậy' để thay đổi động lực đàm phán với các nhà cung cấp hàng đầu. Ngược lại, các doanh nghiệp vẫn duy trì quan hệ trả tiền theo mức sử dụng thuần túy với tất cả các nhà cung cấp AI đang chơi một trò chơi mà đối phương kiểm soát mọi biến số.
Theo Forbes JAPAN
Ảnh: Tho-Ge / Pixabay
