AI Agent (Trợ lý ảo AI) thực chất là gì?
Nếu bạn muốn đặt một cốc cà phê giao tận nhà bằng ứng dụng điện thoại thông thường, quy trình thao tác của bạn sẽ như sau: mở app đặt đồ ăn, nhập "cà phê" (hoặc thương hiệu), chọn một cửa hàng ưng ý, chọn loại cà phê, tùy chọn đá/giảm đường, nhập địa chỉ giao hàng, nhấn "đặt mua", sau đó nhập mật khẩu hoặc dùng Face ID để thanh toán…
Nhưng nếu điện thoại được tích hợp AI Agent (Trợ lý AI hoặc Đại lý AI), bạn chỉ cần nói: "Đặt giúp tôi một cà phê giao đến nhà nhanh nhất" — không cần thao tác gì thêm, nó sẽ tự động nhận diện vị trí của bạn, mở app giao đồ ăn, đoán chính xác thương hiệu và loại cà phê bạn thích, rồi hoàn tất thanh toán…
Hội nghị AI Thế giới 2025 (WAIC 2025) khai mạc tại Thượng Hải vào 26/7, và AI Agent trở thành chủ đề nóng trong các cuộc thảo luận. Trên thực tế, kể từ khi các mô hình lớn (LLM) bắt đầu cạnh tranh ứng dụng thực tế, AI Agent đã liên tục được nhắc đến. Vậy rốt cuộc AI Agent là gì? Hiện nó đang ở giai đoạn phát triển nào?
Khác biệt gì so với trợ lý ảo truyền thống?
"Bạn có thể hiểu nó như một 'thư ký toàn năng'." — Ông Vạn Vệ Tinh, Trưởng bộ phận Công nghệ Sản phẩm AI của Qualcomm Trung Quốc, giải thích với Trung Tân Kinh Vĩ một cách dễ hiểu. Ông cho biết, tính "toàn năng" của AI Agent thể hiện ở khả năng không chỉ xử lý các tác vụ đơn giản mà còn đảm nhận những nhiệm vụ phức tạp trong mọi mặt đời sống và công việc.
"AI Agent sẽ khiến cuộc sống và công việc trở nên đơn giản, tốt đẹp hơn." Ông Vạn nói rằng người dùng chỉ cần đưa ra yêu cầu bằng giọng nói, Agent sẽ tự động hoàn thành tác vụ, đồng thời nhờ khả năng cá nhân hóa và thấu hiểu, nó thực sự có thể "hiểu bạn muốn gì".
Theo báo cáo của China Galaxy Securities (tháng 6), nghiên cứu "AI Agents Knocking at the Door" từ Morgan Stanley chỉ ra rằng AI Agents không còn đơn thuần là công cụ hỗ trợ con người, mà đang dần trở thành chủ thể ra quyết định và thực thi, tiến hóa từ công cụ tự động hóa đơn giản thành "lao động kỹ thuật số" với khả năng tự học, tự hành động và tư duy. Báo cáo định nghĩa AI Agents là phần mềm tự chủ có thể nhận thức môi trường, lập kế hoạch, gọi công cụ và lặp lại linh hoạt.
AI Agent không chỉ là một ứng dụng đơn lẻ, mà là một hệ thống hoàn chỉnh. Ông Vạn lấy ví dụ về việc "đặt cà phê": Khi người dùng ra lệnh bằng giọng nói, Agent sẽ trải qua 4 bước:
-
Chuyển giọng nói thành văn bản,
-
Sử dụng mô hình lớn (não bộ) để hiểu ý định,
-
Tra cứu bộ nhớ cá nhân (app ưa dùng, khẩu vị, địa chỉ nhà…),
-
Tổng hợp thông tin, gọi API hoặc mô phỏng thao tác chạm để hoàn tất đơn hàng.
Hiện nay, "mô phỏng thao tác chạm" là một trong những cách Agent vận hành — nghĩa là nó bắt chước thao tác của người dùng nhưng không cần họ can thiệp. Thời gian hoàn thành phụ thuộc vào số bước (ví dụ: lật bao nhiêu trang). "Mỗi bước hiện chỉ mất chưa đến 2 giây."
So với trợ lý ảo truyền thống ("tôi nói, nó đáp"), AI Agent đóng vai trò như "người điều phối". Chatbot và trợ lý giọng nói phụ thuộc vào lệnh rõ ràng, chỉ xử lý tác vụ đơn giản, và con người vẫn là người ra quyết định.
Trong mô hình "con người dẫn dắt, AI hỗ trợ", AI chỉ thực thi. Nhưng AI Agent — như một "trợ lý" — thay đổi điều này bằng cách giải quyết vấn đề phức tạp thay vì yêu cầu tương tác từng bước. Ông Vạn khẳng định, Agent thực thụ phải hoạt động theo mô hình "AI chủ đạo, con người hỗ trợ", nghĩa là người dùng chỉ cần giao nhiệm vụ hoặc kiểm tra kết quả, còn lại để máy móc và AI đảm nhận.