Một làn sóng công nghệ mới đang hình thành, nơi các trợ lý trí tuệ nhân tạo (AI) không chỉ hiểu và trả lời câu hỏi mà còn có thể trực tiếp thao tác trên máy tính của chúng ta, tự động hóa các tác vụ phức tạp như một người dùng thực thụ. Hai tên tuổi lớn đi đầu trong lĩnh vực này là Microsoft với Copilot Studio và OpenAI với Operator.
Microsoft Copilot Studio: Trao Quyền Tự Động Hóa Cho Doanh Nghiệp
Gần đây, Microsoft đã nâng cấp Copilot Studio - nền tảng xây dựng trợ lý AI cho doanh nghiệp - với một tính năng đột phá tạm gọi là "sử dụng máy tính". Tính năng này cho phép các "tác nhân AI" (AI agents) tương tác trực tiếp với giao diện người dùng (GUI) của các trang web và ứng dụng trên máy tính để bàn.
Ông Charles Lamanna, Phó Chủ tịch tập đoàn phụ trách mảng Copilot doanh nghiệp của Microsoft, giải thích: "Tính năng này cho phép tác nhân AI nhấp chuột vào nút bấm, chọn các mục trong menu, và nhập liệu vào các trường thông tin. Điều này có nghĩa là, ngay cả khi một ứng dụng không có API (giao diện lập trình ứng dụng) để kết nối, nếu con người có thể sử dụng nó, thì tác nhân AI cũng có thể." Với Copilot Studio, doanh nghiệp có thể xây dựng các trợ lý AI chuyên biệt để tự động hóa hàng loạt công việc như:
Điểm đáng chú ý là khả năng tự nhận diện và thích ứng với những thay đổi nhỏ về giao diện (như vị trí nút bấm, bố cục) của ứng dụng hoặc website, giúp quy trình tự động hóa diễn ra liền mạch, ít gặp lỗi.
Trước đó, Microsoft cũng đã giới thiệu tính năng "Actions" tương tự cho phiên bản Copilot dành cho người dùng cá nhân, cho phép thực hiện các tác vụ như đặt bàn nhà hàng, mua vé. Tuy nhiên, "Actions" hiện còn giới hạn ở một số đối tác nhất định, trong khi Copilot Studio tỏ ra linh hoạt hơn, có khả năng tương tác với nhiều loại ứng dụng và trang web khác nhau.
OpenAI Operator: Trợ Lý Cá Nhân Thông Minh "Lướt Web" Hộ Bạn
Không chịu thua kém, OpenAI cũng đã trình làng Operator, một trợ lý AI thế hệ mới với khả năng "lướt web" và thực hiện các tác vụ thay cho người dùng. Operator hoạt động bằng cách sử dụng một trình duyệt riêng, quan sát nội dung trang web và tương tác thông qua các hành động mô phỏng người dùng như gõ phím, nhấp chuột, cuộn trang.
Sức mạnh của Operator đến từ mô hình nền tảng "Tác nhân Sử dụng Máy tính", kết hợp năng lực thị giác của mô hình GPT-4o và khả năng suy luận tiên tiến thông qua học tăng cường. Điều này cho phép Operator "nhìn" (qua ảnh chụp màn hình) và "hành động" (qua các thao tác chuột, bàn phím ảo) trên hầu hết mọi giao diện web mà không cần tích hợp API phức tạp.
OpenAI nhấn mạnh các biện pháp an toàn và kiểm soát:
Trong giai đoạn đầu, Operator sẽ được thử nghiệm giới hạn tại Mỹ cho người dùng đăng ký gói ChatGPT Pro (với mức phí được đề cập là 200 USD/tháng). OpenAI đang hợp tác với các công ty như DoorDash, Instacart, OpenTable để tinh chỉnh và đảm bảo Operator hoạt động hiệu quả trong thực tế. Tuy nhiên, OpenAI cũng thừa nhận công cụ này có thể chưa hoàn hảo với các giao diện quá phức tạp như tạo slide trình chiếu hay quản lý lịch biểu chi tiết.
Hướng Tới Tương Lai Tự Động Hóa Thông Minh
Sự ra đời của các tính năng như trong Copilot Studio và Operator (cũng như các công nghệ tương tự từ những đối thủ như Claude AI) đánh dấu một bước tiến quan trọng. AI không còn bị giới hạn bởi các API được lập trình sẵn mà đang học cách tương tác với thế giới số theo cách của con người.
Trong khi Copilot Studio tập trung cung cấp một nền tảng mạnh mẽ cho doanh nghiệp tự xây dựng các giải pháp tự động hóa tùy chỉnh, thì Operator của OpenAI lại hướng đến vai trò một trợ lý cá nhân thông minh, thực hiện các tác vụ đa dạng trên web cho người dùng cuối.
Cả hai hướng đi này đều hứa hẹn cách mạng hóa cách chúng ta làm việc và tương tác với công nghệ, mở ra một tương lai nơi nhiều công việc lặp đi lặp lại có thể được tự động hóa một cách thông minh và hiệu quả hơn bao giờ hết.
Microsoft Copilot Studio: Trao Quyền Tự Động Hóa Cho Doanh Nghiệp
Gần đây, Microsoft đã nâng cấp Copilot Studio - nền tảng xây dựng trợ lý AI cho doanh nghiệp - với một tính năng đột phá tạm gọi là "sử dụng máy tính". Tính năng này cho phép các "tác nhân AI" (AI agents) tương tác trực tiếp với giao diện người dùng (GUI) của các trang web và ứng dụng trên máy tính để bàn.
Ông Charles Lamanna, Phó Chủ tịch tập đoàn phụ trách mảng Copilot doanh nghiệp của Microsoft, giải thích: "Tính năng này cho phép tác nhân AI nhấp chuột vào nút bấm, chọn các mục trong menu, và nhập liệu vào các trường thông tin. Điều này có nghĩa là, ngay cả khi một ứng dụng không có API (giao diện lập trình ứng dụng) để kết nối, nếu con người có thể sử dụng nó, thì tác nhân AI cũng có thể." Với Copilot Studio, doanh nghiệp có thể xây dựng các trợ lý AI chuyên biệt để tự động hóa hàng loạt công việc như:
- Nhập liệu tự động vào các hệ thống.
- Thu thập dữ liệu, nghiên cứu thị trường từ nhiều nguồn web.
- Xử lý hóa đơn, chứng từ trên các phần mềm kế toán.
Điểm đáng chú ý là khả năng tự nhận diện và thích ứng với những thay đổi nhỏ về giao diện (như vị trí nút bấm, bố cục) của ứng dụng hoặc website, giúp quy trình tự động hóa diễn ra liền mạch, ít gặp lỗi.
Trước đó, Microsoft cũng đã giới thiệu tính năng "Actions" tương tự cho phiên bản Copilot dành cho người dùng cá nhân, cho phép thực hiện các tác vụ như đặt bàn nhà hàng, mua vé. Tuy nhiên, "Actions" hiện còn giới hạn ở một số đối tác nhất định, trong khi Copilot Studio tỏ ra linh hoạt hơn, có khả năng tương tác với nhiều loại ứng dụng và trang web khác nhau.
OpenAI Operator: Trợ Lý Cá Nhân Thông Minh "Lướt Web" Hộ Bạn
Không chịu thua kém, OpenAI cũng đã trình làng Operator, một trợ lý AI thế hệ mới với khả năng "lướt web" và thực hiện các tác vụ thay cho người dùng. Operator hoạt động bằng cách sử dụng một trình duyệt riêng, quan sát nội dung trang web và tương tác thông qua các hành động mô phỏng người dùng như gõ phím, nhấp chuột, cuộn trang.
Sức mạnh của Operator đến từ mô hình nền tảng "Tác nhân Sử dụng Máy tính", kết hợp năng lực thị giác của mô hình GPT-4o và khả năng suy luận tiên tiến thông qua học tăng cường. Điều này cho phép Operator "nhìn" (qua ảnh chụp màn hình) và "hành động" (qua các thao tác chuột, bàn phím ảo) trên hầu hết mọi giao diện web mà không cần tích hợp API phức tạp.
OpenAI nhấn mạnh các biện pháp an toàn và kiểm soát:
- Tự điều chỉnh: Operator có khả năng suy luận để tự sửa lỗi khi gặp sự cố.
- Trả quyền kiểm soát: Nếu gặp tình huống phức tạp, nó sẽ chủ động dừng lại và yêu cầu người dùng tiếp quản.
- Bảo mật thông tin: Yêu cầu người dùng nhập thông tin nhạy cảm (tên đăng nhập, mật khẩu) và "nên" hỏi ý kiến trước khi thực hiện các hành động quan trọng (gửi email).
- An toàn nội dung: Được thiết kế để từ chối các yêu cầu độc hại và chặn nội dung không phù hợp.
Hướng Tới Tương Lai Tự Động Hóa Thông Minh
Sự ra đời của các tính năng như trong Copilot Studio và Operator (cũng như các công nghệ tương tự từ những đối thủ như Claude AI) đánh dấu một bước tiến quan trọng. AI không còn bị giới hạn bởi các API được lập trình sẵn mà đang học cách tương tác với thế giới số theo cách của con người.
Trong khi Copilot Studio tập trung cung cấp một nền tảng mạnh mẽ cho doanh nghiệp tự xây dựng các giải pháp tự động hóa tùy chỉnh, thì Operator của OpenAI lại hướng đến vai trò một trợ lý cá nhân thông minh, thực hiện các tác vụ đa dạng trên web cho người dùng cuối.
Cả hai hướng đi này đều hứa hẹn cách mạng hóa cách chúng ta làm việc và tương tác với công nghệ, mở ra một tương lai nơi nhiều công việc lặp đi lặp lại có thể được tự động hóa một cách thông minh và hiệu quả hơn bao giờ hết.
Tác giả: dân chơi 247
danchoi.com
danchoi.com