OpenAI tung ra o3 và o4-mini Bộ đôi mô hình AI có khả năng suy luận vượt trội

**datlinh02** · 17-04-2025, 08:49 AM

Hôm nay, OpenAI đã gây chấn động giới công nghệ khi chính thức công bố ra mắt hai mô hình suy luận AI mới đầy hứa hẹn:o3 và o4-mini.
Điểm đặc biệt của bộ đôi này nằm ở khả năng "tạm dừng để nghiền ngẫm" câu hỏi trước khi đưa ra phản hồi, hứa hẹn mang đến những câu trả lời sâu sắc và chính xác hơn.

OpenAItự hào mô tả o3 là mô hình suy luận tiên tiến nhất mà họ từng phát triển. Theo các thử nghiệm nội bộ, o3 đã chứng minh sự vượt trội so với các thế hệ trước trong hàng loạt lĩnh vực quan trọng như toán học, lập trình, suy luận logic, khoa học và khả năng nhận thức trực quan. Với sức mạnh vượt trội này, o3 được kỳ vọng sẽ giải quyết tốt những truy vấn phức tạp, thực hiện phân tích đa chiều và đưa ra những câu trả lời không dễ dàng tìm thấy.

Trong khi đó, o4-mini được định vị là một lựa chọn cân bằng giữa chi phí, tốc độ và hiệu suất. Đây là một yếu tố quan trọng đối với các nhà phát triển đang tìm kiếm một mô hình AI mạnh mẽ nhưng vẫn đảm bảo tính kinh tế và thời gian phản hồi nhanh chóng cho các ứng dụng của họ. Mặc dù nhỏ gọn hơn, o4-mini vẫn thể hiện hiệu suất ấn tượng trong nhiều tác vụ, đặc biệt là trong các lĩnh vực như toán học, lập trình và thị giác.

Một điểm khác biệt đáng chú ý của o3 và o4-mini so với các mô hình trước đây là khả năng tận dụng các công cụ mạnh mẽ của ChatGPT. Giờ đây, cả hai mô hình đều có thể sử dụng các tính năng như duyệt web để tìm kiếm thông tin cập nhật, thực thi mã Python để giải quyết các bài toán phức tạp, cũng như xử lý và tạo ảnh để hỗ trợ việc tạo ra các phản hồi đa dạng và trực quan hơn.

Ngay từ hôm nay, cả o3 và o4-mini, cùng với biến thể o4-mini-high (được tối ưu hóa để tạo ra những câu trả lời đáng tin cậy hơn), đã sẵn sàng cho người dùng đăng ký các gói Pro, Plus và Team của OpenAI.

Động thái ra mắt này cho thấy nỗ lực không ngừng của OpenAI trong việc duy trì vị thế dẫn đầu trên thị trường AI toàn cầu, nơi đang chứng kiến sự cạnh tranh gay gắt từ các đối thủ như Google, Meta, xAI, Anthropic và DeepSeek.

Đã có những thông tin cho rằng o3 suýt chút nữa đã không được tích hợp vào ChatGPT. CEO Sam Altman của OpenAI từng đề xuất tập trung nguồn lực vào một giải pháp phức tạp hơn. Tuy nhiên, áp lực cạnh tranh mạnh mẽ dường như đã thúc đẩy OpenAI thay đổi quyết định và tung ra o3. OpenAI tự tin tuyên bố rằng o3 đạt hiệu suất hàng đầu trên bộ đánh giá SWE-bench verified (không cần cấu trúc hỗ trợ tùy chỉnh) với số điểm ấn tượng 69,1% trong bài kiểm tra khả năng lập trình. o4-mini cũng không kém cạnh với số điểm 68,1%. Để so sánh, o3-mini đạt 49,3% và Claude 3.7 Sonnet đạt 62,3%.

Một khả năng đột phá khác của o3 và o4-mini là “suy nghĩ bằng hình ảnh”. Người dùng giờ đây có thể tải hình ảnh lên ChatGPT (ví dụ: một bản phác thảo trên bảng trắng hoặc một sơ đồ PDF) để các mô hình phân tích trong giai đoạn "chuỗi suy nghĩ" trước khi đưa ra câu trả lời. Điều này cho phép chúng hiểu được cả những hình ảnh mờ, chất lượng thấp và thực hiện các tác vụ như phóng to, xoay ảnh trong quá trình suy luận, mở ra những tiềm năng ứng dụng vô cùng lớn.

Ngoài khả năng xử lý hình ảnh, o3 và o4-mini còn có thể chạy và thực thi trực tiếp mã Python ngay trong trình duyệt thông qua tính năng Canvas của ChatGPT, cũng như tìm kiếm thông tin trên web về các sự kiện đang diễn ra. Bên cạnh ChatGPT, cả ba mô hình (o3, o4-mini và o4-mini-high) sẽ được cung cấp thông qua các API dành cho nhà phát triển của OpenAI (Chat Completions API và Responses API), tạo điều kiện cho việc xây dựng các ứng dụng sáng tạo dựa trên sức mạnh của các mô hình này với mức phí linh hoạt theo mức sử dụng.

Về mặt giá cả, OpenAI đã đưa ra mức giá cạnh tranh cho o3 là 10 đô la/triệu token đầu vào và 40 đô la/triệu token đầu ra, tương xứng với hiệu suất vượt trội mà nó mang lại. o4-mini có mức giá tương đương với o3-mini, ở mức 1,10 đô la/triệu token đầu vào và 4,40 đô la/triệu token đầu ra, làm cho nó trở thành một lựa chọn hấp dẫn cho nhiều đối tượng người dùng.

Trong vài tuần tới, OpenAI dự kiến sẽ tiếp tục ra mắt o3-pro, một phiên bản mạnh mẽ hơn của o3, được thiết kế đặc biệt dành cho người đăng ký ChatGPT Pro.

CEO Sam Altman đã chia sẻ rằng o3 và o4-mini có thể là những mô hình suy luận AI độc lập cuối cùng của OpenAI được tích hợp vào ChatGPT trước khi GPT-5 ra mắt. GPT-5 được kỳ vọng sẽ là một mô hình thống nhất, kết hợp sức mạnh của các mô hình truyền thống (như GPT-4.1) với khả năng suy luận vượt trội của các mô hình hiện tại.

Tóm tắt chung về hiệu suất của o3 và o4-mini:

o3:

Mô hình suy luận mạnh mẽ nhất của OpenAI.
Vượt trội trong lập trình, toán học, khoa học, nhận thức thị giác.
Đạt hiệu suất hàng đầu (SOTA) trên các bộ đánh giá Codeforces, SWE-bench, MMMU.
Phù hợp với các truy vấn phức tạp, phân tích đa chiều, câu trả lời không hiển nhiên.
Mạnh mẽ trong phân tích hình ảnh, biểu đồ, đồ thị.
Giảm 20% lỗi nghiêm trọng so với o1 trong các tác vụ thực tế.
Được đánh giá cao về khả năng phân tích, tạo và đánh giá giả thuyết mới (trong các lĩnh vực như sinh học, toán học, kỹ thuật).

o4-mini:

Mô hình nhỏ gọn, suy luận nhanh và tiết kiệm chi phí.
Hiệu suất ấn tượng so với kích thước và giá cả (đặc biệt trong toán học, lập trình, thị giác).
Đạt hiệu suất tốt nhất trên các kỳ thi AIME 2024 và 2025.
Vượt trội hơn o3-mini trong các tác vụ phi STEM và khoa học dữ liệu.
Hỗ trợ giới hạn sử dụng cao, phù hợp cho khối lượng lớn truy vấn.

Điểm chung của o3 và o4-mini:

Có thể sử dụng các công cụ của ChatGPT (duyệt web, Python, xử lý ảnh).
Có khả năng “suy nghĩ bằng hình ảnh”, hiểu được ảnh mờ, chất lượng thấp và thực hiện các thao tác thu phóng, xoay ảnh.
Có thể chạy và thực thi mã Python trực tiếp trong trình duyệt.
Có khả năng tìm kiếm thông tin trên web về các sự kiện hiện tại.
Cải thiện khả năng tuân theo hướng dẫn và đưa ra phản hồi hữu ích, có thể kiểm chứng.
Mang lại trải nghiệm trò chuyện tự nhiên hơn, có khả năng sử dụng bộ nhớ và lịch sử hội thoại.

Việc ra mắt o3 và o4-mini đánh dấu một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo, hứa hẹn mang đến những trải nghiệm và ứng dụng AI mạnh mẽ và linh hoạt hơn cho người dùng và các nhà phát triển trên toàn thế giới.