DeepSeek ra mắt mô hình AI miễn phí, thách thức OpenAI, khả năng chạy trên Mac Studio

Collapse
X
 
  • Time
  • Show
Clear All
new posts
  • datlinh02
    Super Moderator
    • Jan 2025
    • 7887

    DeepSeek ra mắt mô hình AI miễn phí, thách thức OpenAI, khả năng chạy trên Mac Studio

    Trong một động thái bất ngờ, công ty khởi nghiệp AI Trung Quốc DeepSeek vừa lặng lẽ phát hành mô hình ngôn ngữ lớn mới có tên DeepSeek-V3-0324 trên nền tảng Hugging Face. Sự xuất hiện của mô hình khổng lồ 641GB này không chỉ gây chú ý bởi hiệu suất vượt trội mà còn bởi cách triển khai độc đáo, đúng với phong cách "âm thầm nhưng có tác động lớn" đặc trưng của DeepSeek. Với giấy phép MIT cho phép sử dụng miễn phí cho mục đích thương mại và khả năng chạy trực tiếp trên phần cứng tiêu dùng cao cấp như Apple Mac Studio với chip M3 Ultra, DeepSeek-V3-0324 đang được xem là một "cơn ác mộng thực sự" đối với OpenAI.

    Click image for larger version

Name:	deepseek-v3.jpg
Views:	24
Size:	29.9 KB
ID:	17172
    Miễn phí và mã nguồn mở

    DeepSeek-V3-0324 được phát hành dưới giấy phép MIT, cho phép sử dụng miễn phí, kể cả cho mục đích thương mại. Đây là một đòn giáng trực tiếp vào mô hình kinh doanh độc quyền của OpenAI, nơi các mô hình AI thường bị khóa sau hàng rào trả phí. Việc cung cấp một mô hình tiên tiến hoàn toàn miễn phí đã mở ra cơ hội cho hàng nghìn nhà phát triển và doanh nghiệp trên toàn cầu.

    Chạy trên phần cứng tiêu dùng cao cấp

    Điểm đáng kinh ngạc nhất là mô hình này có thể hoạt động trên Apple Mac Studio với chip M3 Ultra. Theo nhà nghiên cứu AI Awni Hannun, phiên bản 4-bit của DeepSeek-V3-0324 đạt tốc độ xử lý trên 20 token/giây trên Mac Studio với cấu hình M3 Ultra 512GB, sử dụng thư viện mlx-lm. Dù Mac Studio có giá 9.499 USD, vượt xa khái niệm "phần cứng tiêu dùng" thông thường, khả năng chạy một mô hình AI khổng lồ cục bộ mà không cần trung tâm dữ liệu đắt đỏ đánh dấu một bước ngoặt quan trọng trong ngành.

    Click image for larger version

Name:	Screenshot 2025-03-25 092914.png
Views:	15
Size:	242.9 KB
ID:	17173

    Kiến trúc "Mixture-of-Experts" (MoE) đột phá


    DeepSeek-V3-0324 sử dụng kiến trúc Mixture-of-Experts (MoE), một cách tiếp cận sáng tạo giúp tối ưu hóa hiệu suất. Thay vì kích hoạt toàn bộ tham số như các mô hình truyền thống, DeepSeek chỉ sử dụng khoảng 37 tỷ tham số trong tổng số 685 tỷ tham số cho mỗi tác vụ cụ thể. Điều này không chỉ giảm yêu cầu tính toán mà còn cho phép mô hình đạt hiệu suất tương đương với các mô hình lớn hơn gấp nhiều lần.

    Công nghệ tiên tiến: MLA và MTP

    Mô hình tích hợp hai công nghệ đột phá:
    • Multi-Head Latent Attention (MLA): Tăng cường khả năng duy trì ngữ cảnh trong các đoạn văn bản dài, giúp AI hiểu sâu và xử lý chính xác hơn.
    • Multi-Token Prediction (MTP): Cho phép tạo ra nhiều token trong mỗi bước thay vì từng token một, nâng tốc độ đầu ra lên gần 80%.
    Click image for larger version

Name:	deepseek-v3-2.png
Views:	15
Size:	196.5 KB
ID:	17174

    Nhờ những cải tiến này, DeepSeek-V3-0324 không chỉ mạnh mẽ mà còn hiệu quả, mang lại trải nghiệm ấn tượng ngay cả trên phần cứng tiêu dùng.

    Khả năng chạy cục bộ trên Mac Studio khiến mô hình dịch vụ đám mây của OpenAI trở nên kém hấp dẫn. Nếu người dùng có thể triển khai AI tiên tiến trên máy tính cá nhân, sự phụ thuộc vào các trung tâm dữ liệu đám mây sẽ giảm mạnh, ảnh hưởng trực tiếp đến doanh thu của OpenAI.

    DeepSeek-V3-0324 không chỉ là một mô hình độc lập mà còn được xem là bước đệm cho DeepSeek-R2, một mô hình tập trung vào lập luận dự kiến ra mắt trong vòng hai tháng tới. Nếu DeepSeek-R2 tiếp tục quỹ đạo thành công của các phiên bản trước, nó có thể cạnh tranh trực tiếp với GPT-5, mô hình hàng đầu sắp ra mắt của OpenAI. Sự tương phản giữa chiến lược mở của DeepSeek và cách tiếp cận đóng của OpenAI đang định hình hai tầm nhìn hoàn toàn khác biệt về tương lai AI. Tầm nhìn và tác động lâu dài

    Sự ra mắt của DeepSeek-V3-0324 gợi nhớ đến tác động của Android trong lĩnh vực di động. Bằng cách cung cấp công nghệ miễn phí và mã nguồn mở, DeepSeek tạo điều kiện cho sự đổi mới tập thể từ cộng đồng nhà phát triển toàn cầu. Điều này có thể giúp các mô hình nguồn mở vượt qua các hệ thống đóng về mức độ phổ biến và ảnh hưởng trong tương lai.

    Tác giả: dân chơi 247
    danchoi.com
Working...