27/06/2026 · 4 phút đọc

DSpark là gì? Bước nhảy vọt về throughput Inference từ DeepSeek

DeepSeek vừa mở nguồn DSpark và framework DeepSpec, hứa hẹn tăng throughput inference từ 51% đến 400% nhờ kỹ thuật đầu cơ token thông minh.

DeepSeekDSparkInferenceLLM

Disclaimer: Thông tin được cung cấp trên trang web này chỉ mang tính chất tham khảo chung, tìm hiểu công nghệ mới. thienlm.com không chịu trách nhiệm về bất kỳ lỗi hoặc thiếu sót nào trong nội dung (nếu có). Hãy cẩn trọng trong việc tìm hiểu thông tin. Nếu muốn góp ý thêm với mình về một vấn đề nào đó, vui lòng gửi liên hệ đến mình tại đây. Cảm ơn bạn đã dành thời gian ở đây. Peace 🍀

DeepSeek vừa tạo nên một cơn địa chấn mới trong cộng đồng công nghệ khi chính thức công bố DSpark và mở nguồn framework DeepSpec. Đây là một giải pháp đột phá giải quyết bài toán nhức nhối nhất hiện nay của các hệ thống AI: Chi phí vận hành và tốc độ Inference (throughput).

Theo dữ liệu công bố, công nghệ này có khả năng tăng throughput từ 51% đến 400% so với cơ chế Multi-Token Prediction (MTP) truyền thống, thậm chí một số benchmark ghi nhận mức tăng tốc lên tới 600%.

Từ Cách Tạo Token Truyền Thống Đến Speculative Decoding

Thông thường, các Large Language Model (LLM) tạo văn bản theo cơ chế tự hồi quy (autoregressive) từng bước một:

Token 1 ──> Token 2 ──> Token 3 ──> Token 4...

Quy trình này buộc một mô hình khổng lồ phải kích hoạt toàn bộ tham số chỉ để dự đoán một từ duy nhất tiếp theo, gây lãng phí tài nguyên tính toán nghiêm trọng và làm chậm tốc độ phản hồi.

Cách DSpark hoạt động

Thay vì đi từng bước chậm chạp, DSpark ứng dụng kỹ thuật Speculative Decoding (Giải mã đầu cơ) một cách thông minh:

Giai đoạn dự đoán: Một mô hình nhỏ (Draft Model) có tốc độ cực nhanh nhưng nhẹ hơn sẽ chạy trước để đoán một cụm nhiều token cùng lúc.
Giai đoạn xác thực: Mô hình lớn (Target Model) đảm nhận vai trò "kiểm toán viên", chỉ cần chạy một lần duy nhất để xác nhận hoặc hiệu đính toàn bộ cụm token mà mô hình nhỏ đã đoán.

Nếu mô hình nhỏ đoán đúng, hệ thống sẽ sinh ra một chuỗi token dài chỉ trong một chu kỳ xử lý duy nhất của mô hình lớn, giúp giảm đáng kể độ trễ (latency).

Những Con Số Ấn Tượng Từ DeepSeek

DSpark không chỉ là một nghiên cứu lý thuyết, các kết quả thử nghiệm thực tế cho thấy tiềm năng thay đổi cuộc chơi của công nghệ này trong năm 2026:

Tăng tốc vượt trội: Tăng throughput trung bình từ 51% - 400% so với MTP. Ở một số điều kiện lý tưởng, tốc độ xử lý có thể tăng tới 600%.
Độ tương thích cao: Hoạt động mượt mà trên cả hai phiên bản DeepSeek V4 Flash và DeepSeek V4 Pro.
Khả năng mở rộng: Kỹ thuật này không độc quyền cho DeepSeek, nó có thể áp dụng hiệu quả cho các mô hình mã nguồn mở phổ biến khác như Qwen và Gemma.
Vượt mặt các đối thủ: DSpark chứng minh hiệu năng áp đảo hoàn toàn so với các phương pháp Speculative Decoding phổ biến hiện nay như Eagle3 và DFlash trên nhiều bài kiểm tra benchmark khác nhau.

DeepSpec: Trao Quyền Cho Cộng Đồng

Điều khiến DeepSeek luôn được cộng đồng mã nguồn mở đánh giá cao là họ không giữ công nghệ này cho riêng mình. Song song với DSpark, họ đã open-source toàn bộ framework DeepSpec.

DeepSpec cho phép các nhà phát triển và thế giới công nghệ tự huấn luyện (train) và đánh giá các draft model tùy biến cho riêng mình, tối ưu hóa sâu hơn nữa hạ tầng AI dựa trên phần cứng sẵn có.

Nếu các kết quả này được tái hiện đồng đều trên môi trường Production thực tế, DSpark chắc chắn sẽ trở thành một trong những cột mốc quan trọng nhất của hạ tầng inference LLM, giúp đại chúng hóa các mô hình AI lớn với chi phí rẻ hơn nhiều lần.

Tài Nguyên Tham Khảo

Bạn có thể tự tay thử nghiệm và đào sâu vào mã nguồn của công nghệ này thông qua các liên kết chính thức dưới đây:

Kho lưu trữ Source Code: Github DeepSpec
Tài liệu nghiên cứu chi tiết: DSpark Paper PDF
Tải Model trên Hugging Face: DeepSeek-V4-Pro-DSpark