在科技界的一次重要動向中,DeepSeek公司在近期宣布了其“開源周”活動的深入進展,于2月27日揭曉了第四日的開源成果——專注于優(yōu)化并行策略的一系列技術創(chuàng)新。
此次公開的技術亮點涵蓋了DualPipe,這是一種專為V3/R1訓練設計的雙向流水線并行算法,旨在通過計算與通信的重疊,顯著提升效率。同時,EPLB作為V3/R1的專家并行負載均衡器,為資源分配提供了更為智能的解決方案。DeepSeek還深入分析了V3/R1中的計算通信重疊現(xiàn)象,為進一步優(yōu)化提供了理論基礎。
回顧整個“開源周”,DeepSeek的每一步都備受矚目。活動自2月24日啟動以來,已陸續(xù)向公眾開放了多個核心代碼庫。首日,F(xiàn)lash MLA作為首個開源項目,為機器學習領域注入了新的活力。緊接著,在2月25日,DeepSeek推出了DeepEP,這是一個專為MoE(混合專家)模型訓練和推理設計的EP通信庫,進一步推動了模型處理能力的邊界。
而到了2月26日,DeepSeek再次發(fā)力,開源了DeepGEMM庫。這一庫支持FP8(8位浮點數(shù))通用矩陣乘法運算,不僅適用于密集型計算,還完美契合混合專家(MoE)架構,為高性能計算領域帶來了新的可能。
DeepSeek的這一系列開源舉措,不僅展示了其在人工智能領域的深厚積累,也體現(xiàn)了其開放共享、推動行業(yè)進步的企業(yè)精神。隨著“開源周”的持續(xù)深入,更多前沿技術有望被更多開發(fā)者所掌握,共同推動技術的創(chuàng)新與發(fā)展。