DeepSeek近日在官方社交平臺(tái)發(fā)布了一項(xiàng)重大決定,宣布將其核心組件3FS(Fire-Flyer 文件系統(tǒng))全面開源。這一舉措被視為DeepSeek在數(shù)據(jù)訪問領(lǐng)域的一大推力器。
3FS,即Fire-Flyer 文件系統(tǒng),是一種專為現(xiàn)代SSD和RDMA網(wǎng)絡(luò)設(shè)計(jì)的高效并行文件系統(tǒng)。它能夠充分利用這些先進(jìn)硬件的全部帶寬,實(shí)現(xiàn)卓越的數(shù)據(jù)處理能力。
據(jù)DeepSeek介紹,3FS在性能表現(xiàn)上尤為亮眼。在180節(jié)點(diǎn)的集群環(huán)境中,其聚合讀取吞吐量高達(dá)6.6TiB/s;而在25節(jié)點(diǎn)的集群中,GraySort基準(zhǔn)測(cè)試的吞吐量更是達(dá)到了驚人的3.66TiB/分鐘。每個(gè)客戶端節(jié)點(diǎn)的KVCache查找峰值吞吐量也超過了40GiB/s。更為先進(jìn)的是,3FS采用了具有強(qiáng)一致性語義的分解架構(gòu),確保了數(shù)據(jù)的高可用性和一致性。
3FS在DeepSeek的V3/R1版本中發(fā)揮了關(guān)鍵作用。在訓(xùn)練數(shù)據(jù)預(yù)處理、數(shù)據(jù)集加載、檢查點(diǎn)保存/重新加載、嵌入向量搜索以及KVCache查找等推理過程中,3FS都提供了強(qiáng)有力的支持。這使得DeepSeek在處理大規(guī)模數(shù)據(jù)集時(shí)能夠更加高效、穩(wěn)定。
DeepSeek此次開源3FS,無疑將推動(dòng)數(shù)據(jù)訪問技術(shù)的發(fā)展和創(chuàng)新。對(duì)于廣大開發(fā)者而言,這無疑是一個(gè)難得的機(jī)遇,可以深入研究和利用3FS的先進(jìn)技術(shù),進(jìn)一步提升數(shù)據(jù)處理和應(yīng)用性能。