色噜噜五月综合激情久久爱-色噜噜视频-色噜噜色噜噜天天拍一拍-色噜噜人体337p人体-色噜噜噜噜噜在线观看网站-色噜噜狠狠在爱丁香

新聞中心
News
聯系我們
 

電 話:86-755-82910368

傳 真:86-755-82910673

郵 箱:[email protected]

郵 編:518001

外媒拆解DeepSeek制勝秘籍!OpenAI CEO終于認錯:我們站在了歷史錯誤的一邊

時間:25-02-05 來源:摘自-智東西

外媒拆解DeepSeek制勝秘籍!OpenAI CEO終于認錯:我們站在了歷史錯誤的一邊

大年初四,當之無愧的春節頂流DeepSeek仍在持續刷屏霸榜,熱度不減。

前腳,DeepSeek面臨的巨頭企業官宣加入vs多國政府下場質疑的冰火兩重天局勢尚未平靜(DeepSeek在美兩重天:五大巨頭接入,政府誠惶誠恐);后腳,OpenAI被逼急,凌晨亮出全新推理模型o3-mini,并在ChatGPT首次向所有用戶免費提供推理模型,不過o3-miniAPI定價還是高于DeepSeek模型(重磅!OpenAIo3-mini新模型,被DeepSeek逼急?定價仍打不過)。

o3-mini發布后,OpenAI CEO薩姆·阿爾特曼(Sam Altman)在Reddit上提到,要學習DeepSeek將推理模型的思考過程公開;OpenAI的閉源策略使他們站到了歷史錯誤的一邊,將重新思考OpenAI的開源策略;并坦言他們的領先優勢已經不如之前大了。

繼美國兩大云巨頭后,華為云今日宣布與硅基流動聯合推出并上線基于華為云昇騰云服務的DeepSeek R1/V3推理服務。

         

o3-mini的發布并沒有分散DeepSeek的討論度。昨天,半導體研究和咨詢公司SemiAnalysis的一項新報告揭秘了DeepSeek成功的關鍵因素及推測:

DeepSeek擁有至少大約5萬塊Hopper架構的GPU,且GPU投資已超過5億美元;

600萬美元成本只包含其預訓練運行的GPU成本,不包括硬件本身的研發和總體擁有成本(TCO)等重要部分;

為了吸納人才給有前途的候選人提供超過130萬美元(折合約942萬人民幣)的年薪;

關鍵創新多頭潛注意力(MLA)將每個查詢KV量減少93.3%,顯著降低了推理價格。

DeepSeek的成功在硅谷掀起波瀾,今日上午,英偉達創始人兼CEO黃仁勛被緊急召進美國白宮,與美國總統Donald Trump(唐納德·特朗普)討論了DeepSeek以及收緊AI芯片出口。

知情人士透露,特朗普認為這家中國公司的出現意味著“美國公司不必花費大量資金來構建低成本AI替代品”。此外,其會議上還提到,美國政府將在今年春天進一步限制AI芯片出口,以確保美國及其盟友繼續擁有先進的計算能力。

昨晚,國內AI產品分析平臺AI產品榜發布的數據顯示,上線18天的DeepSeek日活已經達到1500萬,ChatGPT1500萬花了244天,DeepSeek增速是ChatGPT13倍。

    

截止當前DeepSeek依然霸榜,位列蘋果應用商店157個國家/地區的第一名。

這場關于DeepSeek的爭吵仍然沒有停下。Meta首席科學家楊立昆發文銳評,他認為硅谷圈子中的“常見病”是:錯位的優越感。病癥的高級階段是,認為自己的小圈子已經壟斷了好的想法,病癥末期是,假設來自其他地方的創新都是通過作弊獲得的。

          

01.

OpenAI回應定價、針對開源策略認錯

劇透GPT-5、坦言領先優勢變小

阿爾特曼和OpenAI首席研究官Mark Chen、OpenAI首席產品官Kevin Weil等現身Reddit,在回復用戶問題時多次提到DeepSeek,并且劇透了OpenAI的新研究進展。

OpenAI首次回應了o3-mini價格沒有競爭力,OpenAI API研究主管Michelle Pokrass稱,o3-mini相比于美國托管版本的DeepSeek具有競爭力。

   

阿爾特曼還稱贊DeepSeek是一個非常好的模型,并且稱“我們將保持比往年更少的領先優勢”。

     

看到開源的DeepSeek發布,阿爾特曼對OpenAI的閉源策略進行了反思。他透露,OpenAI正在討論(發布一些模型權重等)。他說:“我個人認為我們在這里站在了歷史錯誤的一邊,需要找出不同的開源策略,但并非OpenAI的每個人都同意這種觀點,這也不是我們目前的首要任務?!?/span>

    

DeepSeekR1模型可以向用戶顯示模型中間的思考過程,阿爾特曼稱OpenAI將效仿DeepSeek的做法:“是的,我們很快會展示一個更有用、更詳細的版本。感謝R1讓我們有所更新。”OpenAI可能更多地揭示其推理模型(如o3-mini)的“思考過程”。

    

OpenAI首席產品官Kevin Weil還劇透了OpenAI的新進展。

4o的圖像生成功能可能要幾個月后推出。

    

高級語音更新即將推出,GPT-5的發布還沒有時間表。

    

OpenAI計劃將文件附加功能添加到推理模型中。

    

完整的o3模型將在幾周、不到幾個月的時間內完整亮相。

    

02.

DeepSeek的制勝秘籍:

手握6萬塊GPU,千萬年薪招人

半導體研究和咨詢公司SemiAnalysis的一項新報告揭秘了DeepSeek成功的關鍵因素及推測。

其研究顯示,DeepSeek不是外界所傳的“副業”,其GPU投資已經超過5億美元。

DeepSeek擁有至少大約5萬塊Hopper架構的GPU,其中可能大約有1萬塊H800、1萬塊H100、3萬塊H201萬塊A100。這些GPU在幻方量化和DeepSeek之間共享,用于交易、推理、訓練和研究。

    

報告分析表明,DeepSeek的總服務器資本支出約為16億美元(折合約116億人民幣),運營此類集群的成本高達9.44億美元(折合約68億人民幣)。

DeepSeek的價格和效率在本周引起了業界的狂熱討論:DeepSeek用不到600萬美元的成本,干翻了硅谷巨頭們花費數十億美金訓練的AI模型。

SemiAnalysis的報告提到,這個說法存在錯誤,這類似于將產品物料清單的特定部分并將其歸因為全部成本,預訓練成本在總成本中只占很小的一部分。

600萬美元只包含其預訓練運行的GPU成本,只是模型總成本的一部分,不包括硬件本身的研發和總體擁有成本(TCO)等重要部分。

作為參考,Claude 3.5 Sonnet的訓練成本為數千萬美元,但這并不是Anthropic所需的總成本,他們還需要資金進行實驗、提出新架構、收集和清理數據、支付員工工資等。

其報告還提到,DeepSeek在尋找人才方面也投入了大量資金。

目前,該公司的員工人數在150人左右,且公司崗位并沒有被預先定義,會根據招聘人員靈活定義。

DeepSeek選擇在國內尋找人才,并且不考慮其此前的資歷,非常注重能力和好奇心。這家公司會定期在北京大學和浙江大學等頂尖大學舉辦招聘活動,其許多員工都畢業于浙江大學。

報告提到,該公司此前還為有前途的候選人提供超過130萬美元(折合約942萬人民幣)的年薪,這一薪資水平遠高于國內大型科技公司以及大模型創企。

在第三方招聘軟件BOSS直聘中,DeepSeek公開的在招職位有37個,核心系統研發工程師、深度學習研究員薪資水平最高為50-80K、60-90K,除實習生其他崗位均為14薪。

大多數情況下,DeepSeek不依賴外部方或提供商,運行自己的數據中心,不依賴外部方或提供商。這為實驗開辟了更多領域,使他們能夠跨堆棧進行創新。

03.

推理成本下降,

token預測、多頭潛注意力兩大創新

推理成本驟降是AI進步的一個顯著特征。

一個明顯的例子就是,筆記本電腦上運行的小模型目前已經與GPT-3性能相當,而后者需要一臺超級計算機進行訓練和多個GPU進行推理。換句話說,算法改進允許使用較少的計算量來訓練和推理具有相同能力的模型,而且這種模式正一遍又一遍上演。

    

到目前為止,在這種模式下AI實驗室的策略是花費更多錢來獲得更多智能。據估計,算法的進步是每年提升4倍,這意味著每過一年實現相同能力所需的計算量就會減少到1/4Anthropic的首席執行官達里奧·阿莫迪(Dario Amodei)認為,算法的進步甚至更快,可以產生10倍的改進。就GPT-3質量的推理定價而言,成本下降到1/1200

該報告還調查了GPT-4的成本,在曲線早期也有類似的成本下降趨勢。雖然隨著時間的推移成本差異減少,但在這種情況下,我們看到算法改進和優化使成本降低到1/10,能力提高了。

    

需要明確的是,DeepSeek率先達到了這個級別的成本和能力,并且其獨特之處還在于發布了開放權重,SemiAnalysis認為其成本甚至會繼續降低到1/5。

DeepSeek是如何如此迅速地趕上來的?

答案是,推理具有更快的迭代速度和更低成本唾手可得的成果,且與以前的范式相比,計算量更小。但以前的范式依賴于預訓練,因價格昂貴難以實現穩健的收益。

新范式側重于通過合成數據生成和現有模型后訓練中的強化學習進行推理能力,從而以更低的價格獲得更快的收益。較低的進入門檻與簡單的優化相結合,意味著DeepSeek能夠比平時更快地復制o1方法。

未來,隨著研發人員弄清楚如何在這一新模式中實現更大規模的發展/應用等,預計不同模型之間能力匹配的時間差距將會拉大。

DeepSeek的爆火在于其破解了架構創新的密碼并解鎖了領先實驗室尚未能夠實現的創新,其中包括Training (Pre and Post)  模型預訓練和后訓練以及多頭潛在注意力(MLA)。

1、TrainingPre and Post)模型預訓練和后訓練

DeepSeek V3以前所未有的規模利用了多標記預測(MTP),其添加的注意力模塊可以預測接下來的幾個Token,而不是單個Token。這提高了模型在訓練期間的性能,并且可以在推理期間丟棄。這一方法以較低的計算能力提高了性能。還有一些額外的考慮因素,例如在訓練中采用FP8精度。

此外,該模型也是混合專家模型,由許多其他專注于不同事物的較小專家模型組成。MoE模型面臨的一個難題是如何確定哪個Token屬于哪個子模型。

DeepSeek基于門控網絡(Gating Network),以不降低模型性能的平衡方式將Token路由到正確的子模型,這提升了訓練效率并降低了推理成本。

盡管業界有人擔心混合專家模型使得效率提高可能會減少該領域的相關投資,但Dario指出,功能更強大的模型經濟效益非??捎^,以至于任何節省的成本都會迅速重新投資于構建更大的模型。MoE的效率提高不會減少整體投資,而是會加速AI擴展工作。

R1的強大能力得益于基礎模型V3,強化學習提供了兩大能力,一是Formatting(確保它提供連貫輸出)二是有用性和無害性(確保模型有用)。推理能力是在合成數據集上對模型進行微調期間出現的。

不過R1論文中沒有提到計算,這是因為提到使用了多少計算會表明他們的GPU比他們的敘述所暗示的要多。這種規模的強化學習需要大量的計算,尤其是生成合成數據。

R1論文中還提到,能使用推理模型的輸出對其進行微調,將非推理的較小模型轉換為推理模型。數據集管理總共包含800k個樣本,現在任何人都可以使用R1的思維鏈輸出來制作自己的數據集,并在這些輸出的幫助下制作推理模型。未來,我們可能會看到更多較小的模型展示推理能力,從而使得小型模型的性能提高。

2、Multi-head Latent AttentionMLA)多頭潛在注意力

另外一項關鍵創新是MLA,負責顯著降低DeepSeek的推理價格。

其原因是MLA將每個查詢所需的KV Cache(鍵-值緩存)數量減少了約93.3%KV CacheTransformer中的一種內存機制,它存儲代表對話上下文的數據,從而減少不必要的計算。

KV Cache會隨著對話上下文的增長而增長,并產生相當大的內存限制,大幅減少每個查詢所需的 KV Cache 數量會減少每個查詢所需的硬件數量,從而降低成本。報告認為,DeepSeek是在以成本價提供推理服務來獲取市場份額,實際上并沒有盈利。

04.

結語:DeepSeek發布

中美AI競爭格局大洗牌

DeepSeek的發布對整個行業產生了全方位、深層次的影響。從OpenAI新發布的o3-mini也可以看出,中美之間的AI競爭格局正在改變,中國企業在開源領域的積極作為,讓美國不得不重新審視其限制開源的策略。

從產業競爭格局來看,DeepSeek的橫空出世重塑了全球AI產業的競爭版圖,這或許也將促使各國重新審視AI發展戰略,加強在AI領域的投入和合作,共同推動AI技術的進步。

春節期間DeepSeek掀起的這場AI風暴仍在中美乃至全球科技、政金界產生持續影響,并不斷發酵,已經成為改變AI科技產業趨勢的風向標事件,智東西將持續跟進相關進展和報道,敬請關注。

摘自-智東西

   
上一篇 下一篇
投資的最高境界:等戴維斯來敲門沒有上一篇
主站蜘蛛池模板: 久久成年片色大黄全免费网站 | 久久国产高清一区二区三区 | 女人一级毛片免费观看 | 成人免费福利网站在线看 | 中国videos偷窥 | 黄色在线观看免费 | 人人草人人爽 | 老子影院午夜伦不卡亚洲 | 久久国产精品视频一区 | 美女免费视频一区二区三区 | www.日韩视频| 亚洲另在线日韩综合色 | 国产三级网 | 性做爰片免费视频毛片中文i | 欧美日韩一| 日本高清视频在线观看 | 亚洲13p| 国产成人一区二区三区视频免费 | 欧美夜夜骑| 毛片免费在线观看网址 | 成人久久久观看免费毛片 | 三级小视频在线观看 | 国产成人亚洲精品一区二区在线看 | 欧美亚洲另类色国产综合 | 天天看片国产 | 毛片a级毛片免费播放100 | 在线观看免费av网 | 精品日韩在线视频一区二区三区 | 亚洲 欧美 另类中文字幕 | 国产精品大全 | 日本特黄特色 | 欧美日韩免费一区二区在线观看 | 亚洲国产欧美精品 | 日本免费毛片在线高清看 | 日韩欧美在线一区二区三区 | aa级黄色大片 | 三级视频国产 | 亚洲免费网站观看视频 | 日本美女性爱 | 午夜宅宅网 | 日本不卡视频在线观看 |