夜晚久久精品视频|精品国产片免费在线观看|中文乱码字幕在线观看直播|久久久一本精品99久久精品99

  • <del id="koae8"></del>
    <samp id="koae8"><optgroup id="koae8"></optgroup></samp>
  • <table id="koae8"></table>
  • <button id="koae8"></button>
  • <li id="koae8"></li>
    <rt id="koae8"><tr id="koae8"></tr></rt>
  • 首頁 > 新聞 > 內(nèi)地 > 正文

    DeepSeek下載火爆 一周超過谷歌Gemini兩年

    2025-02-08 05:02:16大公報 作者:蘇雨潤、凱雷
    字號
    放大
    標(biāo)準(zhǔn)
    分享

      圖:目前,DeepSeek下載量持續(xù)攀升,據(jù)估計,一周內(nèi)DeepSeek網(wǎng)站用戶數(shù)量就超過了谷歌的Gemini聊天AI。

      近期,國產(chǎn)AI大模型DeepSeek橫空出世,僅以幾十分之一的成本,就達(dá)到與全球領(lǐng)先的ChatGPT最新o1版本推理模型相當(dāng)?shù)膶?shí)力。目前,DeepSeek下載量持續(xù)攀升,據(jù)研究公司SimilarWeb估計,在短短一周內(nèi),DeepSeek網(wǎng)站的用戶數(shù)量就超過了谷歌的Gemini聊天AI,而后者已經(jīng)存在了近兩年。一時間,各界眾說紛紜:DeepSeek為什么這么牛?何以如此?是創(chuàng)新還是蒸餾?……諸如此類的疑問頻出。

      人工智能專家高飛長期跟蹤研究ChatGPT與DeepSeek的發(fā)展軌跡,他在接受大公報獨(dú)家專訪時,從技術(shù)肌理與論文研究原點(diǎn)出發(fā),破譯“深度求索”成功的基因密碼,揭密DeepSeek低成本、高性能的原因。他還表示,DeepSeek-R1“出圈”,得益于高性能、低成本、強(qiáng)開放三個因素,這與美國閉源、收費(fèi)、高成本的ChatGPT形成鮮明對比。

      三大創(chuàng)新凝煉DeepSeek “東方神秘力量”

      大公報:DeepSeek是如何實(shí)現(xiàn)低成本的?

      高飛:DeepSeek的低成本得益于其創(chuàng)新性,它打破了“只有靠最先進(jìn)硬件才能訓(xùn)練出前沿模型”的傳統(tǒng)觀念。DeepSeek團(tuán)隊(duì)利用有限的資源,通過創(chuàng)新的方式,訓(xùn)練出了以“測試時間計算”方式運(yùn)行的推理模型,并對標(biāo)OpenAI最先進(jìn)的o系列模型,實(shí)現(xiàn)了看似“不可能”的“低成本+高性能”極限組合,并提供開源代碼,讓企業(yè)、個人可以在本地算力設(shè)施上部署免費(fèi)使用。所以,它的低成本不是“因”,而是“果”,且是“果”之一。

      大模型的“大”,其實(shí)是大算力、大參數(shù)、大數(shù)據(jù)。每一個大,都意味著高成本。DeepSeek在約束條件下,做了極限創(chuàng)新,減少算力需求、減少參數(shù)數(shù)量、降低數(shù)據(jù)規(guī)模。這是在資源上做減法,但卻不對性能有任何妥協(xié)。所以,DeepSeek不僅“低成本”,還有“高性能”,以及開源模式的“強(qiáng)開放”。

      這次OpenAI跟隨DeepSeek-R1發(fā)布o(jì)3 Mini模型,CEO山姆.奧特曼承認(rèn)其對于開源的判斷有誤,站在了“歷史錯誤的一邊”。言外之意,OpenAI可能也會在未來考慮對其模型全部或者部分開源。因此,DeepSeek-R1模型的成功,不僅是技術(shù)創(chuàng)新的成功,更是技術(shù)開放的成功。

      實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)法 讓用家看到“內(nèi)心戲”

      大公報:DeepSeek-R1兼具低成本和超高性能,更在低成本的前提下實(shí)現(xiàn)對標(biāo)OpenAI o系列模型,這究竟是怎么做到的呢?

      高飛:DeepSeek-R1模型代表了高性能、新思維的突破。大家知道,OpenAI的o系列模型是一種測試時間計算(Test-Time Computation)模型,模型在推理階段(Inference Phase)會執(zhí)行計算的方式。表現(xiàn)在使用上,就是模型不會立刻回答用戶的問題,而是根據(jù)問題難度,經(jīng)過一番思考(通常是幾十秒),給出高質(zhì)量答案。

      DeepSeek R1使用了一種創(chuàng)新的強(qiáng)化學(xué)習(xí)(RL)方法,實(shí)現(xiàn)了該種模型的訓(xùn)練。最終實(shí)現(xiàn)的效果是,當(dāng)你提問DeepSeek-R1,它看似是最終給你一個答案,但其實(shí)模型有大量的“內(nèi)心戲”,是經(jīng)過反復(fù)推敲、多步思考,最終給出一個相對完美的答案。在學(xué)術(shù)上,這個過程叫思維鏈(Chain of thought)。

      大公報:可否從技術(shù)肌理層面為我們解讀,DeepSeek的高性能主要源于何種技術(shù)創(chuàng)新呢?

      減少消耗分工明確“餐廳模式”

      高飛:DeepSeek所擁有的“東方神秘力量”─高性能,主要來自混合專家模型(MoE)、多標(biāo)記預(yù)測(MTP)和多頭潛在注意力機(jī)制(MLA)等三大技術(shù)的創(chuàng)新。其中,MoE技術(shù)實(shí)現(xiàn)了DeepSeek在參數(shù)上的精簡。例如,去年底發(fā)布的DeepSeek-V3,就是DeepSeek團(tuán)隊(duì)采取混合專家模型的模式,將大模型分成多個“專家”子模型,將DeepSeek-V3的671B參數(shù)進(jìn)行拆解,每個子模型的參數(shù)量大約只有37B(總參數(shù)的1/20),且擅長不同領(lǐng)域的知識。這樣,針對不同的輸入數(shù)據(jù),模型會動態(tài)地選擇最合適的部分專家來參與計算,自然就減少了資源消耗。

      大公報:可以舉一個形象的例子,解釋一下MoE技術(shù)是如何運(yùn)行的嗎?

      高飛:訓(xùn)練大模型就像點(diǎn)菜,美國的主流大模型就像一個有100個檔口的大牌檔,用戶點(diǎn)一份披薩,所有廚師、服務(wù)生都要動起來。而MoE技術(shù)就相當(dāng)于組織分類,用戶同樣點(diǎn)一份披薩,西餐檔口只調(diào)動相應(yīng)的西餐廚師和服務(wù)生,其他檔口并不受到擾動,因此忙而不亂,井然有序。從粗放式管理到精細(xì)化模式,即專家模式,其實(shí)就是提升模型的組織創(chuàng)新力。

      同步炮制 后廚“預(yù)判式做飯”

      高飛:如果說,MoE技術(shù)讓模型盡可能用更少的參數(shù)工作,是空間上的優(yōu)化,那么MTP技術(shù)就是時間上的優(yōu)化,它讓模型用同樣的資源做更長期的工作。MTP技術(shù)可以讓模型不是每次預(yù)測生成一個Token(文本拆分的最小單元),而可以在每個位置預(yù)測多個未來Token,這就更大程度利用了計算資源,增加了訓(xùn)練信號密度,提高了訓(xùn)練效率。就像讓餐廳檔口做第一道菜時,就同步準(zhǔn)備第二、三道菜,用一份算力做更多工作,將資源利用到極致。

      化繁為簡 “例湯白飯式”歸類

      高飛:多頭潛在注意力機(jī)制(MLA)技術(shù),就是將原始高維特征壓縮到一個較低維度的潛在空間(潛在向量),再通過上投影矩陣恢復(fù)的技術(shù)。打個比方,就是將一段高清視頻壓縮成較小的文件,卻能在播放時基本保持畫質(zhì)。還以餐廳檔口為例,過去檔口在和顧客交互中要記錄每一道菜,而現(xiàn)在把菜單中的菜品抽象匯總分類,計為十碗“例湯”、十碗“白飯”,要記錄的信息一下子就少了很多。

      DeepSeek團(tuán)隊(duì)在訓(xùn)練V3版模型時,還使用了對數(shù)據(jù)資源節(jié)省技術(shù),即“FP8混合精度訓(xùn)練”。FP8是一種比常規(guī)大模型訓(xùn)練使用的FP16和FP32更低精度的數(shù)據(jù)格式,每個數(shù)字占用的比特數(shù)更少,這使得模型在訓(xùn)練和使用過程中,所需的存儲空間和計算量大大減少,效率也就更高。之前大家也不是沒想過這種方式,但只有DeepSeek團(tuán)隊(duì)真正實(shí)現(xiàn)了這一點(diǎn)。

      專家剖析DeepSeek技術(shù)

      謬誤1

      DeepSeek是在ChatGPT大模型上通過“蒸餾”產(chǎn)生的,這涉及“偷取”知識產(chǎn)權(quán),且任何人都可以以低成本蒸餾出“精華”。

      高飛:否。模型蒸餾并不是一項(xiàng)新技術(shù),目前沒有任何公司利用蒸餾方法,訓(xùn)練出超過其他模型性能的產(chǎn)品。這兩年,擁有高端芯片、強(qiáng)大算力、在ChatGPT上蒸餾數(shù)據(jù)的模型,不下幾十個,沒有一個能“跑”出類似的效果,都達(dá)不到DeepSeekR1強(qiáng)大的性能。而且,DeepSeek的技術(shù)秘密是公開的,它既模型開源,又在原始技術(shù)論文中公開了細(xì)節(jié)。

      謬誤2

      DeepSeek背后是接近50000臺英偉達(dá)最先進(jìn)A100芯片在支撐,不可能只用2000塊GPU就訓(xùn)練出這么高性能的模型。

      高飛:否。DeepSeek的技術(shù)論文中清楚地寫明了訓(xùn)練模型所需要的GPU數(shù)量,DeepSeek團(tuán)隊(duì)沒有必要在這個數(shù)字上作假。目前所有聲稱“DeepSeek靠五萬卡訓(xùn)練模型”的說法,都是坊間猜測,無任何權(quán)威出處。

      謬誤3

      DeepSeek模型只受國人追捧,美國有OpenAI、Meta等前沿模型,沒有必要用DeepSeek的產(chǎn)品。

      高飛:否。近期全球眾多大廠紛紛宣布支持DeepSeek的模型,包括亞馬遜、英特爾、微軟、Perplexity、NVIDIA等。DeepSeek的APP也登頂多個國家的App Store下載排行榜??梢哉f,DeepSeek在全球范圍內(nèi)都是一個現(xiàn)象級的產(chǎn)品。

      強(qiáng)化學(xué)習(xí) 博采眾長

      圖:人工智能發(fā)展一日千里。圖為2016年3月9日至15日,人工智能程序“阿爾法圍棋”在韓國首爾進(jìn)行的五番棋比賽中,以4比1的總比分擊敗韓國九段棋手李世石。\新華社

      大公報:我們現(xiàn)在知道,DeepSeek的高性能根本上來自于新算法,即強(qiáng)化學(xué)習(xí)方法,這似乎和當(dāng)年Alpha Zero與人類棋手博弈相似,是嗎?

      高飛:是的。DeepSeek的強(qiáng)化學(xué)習(xí),不是新理論。大家最耳熟能詳?shù)膹?qiáng)化學(xué)習(xí)模型,應(yīng)該是谷歌DeepMind的圍棋模型Alpha Zero。它之所以叫Zero,是指模型是從零數(shù)據(jù)開始,通過與自身進(jìn)行數(shù)百萬次對弈,積累數(shù)據(jù),提升性能。

      DeepSeek R1也是這樣,通俗地說,它就是人工智能界的“Alpha Zero棋手”,用AI和AI對弈的強(qiáng)化學(xué)習(xí)方式(而不是學(xué)習(xí)人類知識行為數(shù)據(jù)),提高性能。需要說明的是,DeepSeek R1并非單一地運(yùn)用強(qiáng)化學(xué)習(xí)方法,而是新老方法并用,博采眾長。例如,DeepSeek團(tuán)隊(duì)發(fā)現(xiàn)模型出現(xiàn)中英文雙語混用、答案不易被人理解的現(xiàn)象,所以也使用了傳統(tǒng)的監(jiān)督式學(xué)習(xí)(SFT),即人類數(shù)據(jù)輔助優(yōu)化,讓內(nèi)容輸出更友好。

      大公報:但谷歌DeepMind八年前就已推出圍棋模型Alpha Zero,強(qiáng)化學(xué)習(xí)法早已有之。在這方面,DeepSeek是否算抄襲了谷歌的技術(shù)呢?

      高飛:這就是科學(xué)、技術(shù)、工程的區(qū)別了。強(qiáng)化學(xué)習(xí)技術(shù)早有公開論文,大家都可學(xué)習(xí)借鑒。但科學(xué)原理如何在技術(shù)和工程上實(shí)現(xiàn),是另一回事。

      此外,屬于封閉性問題(即有標(biāo)準(zhǔn)答案、可判斷勝負(fù))的圍棋問題,與處理開放性問題的語言大模型是不同的。這種強(qiáng)化學(xué)習(xí)技術(shù),并不容易在大語言模型的訓(xùn)練中使用,從去年開始涌現(xiàn)的千百個大模型,都沒能取得這方面突破,沒能走通這條技術(shù)路徑。

      專家介紹 | 高飛

      科技觀察家,至頂科技CEO兼總編輯,PEC China(提示工程峰會聯(lián)合發(fā)起人),長期研究人工智能等技術(shù)生態(tài)的發(fā)展規(guī)律,并參與了中國云計算產(chǎn)業(yè)發(fā)展白皮書、中國科協(xié)學(xué)術(shù)場景AI技術(shù)應(yīng)用評測報告等多個產(chǎn)業(yè)學(xué)術(shù)研究的立項(xiàng)編寫工作。

    點(diǎn)擊排行