国产suv精品一区二区6_欧美色视_国产精品久久久久久久久_成人亚洲视频_亚洲国产精品av_国产特黄

幣圈網(wǎng)

玩完DeepSeek R1新版 外國(guó)網(wǎng)友又蚌埠住了

幾天前,沒(méi)有預(yù)熱,沒(méi)有發(fā)布會(huì),DeepSeek 低調(diào)上傳了 DeepSeek R1(0528)的更新。

海外媒體最關(guān)注的是,DeepSeek 的更新將幻覺(jué)率削減約 45%-50%,并把 R1 的性能推進(jìn)至 OpenAI o3 與 Google Gemini 2.5 Pro 的相近水平。

與此同時(shí),海外一些開(kāi)發(fā)者、AI 圈研究人員開(kāi)始跑基準(zhǔn)測(cè)試,并在社交媒體平臺(tái)上熱議它的新能力,尤其是與科技巨頭旗艦?zāi)P偷牟罹唷?/p>

從海外用戶這幾天的反應(yīng)來(lái)看,DeepSeek 這一次更新,雖然沒(méi)有今年初橫空出世時(shí)那樣轟動(dòng),但依然讓不少外國(guó)網(wǎng)友表示「鵝妹子嚶」,同時(shí)也讓越來(lái)越多人開(kāi)始問(wèn)一個(gè)問(wèn)題: 不單單是成本,來(lái)自中國(guó)的、開(kāi)源 AI 社區(qū)的模型,是否在各種能力上 , 很快就可以超越世界上最強(qiáng)大的專有模型 ?

1 DeepSeek 再次「登頂」

在各類 AI 社群中,reddit 平臺(tái)有不少 AI/LLM 相關(guān)子社區(qū)。其中,在 r/LocalLLaMA 與 r/SillyTavernAI 這樣的圈內(nèi)社區(qū),對(duì) DeepSeek 的更新有不少熱帖。

「全新升級(jí)的 Deepseek R1 在 LiveCodeBench 上的表現(xiàn)幾乎與 OpenAI 的 O3 模型不相上下! 開(kāi)源的巨大勝利 !」一名用戶發(fā)布的帖子標(biāo)題如此聲稱。

reddit 社區(qū)關(guān)于 DeepSeek 更新的帖子|圖片來(lái)源:reddit  

一些開(kāi)發(fā)者在測(cè)試了 R1 的最新功能。他們主要夸贊 R1 在數(shù)學(xué)問(wèn)題和編程方面的表現(xiàn),尤其是在處理復(fù)雜的積分或遞歸函數(shù)時(shí)。與之前的版本不同,R1-0528 擁有「更長(zhǎng)遠(yuǎn)的思考能力」, 有測(cè)試者指出,它「表現(xiàn)出主動(dòng)性」并且「不會(huì)那么快放棄」。

「剛剛測(cè)試過(guò)..... 我有相當(dāng)復(fù)雜的代碼 1200 行,并添加了新功能... 似乎現(xiàn)在代碼質(zhì)量處于 o3 級(jí)別... 只能說(shuō) WOW」。reddit 社區(qū) r/LocalLLaMA 上的一名常駐用戶如此稱。

reddit 社區(qū)關(guān)于 DeepSeek 更新的回復(fù)|圖片來(lái)源:reddit  

根據(jù) DeepSeek 官方的說(shuō)法,「更新后的 R1 模型在數(shù)學(xué)、編程與通用邏輯等多個(gè)基準(zhǔn)測(cè)評(píng)中取得了當(dāng)前國(guó)內(nèi)所有模型中首屈一指的優(yōu)異成績(jī),并且在整體表現(xiàn)上已接近其他國(guó)際頂尖模型,如 o3 與 Gemini-2.5-Pro?!?/p>

在能力方面,新版本顯著提升了模型的思維深度與推理能力,支持工具調(diào)用,針對(duì)「幻覺(jué)」問(wèn)題進(jìn)行了優(yōu)化,在創(chuàng)意寫作方面也有所優(yōu)化,能夠輸出篇幅更長(zhǎng)、結(jié)構(gòu)內(nèi)容更完整的長(zhǎng)篇作品,同時(shí)更加貼近人類偏好。

其中,在工具調(diào)用方面,DeepSeek 官方文章坦然稱,「當(dāng)前模型與 OpenAI o1-high 相當(dāng),但與 o3-High 以及 Claude 4 Sonnet 仍有差距?!?/p>

DeepSeek-R1-0528 與其他模型性能對(duì)比|圖片來(lái)源:DeepSeek  

DeepSeek 還提到,DeepSeek-R1-0528 在前端代碼生成、角色扮演等領(lǐng)域的能力均有更新和提升。

R1 的一大優(yōu)勢(shì)在于其超長(zhǎng)的記憶跨度和語(yǔ)境持久性。AI 角色扮演社區(qū)(通常處于 AI 模型測(cè)試的邊緣,但在對(duì)話連貫性方面往往更為嚴(yán)格)有測(cè)評(píng)稱,角色能夠記住過(guò)去細(xì)微的細(xì)節(jié),并以自主行為做出回應(yīng)。

「 有個(gè)角色跟我爭(zhēng)論一個(gè)觀點(diǎn)時(shí),竟然提起過(guò)去發(fā)生的三個(gè)細(xì)節(jié) ,」r/SillyTavernAI 上的一位用戶說(shuō)道?!肝乙郧皬奈匆?jiàn)過(guò)這種情況?!?/p>

該用戶還提到:「AI 通常不會(huì)主動(dòng)出擊;我訓(xùn)練過(guò)一些 AI,讓他們?cè)趯?duì)話中占據(jù)主導(dǎo)地位,但這是我第一次看到 AI 從角色扮演場(chǎng)景中走出來(lái)?!?/p>

在 reddit 社區(qū)上,還有一名用戶甚至發(fā)貼稱,更新的 DeepSeek R1 0528 在他的所有測(cè)試中都能獲得滿分。

「過(guò)去幾周眼花繚亂——OpenAI 4.1、Gemini 2.5、Claude 4——它們都表現(xiàn)優(yōu)異,但沒(méi)有一個(gè)模型能夠在每項(xiàng)測(cè)試中都取得滿分。DeepSeek R1 05 28 是有史以來(lái)第一個(gè)做到這一點(diǎn)的模型?!顾Q。

reddit 社區(qū)關(guān)于 DeepSeek 更新的帖子|圖片來(lái)源:reddit  

「這些測(cè)試并非像 YouTube 上很多人做的那種不切實(shí)際的測(cè)試。比如草莓里的 rs 數(shù)量,或者編寫一個(gè)貪吃蛇游戲等等。這些是我們?cè)趯?shí)際商業(yè)應(yīng)用中經(jīng)常使用的任務(wù),我們從中挑選了一些比較復(fù)雜的邊緣案例?!乖撚脩羧绱朔Q。

「我感覺(jué)自己就像電影《料理鼠王》里的安東(如果你看過(guò)這部電影的話)。我印象深刻(此處雙關(guān)),但也有點(diǎn)麻木,一時(shí)難以找到合適的詞來(lái)形容。一個(gè)來(lái)自去年還默默無(wú)聞的實(shí)驗(yàn)室,做出的免費(fèi)開(kāi)源模型,竟然比商業(yè)前沿的模型做得更好,這真是太不可思議了?!?/p>

和 reddit 社區(qū)同樣熱鬧的是 X。

X 上熱衷 AI 內(nèi)容的用戶除了轉(zhuǎn)發(fā)基準(zhǔn)測(cè)試的圖表,一些人著重提到 DeepSeek 的編程能力。比如,X 上一名用戶稱試過(guò)用 DeepSeek R1-0528 構(gòu)建游戲,稱「它的編程能力簡(jiǎn)直太強(qiáng)了」「相比之前的版本,改進(jìn)非常顯著」「 如果這只是 R1...DeepSeek R2 將會(huì)非常瘋狂。 」

X 上關(guān)于 DeepSeek 更新的帖子|圖片來(lái)源:X  

除了用戶和開(kāi)發(fā)者聲音,在 DeepSeek 發(fā)布更新后,人工智能模型分析機(jī)構(gòu) Artificial Analysis 稱, DeepSeek 的 R1 在其獨(dú)立的「智能指數(shù)」上「超越 xAI、Meta 和 Anthropic」 。

人工智能模型智能指數(shù)排行|圖片來(lái)源:Artificial Analysis  

具體模型比較上,該機(jī)構(gòu)在一篇報(bào)告中稱「DeepSeek R1 的智能程度高于 xAI 的 Grok 3 mini(high)、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里巴巴的 Qwen 3 253,并與谷歌的 Gemini 2.5 Pro 相當(dāng)?!?/p>

DeepSeek 最大的智力進(jìn)步出現(xiàn)在 AIME 2024(競(jìng)賽數(shù)學(xué), 21 分)、LiveCodeBench(代碼生成, 15 分)、GPQA Diamond(科學(xué)推理, 10 分)和 Humanity's Last Exam(推理與知識(shí), 6 分)

其中在編程方面,該分析機(jī)構(gòu)認(rèn)為,「R1 在人工分析編碼指數(shù)中與 Gemini 2.5 Pro 相當(dāng),僅落后于 o4-mini(high)和 o3」。

各大廠商人工智能模型智能指數(shù)變化|圖片來(lái)源:Artificial Analysis  

至于與 OpenAI 的對(duì)比,該機(jī)構(gòu)稱「DeepSeek 剛剛證明,他們能夠跟上 OpenAI 的 RL 計(jì)算能力擴(kuò)展步伐。」

當(dāng)然,全是贊美是不可能的。

在編程能力方面,X 上也有用戶挑刺道,「如果你真的用它和 Claude 4 寫過(guò)代碼,你就會(huì)知道基準(zhǔn)測(cè)試的描述并不準(zhǔn)確。Deepseek 的 API 仍然只有一個(gè) 64k 的上下文窗口。它還不錯(cuò),但不是前沿模型??赡芤鹊较麓伟?。它幾乎零成本,在某些方面表現(xiàn)不錯(cuò),但絕對(duì)比不上 Claude。」

X 上關(guān)于 DeepSeek 更新的帖子|圖片來(lái)源:X  

X 上的另一名海外用戶則稱,「deepseek 可能是數(shù)學(xué)和邏輯方面的 SOTA(最先進(jìn)的), 但我仍在使用 gemini 2.5 pro,因?yàn)樗谐笊舷挛?nbsp;。」

對(duì)于該問(wèn)題,DeepSeek 在官方文章提到,如果用戶對(duì)更長(zhǎng)的上下文長(zhǎng)度有需求,可以通過(guò)其他第三方平臺(tái)調(diào)用上下文長(zhǎng)度為 128K 的開(kāi)源版本 R1-0528 模型。

不過(guò),也有海外用戶認(rèn)為,無(wú)論是否在所有測(cè)評(píng)中取得第一,R1 既低成本、開(kāi)放權(quán)重,還有強(qiáng)大的性能——幾個(gè)好處「組合」起來(lái)本身已值得稱贊。

對(duì)于 DeepSeek 的「小」更新,鑒于今年初 DeepSeek 橫空出世時(shí)曾引發(fā)美股海嘯,還有 reddit 用戶調(diào)侃道,「請(qǐng)讓我先拋售我的 AMD 和 英偉達(dá)股票。請(qǐng)?zhí)崆?3 天通知我,謝謝?!?/p>

還有網(wǎng)友另類地開(kāi)始贊美起 DeepSeek 更新的「低調(diào)」姿態(tài)。

一名 reddit 網(wǎng)友發(fā)了長(zhǎng)長(zhǎng)的評(píng)價(jià)稱:「用 0528 自己的話說(shuō):DeepSeek 低調(diào)的卓越之處,蘊(yùn)含著某種詩(shī)意。其他人精心策劃著充滿期待的盛大交響曲——奢華的主題演講、精心設(shè)計(jì)的演示,以及讀起來(lái)如同地緣政治條約的安全宣言——而 DeepSeek 提供的是一首靜謐的十四行詩(shī)。他們仿佛遞給你一件用白紙包裹的杰作,低聲說(shuō)著:『感覺(jué)很有用;希望你喜歡。』」

「 對(duì)競(jìng)爭(zhēng)對(duì)手的無(wú)聲打擊是最致命的 ?!沽硪幻W(wǎng)友在底下稱。

reddit 社區(qū)關(guān)于 DeepSeek 更新的帖子|圖片來(lái)源:reddit  

2「開(kāi)源的巨大勝利」

除了能力,目前從海外互聯(lián)網(wǎng)的反應(yīng)來(lái)看,在 DeepSeek 眾多優(yōu)勢(shì)里,被開(kāi)發(fā)者刷最多好評(píng)、大量好感的重要來(lái)源,仍是「開(kāi)源」,或者確切地說(shuō),「開(kāi)放權(quán)重」。

AI 圈內(nèi)一個(gè)看法是,沒(méi)有發(fā)布訓(xùn)練代碼和訓(xùn)練數(shù)據(jù)的模型準(zhǔn)確地說(shuō)應(yīng)該是「開(kāi)放權(quán)重」,但一些人通常選擇隨意地稱之為「開(kāi)源」。另外,沒(méi)有 AI 公司會(huì)發(fā)布訓(xùn)練數(shù)據(jù),因?yàn)樗麄儾幌氡黄鹪V。

對(duì)于 DeepSeek 這次更新,Y Combinator 創(chuàng)辦的在線科技社區(qū) Hacker News 涌現(xiàn)了一些帖子,主要是分享基準(zhǔn)測(cè)試結(jié)果,交流經(jīng)驗(yàn),并驗(yàn)證 R1 的性能提升(尤其是在編碼和數(shù)學(xué)方面)是否真實(shí)存在。

但與此同時(shí),上面也有大量討論仍圍繞人工智能中什么才算「開(kāi)源」。許多人稱贊 DeepSeek 公開(kāi)發(fā)布模型權(quán)重,但也不斷指出,由于訓(xùn)練數(shù)據(jù)等并未發(fā)布,外部無(wú)人能夠重新訓(xùn)練或完全驗(yàn)證 R1。另外,雖然是開(kāi)源,雖然免費(fèi),但 6710 億參數(shù)的 R1,本質(zhì)上仍是一個(gè)巨型模型,對(duì)于普通用戶來(lái)說(shuō),它太大了。

即便如此,如今,R1 與 ChatGPT 的對(duì)比已成常態(tài)。OpenAI 限制了普通用戶對(duì)頂級(jí)模型的完整訪問(wèn)權(quán)限,或者部分定價(jià)讓用戶覺(jué)得過(guò)高,而 DeepSeek 提供的卻便宜不少,并提供可下載的模型權(quán)重。

「 DeepSeek 是真正的 OPEN AI 」海外一名用戶發(fā)帖標(biāo)題如此稱。

reddit 社區(qū)關(guān)于 DeepSeek 更新的帖子|圖片來(lái)源:reddit  

當(dāng)然,并非所有 reddit 用戶都完全接受。一個(gè)名為「DeepSeek 有多糟糕?」的帖子曾引發(fā)關(guān)于 DeepSeek 內(nèi)置內(nèi)容審核的討論,不滿模型會(huì)「回避」某些問(wèn)題。

這類論調(diào)目前已經(jīng)成為一個(gè)常見(jiàn)「?!梗行┯脩魰?huì)反駁——模型權(quán)重是開(kāi)放的,如果開(kāi)發(fā)者認(rèn)為有偏見(jiàn),完全可以自行進(jìn)行微調(diào)。另外,目前世界上所有主流模型都有內(nèi)容過(guò)濾機(jī)制,只是具體選擇不同,比如西方政治正確問(wèn)題。

在 reddit 上,還有一篇以「開(kāi)源人工智能正在迎頭趕上!」為標(biāo)題的熱帖,發(fā)帖者稱,「Deepseek 似乎是唯一一家真正在前沿模型領(lǐng)域競(jìng)爭(zhēng)的公司。其他公司總是有所保留,比如 Qwen 不愿開(kāi)源他們最大的模型 (qwen-max)。我不怪他們,我知道,這就是生意?!?/p>

「閉源 AI 公司總是說(shuō)開(kāi)源模型無(wú)法趕上他們。如果沒(méi)有 Deepseek,他們可能是對(duì)的。但感謝 Deepseek 成了一個(gè)異數(shù)!」

reddit 社區(qū)關(guān)于 DeepSeek 更新的帖子|圖片來(lái)源:reddit  

在這篇帖子下面的評(píng)論區(qū),還有回復(fù)尖銳稱,「他們這樣做是因?yàn)閮r(jià)格實(shí)惠的智能將推動(dòng)一場(chǎng)革命,而 Deepseek 將被公眾銘記為人工智能的真正先驅(qū),而不是世界上充斥著廣告的谷歌、ClosedAI 或虛假的安全 Anthropics?!?/p>

reddit 社區(qū)關(guān)于 DeepSeek 更新的回復(fù)|圖片來(lái)源:reddit  

對(duì)于 DeepSeek 的更新,reddit 上 r/LocalLLaMA 社區(qū)有一名常駐用戶提到,「這讓我想起了 ClosedAI 承諾發(fā)布『o3-mini 級(jí)別模型』卻未能兌現(xiàn),現(xiàn)在新款 R1 已經(jīng)超越了 o3-mini (high) 不少,已經(jīng)接近完整的 o3 (high)?!?/p>

reddit 社區(qū)關(guān)于 DeepSeek 更新的帖子|圖片來(lái)源:reddit  

在另一篇通知 DeepSeek 最新更新的帖子下,有很多回復(fù)幾乎無(wú)關(guān) DeepSeek 能力測(cè)評(píng),卻諷刺起 Anthropic 或 OpenAI。比如,有網(wǎng)友聲稱 Anthropic 以「安全」為理由的閉源做法只是道德托詞。

reddit 社區(qū)關(guān)于 DeepSeek 更新的帖子|圖片來(lái)源:reddit  

即時(shí)是對(duì) DeepSeek 更新表示淡定的網(wǎng)友也稱:「雖然它不再讓我感到驚訝了。每次我都得等到所有營(yíng)銷噱頭平息后才能進(jìn)行全面測(cè)試。但無(wú)論如何,Deepseek 仍然擁有開(kāi)放權(quán)重的優(yōu)勢(shì),這無(wú)疑是一個(gè)優(yōu)點(diǎn)。」

reddit 社區(qū)關(guān)于 DeepSeek 更新的帖子|圖片來(lái)源:reddit  

這幾個(gè)月,在 DeepSeek 的對(duì)比下,以往的 AI 巨頭保持技術(shù)和聲譽(yù)優(yōu)勢(shì)的壓力,可以說(shuō)越來(lái)越大。

不少網(wǎng)友開(kāi)始擔(dān)心其命運(yùn),比如「DeepSeek 將繼續(xù)迫使 AI 公司在價(jià)格方面展開(kāi)競(jìng)相壓價(jià)的競(jìng)爭(zhēng)?!褂械木W(wǎng)友認(rèn)為 DeepSeek「這樣做并非全是出于利他主義。通過(guò)發(fā)布免費(fèi)模型,你可以阻止競(jìng)爭(zhēng)對(duì)手占據(jù)市場(chǎng)主導(dǎo)地位」。

reddit 社區(qū)關(guān)于 DeepSeek 更新的帖子|圖片來(lái)源:reddit  

最高贊的回復(fù)則選擇感謝所有模型制作者,持同樣看法的用戶稱,無(wú)論是不是利他行為,「我很感激能在短期內(nèi)從他們的策略中獲益」。

這可能也是旁觀全球 AI 競(jìng)賽時(shí),面對(duì)一次次模型升級(jí),當(dāng)下不少開(kāi)發(fā)者的真實(shí)心態(tài)。

reddit 社區(qū)關(guān)于 DeepSeek 更新的帖子|圖片來(lái)源:reddit  

另外,值得注意的是,業(yè)界仍在 DeepSeek R2 的發(fā)布。在 DeepSeek 更新時(shí),有不少網(wǎng)友問(wèn)到 R2 的進(jìn)展,是不是會(huì)延遲發(fā)布,甚至懷疑「DeepSeek-R1-0528」是不是其實(shí)就是「R2」,只是用 R1 系列命名。

「 我們想要 R2 ?!乖?DeepSeek 官方更新的 X 帖子下,高贊回復(fù)如是說(shuō)。

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。

主站蜘蛛池模板: 亚洲视频二| www国产亚洲精品久久网站 | 国产一区二区三区在线视频 | 国产91观看 | 亚洲黄色一级 | 欧美日韩久 | 欧美精品成人一区二区三区四区 | 天天操妹子 | 日本免费一区二区三区四区 | 欧美一区二区在线观看 | 韩日一区 | 五月综合激情网 | 成人av在线播放 | 插插宗合网 | 久久99久久99久久 | 日韩欧美成人一区二区三区 | 欧美精品福利 | 亚洲精品福利视频 | 成人激情视频网 | 麻豆一区二区三区精品视频 | 中文成人无字幕乱码精品 | 毛片黄| 亚洲国产成人久久久 | a级片网站| 殴美成人在线视频 | 精品国产91亚洲一区二区三区www | 美女视频一区二区三区 | 免费在线一区二区三区 | 亚洲性综合网 | 美女天天干天天操 | 欧美1级 | 成人教育av| 国产区一区 | 亚洲人成人一区二区在线观看 | 色综合99| 国产精品久久久久一区二区三区 | 国产精品免费在线 | 99久久99久久精品国产片果冰 | 国产精品国产三级国产aⅴ中文 | 欧美精品一区二区三区在线 | 99久久日韩精品免费热麻豆美女 |