專訪商湯智能產業(yè)研究院院長田豐：推動“冰山之下”的大模型技術創(chuàng)新探索

分類: 最新資訊 常識詞典 編輯 : 常識發(fā)布 : 03-18

閱讀 :112

每經(jīng)記者：可楊每經(jīng)編輯：文多錢學森在《從飛機、導彈說到生產過程的自動化》一書中寫下：“用機器代替人的體力勞動，是第一次工業(yè)革命，即機械化；用機械系統(tǒng)來替人作非創(chuàng)造性的腦力勞動，是第二次工業(yè)革命，即自動化。”3月15日，由工業(yè)和信息化部工業(yè)文化發(fā)展中心牽頭成立的AI應用工作組主辦，每日經(jīng)濟新聞承辦、數(shù)智未來場景實驗室協(xié)辦的“Sora的啟示：AI應用再飛躍”主題沙龍活動在京成功舉辦。活動期間，商湯智能產業(yè)研究院院長田豐在接受《每日經(jīng)濟新聞》記者專訪時提到，當前我們正在經(jīng)歷“機械化”到“自動化”階段。大模型，是人類邁向自動化的關鍵基礎設施。隨著Sora的推出，圍繞大模型的競爭繼續(xù)提速。就Sora帶來的啟示、智能基礎設施的建設、算力的普惠之路，《每日經(jīng)濟新聞》記者與田豐展開對話。田豐認為，我們既要借鑒OpenAI的“踏腳石理論”，同時也要學習錢學森所推崇的科研要遵循“冰山理論”?！拔覀儾荒苤豢此嫔?，別人做到哪兒，我們就馬上去跟，也要看到水面之下應該怎么走。”田豐表示。Sora的啟示：尋找踏腳石Scaling Laws（尺度定律），指的是模型訓練計算量、訓練數(shù)據(jù)規(guī)模、模型參數(shù)量與模型效能之間的正相關關系，一個更通俗的說法是“大力出奇跡”?！癝ora雖然不完美并且處于早期階段，但它確實是尺度定律的又一次驗證，也是一個大模型工程化的進展?！痹谔镓S看來，Sora的誕生，首先代表著尺度定律的又一次成功。田豐指出，Sora所采用的Diffusion Transformer（DiT）架構，是多種已有架構之間的工程化融合，故而具備Diffusion（擴散）等架構的長處，也不可避免地帶有一些缺陷。目前，全球范圍內的研究者同時在探索不同架構方向。田豐將這種探索比喻為一棵科技樹，Sora是在其中某一條路徑上領先，而其他研究者會在其他路徑上積極探索，最終互相借鑒，讓AI基礎科研更快發(fā)展。田豐認為，Sora所帶來的另一個啟示是，Sora是OpenAI邁向AGI（人工通用智能）的“踏腳石”。“新奇事物的重要性在于，它們往往可以成為踏腳石探測器，因為任何新奇的東西，都是催生更新奇事物的潛在踏腳石?！監(jiān)penAI科學家在其撰寫的《為什么偉大不能被計劃》一書中，提到了“踏腳石”。在專訪中，田豐也反復提及“踏腳石理論”。他表示，在基礎研發(fā)中，想達到A點，有可能需要往反方向走到B點，進而再到達A點。因為創(chuàng)造力是一種“搜索”，基礎研發(fā)是在龐大“解空間”中通過多個路徑深入探索，而無法完全通過目標找到最短的直線?！霸趺慈ザx踏腳石，就是一定要有新奇性?！碧镓S表示，基于這個理論，中國技術研發(fā)也要找到更多踏腳石?！澳阌懈嗟奶つ_石之后，就能發(fā)現(xiàn)跨領域、跨學科的相關性，上面‘長’出的基礎研發(fā)突破就會更多。”除此之外，田豐同樣談到錢學森所推崇的“科研遵循‘冰山理論’”，即人們看到的AI“技術突變”只是水面之上的“冰山一角”，水面之下還有更多“隱藏創(chuàng)新”在支撐。“我們不能只看水面上，別人做到哪兒，我們就馬上去跟，也要看到水面之下基礎科研布局，應該怎么走?！蹦窃诖竽Ｐ透偁幹?，水面之下的技術應該如何挖掘？田豐認為，目前大家有不同的探索方向。例如，自動駕駛的大模型旨在模擬現(xiàn)實世界，實現(xiàn)自動駕駛的仿真，并通過神經(jīng)網(wǎng)絡來完成感知、決策、執(zhí)行及反饋等任務。而特斯拉將自動駕駛模式遷移到人形機器人上。于是，人形機器人的出現(xiàn)，又可以進一步作為數(shù)據(jù)和反饋來源，驗證基礎大模型對現(xiàn)實世界的認知誤差、糾正幻覺。當前對于大模型的驗證還依賴于人類反饋強化學習（Reinforcement Learning from Human Feedback，簡稱 RLHF），而這面臨反饋速度慢、成本高以及人的自身認知偏差等問題。因此，科研界同樣在嘗試采用“具身智能”等其他新研究方向，以在復雜多變的物理世界環(huán)境中直接驗證機器智能，讓人工智能不再局限于對人的模仿，而是更直接地探索世界、糾偏認知?！巴ㄍ鵄GI的路，絕對不是只有一條?！碧镓S認為，基于這樣多元化的探索，才會有可能逐步到達AGI。而單純依靠模仿人類思考方式的大模型，對于極為復雜的整個物理世界，尤其是人類已知知識以外的更大的知識領域是無法去探索的。正如錢學森所說——“Nothing is Final”，現(xiàn)在認為正確的人類知識，在下一個時代看來就會具有局限性和偏差。數(shù)據(jù)競速：AI合成數(shù)據(jù)大有可為對于通用大模型而言，尺度定律（Scaling Laws），有沒有可能在某一階段失效？“（在）訓練數(shù)據(jù)用光時”——這是田豐的答案。田豐認為，數(shù)據(jù)多模態(tài)非常重要。“文字語言具有最高的知識密度，但是光有文字語言也不夠，視覺和語言的融合也很重要?！彼硎?，純視覺學習未必會學到物理之間的因果關系，視覺加語言的數(shù)據(jù)，會帶來更好的訓練效果，讓大模型能夠理解復雜環(huán)境、復雜任務中的表征和表意內容，也能讓Sora現(xiàn)在存在的一些物理上的混亂，得到改善。從數(shù)據(jù)層面看，田豐認為，目前存在多個潛在的訓練數(shù)據(jù)增長點。首要的是人們日常使用的應用。例如微博，每日有2.6億用戶在微博發(fā)帖，這為模型訓練提供了豐富的增量數(shù)據(jù)。其次，具身智能的傳感技術，同樣能夠提供數(shù)據(jù)增量，例如自動駕駛汽車和人形機器人都是數(shù)據(jù)收集器。此外，商湯目前的衛(wèi)星遙感智能解譯技術，能夠觀察地球物理環(huán)境每一天發(fā)生的多維度變化，同樣提供了大量的數(shù)據(jù)資源。當現(xiàn)實世界產生的數(shù)據(jù)仍舊不足時，就需要同時在AI合成數(shù)據(jù)層面進行科研探索。田豐介紹，目前，合成數(shù)據(jù)仍處于前期階段，生成的數(shù)據(jù)質量參差不齊。業(yè)界期待多模態(tài)大模型不僅能輸入多模態(tài)數(shù)據(jù)，同時還能產出接近真實世界的高質量多模態(tài)數(shù)據(jù)。但當前，如果視頻數(shù)據(jù)自動標注的描述文字不精準，則會造成“Garbage in，garbage out”（指輸入的垃圾數(shù)據(jù)會導致大模型輸出的垃圾結果），其風險依舊擺在AI合成數(shù)據(jù)面前，各國AI基礎科研團隊正在攻堅。對此，田豐則認為，業(yè)界都憧憬做成“世界模擬器”，但目前生成的視頻數(shù)據(jù)與真實世界仍有較大距離。Sora所生成的最好的視頻內容是“我的世界”游戲視頻，幾乎與玩家實際體驗無異。這得益于OpenAI對“我的世界”游戲公司與游戲引擎的收購。游戲引擎為了讓玩家感覺更真實，無論是光照、紋理還是人和物體之間的交互，都比較接近現(xiàn)實世界。所以Sora用這樣的訓練數(shù)據(jù)來生成，使得大模型能夠從中學習并理解游戲中的復雜因果關系，進而生成逼真的內容。更為重要的是，游戲世界會一直產生大量較低成本的世界仿真數(shù)據(jù)，比從現(xiàn)實中收集要快很多?！暗ㄖ窼ora為代表的大模型）是不是真正理解現(xiàn)實世界、物理世界的所有因果規(guī)律？其實，人類目前仍沒有完全理解和掌握?！碧镓S繼續(xù)說道，從這個角度而言，合成數(shù)據(jù)很重要的一點是，我們應像對抗神經(jīng)網(wǎng)絡的邏輯一樣，必須有另一個模型驗證合成數(shù)據(jù)與事實的接近程度。將視線聚焦于當前的數(shù)據(jù)競爭態(tài)勢，田豐表示，中國擁有14億人口，每天都在產生海量的數(shù)據(jù)，這就意味著巨大的潛力，我們有能力以更低的成本來采集這些數(shù)據(jù)。此外，中國還擁有106億的物聯(lián)網(wǎng)終端，其中尚未采集到的各類數(shù)據(jù)——如工業(yè)傳感信號等，都是極具價值的資源。若能成功采集到這些數(shù)據(jù)，將成為訓練垂類大模型的優(yōu)質素材，也能幫助大模型更深入地理解產業(yè)場景中事物之間的因果關系。此外，在合成數(shù)據(jù)方面，大家也均處于起步階段，還在互相競爭。田豐認為，人工智能是當今社會數(shù)據(jù)資源最大的需求方，若能在數(shù)據(jù)領域構建出完善的體制機制，使數(shù)據(jù)成為市場化流通的關鍵要素，那么便能在數(shù)據(jù)層面持續(xù)推動尺度定律，加速大模型的進步。如何實現(xiàn)AGI？兩條路徑并行如何實現(xiàn)AGI？田豐提出兩個方向。從生成智能的角度來看，生成式人工智能正在逐步轉向更具創(chuàng)意性的工作，這需要更多大模型的“幻覺”想象力。在這條路徑上，“幻覺”并不是壞事，創(chuàng)作科幻小說、科幻電影就體現(xiàn)出了這一點——想象力在其中扮演著至關重要的角色。愛因斯坦也曾經(jīng)提出“想象力比知識更為重要”。另一個方向則更加側重于科學和工業(yè)產業(yè)具體問題的解決，這就需要致力于減少幻覺，持續(xù)提高準確度和可靠性，一旦能夠達到人類科學家、工程師的平均水平，突破“工業(yè)紅線”，大模型就能全面普及到各個行業(yè)產業(yè)和科研領域。在田豐看來，大模型實則是公共基礎設施的一部分，是智能基礎設施，而基礎設施的特點就是重資產型、重資本型。在現(xiàn)有情況下，大模型研發(fā)與應用是一個長期投資。一方面，基礎模型不能跟進到GPT4，就自認為“領先全球”，另一方面，在國產基礎模型與國際縮小差距的同時，也要積極探索新的發(fā)展方向?！伴_拓者創(chuàng)造方向，跟隨者選擇方向，領先者并不代表永遠的成功，而可能被具有強大創(chuàng)新能力的跟隨者趕超?！睆倪@一角度看，長周期持續(xù)的人工智能基礎科研、基礎建設資本投入至關重要，這也是充分發(fā)揮制度創(chuàng)新的機遇。盡管資本通常會關注盈利問題，但也不是絕對，田豐用他在云計算產業(yè)的經(jīng)驗舉了個例子。2012年前后，云計算公司主要的用戶群體是網(wǎng)站站主，且許多是個人網(wǎng)站站主，資金相對匱乏。新一代基礎設施的早期，是投資與“裝置”期，表象上就是盈利難。然而，根據(jù)世界銀行《為發(fā)展提供基礎設施》報告分析，基礎設施投資、“裝置”期通常需要10年甚至15年，而基礎設施投資建設往往伴隨著經(jīng)濟周期的上升階段，當基礎設施建設成熟，則會持續(xù)產生廣泛普惠的社會全產業(yè)價值。例如當前，云計算已經(jīng)逐漸成為企業(yè)和科研通用型技術，廣泛應用于金融、能源、交通等多個領域。因此，人工智能基礎設施的建設在前期更多地依賴于國家大基金和大型企業(yè)的投資，類似于高速公路、5G通信網(wǎng)絡的建設。這種資本增密的投資模式對于推動新質生產力技術的發(fā)展和新一波經(jīng)濟繁榮至關重要。因此，目前我們仍處于基礎設施建設階段，為了將來能建成“萬里長城”，先要把地基打好。在基礎設施的“裝置”期，需要在超大規(guī)模AI算力中心、統(tǒng)一數(shù)據(jù)市場平臺上追加投入，充分挖掘并利用我國的數(shù)據(jù)資源、大市場規(guī)模和科技人才儲備。如何促進應用繁榮？算力普惠是關鍵在重資產、重資本型的背景下，對于未來“百模大戰(zhàn)”的終局，田豐用操作系統(tǒng)的競爭來舉例：“當時多家廠商的很多人覺得（操作系統(tǒng)）就是‘大B’的事情，即大模型從頭部大企業(yè)端賺錢。以1981年個人電腦操作系統(tǒng)的‘春秋戰(zhàn)國時期’為例，UCSD Pascal P-System（一種操作系統(tǒng)）單機授權費高達450美元，CP/M-86（同為一種操作系統(tǒng)）授權費是175美元，而微軟MSDOS僅向買PC的消費者收60美金，而IBM可免費使用微軟開發(fā)的操作系統(tǒng)，但不能獨占使用權?！拔④涍x擇的差異化戰(zhàn)略是什么？比爾·蓋茨在《未來之路》一書里寫下：‘我們的目標不是要直接從IBM（大企業(yè)）那里賺錢，而是把軟件平臺的特許使用權出售給個人計算機工業(yè)（所有硬件）的生意?！葼柹w茨的目標，是計算機的使用接近免費時，自己的操作系統(tǒng)將占有最大市場份額?！半m然大模型目前還處于企業(yè)級應用市場，但伴隨AI芯片算力價格的持續(xù)下降、大模型個人終端涌現(xiàn)，將會呈現(xiàn)大模型操作系統(tǒng)的‘馬太效應’，頭部廠商占有最大市場規(guī)模?！碧镓S認為，目前大模型的方向并非是向大型企業(yè)收取高額費用，而是應當通過低價、易開發(fā)、快迭代、硬件兼容等競爭策略致力于最大限度搶占市場份額，并積極吸引各類AI新型硬件的支持。只要有越來越多的、不同類型的硬件終端支持同一款大模型，它就能像操作系統(tǒng)一樣受到AI應用開發(fā)者的歡迎。而終端硬件選擇大模型，則源于消費者用戶群體的驅動，而用戶之所以選擇某一款“操作系統(tǒng)”，是因為其上集成了眾多由小微或個人開發(fā)者開發(fā)的長尾大模型應用。這是Windows和iOS等頭部操作系統(tǒng)得以成功的原因，也是大模型突破紅海的一條已驗證的戰(zhàn)略路徑。目前，應用所面臨的主要挑戰(zhàn)體現(xiàn)在兩大方面。首先是算力成本問題。若算力成本持續(xù)高價，長期來看，必然會抑制大模型應用創(chuàng)新的蓬勃發(fā)展，就像互聯(lián)網(wǎng)APP早期不是靠用戶每月交納30美元會員費，而是以近乎免費的使用權拉動新用戶“嘗鮮”。因此，AI芯片行業(yè)勢必不斷降低成本，并通過智算中心架構創(chuàng)新推動AI云算力的普及化、全民化。若GPU領域不進行快速改革，業(yè)界勢必出現(xiàn)新一代的芯片產品、計算力架構，以降低成本并促進AI應用的廣泛發(fā)展。另一方面，大模型的持續(xù)升級也會給應用帶來挑戰(zhàn)和機遇。由于大模型每月、每季度都在更新升級，應用在其原有基礎上的改進可能很快被新版本大模型所替代和覆蓋，即大模型操作系統(tǒng)和應用的“邊界”尚未確定，大模型不斷嘗試做應用的功能，應用則補上當前版本大模型的“短板”，降低消費者使用門檻。因此，應用開發(fā)商加深行業(yè)應用“護城河”的同時，可尋求與大模型的解耦，或提供跨多個大模型的統(tǒng)一服務入口、一站式用戶開發(fā)環(huán)境，并尋找產業(yè)中最具盈利潛力的商業(yè)路徑。這樣一來，即便大模型升級，應用也能迅速跟上或匹配更優(yōu)競爭力的其他模型，保持應用層對私域用戶的競爭力。但長遠來看，應用開發(fā)者依舊會逐漸趨向使用更為穩(wěn)定、功能強大的頭部大模型底座。圍繞算力問題，田豐表示，目前，我們正處于人工智能時代的算力初期階段，算力成本仍然較高，只有大型企業(yè)能夠負擔。然而，隨著國產AI芯片、國產超大規(guī)模AI智算中心技術的不斷進步，算力成本就會逐漸降低，每個人也能接近以免費的方式享用新一代人工智能的科技紅利。龐大市場的吸引力，將倒逼AI模型架構和AI算力集群架構的深刻變化。因此，田豐認為，當前正處于AI計算大變革的前夜。他表示，當AI算力成本降至拐點時，社會需求量與用戶規(guī)模將會迅速飆升，助推全民AI創(chuàng)業(yè)熱潮，普通用戶會發(fā)現(xiàn)算力成本已經(jīng)逐步平攤到廣告成本或交易成本里。“科技發(fā)展史證明智能產業(yè)普及期是這樣的，但怎么會發(fā)生？就要回到新一代人工智能基礎研發(fā)的路徑上，要找到新的踏腳石，一步一步走過去?！?

標簽 : 最新資訊 03-18

下一篇:馬克·古爾曼：蘋果預計將于910月左右發(fā)布兩款第四代AirPods機型下一篇 【方向鍵 ( → )下一篇】

上一篇:TTS新傳論文帶讀：最新“錯過喜悅”研究！人確實不必太正常... 上一篇 【方向鍵 ( ← )上一篇】

欄目列表

最新資訊最新推文最新資訊

蜜桃无码视频,欧美日韩一=三道夲,国产精品午夜AV电影网免费看,aaa.www

最新資訊

專訪商湯智能產業(yè)研究院院長田豐：推動“冰山之下”的大模型技術創(chuàng)新探索

欄目列表

相關文章

最新文章