科工力量：小模型技術(shù)是中國企業(yè)率先導(dǎo)入裝備中，大模型也不例外

2024-05-08

■原題：小模型技術(shù)是中國企業(yè)率先導(dǎo)入裝備中，大模型也不例外

去年，pg科技發(fā)布了行業(yè)大模型“梧桐”，推進AIGC對物聯(lián)網(wǎng)行業(yè)的改變。今年4月16日，又是在烏鎮(zhèn)，pg總裁張鵬國又帶來了一系列全新觀點，如：“大模型只是技術(shù)升級而不是革命”，“裝備大模型化是商業(yè)化落地的最佳線路”，“大模型未來最大的挑戰(zhàn)可能是能耗問題”……這些洞見和觀察引人深思。觀察者網(wǎng)請pgAI首席科學(xué)家李聰廷來進一步談?wù)勥@些問題，將大模型應(yīng)用落地的最新探索報告給大家。

觀察者網(wǎng)：如何理解大模型只是技術(shù)升級而不是革命，現(xiàn)在AI技術(shù)的熱度和期待值很高，這么說會不會把技術(shù)發(fā)展的可能性給限制了？

李聰廷：技術(shù)受關(guān)注是好事，更多學(xué)術(shù)或企業(yè)從業(yè)者投身其中，加速技術(shù)進步和落地。理性的看，從深度學(xué)習(xí)小模型再到今天的大模型，學(xué)習(xí)效率低即依賴大量算力和標(biāo)記數(shù)據(jù)的問題沒有解決，不可避免出現(xiàn)低級錯誤的問題也沒有解決，引用Yann Lecun 的話：“機器學(xué)習(xí)與人類和動物相比很糟糕”。因此，大模型只是技術(shù)升級而不是革命。大模型作為技術(shù)升級帶來的紅利，已經(jīng)給商業(yè)化落地帶來很多商機，給不少企業(yè)帶來未來的增量或者效率提升。也正因為現(xiàn)在的大模型技術(shù)不是最終解，使類似 Yann Lecun 這樣的科學(xué)家把精力放到研究面向未來的新的技術(shù)路徑，應(yīng)該說理性看待當(dāng)下大模型技術(shù)，反而加大了找出未來路徑的可能性。

圖靈獎獲得者楊立昆（Yann Lecun）

觀察者網(wǎng)：圖靈獎獲得者楊立昆（Yann Lecun）批評Sora不是世界模型，認為生成式路線注定無法通往AGI，對此你怎么看？

李聰廷：世界模型是對物理定律和環(huán)境規(guī)則的理解和對齊，Sora 目前的確做不到這一點。現(xiàn)在的 AI 水平距離 AGI 還很遙遠，但已經(jīng)消耗了巨大的算力和能耗，以 chatGPT 為例，每天需要耗費 50 萬度電，相當(dāng)于 1.7 萬個美國家庭的耗電量，其學(xué)習(xí)效率與人腦天壤之別，這不得不引發(fā)學(xué)者們思考新的出路。

對當(dāng)前技術(shù)路線的未來悲觀，并不代表對過去和當(dāng)下的否定。Yann Lecun 2022 年的“From Machine Learning to Autonomous Intelligence”講座，開篇提到“AI can do pretty amazing things today”，是對過去和當(dāng)下的肯定，然后才提出當(dāng)下技術(shù)路線無法通向 AGI。舉個例子，當(dāng)下輔助駕駛已經(jīng)在新能源車上普及，提升了駕駛體驗，但 L4級別的自動駕駛落地遙遙無期，不可避免出現(xiàn)未知錯誤的問題難以根本解決?！爱?dāng)下最優(yōu)解，不是最終解”這句話是對當(dāng)前大模型技術(shù)現(xiàn)狀相對客觀的總結(jié)。

觀察者網(wǎng)：在千行百業(yè)落地的國產(chǎn)模型，要為解決各種細碎的問題，為細分場景專門優(yōu)化，那么在同等的任務(wù)上，未來表現(xiàn)出的能力，還會與國際上頂尖的通用大模型有差距嗎？有可能展現(xiàn)出大模型公司搞不定的能力嗎？

李聰廷：通用大模型，是基礎(chǔ)設(shè)施，有點像 Android 這樣的操作系統(tǒng)，有兩個特點。一是投入大，只有少數(shù)巨無霸企業(yè)能夠持續(xù)投入；二是生態(tài)壁壘墻厚，占先機建立廣大用戶基礎(chǔ)后，留給追趕著的機會就不多了。大模型技術(shù)是在美國爆發(fā)，因此 OpenAI、Google、Meta 等美國企業(yè)已占據(jù)了先機，中國企業(yè)或機構(gòu)處于追趕狀態(tài)，我們不得不面對和正視這個差距。

通用大模型首先在C端獲得了大量用戶，人們可以與它對話、提問、寫作、作畫、作曲等，這種體驗是以前 AI 做不到的，一時間人們誤以為AI已經(jīng)追上甚至超越人類水平。但在一些細分場景落地過程中，特別B端場景落地過程中，人們很快發(fā)現(xiàn)其精度過低、成本過高，無法落地。例如，使用市面上任何一個通用大模型識別迪拜車牌，正確率低于 20%。又比如，pg作為產(chǎn)品和解決方案輻射全球200多個國家和地區(qū)的全球化公司，資料翻譯很消耗人力，但通用大模型會把“槍機”形態(tài)的網(wǎng)絡(luò)攝像機直譯成“gun camera”，因為它不具備“box camera”這類專業(yè)詞匯的知識庫。因此，是細分場景落地催生了行業(yè)大模型。

在中國，我們深入去看每一個細分行業(yè)，幾乎都能找到一兩家甚至更多具備很強產(chǎn)品研發(fā)能力的企業(yè)。這類企業(yè)在國內(nèi)市場充分競爭廝殺，國外產(chǎn)品型公司很難與之競爭。這類企業(yè)，已經(jīng)在將自身產(chǎn)品與行業(yè)大模型結(jié)合，推出更有競爭力的產(chǎn)品。以pg自身為例，前段時間我們推出了夜鷹系列攝像機，其展現(xiàn)的在 0.001 Lux 下的夜視能力在業(yè)內(nèi)引發(fā)熱議，領(lǐng)先海外同行企業(yè)兩年。夜鷹的背后是十多年攝像機技術(shù)的積累以及梧桐行業(yè)大模型的AI-ISP能力結(jié)合?？偟膩碚f，行業(yè)大模型落地產(chǎn)品，我國并不落后。

大模型化的攝像頭提升了夜間觀測的能力，用于觀察和保護猛禽

觀察者網(wǎng)：裝備（工具）的模型化能戰(zhàn)勝模型的裝備（工具）化，或者說，+AI能戰(zhàn)勝AI+，這個判斷有哪些產(chǎn)業(yè)發(fā)展歷史上的經(jīng)驗可以佐證？

李聰廷：現(xiàn)在的大模型階段已有不少例子，比如一年前 MidJourney V5 和 Stable Diffusion 這類文生圖大模型出現(xiàn)在公眾眼前的時候，有人驚呼圖片編輯工具市場要顛覆了。但今天看 Adobe Illustrator 、Photoshop 這類工具的用戶并沒有流失，在 Adobe 推出 firefly大模型并集成到自家工具中后，其用戶基礎(chǔ)更穩(wěn)固了。背后的本質(zhì)是，大模型技術(shù)可以提升工具中部分？櫚男，還遠遠達不到替代工具本身。而且今天，訓(xùn)練調(diào)優(yōu)一個自己的行業(yè)或垂直大模型門檻并沒有那么高。

回顧上一個階段，即 2014 年深度學(xué)習(xí)技術(shù)在產(chǎn)業(yè)界開始爆發(fā)到大模型技術(shù)應(yīng)用前，一度很多人也認為 AI新勢力會顛覆傳統(tǒng)應(yīng)用/工具/裝備的公司。早期，這類公司的算法處于領(lǐng)先，同時在大量資金注入和人才加盟的背景下，很快入場做產(chǎn)品。最后發(fā)現(xiàn)產(chǎn)品的技術(shù)點非常多，傳統(tǒng)產(chǎn)品公司過去踩過的坑，AI 新勢力不得不重新踩一遍。好不容易過了產(chǎn)品研發(fā)關(guān)，又遇到了制造瓶頸，制造特點是單個環(huán)節(jié)看似極其沒有技術(shù)含量，但數(shù)百萬器件 bom的管理和流水運作，有極高的門檻。制造門檻后面還有渠道門檻，渠道門檻后面還有規(guī)模采購成本門檻。最后 AI 新勢力不得不轉(zhuǎn)向提供算法授權(quán)的商業(yè)模式，但很快傳統(tǒng)產(chǎn)品公司完成了算法追趕，算法紅利消失后，這種商業(yè)模式也折戟了。

上述例子表明，裝備（工具）企業(yè)被大模型技術(shù)新勢力企業(yè)趕超的可行性很。切└簧洗竽Ｐ圖際跎堵淶淖氨福üぞ擼┢笠滌鋅贍鼙黃淥氨福üぞ擼┢笠堤蘊。

觀察者網(wǎng)：從裝備大模型化的觀點看，中國應(yīng)該具有率先將大模型應(yīng)用落地的諸多優(yōu)勢，如工程能力的優(yōu)勢，新能源產(chǎn)業(yè)的優(yōu)勢。從你們在海外市場競爭的經(jīng)驗看，中國企業(yè)是不是走在了前面？

李聰廷：先從裝備的產(chǎn)品力本身看，以AI體鍛屏為例，需要具備成像技術(shù)、嵌入式軟件技術(shù)、云和APP軟件、硬件技術(shù)、顯示技術(shù)、交互設(shè)計、工程交付技術(shù)等諸多要素，當(dāng)然還有 AI。研發(fā)出有競爭力的產(chǎn)品還遠遠不夠，得上量才能覆蓋研發(fā)投入并有利潤，這很考驗企業(yè)的渠道能力。有渠道帶貨，我們還要能造得出來，這又考驗企業(yè)的規(guī)模制造能力。產(chǎn)品售價既要有競爭力還要有利潤，這又考驗企業(yè)的規(guī)模采購議價能力。當(dāng)然，還有速度要素。因此，比拼的是所有要素的綜合能力。

AI是其中一個要素，從小模型到大模型，技術(shù)升級了。這個變量，在裝備企業(yè)之間產(chǎn)生足夠的影響，舊的產(chǎn)品會加速迭代，并且還會創(chuàng)造一些新的場景的產(chǎn)品；反之，如果跟不上技術(shù)迭代，企業(yè)就會掉隊。但對于沒有裝備經(jīng)驗只有大模型技術(shù)的企業(yè)，要邁過其它諸多要素的檻，道阻且長。

上一階段的小模型技術(shù)，中國企業(yè)是率先導(dǎo)入并應(yīng)用于裝備中的，這次大模型技術(shù)也不會例外。

觀察者網(wǎng)：已經(jīng)有不少批評說中國做大模型的公司太多了，但是中國能做各種設(shè)備的公司更多，如果每個有實力的設(shè)備公司都想+AI，做自己的行業(yè)模型，會不會呈現(xiàn)出非常細碎，沒有統(tǒng)一標(biāo)準、統(tǒng)一品牌的離散格局？

李聰廷：新技術(shù)出現(xiàn)，必然會吸引大量優(yōu)秀人才和資本入場。這里有定位通用大模型的、有定位行業(yè)大模型的、有定位工具鏈的、當(dāng)然還有定位 APP/工具/裝備的。

通用大模型，最后大概率會集中在頭部少數(shù)幾家，贏者通吃，這幾家自身就成為了事實的標(biāo)準。其它企業(yè)會比較艱難甚至出局。

定位行業(yè)大模型的企業(yè)，有點像小模型時代的算法授權(quán)商業(yè)模式，它太容易被APP/工具/裝備企業(yè)的自研給替代。因此避開與這類產(chǎn)品企業(yè)競爭，找到有生存機會的細分場景很重要。最后有可能出現(xiàn)幾個細分場景的小而美的企業(yè)，做大的可能性不大。

定位工具鏈的企業(yè)，閉源，無法獲得大量開發(fā)者用戶，不利于建生態(tài)。開源，看不清商業(yè)盈利路徑。左右為難的同時，還面臨大廠自研的競爭挑戰(zhàn)。

定位 APP/工具/裝備的企業(yè)，行業(yè)大模型只是其產(chǎn)品的一個技術(shù)要素，用戶側(cè)看到的仍是其產(chǎn)品品牌。用戶甚至感受不到行業(yè)大模型的存在，但一定能感知到產(chǎn)品的用戶體驗提升了。

觀察者網(wǎng)：月之暗面的楊植麟說，今天的大部分開發(fā)工作實際上是做中間層的事情，就是數(shù)據(jù)。交互和模型可能都是一樣的，但用不同的數(shù)據(jù)，就會出來不同的產(chǎn)品。定義好了訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)，大模型產(chǎn)品就定義好了。月之暗面是做云計算，做to C端產(chǎn)品，對于你們做邊緣計算，做to B端產(chǎn)品來說，這個描述也適用嗎？

李聰廷：最近月之暗面及其旗下應(yīng)用Kimi 熱度很高，用戶體驗做得不錯。我們所在的 AIoT 賽道，和它所在的賽道沒有交集。訓(xùn)練和測試數(shù)據(jù)肯定很重要，在我們這個賽道也一樣。但對于定義一個行業(yè)大模型而言，我們會更關(guān)注其落地的性價比。例如，如果我們用 10B 級別的通用 CV 大模型去做視頻解析的逐幀推理，那需要用到 A800 級的 GPU 設(shè)備，單路的實時推理成本需要 1 萬美金左右，而我們的客戶過去只能接受幾百元人民幣每路的成本。因此，我們采用了 5M 的小模型+1B 的梧桐行業(yè)大模型結(jié)合的方式，并且都是 ViT 網(wǎng)絡(luò)結(jié)構(gòu)，這樣我們的單路推理成本可以做到幾百元人民幣水平。

Kimi頁面

觀察者網(wǎng)：當(dāng)前倡導(dǎo)的“新質(zhì)生產(chǎn)力”就是要找到更多信息化、智能化的新模式、新場景、新業(yè)態(tài)。在典型的物聯(lián)網(wǎng)場景比如充電樁，還有你們正在探索的文教體等行業(yè)，目前找到了哪些好的AI應(yīng)用場景，已經(jīng)表現(xiàn)出了能夠商業(yè)落地，適合技術(shù)迭代的跡象？

李聰廷：確實，技術(shù)進步會催生更多的細分行業(yè)場景，比如AI文教體、儲能、充電樁等，在pg2024合作伙伴大會的現(xiàn)。蠹夷蕓吹膠芏嗟惱飫嗖，我舉四類：

一是AI體育教育：實現(xiàn)體育教具的AI化，其是一個具備逐步迭代與升級的長程賽道，可以圍繞的教學(xué)要求、運動種類、鍛煉目標(biāo)等不斷地提升效率、效果及內(nèi)容豐富度，一方面是針對不同的運動類目不斷增加算法類別，另一方面又可在單一算法類別上不斷縱深優(yōu)化效果。

大模型提升了算法精度，推進了體育教具AI化

二是AI體育運動：分享經(jīng)濟時代，能更全面記錄自己想要記錄的時刻，具備更豐富的可分享素材是通識性需求，只要是運動游玩都有此類訴求，所以在這個領(lǐng)域內(nèi)寬度（運動類別）無上限，深度（每一個細分領(lǐng)域可提供滿足個人情緒價值的內(nèi)容）無上限。

在烏鎮(zhèn)現(xiàn)場展示的智能球場解決方案，通過AI捕捉分析，自動生產(chǎn)運動視頻并統(tǒng)計數(shù)據(jù)

三是文旅領(lǐng)域：基于梧桐大模型演進的算法服務(wù)于“旅游”行業(yè)，通過攝像機采集AI擇優(yōu)生成照片與vlog模式可覆蓋景區(qū)、游樂場所、博物館等多類場景，更好的與當(dāng)下分享經(jīng)濟結(jié)合，服務(wù)于個體情緒價值的滿足，其具備充分的優(yōu)化演進空間，比如在算法的優(yōu)選效果上、視頻的畫面清晰度上、視頻剪輯的創(chuàng)意性以及更多更有趣的表達方式等等。

四是AI寫真：通過AI算法來完成照片的優(yōu)選與“PS”，可以配合個體快速的完成不同場景生成、不同裝造、不同形象（二次元、商務(wù)等）的照片生成，即可幫助找適合自己的造型、也可在過程中帶來娛樂性，同時也可服務(wù)于個體某一些場合所需照片的快速獲取訴求。

觀察者網(wǎng)：大模型未來最大的挑戰(zhàn)可能是能耗問題，模型的能力增長與算力增長、能耗增長的關(guān)系是怎樣的？為什么分布式能源系統(tǒng)和能算一體化是解題思路？

李聰廷：要把大模型技術(shù)和大模型應(yīng)用分開，還要把大模型應(yīng)用中的互聯(lián)網(wǎng)服務(wù)和裝備化產(chǎn)品分開。對于面向C端的大模型互聯(lián)網(wǎng)服務(wù)來說，比如ChatGPT、Sora來說，算力和能耗問題比較突出，每多服務(wù)一個用戶，都需要額外的算力和能耗。但對于使用的大模型技術(shù)的裝備來說，算力和能耗是有限的、固定的，并不存在算力和能耗焦慮。

對于算力高度集中的數(shù)據(jù)中心應(yīng)用場景，能算一體也許是個發(fā)展方向，能源自給自足肯定是有利于降低成本的，但代價是能源供給的穩(wěn)定性。分布式能源是一種能源結(jié)構(gòu)，涵蓋的面比能算一體更廣泛，解決的不止是數(shù)據(jù)中心能耗的問題。

[出處] 小模型技術(shù)是中國企業(yè)率先導(dǎo)入裝備中，大模型也不例外. 科工力量, 2024-04-18

上一篇：錢江晚報：這場高科技大會上，AI加持的體育課原來還能這樣上

下一篇：雷峰網(wǎng)：從“裝備大模型化”看pg的「務(wù)實」與「創(chuàng)新」