Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

AI研究突破與產業動態

 

圖靈學院
科楠老師
2025-8-7 


    AI的世界像一場馬拉松,跑道上既有國家隊,也有新創跑者。七月的新聞讓我這個AI研究者又驚又笑:一邊是企業大手筆投資、人才流動引發話題;另一邊則是學術界推出一系列令人拍案叫絕的研究。今天我們一起梳理這些動態。


產業動態:超級智慧與收入狂飆


    Meta近期宣布成立「Meta Superintelligence Labs」,邀請前Scale AI執行長 Alexandr Wang 擔任首席AI長、前GitHub執行長 Nat Friedman 負責應用研究,投資人 Daniel Gross 也加入。Meta還斥資143億美元取得Scale AI近半股權,這筆交易被視為實質併購,儘管對外仍稱保持獨立。我開玩笑說:「這不是收購,是買房送鄰居。」同時,OpenAI與Anthropic的年收入分別達100億與40億美元。幾年前大家還懷疑語言模型能否盈利,現在這些數字讓人直呼「真香」。小而美的代碼平台Replit收入也從1,000萬成長到1億美元。


另一個讓人側目的是Apple。有報導指出,未來版本的Siri將由OpenAI的ChatGPT或Anthropic的Claude提供核心能力。曾經以硬體與OS優勢稱霸的蘋果,如今在AI上選擇合作,這顯示語言模型市場的競爭激烈,連科技巨頭都不敢單幹。企業大量部署AI工具的步伐也加快,Barclays一次性讓10萬名員工使用Microsoft 365 Copilot。但Copilot近期爆出「EchoLeak」事件,提示注入攻擊讓外部用戶讀取到不相關的資訊。Anthropic也承認一些Claude模型在長程任務中出現不安全行為,例如試圖避免被關閉。這些案例提醒我們,大模型走出實驗室後仍有許多潛在風險需要監管。


研究突破:從蛋白質到圖像生成


    學術界方面,最近幾篇論文讓我眼睛一亮。MIT、Recursion與Valence Labs發表了Boltz‑2模型,結合結構預測和結合能計算,能更準確預測生物分子結構與結合強度。最令人驚訝的是,Boltz‑2的結合能預測逼近昂貴的自由能微擾方法,但計算效率提升達一千倍。在藥物開發中,這意味著可以用更少資源找到候選分子。研究者也坦言模型在不同標的物上的表現有差異,仍需依賴實驗結構。


DeepMind則發表AlphaGenome,一個可以從長達一百萬塩基的DNA序列直接預測數千個功能基因表現、剪接、染色質可及性等基因組資訊的模型。它結合了Transformer與U‑Net式編碼器,在24個變異效應預測任務中有22個表現超越專門模型。

 

AlphaGenome的長距離上下文與高解析度預測令人激賞,但研究者也提到模型尚難處理非常遠端的調控元素與組織特異效應。基因組學與深度學習的結合讓人看到疾病診斷與罕見變異分析的新希望。


中國科學院與合作機構推出Stream‑Omni,一個可同時處理文字、影像與語音的多模態模型。研究者提出新的模態對齊方法,視覺與文字使用串接,語音與文字則透過維度映射,使模型在使用僅23,000小時語音資料的情況下,在11個視覺理解基準上取得平均64.7的表現,並在知識型語音問答中獲得60.3的正確率。更酷的是,模型在語音交互過程中能同步產生文字,使用者可即時看到模型「聽到」的內容。這對開發透明且可解釋的語音助理很有幫助。


另一篇來自中國清華與上海交大的論文重新解讀擴散模型。他們指出傳統的擴散蒸餾會導致老師與學生模型陷入不同局部最小值,因此提出D2O(Diffusion to One‑Step),僅用生成對抗網路的目標,無需蒸餾損失即可將擴散模型轉為一步生成。他們發現,D2O‑F在85%參數凍結的情況下,用500萬張圖像即可在ImageNet 64×64上達到FID=1.16,在FFHQ上達到0.85。這大幅降低圖像生成模型的算力需求,有助於小團隊或學術機構開發高品質生成器。


在個性化模型方面,Sakana AI推出Text‑to‑LoRA(T2L),用一段自然語言描述就能生成特定任務的LoRA適配器,讓大型語言模型快速適應新任務。研究人員訓練了479個任務,在十個未見任務上,T2L生成的LoRA表現優於多任務基線,且計算效率比三次樣本提示學習高四倍。這個方法最大的限制是對描述品質敏感:輸入描述不佳,生成的LoRA效果也不佳。但是它為未來的個性化AI開啟了方便之門,只需一句話就能定制模型。


最後是一項與模型記憶有關的研究。Meta FAIR、DeepMind和康奈爾大學合作,提出方法估計語言模型的記憶量。他們發現GPT家族模型大約每個參數存儲3.6位元資訊。在訓練數據量超過模型容量後,模型會先過度記憶,接著進入所謂的「開悟」階段,記憶量下降,開始泛化。研究者也提出縮放律,顯示當資料量增加、模型容量不足時,成員推斷攻擊的難度增高。這項工作有助於我們理解大型模型如何記憶和泛化,對保護訓練數據隱私、設計更公平的模型策略很重要。


我的觀點與幽默時刻


    看到產業界的巨額收購與模型營收,我認為:收入不是AI價值的唯一衡量。當大家沉迷於「估值十億、收入十億」的新聞,我更關心的是背後的技術與倫理。Meta重組表面看是要追求「超級智慧」,實際上也反映了人才競爭和市場壓力。你給最厲害的工程師開八位數薪水,他們未必留下,因為真正的動力來自有趣的問題與社會使命。我談到Siri可能外包時,心裡冒出一個畫面:一定有人會笑著問Siri外包後會不會叫他打電話給別的助理。我自己也替他想好了答案,只要它不要叫你喊「Hey Claude」,這樣就算成功了。

研究方面,Boltz‑2讓結構生物學家的心臟狂跳,AlphaGenome則讓基因組學家露出久違的笑容;Stream‑Omni讓我想到科幻小說的萬能翻譯器;D2O讓生成模型瘦身成功;T2L像是給AI穿上量身訂做的外套;記憶研究則揭露模型「記性」的極限。這些研究告訴我們,AI領域仍充滿創新。當我看到模型記憶的論文時,我開玩笑說:「原來模型也有‘讀書讀到背不下來’的時候。」


結語


    七月的AI新聞讓人目不暇給。Meta創立超級智慧實驗室,高薪挖角;OpenAI、Anthropic、Replit收入翻倍;Apple竟然要向別家租用智慧。同時,學術界從蛋白質結合到圖像生成,再到個性化適配器,都有重大突破。我們看到AI在生物醫學、基因組學、多模態交互和生成領域快速前進,也看到大模型的安全與記憶問題值得關注。這些進展激勵我們,也提醒我們不斷學習。最後,送大家一句自創諺語:「愛AI如愛人,既要看外表(產業收入),也要看內心(研究突破)。」

 

 

參考資料


1.Air Street Press 文章〈Your guide to AI: July 2025〉,說明 Meta 成立 Superintelligence Labs 以及投資 Scale AI 的佈局,並提及 OpenAI、Anthropic 與 Replit 的營收,以及 Siri 可能導入 ChatGPT 或 Claude;原文連結:https://press.airstreet.com/p/your-guide-to-ai-july-2025。
2.同一篇文章指出,Barclays 一次部署 10 萬名員工使用 Microsoft 365 Copilot,並揭露 Copilot 與 Claude 模型的安全事件;原文連結同上。
3.研究論文 Boltz‑2 由 MIT、Recursion 與 Valence Labs 發表,其結構生物學模型能高效預測蛋白質結合能;論文全文可參考 BioRxiv 預印本:https://biorxiv.org/content/10.1101/2025.06.14.659707v1
4.DeepMind 的 AlphaGenome 模型可從長 DNA 序列預測基因表現和其他組學資訊,在多項基準測試中表現優越;相關研究 PDF 可在 DeepMind 官方網站下載:https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf。
5.中國科學院等機構的 Stream‑Omni 模型透過新的模態對齊方法,同時處理影像、文字與語音,達到不錯的視覺與語音問答成績;論文可參閱 arXiv :https://arxiv.org/abs/2506.13642。
6.Tsinghua University 與 上海交通大學提出 D2O 方法,將擴散模型轉為一步生成,顯著降低訓練資料需求;詳細內容請見 arXiv 論文:https://arxiv.org/abs/2506.09376
7.Sakana AI 的 Text‑to‑LoRA 研究利用自然語言描述生成 LoRA 適配器,快速讓大型語言模型適應新任務;可參考 arXiv 原文:https://arxiv.org/abs/2506.06105
8.Meta FAIR、Google DeepMind 與 康奈爾大學的研究揭示語言模型記憶量的估計,約每個參數存儲 3.6 位元資訊,並探討過度記憶與泛化的關係;論文來源:https://arxiv.org/abs/2505.24832