要聞

科大訊飛首推深度推理模型深度思考成為模型發(fā)展決勝關鍵？

每日經(jīng)濟新聞 2025-01-15 17:15:00

1月15日，科大訊飛發(fā)布發(fā)布國內(nèi)首個基于全國產(chǎn)算力平臺訓練的具備深度思考和推理能力的大模型——訊飛星火深度推理模型X1。深度思考與邏輯推理能解決訓練成本高、亂答題等問題，成為模型發(fā)展決勝關鍵。目前，推理模型在數(shù)學、醫(yī)療等領域表現(xiàn)出色，已產(chǎn)生真實價值，如讓AI學習機學習推薦和診斷更精準等。

每經(jīng)記者｜張寶蓮每經(jīng)編輯｜陳俊杰

AI界掀起的“推理潮”正在成為大模型發(fā)展的又一競爭領域。

1月15日，科大訊飛（002230.SZ，股價46.49元，市值1074.73億元）發(fā)布國內(nèi)首個基于全國產(chǎn)算力平臺訓練的具備深度思考和推理能力的大模型——訊飛星火深度推理模型X1（以下簡稱X1模型）。

深度推理模型，即擁有更長鏈條的邏輯思考和推理能力。和基礎模型最直觀的區(qū)別，便是在解決復雜問題上更具有優(yōu)勢，在回答問題之前模型會形成一段較長的思維鏈條，使得答題能力和準確度大幅提升。例如在解決高考數(shù)學題或者是奧賽題上，效率與準確率得到大幅提升。

《每日經(jīng)濟新聞》記者從科大訊飛方面獲悉，X1模型具備3個典型特點。首先，可以化繁為簡，將復雜問題拆解成多個步驟進行思考和推理。其次可以進行自我反思和驗證，第三是由于人類標注數(shù)據(jù)難度極大，X1模型會根據(jù)答案的正確與否進行強化訓練。

推理模型：一條全新的技術路線

不同于此前生成式AI通過大規(guī)模預訓練來進行下一個詞的預測，并將重心放置于語義理解、文本生成上，推理模型的工作思路更接近于像人一樣思考。

2024年9月，OpenAI率先推出了其最強的推理模型o1，并稱o1在測試化學、物理和生物學專業(yè)知識的基準GPQA-diamond上，全面超過了人類博士專家，OpenAI曾宣稱“通用人工智能之路，已經(jīng)沒有任何阻礙”。

OpenAI所推出的o1背后的訓練方式與之前的模型有著根本不同。它使用了一種全新的優(yōu)化算法和專門為其量身定制的新訓練數(shù)據(jù)集進行訓練，這個數(shù)據(jù)集中包含“推理數(shù)據(jù)”和專門為其量身定制的科學文獻。并采用“強化學習”的方式，通過獎勵和懲罰來教導模型自行解決問題，再通過“思路鏈”（chain of thoughts）來處理用戶查詢的問題，給出思路鏈的總結(jié)摘要版，類似于人類一步步來處理問題的方式。

X1模型的訓練亦是采用了一條全新的技術路線。據(jù)科大訊飛研究院的研究員介紹，X1模型訓練和推理需要高強度的交互，并且涉及到跨任務的數(shù)據(jù)傳輸。這種新的技術路線帶來了任務優(yōu)化目標的轉(zhuǎn)變，從以往追求高在線響應速度，轉(zhuǎn)變?yōu)樽非蟾叩碾x線吞吐任務處理能力。

科大訊飛研究院的研究員在1月15日的直播中演示了X1模型如何解答高考題、AIME競賽題以及高中奧賽題。X1模型不僅準確給出了這些題目的答案，還對解題思路和步驟進行了詳細拆解。與通用大模型相比，其解題過程更接近人類的“慢思考”方式，并且用更少的算力，實現(xiàn)了更好的效果，這是推理模型的優(yōu)勢。

根據(jù)科大訊飛方面提供的數(shù)據(jù)，訊飛星火X1在近期參加的小初高（含競賽）、大學（含競賽）、AIME、MATH 500等多項“考試”中，與OpenAI o1 Preview、OpenAI o1、DS-R1-Lite-Preview、QwQ 32B-Preview、k1-math、InternThinker（均為當前先進的推理模型）等測試成績相比分數(shù)排名靠前。

深度思考成模型發(fā)展決勝關鍵？

從當前看，模型學會深度思考與邏輯推理，能夠有效解決訓練成本高攀、缺乏邏輯推理導致亂答題的現(xiàn)象，從一個使用工具變成一個自動化的“勞動力”?；谳斎霐?shù)據(jù)，通過邏輯推理和概率計算，得出更加準確和可靠的預測結(jié)果，能夠讓大模型在應用場景中獲得更多的競爭優(yōu)勢，成為未來競爭的決勝關鍵。

在o1發(fā)布后，國產(chǎn)大模型廠商深度求索、阿里通義、月之暗面、智譜GLM、昆侖萬維等也在去年11月到今年1月迅速跟進，先后推出了自己的深度推理模型。

DeepSeek在去年11月發(fā)布DeepSeek 推理模型預覽版時稱：“‘深度思考’ 模式專門針對數(shù)學、代碼等各類復雜邏輯推理問題而設計，相比于普通的簡單問題，能夠提供更加全面、清晰、思路嚴謹?shù)膬?yōu)質(zhì)解答，充分展現(xiàn)出較長思維鏈的更多優(yōu)勢。”

智譜微信公眾號在2024年最后一天發(fā)布其深度推理模型GLM-Zero預覽版并稱：“我們探索并驗證了強化學習在增強模型深度推理能力方面不可取代的作用。隨著強化學習訓練量的增加，模型在深度推理等方面的效果穩(wěn)步提升。”

科大訊飛方面稱，在o1發(fā)布之后，科大訊飛在一個月之內(nèi)迅速跑通了關鍵算法。盡管在全國產(chǎn)算力平臺上訓練深度推理模型遭遇了諸多挑戰(zhàn)，但最終攻克了訓練推理強交互、高吞吐推理優(yōu)化以及國產(chǎn)算子優(yōu)化等一系列難題。

目前，推理模型在具有高度確定性答案的數(shù)學、醫(yī)療、代碼等領域已經(jīng)有了出色的表現(xiàn)，不斷改進的工作在適應日益復雜的應用落地上已經(jīng)有了初步驗證。在應用上，科大訊飛方面稱，X1已經(jīng)在應用領域產(chǎn)生了真實價值。

教育業(yè)務上，科大訊飛稱，隨著相關技術融入，AI學習機學習推薦和診斷將變得更加精準，解題思路和知識鏈條將更加清晰。醫(yī)療領域，X1模型策略可使得?？戚o助診斷和復雜病歷內(nèi)涵質(zhì)控的準確率均達90%。

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。