作者 | 程茜
編輯 | 漠影
智東西11月28日報道,就在昨天,獵戶星空正式發佈開源Orion-MoE 8x7B參數MoE模型,並與聚雲科技共同發佈大模型數據服務——AI數據寶。
獵戶星空首席科學家韓堃介紹道,AI數據寶AirDS(AI-Ready Data Service)可以爲企業提供全方位的大模型數據服務,涵蓋數據收集、清洗、標註、提示詞工程以及評估等全方位環節。AI數據寶是底層模型和上層應用之間的重要橋樑。
一直以來,數據、算法、算力作爲大模型發展的三駕馬車缺一不可,如今算法、算力的差距明顯縮小,數據的重要性愈發凸顯。相比於算法和算力,數量充足、高質量的數據是大模型效果、應用開發的關鍵,也是AI應用效果能拉開更大差距的核心。在大模型商業閉環中,數據明顯成爲最直接影響其在垂直行業落地效果的關鍵。
因此,在AI數據寶發佈之際,獵豹移動董事長兼CEO、獵戶星空董事長傅盛在接受智東西等媒體採訪時提到,捅破AI行業窗戶紙,百模大戰靠數據,數據是行業場景落地的制勝關鍵。
在此背景下,依託獵戶星空的大模型能力、對數據收集、標註以及提示詞工程等全方位能力以及聚雲科技對中國出海企業場景需求的理解,成爲當下業內唯一一家既做大模型,又將大模型數據服務開放出來的公司。
這在當下對於大模型產業發展,在技術、生態等諸多佈局方面都有重要意義。
一、“煉丹”容易“修仙”難,數據是場景落地的制勝關鍵
從去年至今,基於革命性神經網絡Transformer架構的ChatGPT引爆AI產業,再到得算力者得天下的算力時代來臨,英偉達GPU被瘋搶……算法和算力的激烈競爭已經放緩。
伴隨着大模型產業競爭升級,應用落地加速,算力層面大家選擇的都是同樣的卡,算法層面企業大都會選擇成熟的Transformer架構,這兩架馬車已經無法成爲企業拉開差距的關鍵,其重要性已不可同日而語,反觀數據則成爲了當下各路諸侯的制勝關鍵。
這背後的一大關鍵話題就是:“煉丹”容易“修仙”難。
更加多元的AI應用湧現,並已經展現出在各行各業落地的價值,但這只是大模型發展的冰山一角。能真正讓大模型在各行各業發揮最大價值,真正讓企業用好大模型實現降本增效並不容易,數據的多少、質量如何,是企業能否構建一個好的AI應用的關鍵。
不過,僅僅擁有數據就夠了嗎?答案是否定的。企業在選擇AI應用時,最關鍵的就是其不出錯且在此基礎上能大幅提高業務效率。但正如獵豹移動副總裁童寧所說,早期企業進行大模型應用開發時,並沒有找到合適的路徑,其只能看到模型的排名高、口碑好,無法洞察到冰山之下應用開發過程中的諸多難題。
而這些難題往往事關大模型深入企業業務的具體效果,如數據是否準確、真實,數據的多樣性是否足夠,是否進行了提示詞優化。
冰山之下的“修仙”之路任重道遠,企業需要對數據進行清洗、標註,模型微調、強化,以及對大量文字、圖片、視頻、音頻甚至3D等多模態數據進行快速處理,這都與避免大模型幻覺,突破大模型識別、理解的正確率強相關。傅盛認爲,大模型數據服務正是產業鏈中決定大模型基礎能力的關鍵,需要和應用高度結合,將高質量數據找出來。
這對於企業而言是必須要解決的難題,但諸多企業當下在數據處理方面有門檻,目前市面上的數據處理工具也各有利弊,因此,什麼樣的數據服務才能將大模型的基座能力與好用的應用承接起來,是擺在進行大模型應用開發的企業面前的一大難題。
二、既做大模型、又做應用開發,讓模型、數據、業務形成閉環
今年以來,百模大戰落下帷幕,AI應用成各家必爭之地。
那麼,在這之中誰來提供數據服務纔是最優解?什麼樣的企業才能將模型、業務和數據串聯起來?
我們可以先從今天獵戶星空的新發布說起。
獵戶星空與聚雲科技聯合發佈AI數據寶AirDS,其提供了圍繞着數據的一整套服務,包括數據清洗、數據標註、提示詞工程、如何評測模型等,讓企業基於大模型快速構建好用的應用。
事實上,數據服務這一賽道並不是新興領域,目前行業中已經形成科技巨頭公司、專業基礎數據服務商、初創科技企業三足鼎立的局面。但對於目前企業的數據服務而言,這三類企業各有利弊。
此前,知名市研機構德勤諮詢發佈的《AI基礎數據服務白皮書》就提到,傳統的專業型基礎數據服務商是行業重要組成部分,科技巨頭企業依託其科技實力和強大資源,逐漸佔據了競爭優勢。
其中,科技巨頭公司擁有自動化標註、專業數據採標及全棧式服務能力,其綜合能力最強,但這些服務並沒有完全開放,部分僅限於這些巨頭企業的客戶;專業型基礎數據服務商佈局早,服務經驗積累深,在市場中佔有較大份額,其最大優勢是低成本人力服務,但相比於AI標註工具,目前人力服務在成本和效率方面已經不佔優勢;科技初創公司專注於通過自動化標註、AI標註工具切入市場降低人力成本,但相比於巨頭玩家其客戶資源並不充足。
這背後,獵戶星空與聚雲科技的結合,就很好將兩者的優勢相聯動,並規避了不同類型企業的缺點。
相比於大模型公司和傳統數據標註公司,AI數據寶AirDS擁有大模型研發、大模型數據服務、行業服務、AI應用開發成體系的能力。童寧談道,獵戶星空既做大模型研發,提供大模型數據服務,同時去年以來已經在行業內進行了AI應用開發、交付等,並且聚雲科技長期以來服務於中國品牌企業出海,因此擁有全鏈條端到端能力,因此其既擁有結合AI和人工的數據標註服務,還有一定量的客戶資源。
這樣一來,模型、數據、業務形成閉環,獵戶星空的AI數據寶商業化已經跑通了。
目前,AI數據寶AirDS已經應用到了移動通信終端、互聯網娛樂、新能源汽車、互聯網金額、消費零售等領域企業中,其可以服務於多元化類型的中國品牌出海企業。
如某全球化移動終端客戶基於AI數據寶AirDS+多語種,解決了本地化場景語言適配的難題,AirDS通過收集多場景、覆蓋20多種語言的數據完成開發測試平臺,優化提示詞工程後,使得該公司的相關評測指標結果的準確率超過95%。
可以看到,大模型如何實現商業價值,是當下產業發展的關鍵命題,獵戶星空已經率先找到了一條可行路徑。
三、聚合AI技術+出海服務優勢,獵豹移動整合優勢凸顯
此次獵戶星空發佈AI數據寶並率先跑通商業化背後,隱含着兩個問題,那就是爲什麼獵戶星空能做,以及爲什麼獵戶星空先做成了。
歸結起來,就是獵戶星空對於AI產業的專注與堅持以及聚雲科技對客戶出海需求的深刻洞察。
一方面,獵戶星空自2016年成立就堅定自研全鏈條AI技術,獵戶星空首席科學家韓堃談道,從最初豹小祕的智能語音交互系統、激光和視覺多模態系統,再到招財豹智能室內導航系統,目前,獵戶星空還在進行具身智能方面研究。
這之後,2021年底ChatGPT爆火,獵戶星空基於其多年的AI技術儲備快速切入,爲客戶提供了AI應用、模型微調等服務。隨後,2023年中期,該公司走上了自研大模型的道路,從頭開始訓練了今年年初發布的“爲企業應用而生”的開源百億參數模型Orion-14B。
今年,爲了滿足客戶對模型速度快和效果好的需求,獵戶星空選擇了MoE路線,並於今天推出Orion-MoE 8x7B-Base模型。
Orion-MoE 8x7B模型的總參數爲48B,每次執行任務的激活參數爲14B。主要中英文測評集效果對比顯示,Orion-MoE 8x7B模型效果,日語、韓語、西班牙語等多語種能力方面表現整體優於Mixtral-8x7B等同級別參數模型。
推理速度方面,與類似效果的稠密模型進行對比,Orion-MoE 8x7B不同GPU不同併發數速度對比同級別參數模型提升可20%-30%。同時,這一模型已經完全開源,已上線GitHub、Hugging Face等平臺。
另一方面,聚雲科技成立於2020年,其前身是獵豹移動出海1.0時期的IT運維服務部門,擁有超過10年的出海運維經驗,目前已服務出海中國品牌企業有上百家,是亞馬遜雲科技在中國首批獲得生成式AI能力認證的高級諮詢合作伙伴,同時在今年以滿分成績通過亞馬遜雲科技MSP認證 Renewal。
此外,在大模型數據服務能力層面,獵豹移動控股的獵戶星空對通過提升數據質量來改善大模型效果有着充分的實踐經驗。
而這些都得益於獵豹移動的業務基因以及整合優勢,近年來,獵豹移動戰略轉型從傳統的ToC業務轉向以AI和大模型爲核心的ToB業務,並通過控股獵戶星空,進一步加強在AI服務機器人和AI大模型領域的佈局。此次獵戶星空和聚雲科技聯手打造的AI數據寶,正是這一佈局的集中體現。
在這一背景下,模型、業務、數據通過AI數據寶將模型和企業真正串聯起來,實現大模型商業化閉環,加速大模型的應用落地。
此外,獵戶星空還宣佈與香港大學計算與數據科學學院簽訂了合作協議,雙方將聯合研發用於課程教學場景的AI應用教育工具,並開展“專注具身智能相關的課程項目”,共同推動AI技術在應用領域的普及與應用。
綜上可以看出,AI應用創新探索進入關鍵期,數據這類基礎設施的作用愈發重要,讓企業用好數據更爲關鍵,這正是獵戶星空當下在做的事。
結語:8年積澱,搭建大模型發展與企業需求互通之橋
數據在大模型發展中愈發重要,豐富的數據資源可以讓模型及時學習和適應新變化,滿足用戶在不同場景下的需求,AI數據服務就成爲模型和上層應用之間的重要橋樑。
將數據更好利用起來,是大模型實現商業閉環的重要一步。獵戶星空正依託自己在AI領域8年的探索,聯動聚雲科技對於出海企業核心需求的洞察,轉化爲架起企業需求與大模型發展的橋樑。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。