百億 token 補貼,4 月起免費!
這次的羊毛來自清華系 AI 公司無問芯穹,企業與個人皆可薅~
這家公司成立于 2023 年 5 月,目标是打造大模型軟硬件一體化最佳算力解決方案。
就在剛剛,它發布了基于多芯片算力底座的無穹 Infini-AI 大模型開發與服務平台,供開發者體驗、對比各種模型和芯片效果。
大模型浪潮湧起之後,有人調侃:
比起 " 造福人類 ",大模型更應該先呼籲 " 給我場景 "。
然而,無問芯穹認爲,經曆了互聯網時代的高速發展,中國市場并不缺應用場景。
大模型的落地難,症結在于行業内正在持續遭遇的算力難題。
比起 " 給我場景 ",更應該先呼籲 " 解決算力 "。
而無問芯穹正在做的,就是這麽一件事。
讓開發者花小成本、用好工具和充沛算力
今天,無問芯穹發布了基于多芯片算力底座的無穹 Infini-AI 大模型開發與服務平台。
還宣布自 3 月 31 日起,正式開放全量注冊,給所有實名注冊的個人和企業用戶提供百億 tokens 免費配額。
開發者可以在這個平台上體驗、對比各種模型能力和芯片效果。
通過簡單拖、拽各種參數按鈕的動作,就能精調出更貼合業務的大模型,并部署在無穹 Infini-AI 上;再以非常優惠的千 tokens 單價向用戶提供服務。
目前,無穹 Infini-AI 已支持了 Baichuan2、ChatGLM2、ChatGLM3、ChatGLM3 閉源模型、Llama2、Qwen、Qwen1.5 系列等共20 多個模型,以及 AMD、壁仞、寒武紀、燧原、天數智芯、沐曦、摩爾線程、NVIDIA 等10 餘種計算卡,支持多模型與多芯片之間的軟硬件聯合優化和統一部署。
第三方平台或自定義訓練、微調而來的模型也可以無縫遷移托管到無穹 Infini-AI,并獲得細粒度定制化的按 token 計費方案。
" 我們對模型品牌和芯片品牌的覆蓋率還會持續提升,随着時間的推移,無穹 Infini-AI 的性價比優勢會越來越突出。" 無問芯穹聯合創始人兼 CEO 夏立雪表示,未來,無穹 Infini-AI 還将支持更多模型與算力生态夥伴的産品上架,讓更多大模型開發者能夠 " 花小錢、用大池 ",持續降低 AI 應用的落地成本。
一個月前,同道獵聘在部分城市發布了 AI 驅動的數字人面試官産品,并且還有更多的 AI 功能正在籌備中。
這就是由無問芯穹提供的彈性算力使用方案,并在無問芯穹的平台上基于開源大模型微調而成。
相比市面上的其他方案,實現了更高的推理加速,也大幅降低了新功能上線的成本。夏立雪表示,這一效果讓無穹團隊很有信心。
因此,除了開放全量注冊,也正式啓動了大算力需求方的測試邀請,提供更具性價比的算力、且在算法和硬件上更有縱深的算力優化服務。
那些遇到算力難題的企業
想在成熟場景中應用大模型的企業,找到了算力但不會用,無法做出差異化的産品實現業務升級。
想創造 AI-Native 應用的企業,算力成本難負擔,工具鏈也不好用,産品啓動投産比不合理。
自行訓練模型的企業,随着業務的拓展,往往找不到也買不起所需體量的算力,業務運行成本過高。
截至 2023 年年末,我國算力總規模達到每秒 1.97 萬億億次浮點運算(197E FLOPs),位居全球第二,算力規模近 5 年年均增速近 30%。
如此增速,爲何行業内仍然感到算力尤其難?
背後的原因是,AI 行業發展恰逢工程師人才紅利爆發,加速了我國大模型行業的蓬勃發展,需求端 " 嗷嗷待哺 ",而市面上仍存在大量未被收集和充分利用的算力資源,缺少一種足夠成體系的 " 大模型原生 " 商業模式,将算力供給轉化爲滿足市場需求的産品和服務。
算力性價比大幅提升,源自多芯片優化實力
" 市面上有很多未被激活的有效算力,硬件本身差距在快速縮小,但大家在使用時總會遇到‘生态問題’。" 夏立雪說,這是因爲硬件的叠代速度總是比軟件更慢、價格更高,軟件開發者不希望工作中出現除自身研發工作之外的其他 " 變量 ",因而總是會傾向于直接使用有成熟生态的芯片。
無問芯穹希望幫助所有做大模型的團隊 " 控制變量 ",即在使用無問芯穹的算力服務時,用戶不需要也不會感覺到底層算力的品牌差異。
成立不足一年的無問芯穹,何以能夠在這麽短時間内跑通多種計算卡上的性能優化?
2022 年底,大模型引發社會廣泛關注後,夏立雪和他的導師汪玉認爲,國内整體算力水平距離國際先進還有明顯差距,光靠芯片工藝提升或是多元芯片的叠代已遠遠不夠,需要建立一個大模型生态系統,讓不同模型能自動部署到不同硬件上,讓各種算力得到有效利用。
一年後,無問芯穹宣布了在英偉達 GPU 和 AMD 等芯片上取得的優化效果,實現了大模型任務 2-4 倍的推理速度提升。
随後,AMD 中國宣布與無問芯穹達成戰略合作關系,雙方将攜手聯合提高商用 AI 應用性能。
兩年之後,無問芯穹在發布會上展示了其在 10 種芯片上的性能優化數據,在每張卡上都顯示已取得了目前行業内最優的性能優化效果。
" 我們與各個模型、芯片夥伴都建立了強信任關系," 夏立雪表示," 一方面來自于我們面向大模型的計算優化實力,另一方面無問芯穹非常注重保護夥伴的數據安全。無問芯穹會持續保持中立性,并且也不會與客戶産生利益沖突,這是我們業務開展的基礎。"
做 " 大模型原生 " 的加速技術棧與系統
"Transformer 統一了這一輪的模型結構,并且表現出持續取得應用突破的趨勢。" 汪玉在開場發言中說," 從前我們在 AI1.0 時代做上一家公司,隻能做很小一部分 AI 任務。今時不同往日,大模型結構統一了,依靠生态建立起來的硬件壁壘正在‘變薄’。"
得益于世界範圍内正湧起的 AI 浪潮,以及中國市場的獨特機會,無問芯穹面對的是一次巨大的技術機遇。
Transformer 在設計時天然基于并行計算架構,規模越大的大模型帶來的智能效果越好,使用的人越多,其所需的計算量也越大。
" 無問芯穹正在做的是‘大模型原生’的加速技術棧。" 無問芯穹的聯合創始人兼 CTO 顔深根表示,大模型落地依賴算法、算力、數據,還有系統。算力決定了大模型的速度,設計優良的系統則能釋放出更多硬件潛力。
無問芯穹的團隊曾搭建過數萬片 GPU 級的大規模高性能 AI 計算平台,具備萬卡納管能力,并基于自運營集群成功搭建了雲管系統,已實現跨域多雲間的統一調度。
One More Thing
" 在端側,人們則更加傾向于快速将大模型的能力落到人機交互的界面上,提升實用體驗。" 無問芯穹聯合創始人兼首席科學家戴國浩認爲,未來,凡是有算力的地方,都會有 AGI 級别的智能湧現。而每一個端上的智能來源,就是大模型專用處理器 LPU。
大模型處理器 LPU 可以提升大模型在各種端側硬件上的能效與速度。
戴國浩在發布會上向觀衆展示了" 一張卡跑大模型 ",其團隊于今年 1 月初推出的全球首個基于 FPGA 的大模型處理器,通過大模型高效壓縮的軟硬件協同優化技術,使得 LLaMA2-7B 模型的 FPGA 部署成本從 4 塊卡減少至 1 塊卡,并且性價比與能效比均高于同等工藝 GPU。未來,無問芯穹的端側大模型專用處理器 IP,可以被模塊化地集成到各類端側芯片中。
" 從雲到端,我們要将軟硬件一體聯合優化進行到底。大幅降低大模型在各個場景中的落地成本,讓更多好用的 AI 能力更好、更平價地走進更多人的生活。" 戴國浩宣布,無穹 LPU 将于 2025 年面世。