王兆洋 | 矽星人内容中心負責人
林旅強 | 零一萬物開源負責人、開源社聯合創始人
王鐵震 |HuggingFace 工程師
在矽星人首屆 AI 創造者大會中,我們邀請到了兩位在中國開源社區裏面非常活躍的貢獻者,零一萬物開源負責人、開源社聯合創始人林旅強,和 Hugging Face 工程師王鐵震,我們一起讨論了對中國開源工作者最重要的一些話題 ( 文章約 8500 字,閱讀時間約 16 分鍾)。
Hugging Face 在關注什麽
開源作爲一種作爲競争策略
" 寫博客 " 爲何如此重要
分布式,語音,數據集……算力限制之下,開源依然有機會
以下爲對話實錄整理。
Hugging Face 在關注什麽
王兆洋:大家下午好,我是矽星人的王兆洋,我們很榮幸邀請到零一萬物的林旅強和 Hugging Face 的王鐵震,一起探讨中國開源工作者最關心的議題。
開源與閉源一直是計算機技術發展中的歡喜冤家。在當前轟轟烈烈的 AI 開源事業裏,中國開發者的參與度極高。今天請來的兩位,也是中國開源社區最活躍的貢獻者。
我想直接切入主題,首先請教王鐵震。作爲 Hugging Face 的工程師,你們見證了大模型時代開源的發展。Hugging Face 已成爲這個領域不可或缺的主陣地。能否請你從 Hugging Face 的視角,分享一下當前開源的整體情況?包括模型開源的程度、項目的分類構成,以及你們在審核開源項目時最關注什麽?另外,你們最近有什麽新的舉措和變化?
王鐵震:Hugging Face 相當于 AI 模型的 GitHub,用戶可以在這裏查看和下載數據集以及模型。目前,大家普遍關注的是大型語言模型。我們很早就開始做,大約在 2017 年和 2018 年就開始研究生成式 AI。在 2019 年和 2020 年,我們的 Hub 上線了。我們的 Hub 上不僅有大型語言模型,而且下載量和點贊數最多的模型是 BERT。實際上小型語言模型(如 BERT)在業内得到了廣泛的應用,因爲它們經過微調後效果顯著,且成本較低。
我們的平台上不僅有大型語言模型,還有各種計算機視覺(CV)模型、強化學習(RL)模型、多模态模型,以及用于生成視頻的模型。最近,機器人控制模型也變得火。有老師聊到,機器人控制也可以 Diffusion 模型來做,這種架構具有很強的泛化能力,更新一點的就是 Real Time 模型。
在我們看來,生成式 AI 的浪潮中還是有很多新奇有趣的領域值得研究,也在蓬勃發展。雖然目前看來,許多領域仍處于初期階段,但我們相信它們很快就能實現大規模應用。
王兆洋:我們最早關注 Hugging Face,是你們在開發自己的應用,後來因爲一個開源模型大受歡迎,開始做 Transformer 架構相關的研究。我們内部就在讨論爲什麽 " 抱抱臉 " 公司值得關注?因爲開源社區本身具有玩兒的屬性。我們最早和一些開源社區的成員聊,他們喜歡 Hugging Face 平台,是因爲可以在上面嘗試最新的基于 Transformer 架構衍生出來的模型。我們也私下也讨論過,包括您剛才自己總結,不隻是大家以爲的以 LLM 爲主的高光模型,實際上各種模型,甚至是上一代的模型,在平台上的點贊數是最高的。這是否意味着 Hugging Face 從始至終都貫穿着這樣的理念:盡管平台本身是開源的,但作爲平台的運營者,你們有自己的喜好和偏好,這些偏好影響了整個開源社區的發展方向?這種理念是否一直延續至今?以及,你們接下來将如何鼓勵可玩性和創新?
王鐵震:我覺得不算是我們影響開源社區,我們是被開源社區影響。開源社區一直秉承着興趣驅動的原則,大家去用開源已經有的,像積木一樣堆積出來可以解決自己問題的 " 城堡 "。它天然就滿足每個人多樣化的想法。它和真正産品有所區别。如果你去觀察一個開源項目,你會發現,整個過程讓我們更深入地了解技術,理解背後的哲學原理,能夠親自上手修改代碼,可以與更多人交流。它是這樣一個流動的社區。如果 Hugging Face 在 AI 領域有何不同,我們希望在 AI 領域,不會因爲缺乏卡或強大的計算資源而阻礙大家做生成式 AI 的工作。我們鼓勵包括零一在内的很多做大語言模型公司開放他們的預訓練模型,這樣大家就可以在這些模型的基礎上,用很少的資源繼續進行他們在開源社區中一直想做的各種模改和創新。比如,使用零一的模型,加入一些韓語語料,解決特定問題,利用開源社區的資源,站在前人的肩膀上創造更多有趣的成果,推動整個行業的發展。這是開源社區一直以來的精神。
王兆洋:一開始有一點遊樂場的屬性,但現在維持下來,因爲它整個帶來了生産力實際上的改進。大家已經開始貢獻真正的價值出來了。
開源作爲一種作爲競争策略
接下來想問林旅強一個問題。你有兩個身份,一個是零一整個生态的負責人,同時你也是開源社的聯合創始人。開源社我自己形容它,有點像中國開源發展過程中其中之一的黃埔軍校一樣角色的存在。零一又不純粹隻做開源的公司,你們又有一些開源的模型,又有閉源的,甚至直接是 To B 服務,靠它收費的模型,你們怎麽判斷哪些開源,哪些閉源?以及你在這個行業裏一直到現在,你整個觀察可以分享一下。
林旅強:我是去年 11 月份加入到零一的,我做開源社已經十年了。之前還在華爲或者是某些企業在做一些開源,還有開發者生态相關的工作。爲什麽企業也好,或者是創業團隊也好,會想利用開源,作爲一把利刃往這個市場切一塊餅下來? 如果産品能力或在行業趨勢中并非領先,開源可以作爲一種突破方式。例如,在大模型領域,OpenAI 是領頭羊,後面還有很多後起之秀,也就是說在這個過程當中,開源會是異軍突起的一種方式。
第二點,開源對于開發者來說體驗友好,因爲它提供了更高的自由度和創意空間。許多開發者傾向于使用開源模型,因爲他們可以站在巨人的肩膀上。很多開發者喜歡用開源,單純是因爲自由度創意度更高。
去年 11 月份的那一次開源不是我做的決策,當時我剛加入公司。我很清楚公司的邏輯。去年,所謂的中國大模型的格局去年年底就定了。最早做開源的智譜、百川等企業起來了。零一在 11 月份發布,如果不是用開源方式,可能難以出圈。當然,今年也有其他創業公司開始開,以去年的維度來講,在這個時候開源是明智的。
很多人認爲開源是靈丹妙藥,但實際上,開源隻是手段之一。你的模型必須足夠優秀,讓大家覺得開源對他們有用。Hugging Face 現在有太多的開源項目。越多人嘗試,無論是模型本身的能力,還是開發者的使用體驗,甚至是衍生作品,都變得重要。爲什麽一個開源項目重要,是因爲很多人基于它創造出許多衍生作品。最近 Hugging Face 也開始關注哪些項目是上遊,哪些是下遊,以及它們之間的關系。
矽星人内容中心負責人王兆洋
王兆洋:王鐵震之前說過,要看家族的大小規模,有多少衍生出來。
王鐵震:點贊是很容易的事情,下載也是很容易的事情,這些都是可以作假的東西。Hugging Face 還有一些特殊情況,它沒有辦法體現中國開發者的下載數量,因爲它在國内有一些問題。所以真正能夠比較模型是不是被社區所接受,是不是暢銷,你就看有多少人投入精力,投入算力,做出模型,這就是生态。不是開源模型能夠直接滿足客戶需求,是基于你的模型做一些想不到的場景去解決客戶的問題。你和客戶之間就是你的生态,這個生态的大小,就是衡量開源模型是不是暢銷非常好的指标。
林旅強:當時我加入零一之後,我們團隊對于生态建設确實沒有考慮特别詳細。我當時就制定了幾個指标,我們一定要想辦法成就使用我們的開發者,盡可能讓我們的衍生作品能夠獲得成功,而不是讓競争對手的産品占據優勢。理論上,我們的衍生作品應該比我們強,因爲它加上了各種各樣的場景。我不具體提及國内有哪些公司是我們的衍生作品,我們都是邀請他們加入我們的社區,共同讨論技術問題。我們的目标是建立一個技術生态,而非商業生态。後面雖然零一萬物的模型并不是所有開發者都知曉,但在圈内,開發者金字塔的頂部,我們确實留下了深刻印象。
王兆洋:我們一直在關注零一的進程,包括您提到的中國五小虎或六小虎格局的演變。去年我們也在觀察,發現有一個階段,無論是人才還是模型,都已經穩定下來。國内另一家非常知名的公司創始人也曾提到,他們計算出一個時間窗口,必須在這個時間窗口内完成融資和團隊建設,零一也是在這個時間窗口内。大家當時認爲,如果在這個時候不發布一些模型,大家的腦子裏記不住那麽多模型。所以從一開始,零一做出開源的決策,可以說是在競争策略上的一個判斷。
林旅強:開源在每一家企業都是競争策略。不管是大模型,或者是其他的軟件,在開源的時候一定是想清楚,我做這件事情對我某階段的競争是想以小博大,還是要博取大家的眼球?
零一萬物開源負責人、開源社聯合創始人林旅強 " 寫博客 " 爲何如此重要
王兆洋:我關注零一的公衆号以及官方博客,我覺得它在國内寫得很好。每次發布的内容,無論是技術點還是講解方式,都處理得很好。這是我們接下來讨論的問題,也是許多中國開源貢獻者非常關心的問題:怎樣在全球化的開源社區中提升自己的存在感和影響力?實際上,你們所做的工作,包括文檔的編寫和梳理,都是爲了朝這個方向努力。你可以和我們分享一下,這些爲什麽如此重要?此外,你還有什麽可以分享給大家的,無論是遇到的困難還是經驗。
林旅強:真正做好開源工作,關鍵在于以開發者爲中心。我最初審視我的模型時也是這麽想的。當我最初加入項目時,發現項目該有的都有,但這些内容如何能讓開發者一目了然地看到項目的定位,清晰地看到不同部分的内容,并迅速找到他們需要的部分,這是非常重要的。有時候,某些文檔非常長,我需要能夠快速定位到我需要的部分,以及整個文檔目錄的編排。
我觀察過一些項目,包括零一最早的版本,它和 Hugging Face 一樣,README 文字長達數萬字。作者想把想說的一切都寫進去,但我發現雖然内容詳實,能找到相關信息,開發者可能隻是簡單滾動一下,5 秒鍾後就退出了。我當時定了一個要求,首先,Hugging Face 的 model card 應該用最少的文字說明這個模型能做什麽,更偏向代碼的内容放在 Hugging Face 上,README 文件則作爲導覽。
我認爲對文檔進行整改是目前中國許多公司沒有投入人力或者不重視的事情。他們認爲模型已經開放了,用不用随你。這種對開發者體驗的細微關注,有些開發人員可能會覺得,你們确實下了功夫。說白了,模型有多強大,并不是我們開源團隊的工作,那是模型訓練團隊的事。我接到一個模型後,會想辦法通過我的方式,讓開發者能夠無縫地體驗。
博客也是這樣,我們寫出來的東西,我會不斷打磨,思考哪些字是否太生僻,是否應該寫得更簡單一些,但不能出錯。哪些段落需要改進,甚至讓博客與我們聯動,有些内容不必在博客中詳述,可以鏈接到其他地方查看。博客的目的是傳遞信息,而不是把所有内容都講清楚。這些内容大家可以思考,很多開發者說他們不喜歡寫注釋,不喜歡寫文檔,因爲他們認爲代碼本身就能說明一切,能看懂我的代碼就是高手,看不懂就不行。我覺得這種說法隻适用于與你水平相當的開發者,但我們要服務的是所有人,而不僅僅是最高端的用戶。通過這種方式降低開發者的門檻,我們做得不錯,不敢說是最好的。
王兆洋:這和我們在做的工作很像,要讓讀者更容易理解我們所傳達的内容。林旅強所講的,以及我自己的觀察,不僅僅是國内從事開源工作,尤其是模型領域,還涉及到整個組織負責開源部分的 OKR 和 KPI。前不久在矽谷與 OpenAI 的人交流,他們的一個重要 KPI 是寫博客以及博客的點擊率,早期的情況就是這樣。實際上,在海外的技術溝通中,開源社區對文檔的重視程度是非常高的,這是其中一個非常真實的例子。你會接觸到許多中國開源的參與者和海外的很多明星項目,除此之外,你觀察到有哪些是我們尚未意識到其重要性,但實際上非常有用的地方?
HuggingFace 工程師 王鐵震
王鐵震:這是個很好的問題。現在寫技術文檔,受衆不再僅限于技術人員,現在大語言模型所謂的滲透率在逐漸增長,越來越多的人開始在自己的電腦上運行這些模型。這些用戶的背景和我們通常假設的寫技術文檔人不一樣。因此,能否有效地将信息傳達給沒有技術背景的人,實際上對于模型用戶增長是一個非常重要的指标。
現在 Hugging Face 等工具變得越來越便捷,大語言模型将不再是機器學習專家的專屬領域,而是像 Word 和 Excel 一樣。未來,用戶可能隻需通過 Prompt 描述需求,準備一些樣例數據,就能訓練大模型生成符合他們需求的輸出。随着用戶群體的擴大,我們需要重新思考如何制作技術文檔,甚至如何進行傳播。
例如,零一模型發布後,傳播做的很好,包括李開複老師有做轉發。如果能夠通過一些好的文檔、博客或其他途徑獲得更多的關注度,這對于開源模型影響力的擴大也是非常重要的。
把模型看着很技術和枯燥的事情,變成大家看得見摸得着很好玩的事情,對模型有非常重要的價值。
我想提一個常被忽視的問題:開源模型的運營工作由誰來承擔?我們需要讓模型滲透到更多人中去,那麽誰的運營會更有效?在國内,運營團隊往往與開發團隊分開的,他們缺乏足夠的技術背景。如果一邊是我們自己的團隊的研究人員,另一邊是面向用戶群體的研究人員,那麽中間的文科背景人員,沒有太多代碼經驗,他們在傳遞信息時會非常辛苦,兩邊的溝通也不順暢。
我們的策略是,應該讓具有技術背景的人,甚至是研究員親自參與進來。OpenAI 就是一個全員參與的例子,他們自己的研究人員親自撰寫博客,全員成爲 KOL(關鍵意見領袖),這是一個很好的場景。
我們可以在 Twitter 上看到很多專業的讨論,因爲參與的人群本身比較專業,一些概念就比較容易解釋清楚,比如零一模型的事情在 Twitter 上很快就被說清楚了。因此,是否能夠将團隊中的研究者釋放一部分力量,投入到運營中,這是一個戰略上的考慮。同時,這也有助于研究員打造個人的 IP,對于研究員來說,吸引他們的不僅僅是公司能提供多少薪資,而是公司能否将他們塑造成網紅。這種接近研究員與研究員之間的溝通,有助于企業吸引優秀人才,樹立良好形象。國内企業如果考慮開源,可以考慮讓自己的研究員走到前台,更多地與大家交流。
王兆洋:這是矽星人也想做的,把他們的研究成果報道出來,不隻是關心一些一夜颠覆的事情。我向兩位提出一個問題,這關乎中國在開源領域的存在感和影響力。零一一直在這樣做,包括我們在矽谷也能感受到,那裏的氛圍更爲輕松,更多以個體的形式發聲,無論是 KOL 還是其他。首先,中國開源的貢獻者在模型能力或動線方面的質量很高。但爲了争取更多的關注度,我們似乎選擇了另一條路,給人一種苦大仇深的感覺,即我比你更極緻地開源,我把所有的東西都給你拿去用。這樣的效果真的好嗎?
我們确實觀察到,斯坦福的教授在課堂上舉例時提到,你們這不是真正的開源,中國的模型開發得更多。後來我自己反思,這可能是在學術環境中的分享方式,對于整個開源社區,尤其是 Hugging Face 也能感受到,無論是開源社還是零一,在與更廣泛的社群接觸時,這些策略,或者說是被逼迫出來的策略,它們的真實效果如何?你怎麽看這樣一個趨勢?我們是否應該繼續這樣做?請兩位談談你們的看法。
林旅強:我分享一個我的觀察,我從事開源工作已有十幾年,而涉足大模型領域至少也有一年了。實際上,我發現這一切與整個大環境,包括文化和就業環境,都有着密切的關系。
首先,從文化角度來看,美國或西方社會比較鼓勵個人發表意見。你說得越多、越大聲,哪怕不完全正确,也會有人成爲你言論的追随者。而在中國,我們講究中庸和集體主義,也就是說,如果我發言說錯了什麽,會不會帶來什麽問題?我自己就處在這樣的矛盾之中。
其次,與大模型玩家相關。實際上現在大家都很努力,尤其是在中國。我認識很多這樣的團隊,他們想的是如何趕超。所以有些事情可能趕超的方法是發表某些論文,但大家在選擇論文的方法去做時,不會過早透露,因爲有些事情是公開的秘密,論文都是開放的,你選擇哪一個,你不會去說。這些如果太早說,對趕超的心情會有所不同。
第二點是關于時間。我目前沒有聽說過國内有哪個團隊将寫博客作爲其 OKR。原因是寫一篇好的博客不亞于開發一個大模型,時間和精力應該放在哪裏,成就就在哪裏。可能當前還在趕超階段的時候,還沒有那麽多的時間。不過,我說這些事情,隻是說明現在是這個情況。我們真的從強大到偉大,我們需要真的把這些事情釋放出來。比如 Google 的 20% 時間政策才能創造出偉大的成果,沒有的話就出不來。這是中國邁向強大的路,我們如何繼續走向偉大,這就是我們看到的問題。
王鐵震:我同意林旅強說的。從第二到第一,不停的創造不停的領先,是不同管理的思維。當你是第一的時候,你不知道你的方向在哪,你需要不停的探索,就像爲什麽偉大不能被進化一樣,需要在一線的人做不停的嘗試,從這裏面找到一些真正的方向。
分布式,語音,數據集……算力限制之下,開源依然有機會
王兆洋:我們之前讨論了開源的現狀,以及我們的主題——讓中國的開源開發者被更多的社區看見。最後一個話題,可能更抽象一些,或者更宏觀一些,從更寬廣的視角來看開源和閉源之間的關系。剛才我和王鐵震私下聊天時,有一個觀察:開源鼓勵創新,它是各種新想法出現的第一個土壤;而閉源則一直追求穩定、商業化和實際落地的産品,這兩者各有分工。與前幾波開源閉源技術浪潮不同的是,大模型這一波有一個越來越明顯的特點,那就是資源——你的卡,這些資源決定了一個想法能否走得更遠。從最早的 Transformer 模型爲什麽是 Google 做出來的,這個架構很多人在研究,那是因爲它擁有大量的 GPU,能夠堆砌出多層的注意力機制。
我們看到 OpenAI 也走類似的路,要建立十萬百萬卡的集群。在開源社區,甚至包括學術界,資源的差距越來越明顯。讓我覺得,開源提供了很好的 idea,而閉源把它其吸收并轉化爲成果。從技術進步的角度來說,用戶沒關系,但從整個開源生态來說,現在是不是存在這樣一個問題?你們認爲有什麽辦法或建議嗎?包括零一自己在做什麽嘗試?或者開源社,Hugging Face 這邊看到了什麽新的嘗試?
王鐵震:我覺得開源社區和學術界卡少是非常現實的問題,不是我們在這裏讨論一下,大家給予開源社區更多關注,請求捐助硬件資源就能解決的問題。閉源可以支持研究的持續運轉,而開源社區可能隻能得到一次性的捐助,不可能持續不斷地獲得捐助。實際上,有很多新的領域非常值得開源社區去探索。
我最近看到了兩個非常有趣的事情。一個是海外的一個分布式平台,我們也參與捐贈了一些卡。他們的目标是實現跨國、跨洲的集群訓練。通常,模型訓練需要大量的通訊,你需要把所有計算機放在同一個位置,以增加通訊帶寬,更快地完成模型訓練。現在有人在思考,是否有算法上的優化可以降低通訊對帶寬的需求,降低通訊本身的需求,改變機器之間交換數據的方式。
之前 Web3 社區有很多設想,他們在訓練一個大約 10B 參數的模型,大概跑了 30% 的 token,我們當時捐贈了幾個 H100 的機器。遺憾的是,作爲最缺乏硬件資源的中國,在地圖上并沒有看到中國企業的支持,主要是歐洲和美國的企業。也許中國可以開啓一個項目,把中國、非洲、東南亞等算力連接在一起,共同訓練一些真正開源的模型,包括數據集和訓練過程,通過真正開源的方式造福整個行業。這需要更多的分布式設計和算法上的巧妙思考,這不是簡單地增加硬件資源就能解決的問題。
另外一個,上周我參加了 RTE 活動,聲網作爲 OpenAI 非常重要的合作夥伴,現在可能我們面臨一個範式轉變。2022 年有一個範式轉變,以前大家說要定制一個模型,現在變成了使用通用模型。現在的範式轉變是,從需要打字交互的大語言模型界面,未來很快會升級爲純語音交互的界面。這種交互範式的革命将帶來很多後續變化。
現在讓我使用一個大語言模型,我什麽時候會用?有事的時候才會用,坐在那打開網頁,敲鍵盤,我的打字速度也不快。如果是語音的話,我甚至可以 24 小時一直保持溝通,而且用帶有情感的語音跟我聊天,最好說,它跟我聊天的内容是保密的,這些東西都可以放在我的手機上。這裏面也不一定需要特别大的模型,因爲大模型肯定解決不了延遲問題,哪怕在服務器上,多一個網絡的延遲,這是物理決定的。這裏不需要太多的卡,你就可以做出一些成績。也許我們做學術或開源的,也可以不去紅海裏競争,而去藍海裏尋找一些新的方向。
王兆洋:這兩個都是非常有意思的洞見和觀察。
林旅強:我從另外一個角度看。剛剛提到把算力串聯起來,是因爲現在這個時間點,算力确實是一個很大的門檻。但如果我們從曆史規律來看,我們回想 1980 年代,自由軟件和開源軟件是如何發展起來的。當時軟件行業興起,原來 UNIX 類操作系統紛紛閉源,現在非常像那個時代。當時,大家必須排隊使用算力,而且隻有機構才有這樣的資源,個人是接觸不到的。很多實驗室裏的情況和現在的大模型一模一樣。但是,什麽時候改變了這個局面?是摩爾定律。無論是英特爾還是其他算力公司,都是在矽谷那個時期崛起的。算力成本下降,性能提升,自由軟件和開源軟件也遍地開花。我認爲再過 5 年,或者一段時間,開源真的能夠反噬到現在的閉源和私密性。因此,如果現在投入到開源相關領域,并且能夠持續較長時間,這是非常值得投資的。因爲摩爾定律在 GPU 領域也會發生,這是我看到的一個重要觀點。
第二點,現在我們能做什麽?現在算力這麽貴,我認爲可以參與到開源數據集的貢獻中,因爲這并不消耗算力。Hugging Face 上有很多這樣的資源,大家可以一起參與。之前有一個出圈的項目,很多人參與,包括我們公司的幾位博士生也參與了。我們覺得應該先讓開源這件事情運轉起來,社區在,等到新的事情發展起來,規模越來越大。目前中國的大模型圈子對于開源貢獻,對于數據集貢獻這件事,還沒有當成重要的事情,我呼籲大家多去參與。
王鐵震:因爲現在開源模型很卷,你做一個數據集,你拿到的東西反而更多。
王兆洋:有心的開發者都可以借鑒一下,今天有很多創業的 idea,像實時語音交互的機會,剛才提到趨勢性的機會,在座有開發者,真的可以仔細琢磨的。總結一下,現在開源和閉源,或者說學術界包括在内的資源的差距是個事實了,在不可能短期改變的情況下,同時開源的社區也好,或者工作者,也有很多事情可以去做。如果你看曆史,你就知道開源的好日子還在後面呢。
謝謝,今天我們這個環節就到這裏。感謝兩位!