圖片來源 @視覺中國
文|錦緞
GPT-4 初步證明了這一點:隻要掌握足夠多的宇宙知識,就能夠還原出足夠深的宇宙邏輯,就能夠成爲文明的一脈。
而人類社會繁衍至今,在對客觀世界與顱内世界的認知、改造的整個過程中,所形成的所有宇宙知識,都以語言文字這個容器所承載。
人類的語言文字,即人類的文明本身。這也正是 OPenAI 的秘密:以能夠實現 " 語言洛希極限 " 的算力,基于對腦科學的模仿,對人類語言文字庫進行建模(Transfomer)計算,最終實現了所謂 " 智能的湧現 "。在對語言文字的計算過程中,語料的價值等級依次展開:
1. 字 :構建語言大模型,首先要爲每個字賦予獨特且足夠多的向量參數( 理解向量參數,可以顔色爲例:字本身是沒有顔色的,但它對應的客體在特定狀态下都是有顔色的,所以需要以特定的向量數值去标記不同顔色的深淺程度 );
2. 詞 :詞的意義在于,當多個字構成詞以後,一個完整的邏輯就出現了——它必然可以形成一個句子,一個或多個句子可以形成一個完整的垂直領域内的邏輯子集。邏輯本身,就是一幅圖——這是爲什麽語言大模型可以平順的生成圖片的原因。
3. 邏輯語料 :數學、物理、化學、哲學等等各個基礎學科的語料内容。凡是需要通過 N 個句子表達的基本宇宙邏輯,最終都将構成不同的學科。而這些學科内的邏輯語料,就是我們說的規律,即(認知)宇宙的基本框架。框架不斷延展,最終無限趨于宇宙本身。
4. 輔助語料 :邏輯是抽象的、枯燥且晦澀的。需要通過輔助型語料予以潤滑,進而使得計算體(比如人類)在無意識并行計算過程中,能夠建立起彼此間的交互可能性——喜怒哀樂這類淺層次的感情,以及幽默、愛這種深層次感情,都是輔助語料,它們的作用是使不同算力 ( 能力 ) 的計算體,都能在一個參照系内形成非歧視的平衡關系。這類語料,最優質的即文學——文學通過對人性的抽離,實現人體計算的邏輯平權(人在人性上是平等的)。這也意味着,GPT-4 這類機器智能最終如何得以與人類和平共處,需要未來在人與機器之間形成一種可平權的新型輔助語料體裁。
最近,業界出現了一個很 " 新穎 " 的點:用以訓練語言大模型的中文語料不足。以上述 4 類語料爲參照,其中的不足,可能主要在于第 3 類與第 4 類。
有基于此,在我們看來,那些握有——或有能力整理出版——第 3、4 類語料的公司機構,将在 GPT 時代,有機會獲得價值中樞的擢升——畢竟 ChatGPT、GPT-4 更大化的向人類證明了那句名言: 書籍是人類進步的階梯 。也就是說,無論對機器,還是對人,自此之後,讀書已被确認爲最核心的生存方式。
有鑒于此,本文将聚焦 A 股傳媒企業,對各方價值一探究竟。
01 出版商—語料價值鏈核心
2021 年全球傳媒産業産值達到 2.2 萬億美元,同比增長 6.5%,高于全球 GDP 增速 5.8%。相較于門戶網站和搜索引擎紛繁複雜,充斥着虛假信息的數據集,傳媒出版行業的價值躍然紙上。
而出版發行行業産業鏈以出版社爲核心,印刷和物資供應爲産業基礎,通過發行環節實現最終交易。根據國家新聞出版署出版物種類劃分出版圖書劃分爲書籍、課本、圖書和附錄四類,在我國,出版行業的平均利潤率一般爲 15%-25%,其中出版環節占全行業利潤額的 70% 以上。
圖:出版發行行業産業鏈圖示,來源:華福證券研究院
(1)出版:出版機構向上觸達内容提供商、印刷商及紙張、油墨供應商,圖書出版一般包括申請書号、封面及版式設計、排版、審校、印刷成書等流程,最後向下連接發行機構,整合資源後将核心内容呈現給市場。
出版機構按照職能可以簡單分爲社科類、科技類、大學類、教育類、古籍類、少兒類、文學類和美術類八大類。由于我國出版發行行業具有高意識形态特性,實行出版社許可制度,隻有國企單位才具有出版資質,民營公司隻能發行除教輔外的一般圖書。
(2)發行:發行機構承接圖書出版之後的工作,主要負責将作品上架到發行渠道進行宣發售賣的過程,具體包括進貨、倉儲、運輸、銷售、調劑等基本環節。目前中國主流的發行模式分爲兩種:一種是産銷結合的直接發行,該種模式下由出版機構直接銷售給消費者;另一種爲産銷分離的間接發行,該種模式出版單位通過出版物發行商将出版物銷售給消費者,因此有些情況下,發行機構與出版機構會有重合。
關于語料價值鏈的認知有兩個層面的理解:
縱向來看,無論是任何品牌的機器學習模型,對于語料的需求度僅是需求量 +1,比如 GPT 如果學習辭海,隻需要作爲讀者身份買一本書。對于出版商而言,隻不過是新增了一位顧客,不會有指數級的價值增量。
橫向來看,機器的學習能力遠高于人腦,所以橫向接觸語料的光度非常高,對于出版商而言,可供出版的版權種類和廣度就顯得額外重要。
因此帶着這兩個層面的理解,我們來梳理下 A 股上市的出版商近況。
02 A 股語料勢力榜
1、基礎概況
根據職能的不同,目前中國比較流行三種出版方式,分别是出版社出版、合作出版和自費出版。總體來看,行業中市值排名前五分别爲鳳凰傳媒、中南傳媒、浙版傳媒、中文傳媒和山東傳媒。
圖:出版企業市值排名,來源:Choice 金融客戶端
2、語料價值
根據出版圖書類别的不同,各企業聚焦方向各有不同,但總體主要分布在少兒、社科、教輔教材幾個大類中,其中少兒與教材教輔類别的銷量與我國新出生人口呈現正相關性,而社科類圖書的銷量則與目前大熱的 ChatGPT 直接相關。
行業市值排名前五的企業出版圖書構成情況如下:
圖:出版企業圖書類别構成,來源:Choice 金融客戶端
因此從數據上來看,中文傳媒的一般圖書(社科、文學)比重最高,根據開卷網的信息,2021 年出版集團層面實洋占有率排名前三的分别是中國出版,鳳凰傳媒和中文傳媒。
除此之外,ROIC(投入資本回報率)也能體現出版企業的語料價值,出版商的盈利模式是在獲取版權後,盡可能的獲取長尾收益。因此高價值的版權長期回報率更高,代表語料價值 也更高。我們可以看到,内蒙新華、新華文軒和鳳凰傳媒的 ROIC 排名前三。
圖:出版企業 ROIC,來源:Choice 金融客戶端
另外無形資産也是版權價值具象化的體現之一,目前南方傳媒的無形資産超過了 30 億元,高于同營收水平的其他企業,具體到構成上,南方傳媒的無形資産主要爲土地使用權,知識産權價值并不高。
圖:出版企業無形資産及研發支出,來源:Choice 金融客戶端
3、盈利能力
A 股出版企業營收橫向對比,中南傳媒營收最高,爲 126.17 億元,營收增速爲 8.20%。但從收入構成來看,出版類别的實際收入中南傳媒爲 32.73 億元,排名第二,出版業務收入最高的爲中國出版 44.69 億元。
圖:出版企業營收及增速,來源:Choice 金融客戶端
毛利率在一定程度上能夠反映企業核心盈利能力和在産業鏈中的價值,出版作爲産業鏈中的核心環節,行業多數企業毛利率較爲平均,分布在 30%-45 的區間内。其中中文在線因爲主營業務爲線上出版發行,所以毛利率達到 70.85%,爲行業最高。
圖:出版企業毛利率,來源:Choice 金融客戶端
4、研發能力
再來看出版企業的研發支出,研發投入排名前三的分别爲中文傳媒、中文在線和中南傳媒,分别爲 2.38 億元、1.15 億元和 0.63 億元。其中中文在線研發支出占收入比重居行業首位,爲 9.68%。
圖:出版企業研發支出及占比,來源:Choice 金融客戶端
5、流動性
經營性現金流方面,行業整體成熟度較高,所以行業整體近三年經營性現金流入水平較爲穩定,其中以鳳凰傳媒、山東出版、新華文軒現金流入規模最大,分别爲 33.21 億元、25.57 億元及 20.47 億元。
圖:出版企業庫存現金情況,來源:Choice 金融客戶端
财務綜合表現端,中南傳媒是行業中的佼佼者,無論是代表企業整體盈利能力的毛利率方面表現,還是研發投入的持續性,亦或是無形資産儲備以及營收增速方面都名列前茅;從成長性角度來看,在具備一定規模的基礎上,時代出版成長性表現可圈可點,其同等營收水平的公司裏,擁有較高的研發投入與無形資産儲備,另外其流動性也較強,具備更高的抗風險能力。
具體到與 ChatGPT 的聯動方面,如果考慮機器學習橫向增長大于縱向增長,結合市值中文傳媒的潛在增長空間較大,因爲營收種類中一般圖書占比最大,其次實洋也排名前三。除此之外,鳳凰傳媒和中國出版的實洋占比也比較高。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App