本文摘自《雲栖戰略參考》,這本刊物由阿裏雲與钛媒體聯合策劃。目的是爲了把各個行業先行者的技術探索、業務實踐呈現出來,與思考同樣問題的 " 數字先行者 " 共同探讨、碰撞,希望這些内容能讓你有所啓發。
作爲 " 耳朵經濟 " 發展的領軍者,喜馬拉雅坐擁數以億計的月活流量,卻沒有停止創新和思考,如何讓這個龐大的用戶群體有更好的體驗,并在龐大的數據基礎上進一步實現商業創新。
數據顯示,2021 年時中國在線音頻市場的複合年增長率已經超過了 60%,預計 2026 年市場規模将增長至 1204 億元人民币。喜馬拉雅看到了音頻市場在終端應用方面(如天貓精靈和汽車内嵌系統)有着市場巨大的潛力。
向來注重技術投入的喜馬拉雅以科技賦能文化,站在一個新的角度重新思考産品創新、業務創新,以更好地服務客戶,讓客戶滿意,并基于對用戶的高質量服務來實現商業價值。
以數字技術讓喜馬拉雅實現突破,成爲公司尋找新增長的重要抓手。正如喜馬拉雅創始人兼 CEO 餘建軍曾表示——喜馬拉雅是一家科技驅動的内容公司,科技是手段,文化是目的。
大數據上雲
2012 年 8 月,喜馬拉雅在上海誕生。曆經十餘年的耕耘,喜馬拉雅成爲中國在線音頻市場的 " 領跑者 "。
據公開數據顯示,2022 年前三季度,喜馬拉雅全場景月活躍用戶達 2.82 億,包括 1.22 億移動端平均月活躍用戶,移動端用戶日均收聽時長爲 140 分鍾。2021 年,喜馬拉雅移動端主應用程序平均月活躍用戶在中國在線音頻應用程序中排名第一。截至 2021 年年底,喜馬拉雅已累積了包含超過 100 個品類的 3.4 億條音頻内容。
用戶量龐大,停留時間長,這是很多平台難以企及的數據。但喜馬拉雅并未止步,一直在思考,在新的技術時代,如何用高質量的服務來實現商業價值。由此也引發了喜馬拉雅對未來架構以及大數據、AI 等技術的思考和決策——打造面向未來的雲原生大數據平台,使得數據基建未來更有效地支持業務的長期發展。
從業務需求而言,AI 技術應用對底層數據的需求是數據存儲更多、計算更快、彈性擴容能力更強;管理層精準決策對數據的需求是統一數據口徑、數據更精準、更實時;數據平台要足夠彈性敏捷,支持業務洪峰增長。阿裏巴巴集團副總裁,阿裏雲智能互聯網 & 新金融事業部總經理劉偉光給出的建議是:大數據就是未來,将數據上雲,構建雲原生大數據平台,激活更多數據價值,基于數據精準、智能決策,解決業務發展的關鍵戰略問題。
這與喜馬拉雅 CTO 姜傑,基于垂類場景領先的 AI 和數據能力,結合業務流程的數智化升級,驅動喜馬拉雅的産品與服務不斷創新的技術思考高度一緻——喜馬拉雅技術團隊對于重構數據底座的決心,以及爲未來布局大數據和 AI,正是喜馬拉雅決定業務全面上雲的核心因素。
彼時,阿裏雲推出了新一代雲原生數據湖 3.0 技術,還手握絕對領先的數據中台建設、智能數據決策多方面經驗,雙方一拍即合。
于是,喜馬拉雅下一個十年的開端,多了一位新夥伴——阿裏雲。
全面提速
在大數據上雲這件事上,喜馬拉雅之所以會選擇阿裏雲,一個原因就是阿裏雲擁有 " 過硬 " 的數據技術實力以及非常成熟的大數據産品體系;此外,還有很重要一點,即阿裏雲在開放開源方面也做得很好。
" 阿裏雲的開源大數據平台可以兼容業界開源大數據協議,在合作的過程中,我們也能感受到阿裏雲開源開放的态度,這點非常符合喜馬拉雅堅持走開源大數據的發展理念。" 喜馬拉雅大數據工程負責人陳葉超強調。
據陳葉超回憶,喜馬拉雅從 2022 年初決定了數據上雲的發展方向後,開始與阿裏雲接觸合作,并在 2022 年上半年探索落地了大數據混合雲方案,有了混合雲架構的落地經驗,大數據相關業務也感受到了彈性雲原生帶來的敏捷便利性,同時打消了技術上的一些顧慮,在 2022 年 7 月開始與阿裏雲接觸全面的上雲方案,并在 2022 年 11 月達成合作意向,确定了采用基于開源的大數據平台 + 數據中台的形式,推進雲原生大數據戰略。
确定了數據上雲的發展理念,選定了夥伴,下一步就要一起奔赴目标。
喜馬拉雅數據上雲主要希望達成四個目标:首先,新架構要滿足未來發展需求,同時滿足數據以及 AI 的場景;其次,新的系統要足夠 " 彈性 ",能做到 " 伸縮自如 ";再次,要高度兼容現有系統;最後,在技術升級的過程中,能夠不中斷業務,并能對現有系統進行梳理優化。" 我們希望能在技術升級的同時,對現有的數據架構同時進行優化,并具備支持 AI 場景的能力。" 陳葉超指出。
根據喜馬拉雅上述需求,在 2022 年初,喜馬拉雅與阿裏雲一起落地了大數據混合雲架構,數據依然存儲在 IDC 資源中,同時調用雲上資源補充傳統 IDC 機房平台的計算資源缺口,在短時間内滿足了喜馬拉雅數據量、計算量大的需求。
混合雲架構驗證了阿裏雲開源大數據的産品能力,到 2022 年 6 月,爲了全面升級雲原生大數據戰略,喜馬拉雅與阿裏雲開始基于阿裏雲全新一代數據湖技術——阿裏雲數據湖 3.0,構建了存算分離的雲原生大數據平台,正式開啓了大數據全面上雲之路。
這是一套敏捷、靈活、成本更低的 " 存算分離 " 體系,徹底颠覆了原本在 Hadoop 體系下 " 存算一體 " 的數據平台,以及傳統 IDC 架構無法靈活擴容、縮容等痛點,同時還大幅降低了大數據運維成本,提升了數據産出效率。
雙方利用包括 EMR Hadoop+OSS-HDFS、EMR StarRocks、EMR Kafka、EMR Clickhouse 等在内的多個技術,全面重構了喜馬拉雅大數據底座。
雙方這一系列合作都是基于阿裏雲 EMR 架構進行的,這與喜馬拉雅秉持開源技術的思考 " 不謀而合 ",這也是促成雙方合作的重要因素之一。
" 阿裏雲 EMR 架構與業界所有開源協議兼容,免去了系統改造的困擾," 阿裏雲互聯網解決方案架構師張春華表示," 該架構可以在不破壞客戶原有系統的前提下,爲客戶提供一個高效、穩定、安全的開源環境,降低客戶遷移成本,确保 0 故障、0 打擾遷移上雲。"
當然,在數據上雲的過程中,除了開源外,喜馬拉雅也存在與其他企業數據上雲時一樣的顧慮——業務間斷風險。陳葉超表示,業務不能間斷是喜馬拉雅數據上雲的前提之一。
爲了确保業務的連續性,喜馬拉雅技術團隊與阿裏雲團隊一起反複打磨上雲方案,最終選擇了 " 雙跑 " 作爲數據遷移的方式," 我們在‘雲上’和‘雲下’分别建立了兩套新系統,以及相應的資源,然後結合平台進行适配。以‘雙跑’的形式完成了‘絲滑’、零故障的過渡。" 陳葉超指出。
與此同時,喜馬拉雅還與阿裏雲合作建設企業數據中台。喜馬拉雅大數據總負責人鄭棟表示:" 喜馬拉雅希望通過建設數據中台,讓業務決策敏捷、智能、精準,驅動企業經營效率提升,實現業務價值。"
在搭建數據中台的過程中,阿裏雲基于瓴羊 "1+N+N" 的數智化決策與運營實踐,以及 QuickBI 産品在幫助喜馬拉雅構建自己的數智決策系統中起到了關鍵作用。
通過 QuickBI 産品,瓴羊與喜馬拉雅共建了自上而下的決策分析體系,提升了企業内部人員數據分析的效率,實現業務流程和數據分析直接協同,構建了數據消費和價值洞察的企業文化。
" 如何通過計算、存儲等能力,将數據真正用起來,實現數據資産化,并爲業務發展提供指引,這是數據底座所具備的核心能力。" 正如劉偉光所言,大數據上雲是實現數據資産化中重要的一步。
實時湖倉一體、AI創新産品.....共創未來更多可能
通過大數據平台 + 數據中台的建設,喜馬拉雅重構了數據底座,真正具備了更穩定、更高效、更智能化的應用數據的能力。
喜馬拉雅大數據全面上雲架構升級後,實現了秒級彈性伸縮,減少了數萬張表,任務性能提升 40% 以上,即席查詢性能提升 30% 以上,大幅提升的數據的時效性和開發效率。
在此基礎上,陳葉超表示,喜馬拉雅接下來還将和阿裏雲這個 " 志同道合 " 的合作夥伴共同推進雲上大模型 AI 創新、實時湖倉一體等技術的落地,爲未來産業發展進行布局。
以實時湖倉一體技術爲例,該技術對于類似喜馬拉雅這種在線音頻互聯網企業,以及諸如淘寶、天貓等在線購物應用企業而言,是尋找新的增長點的重要抓手。通過實時湖倉一體技術,可以在短時間内快速抓住用戶的興趣點,通過用戶浏覽、搜索等行爲,進行更智能化的推薦。通過定制化的服務,爲企業提供精準營銷,提升用戶洞察和服務。
通過雲計算的能力,能對過去不能實時計算、實時化處理的數據,實現實時化處理," 阿裏雲和喜馬拉雅正在公共雲上探索一條沒有人走過的路。" 劉偉光說。
除了湖倉一體技術外,據喜馬拉雅 CTO 姜傑介紹," 借助阿裏雲的 E-MapReduce 和 OSS-HDFS,我們構建了喜馬拉雅雲原生大數據平台,并結合喜馬拉雅領先的情感語音 AI,推動業務創新,爲用戶提供更優質的内容消費和更智能的語音交互體驗。"
據了解,喜馬拉雅開發出基于語音對話的大模型,與傳統的文本轉語音(TTS)技術不同。傳統 TTS 要求聲音輸入的清晰度非常高,通常需要錄制 8 小時以上的語音才能進行模型訓練。但是,喜馬拉雅語音對話大型模型采用了一種全新的方法。它隻需要用戶錄入不超過 10 句的語音内容,然後通過後台的語音對話大型模型進行訓練和推理,就能夠生成具有韻律、語調和口氣的人工智能語音内容。更令人興奮的是,這個模型還可以實現 "Zero-Short" 語音音色的輸出,使用戶能夠用自己的聲音來聆聽播客、有聲書、新聞等内容。在新的數據底座的支持下,這項将 AI 與大數據結合的 " 新嘗試 " 也得以 " 照進現實 "。
喜馬拉雅和阿裏雲的種種嘗試,正走在整個互聯網行業的最前沿,緻力于抓住智能時代的機會。在未來諸多不确定性中,有一點可以确定——雲計算将構建 AI 進步的算力基石。
在新的數據底座之上,喜馬拉雅的 AI、大數據應用也将大放光彩。阿裏雲也将始終秉持開源開放的态度,以長期合作夥伴的角色陪伴客戶共同探索更好的技術驅動,共同前行。
本文摘自《雲栖戰略參考》2023 年 10 月刊
掃碼限時申領紙質版
↓↓