钛媒體獨家對話Amazon Bedrock總經理：大模型太多，也太早，客戶需要有多個選擇

圖片來源 @pixabay

當下，多數雲計算企業的生成式 AI 布局，往往局限于自家訓練的基礎大模型，然後招攬生态夥伴以拓寬能力邊界。

這一舉措出于企業自身商業利益考量可以理解，但是對于客戶而言，卻并不能完全接受。顯然，能夠有更多模型的選擇對客戶而言非常重要。這一方面在于，大模型創新的天花闆還遠遠沒有打開，不同模型提供商的能力自然也會有參差，另一方面也跟客戶需求場景相關，沒有任何一個模型能滿足所有場景，那麽針對不同的用例，客戶需要有多個選擇，可能還不是一兩家，會有多個模型同時參與，去彌補這種參差。

不是以 OpenAI 爲中心，也不是以其他任何一個模型爲中心，而是以客戶爲中心。過去，亞馬遜雲科技 90% 以上的産品都是從客戶需求推導而來。亞馬遜雲科技的生成式 AI 戰略也基本跟随這種路徑。

當然，亞馬遜雲科技也構建有自己的基礎大模型 Amazon Titan，于 2023 年 4 月發布。這源自亞馬遜雲科技自身在人工智能技術方面的積累，比如此前知名的語音助手 Alexa、無人機 Prime Air、無人零售 Amazon Go 等，就用到了大量語音、語義、視覺相關的機器學習技術。

亞馬遜雲科技 Amazon Bedrock 總經理 Atul Deo 指出，如果亞馬遜雲科技沒有自己的一方模型，意味着必須完全依賴合作夥伴。而從頭開始構建模型，其實也在給自己提供了 " 事必躬親 " 的問題解決思路。

爲此，我們能看到一個蠻有意思的現象：由于 Amazon Bedrock 提供了企業構建生成式 AI 應用程序所需的一系列功能，能夠在實現簡化開發的同時确保隐私性和安全性。在 Amazon Bedrock 上，客戶能夠找到 Amazon Titan，也能夠找到當前業内主流的大模型版本，包括 Anthropic、Stability AI、AI21 Labs、Meta、Cohere、Mixtral 的模型……這個名單仍在快速擴充。

北京時間 4 月 23 日晚間，亞馬遜雲科技公布了 Amazon Bedrock 的多項功能更新，這些能力整體上爲客戶提升了開發生成式 AI 應用的效率。包括：

1、全新專有模型導入功能推出預覽版：可将客戶的定制模型（包括使用 Amazon SageMaker 機器學習平台或其他工具開發的模型）集成至 Amazon Bedrock，以完全托管的 API 形式進行訪問，減少運營成本并加速應用程序的開發。Amazon Bedrock 專有模型導入功能現已推出預覽版并支持三種受歡迎的開放模型架構：Flan-T5、Llama 和 Mistral，并計劃未來支持更多模型。

2、模型評估功能正式可用：爲客戶評估、比較和選擇适合其應用程序的最佳模型，将評估模型的時間從幾個星期縮短到幾個小時，促使客戶應用創新并改善用戶體驗。通過選擇預定義的評估标準（如準确性和魯棒性）并上傳自有數據集 / 提示詞庫，或者從内置的、公開可用的資源中進行選擇。對于主觀标準或需要細緻判斷的内容，Amazon Bedrock 将人工審核融入工作流程中，以根據特定應用場景的指标（如相關性、風格和品牌聲音）對模型進行評估。評估後還會提供評估報告，以爲更多模型使用者提供參考。

3、Guardrails 安全功能正式可用：在基礎模型的原生能力之上提供安全保護，能夠阻止高達 85% 的有害内容。允許客戶在單一服務中同時擁有内置和定制的防護機制，并可與 Amazon Bedrock 中的所有大語言模型以及經過微調的模型一起使用。可實施防護措施，去除個人信息和敏感信息、亵渎語言、特定詞彙并屏蔽有害内容。

功能更新之外，亞馬遜雲科技此次還在 Amazon Bedrock 上提供了一系列新模型，包括正式可用的 Amazon Titan Image Generator 圖像生成模型、Meta Llama 3（8B 和 70B），以及 Amazon Titan Text Embeddings V2 預覽版，Cohere 的 Command R 和 Command R+ 三款模型也即将推出。

其中，Amazon Titan Text Embeddings V2 預覽版，針對使用 RAG 檢索增強生成的應用場景進行了優化，非常适合如信息檢索、問答聊天機器人和個性化推薦等任務。許多企業采用 RAG 技術，通過連接到知識源以增強基礎模型的生成結果，但問題是運行這些操作可能會消耗大量計算和存儲資源。Amazon Titan Text Embeddings V2 在降低了存儲和計算成本的同時，保持了使用 RAG 檢索結果的準确性。

生成式 AI 不僅僅是大模型，同樣也需要加速芯片、數據庫、數據分析、數據安全服務等服務做支撐。從底層的加速層如加速芯片、存儲優化，到中間層模型構建工具和服務，再到最上層的生成式 AI 相關應用，能夠看到，亞馬遜雲科技試圖爲客戶提供構建生成式 AI 所需的端到端技術棧。

在此次發布前夕，Atul Deo 與钛媒體進行獨家交流，Atul 分享了對生成式 AI 的價值判斷，技術方法論，以及 Amazon Bedrock 助力客戶成功等看法。Atul 目前負責 Amazon Bedrock 的産品管理和工程工作。在亞馬遜雲科技機器學習團隊期間，Atul 負責推出和發展了多項雲服務，包括 Amazon Q、Amazon CodeWhisperer、Amazon Transcribe 和 Amazon Connect 的 Contact Lens。

觀點摘錄：

1." 數據衛生這項工作非常具有挑戰性 "

2."（改變的）一切都取決于客戶以及我們試圖解決的具體問題 "

3. 我們無法徹底消除幻覺，但會有越來越多的前沿研究湧現

4." 過早地指出哪些模型被廣泛應用還爲時尚早 "

5." 技術所帶來的颠覆性、對客戶體驗的改變及其可能性都是真實存在 "

以下是對話實錄，經钛媒體編輯整理。

钛媒體：大公司和小而精的團隊，在當下實現 AI 技術創新、産業賦能方面，會有哪些不同優勢？

Atul：就針對客戶應用部署而言，我不認爲大公司和小企業之間會存在哪些明顯差異，它們之間有很多共通之處。我們都想爲大公司嘗試不同模式。當前 Data Hygiene（數據衛生）這項工作非常具有挑戰性。當你爲較小的公司部署應用時，管理并确保模型訓練所需的私域數據實現高質量和一緻性相對容易。但對于規模較大的公司，有大量差異化數據，且數據更加分散，管理數據會更具挑戰性。另一方面，初創企業可以通過承擔更多的風險更快地行動，它們沒有像大型客戶這樣的現有客戶群，可能會出錯，也會在試錯中快速叠代創新。

钛媒體：AWS 想要做 GenAI 這件事情，最終希望解決什麽問題？

Atul：我們正在積極探索新的可能性。無論客戶希望自主構建模型，還是希望對現有模型進行深度定制，我們希望構建一套生成式 AI 堆棧，讓客戶使用到豐富且一流的工具，除此之外，還有 Amazon SageMaker，基于 NVIDIA 提供的豐富實例類型，我們還積極研發定制芯片，涵蓋訓練和推理兩大領域，以滿足更精細化的需求。

通過這一系列從底層到中間層的創新，我們的目标是：讓企業内的任何開發人員都能夠自由構建生成式 AI 應用，而無需關注複雜的機器學習或底層基礎設施。我們堅信，所提供的工具将達到行業最高水準，幫助他們實現應用的創新突破。

目前，我們推出了 Amazon Q business 和 Amazon Q developer 兩個版本。Amazon Q business 旨在爲企業中的每位員工配備一位專業顧問，确保他們能夠快速獲得解答并高效完成任務；而 Amazon Q developer 則專注于提升開發人員的工作效率，爲之提供即時的解答，以順利完成手頭的具體工作。這正是 Amazon Q 的最終目标，也是我們不懈追求的方向。

钛媒體：對 AWS 自身的産品和業務結構真正意義上帶來改變，可能需要多久？如何在這個領域建立我們的領導力？

Atul：實際上，一切都取決于客戶以及我們試圖解決的具體問題。我們已經看到數以萬計的客戶正在使用 SageMaker 來改變其客戶體驗。這些變化有的已經發生，有的則需要一些時間。因此，對于何時能夠期待顯著變化，确實沒有一個固定的答案。

舉例來說，紐約證券交易所正在利用 Bedrock 來分析處理衆多監管文件，并将複雜的法規内容轉化爲易于理解的語言，這一舉措将對最終用戶産生深遠影響；同時，電子健康記錄技術供應商 Netsmart 通過應用相關技術，成功将患者健康管理記錄的時間縮短了 50%，這無疑爲醫生騰出了更多時間，使他們能夠照顧到更多的病人。

今天我們已經看到了對最終用戶的一些積極影響，但我相信這仍然是一個需要時間來逐步發展和普及的過程。然而，這一進程的進展速度是相對較快的，已經形成了不可小觑的勢頭。因此，我無法确切預測是在今年年底還是明年，生成式人工智能将變得非常普遍。不過，可以肯定的是，它正在逐步改變我們的世界，爲我們帶來更多的便利和可能性。

钛媒體：像 RAG 用于解決幻覺問題，但有些論文裏提了幻覺僅靠 RAG 也無法解決，在企業級應用中，如何測評幻覺存在程度，以及在具體應用時的影響？

Atul：盡管我們無法徹底消除這個問題，但随着時間的推移，我相信會有越來越多的前沿研究湧現。你将看到客戶在處理幻覺方面取得了更多的進步與改進。我可以明确地告訴你，這個問題雖然無法完全解決，但作爲我們行動的一部分，它确實有助于減少其影響，隻是無法徹底消除。随着時間的推移，無論是模型内部還是外部，都将出現創新，從而幫助客戶更好地應對這種模式。

钛媒體：模型間的協作問題，客戶在多個模型使用時，AWS 目前有哪些比較好的解決思路？

Atul：對于客戶而言，這個問題顯而易見。因此，我們特别推出了一項名爲模型評估的功能，該功能已于去年 12 月發布，并計劃于明天全面上線。從本質上來說，這一功能旨在幫助客戶在給定的一組提示上比較不同模型的性能，以便它們能夠選擇更符合自身特定用例的模型。

要實現這一目标，客戶有三種方式可供選擇。首先，他們可以在控制台中根據給定的提示比較不同模型的性能；其次，客戶可以利用自動化評估功能，在不同數據集上運行不同的模型或使用标準行業數據集，從而查看哪些模型表現優異；最後，客戶還可以借助公司内部的專業團隊，以不同的方式評估模型，确定哪種模型符合他們的期望。最終，客戶将從 Bedrock 獲得一份詳盡的報告，根據他們設定的标準，報告将展示模型的表現以及如何決定哪些模型對其有意義。

钛媒體：AWS 在 AI 倫理方面的舉措有哪些？

Atul：我們正與多個政府組織進行廣泛合作。以我們推出的 Titan 圖像生成器爲例，該工具具備水印功能，能夠添加不可見的水印，幫助客戶判斷生成的圖像是否由人工智能生成。除此之外，我們還與一些列其他組織合作，确保以負責任的方式使用人工智能。

钛媒體：AWS 在自研芯片方面的經驗是什麽？

Atul：多年來，我們一直在芯片領域進行投資，且早在 2015 年收購了芯片設計公司 Annapurna Labs。盡管我們最初的重點是面向虛拟化和通用計算芯片，但随後我們專注于開發專門用于機器學習的 AI 芯片。例如，用于人工智能訓練和推理的兩款專用芯片 Amazon Trainium 和 Amazon Inferentia。

得益于多年來對芯片開發的持續投資，我們有了更多機會對這些芯片進行叠代和改進，以确保其性能和穩定性。這些改進恰逢其時，因爲生成式人工智能對計算能力的需求日益增長。

钛媒體：Bedrock 上有很多模型，你是否觀察到哪個模型最受客戶歡迎，比如 Meta 和 Anthropic？

Atul：目前，我們尚不會透露各模型提供商的具體性能表現。但我想說的是，這些模型受到了廣大用戶的青睐。這主要是因爲模型的選擇取決于具體的應用場景，人們會根據不同的需求來選用不同的模型。因此，過早地指出哪些模型被廣泛應用還爲時尚早。（本文首發于钛媒體 APP，作者｜楊麗，編輯 | 蓋虹達）