△AI 數據是人工智能行業的燃料,在智能駕駛領域同樣扮演着助推技術落地的角色
如今自動駕駛成為了人工智能領域最受關注、最具挑戰和影響力最為廣泛的産業方向,是推動全球汽車工業變革最重要的科技力量。
汽車正在向智能化轉變,在自動駕駛落地較好的企業往往也具備強勁的市場競争力。但目前智能汽車想要實現更高等級的自動駕駛,還有許多技術難點有待解決。
成熟的自動駕駛技術需要具備感知和決策兩方面能力。
通過多種融合的車外傳感器使汽車具備感知周圍行駛環境的能力;決策則是基于感知和理解後的信息給出判斷和建議,再通過分模塊的方式下達和完成自動駕駛任務。所以對于周圍信息的判斷和感知能力顯得尤為重要。
事實上,數據、算法、算力被看成人工智能中的 " 三駕馬車 ",數據是其中的土壤。
當前提升自動駕駛感知能力的主要方式是依靠有監督學習的方法,将大量标注過的數據對算法進行 " 投喂 ",通過不斷地訓練,讓模型具備感知能力并達到一定的識别準确率。
近日,ICVS 中國自動駕駛年會召開,在火山引擎 X NVIDIA 雲上創新專場上,火山引擎首次面向智駕行業集中展示了 AI 數據服務的能力,并分享了在構建高質量、高安全性、高效的數據服務體驗上的思路,成為了活動上的焦點。
如何靠标注提升自動駕駛 " 感知力 "?
在路面上行駛的自動駕駛車輛每天會産生大量的數據,如何管理并标注好這些數據顯得非常關鍵。
随着數據标注需求量的爆發,簡單粗暴地堆人力已無法有效解決 " 需求波峰 " 時供應不足的行業痛點。
針對這些行業痛點和需求,火山引擎 AI 數據服務基于全生命周期的管理作業平台,提供一站式的服務能力體系,包含:售前咨詢、方案設計、數據采集、數據标注、調研測評、智能标注工具等,幫助企業解決智能駕駛時代下的高質量數據缺口問題。
△AI 數據服務的一站式服務能力
火山引擎提供從售前階段到定制化數據采集 & 标注服務,有專業的售前經理為客戶提供完整的質量把控、數據流轉、人員等方面的規劃方案,保證全周期的交付質量。
執行團隊憑借豐富的采集和标注交付經驗,提供覆蓋 2D 類、3D 類、ASR、TTS、NLP 等數據類型的采标服務,靈活地針對客戶的需求提供定制化的方案。并利用智能化的标注工具套件、AI 預标注和邊标邊訓的模式,實現人機協作,有效提升效率、為企業降低成本。
同時,結合了先進的項目管理經驗和方法論,逐步形成質量進度管理、資源管理、技術工具和數據安全四個支撐方案,最終呈現一套專業的、一站式的服務能力體系。
智能駕駛中的兩大标注需求
在智能汽車領域中,火山引擎 AI 數據服務主要針對自動駕駛、智能座艙兩大方向,提供高質量的數據采集、标注服務。
在自動駕駛領域,火山引擎根據 L2 級别組合駕駛輔助,提供對車道和周圍環境數據的采集和标注服務,通過持續不斷地投喂高質量的數據,來提升智能汽車在路面行駛時對周圍環境及物體的感知能力。
針對 L3 級及以上的自動駕駛等級,火山引擎借助點雲标注的大方向,通過 3D 點雲場景下的連續幀、2/3D 融合、點雲語義分割等标注類型,解決自動駕駛應用場景持續拓展對于多源異構數據的需求,數據精準度可達 99% 級别,直擊數據需求痛點,加速自動駕駛算法落地。
在智能座艙領域,通常需要對車内的不同條件下的人臉、手勢、語音數據采集和标注,讓智能座駕能夠理解駕駛員的意圖并快速響應,豐富駕駛樂趣和使用體驗的同時,也能進一步增強行駛安全性。
針對車内的生物識别和手勢控制識别技術,火山引擎 AI 數據服務可提供多種設備(錄音筆、手機、車機魚眼攝像頭等)、多角度(直視、45 度、仰視等)、多場景(多場景下的光線條件)下的數據采集服務,對駕駛員眼球視線和人臉輪廓及手勢進行标注,用于判斷和識别駕駛員駕駛狀态和對車機下達的操控指令,确保機器訓練所用的非結構化數據來源足夠豐富和多樣。
在聲控信息交互和情感交互識别方面,可提供多語種(普通話、方言、英語等)、多語料、多場景(車内、車外、多乘客等)及不同性别、年齡人的語音采集和标注能力,用于訓練和提升語音喚醒、語音識别、NLP、情感識别等模型的效果。
現階段,火山引擎 AI 數據服務在智能駕駛領域擁有幾千名 2D/3D 經驗生産人力,平均交付準确率已經可以實現99% 以上。
客戶已經覆蓋頭部互聯網公司無人車項目、造車新勢力、傳統車廠、圖商、自動駕駛方案提供商等。
項目能力覆蓋了 2D/3D 融合、點雲車道線、連續幀追蹤标注等主要類型。标注車型覆蓋商用車、乘用車及無人配送車等多類型車輛,标注場景實現全覆蓋。
利用智能化數據平台提升标注效率
當前,許多數據标注企業仍停留在勞動密集型産業的定位中,在面對現階段自動駕駛所需要處理的巨量數據時,就顯得捉襟見肘。
從趨勢上來看,行業正在向 AI 輔助 + 精細化管理的方向轉變。
通過 AI 輔助标注算法的升級,減少人力、提升标注效率,是未來數據标注創新的路徑之一。需要大規模堆人力的魔咒,正在不斷被技術所打破。
一款好用的平台可以實現數據全流程可視化的管理、質檢模式可多層次靈活配置、針對複雜任務可執行數據串行并行流轉,能夠保證多個項目在平台實現一體化作業。
作為數據标注的集大成者,火山引擎數據标注平台中集成了多種标注模闆、預标注與邊标邊訓算法,同時具有保障數據安全、平台操作便捷、可定制化、可與火山引擎雲産品打通的特性。
通過模版工具豐富多樣、人工與算法靈活配合、數據服務專業高效靈活将持續為客戶的數據處理工作保駕護航。
△火山引擎數據标注平台的優勢
另外,平台支持系統部署到企業自有服務器上,企業的所有系統數據均在自主管理下,私密數據的安全性有保障。
同時還可根據企業自身需求與業務場景,定制個性化産品方案,讓産品更好地被企業使用,實現業務發展與标注需求的一比一完美适配。
在标注工具方面,實現了對各類常見的文本、圖像、視頻、語音、3D 點雲數據的自定義處理需求,降低了模闆冗餘,幫助客戶快速獲取低成本、高質量的結構化數據。
在算法賦能方面,火山引擎的數據标注平台的 AI 預标注與邊标邊訓的算法能力,大幅提高了标注效率與準确率,可輔助和代替部分人工操作,并根據項目類型,選擇适合的模型能力在相應項目階段接入。
△标注平台的模型能力
模型過濾階段:由模型進行原始數據的分析,過濾掉不需要人工标注的數據,隻留下需要人工标注的數據。
模型預标階段:用模型進行數據的預先标注,标注員隻需進行确認或修改。
模型糾錯階段:在标注作業時,模型可以實時進行智能糾錯,避免标注員提交低質量任務。
模型質檢環節:在質檢作業時,模型可以輔助篩選需重點質檢任務或直接完成數據的驗收。
火山引擎利用邊标邊訓的數據标注模型,智能化地學習作業内容與标注尺度,通過 " 自學習 " 方式驅動完成算法叠代," 智能 + 無感知 " 地學習人工标注習慣,帶來更高的準确率和更好的數據标注體驗。
在接到長周期、大批量類型項目時,模型偏向于 " 特定業務類型 ",高準确率帶來更高的人效收益;在處理短周期、小批量類型項目時,系統可快速切入并賦能業務,節省前期人工準備的時間。最終可實現 30%-100% 的效率提升和 10%-30% 的質量提升。
在業務快速發展的當下,AI 數據服務業務對工時精細化管理的需求愈發迫切。
△工時管理平台
為了更好的服務業務,火山引擎還推出工時管理系平台。該管理平台将實現工時精細化管理,推進工時管理系統化進程,提高工時數據的準确性,為高效實現項目工時管理和人效管理提供有力支持。
提升數據安全管理能力
高質量的數據産品往往離不開高質量的運營管理體系。
在産品質量方面,火山引擎通過高标準的人員準入門檻、長時間的經驗累積和方法沉澱、專業的質檢把關部門、靈活的平台支持把控質量。
在保證産品質量的同時,火山引擎數據服務的産量也值得稱贊,覆蓋全國支持大規模量産。
△産量管理
在數據标注這個領域,産量是一個比較重要的課題,為了能保證高效、高産,火山引擎 AI 數據服務在三方面做了一個相應的配置。
在資源層面,在天津、龍岩、重慶、煙台等 10+ 地方擁有自建基地,綜合标注人員達萬人,可解決人力缺口問題。
在人員管理層面,構建了完整的人員管理、人員産能分析體系,實現靈活、敏捷、大規模用工的新模式。
在平台支持層面,資源管理平台科學分發任務、進度看闆提前預警。通過增強三方面的能力,能夠以多維度、多角度、科學精準地做好産量管控。
近些年數據安全問題凸顯,企業對數據的質量管控、安全管理及隐私保護等方面也有較大的訴求,如何最大限度地保障數據資産安全成為了重點課題。
△數據安全管理
為了預防數據安全問題出現,火山引擎 AI 數據服務從人員培訓、平台安全、工區場地安全再到網絡及終端安全都采用了行業内最高标準,确保客戶的核心利益不受損。
在數據流轉的過程中,提供雲鍊接加密傳輸、硬盤傳送、專人監督運送、閱後即焚、文檔權限管理等方式來保證安全性。
在人員培訓、數據平台、物理工區、網絡終端安全等方面,通過一系列科學的方式和培訓來提高人員對數據安全保護意識;再通過數據平台水印、飛書文檔權限、數據生命周期和行為記錄等方式确保數據不外傳;在物理場地采用門禁、CCTV 和專人巡檢的方式保障職場安全;并采用抖音集團的網絡及終端安全管理方法來保證數據安全。
用 AI 數據增強汽車 " 智力 "
算法、算力、數據作為 AI 核心三要素,相互影響,相互支撐,人工智能技術正在智能汽車行業内形成突破與快速落地,煥發出了源源不斷的生機。
自動駕駛技術的問世,讓人們構想出的 " 智慧交通再無擁堵 " 的概念離我們的距離越來越接近。
而要實現真正的自動駕駛不是一蹴而就的,它會經曆一段漸進的過程,整個過程是從低速到高速,從人機共駕到無需駕駛員介入,從有一定風險到零事故發生,從商用到民用的漸進路線。
在自動駕駛算法模型逐步走向成熟,車端平台大算力普及的今日,數據規模自然而然地成為決定自動駕駛能力高低的關鍵變量,自動駕駛技術的落地離不開大規模高質量數據的支持。
數據規模、數據獲取成本、數據質量直接和自動駕駛能力提升的速度和高度相關。随着高質量數據資源的積累,智能汽車将愈加智慧,智能駕駛體驗愈發出色,圍繞用戶全生命周期的商業化模式也将愈發清晰。
AI 數據服務負責人金亮表示:
當前,AI 算法對訓練數據維度和樣本複雜性的要求變得越來越高,對數據标注技術、标注平台能力、數據安全、不同維度數據協同标注等都提出了挑戰。
面對新挑戰,火山引擎 AI 數據服務利用 AI 技術對海量圖像及點雲數據進行難例提取和場景挖掘,結合 AI 自動化預标注和輔助标注,輔以交互式人工标注和質量控制措施,将有效降低數據标注複雜度,提升整體數據質量,最終解決自動駕駛模型訓練的痛點,快速地部署 AI。
* 本文系量子位獲授權刊載,觀點僅為作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和産品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~