數據顯示,我國目前有 1700 多萬視力障礙人士,越來越多的社會力量關注到了他們,并試圖用技術和公益來改變他們的困境。
2023 年 1 月 13 日下午,位于北京大鐘寺的一個報告廳裡,由抖音集團産品、研發工程師以及清華大學、浙江大學等高校學生組成的 12 支隊伍正在進行決賽。5 個多月前,64 支隊伍,501 名參賽選手開啟了這場 "AI 助力視障群體 " 為主題的技術公益大賽。
01.
找對一雙襪子
" 襪子會不會穿錯?冰箱裡的食物會不會過期?我們是否可以幫視障用戶,擺脫這些基本的困擾,是我們做這件事情的初衷。"
來自 " 靈瞳 " 團隊的産品經理在決賽舞台上闡明了團隊的目标,他們希望能為視障人群帶來一個全方位的視覺助手。這個助手需要是語音、識别以及互動的能力。
靈瞳産品演示資料
在大量調研之後他們發現,目前相關産品分為三類,一是 AI 語音助手,它能詢問天氣預報、語音輸入協助檢索互聯網上的信息,但是這僅實現了對話式智能,無法滿足視覺需求;第二類是視覺識别工具,例如微軟專為視障開發的 Seeing AI 和谷歌的 Look out 應用,其商品識别功能能夠幫助用戶獲取商品條碼中的信息,以及閱讀文檔。但是無法實現與用戶的交互,即,它的識别功能隻會對物體進行識别,文檔閱讀功能隻能閱讀全部文字,用戶無法傳遞自己的有效、具體需求,隻能被動接收 AI 的識别結果;第三類則是人工求助,如 Be My Eyes 和 Aira 項目,工作人員或志願者通過視頻的方式為視障人群提供幫助,但是其人力和付費成本都比較高,很難推廣。
因此," 靈瞳 " 團隊決定設計一款 " 對話式視覺助手 "。簡單來說,這是一款應用于手機和智能眼鏡的 APP,初始界面類似一個相機,它可以聽取和理解用戶發起的提問,同時點擊按鈕錄制物品信息,它會根據問題提取有效信息并語音回答。
為此,他們主要從兩個方面來改進靈瞳的功能,一個是交互,一個是視覺。交互上,除了連續探索模式,還可以指尖探索,即用手觸摸屏幕來告訴用戶物品的相對應位置,還有一種是對話定位,用戶可以先告訴靈瞳想要什麼樣的物品,比如想要尋找一個黃色的東西,你可以拿着攝像頭去尋找,一旦你想要的目标出現在屏幕中,靈瞳就會提示用戶的位置,在屏幕的左側還是右側。靈瞳還有一些輔助能力,比如找對襪子,線下買衣服,靈瞳都可以幫助你做一些輔助信息和判斷。
" 靈瞳 " 團隊成員在比賽現場
此外,視障人士在使用智能設備時,可能出現隐私問題,比如視障人士在拍攝時,并不知道他拍攝的畫面點有沒有相關的隐私信息,比如銀行卡的圖片,為此,他們加入了智能信息的檢測能力,檢測到涉及隐私信息的圖就要确保圖片不會傳出手機。
靈瞳團隊相關負責人介紹,該創意在技術層面涉及到多模态技術,如視覺語言問答、視覺語言預訓練、視覺文字描述等,這些技術近兩年在學術界取得了顯著進展。其它的計算機視覺技術和語音技術,包括文字檢測和光學字符識别、語音識别和語音合成等技術已經成熟穩定并廣泛應用。
靈瞳團隊的成員,一名來自抖音集團的研發工程師表示,他最早的觸動來自身邊人——一位好朋友去年患上視網膜相關的疾病,接下來視力會慢慢受影響甚至完全失明。從那之後,他就開始關注相關領域的技術和研發,直至這次參加比賽。
在決賽中,靈瞳團隊得分最高,獲得一等獎,目前靈瞳 iOS 端 App 已經進入内測階段。
02.
可以聽見的二維碼
另一款頗受關注的參賽作品是 " 聽碼 "。日常工作和生活中頻繁出現的掃碼操作給視障人群帶來極大困擾,而 " 聽碼 " 能夠将目前的 " 平面圖片 " 掃碼轉換為一種更為沉浸式的 " 空間音頻 " 掃碼。
" 聆影聽光 " 團隊想嘗試改善視障人群對于視頻内容的需求。目前,無障礙視頻内容流程是人工重新撰寫對應視頻内容的腳本,再配音錄制,輔之以智能讀屏。由于制作成本高,且标準不統一,視障用戶可選擇的内容少且體驗不好。
他們希望通過技術将現有的長短視頻能夠更智能的制作,核心技術是智能視頻理解、智能語音合成、智能語音識别。在視頻理解并自動生成旁白文本的能力還未成熟時,他們開發了标注平台,通過标注和語音合成技術生成旁白底稿和音庫。在視頻理解自動生成底稿能力經過驗證後,即可全自動化生産中長音視頻内容,範圍逐漸可以擴大至電視劇、綜藝、電影、體育比賽等。
" 聆影聽光 " 團隊成員在比賽現場
在團隊成員看來,視障人群在這方面的需求可能要更強烈,不僅是出于娛樂,還有社交的目的——有更多話題可以融入身邊環境。
12 支進入決賽的團隊依據自身技術特點,還提供了關于視障人群的出行、辦公、購物、美妝、遊戲等需求的智能解決方案。
"BANG" 為視障人群提供了一款無障礙的創作工具:用 AI 技術實現文本轉圖、圖像編輯、色塊成圖等功能,支持語音交互方式,幫助視力障礙人群進行便捷創作和表達。
" 世界和平 " 小隊則從工作場景出發,希望提供一種面向 B 端的 " 工區無障礙改造 " 的智能工具,為有視力障礙人群就職的機構提供無障礙化改造方案,以給視障群體提供更加舒服的辦公環境。
03.
和視障人群 " 肩并肩 "
人類的悲歡并不相通," 明眼人 " 也很難真正理解視障人群生活中的不便,一直緻力于幫助視障群體的公益人傅高山對此深有感觸:" 明眼人要真正與視障人群從面對面切換進入到肩并肩視角是很難的,讓明眼人理解我們真實的需求是第一步。"
要打破這樣的隔閡,僅僅熱情是不夠的,需要耐心的溝通,甚至放下自己對産品和技術的 " 執念 "。
比如 "BANG" 團隊的劉玮,在對視障群體相關專家的用戶體驗做了反饋後就發現,自己原本的認知被颠覆了,也改變了産品的設計方向:" 我們完全不應該把所謂的弱勢群體和視障群體去挂鈎,視障群體能做的和需要做的和非視障群體沒有區别,他們更希望自己使用的産品和非視障群體是相同的,重要的是我們能在産品設計初期就做好無障礙的适配,有利于未來去做一個面向全民的工具。"
而設計耳機的微光團隊,與用戶溝通需求後發現,起初他們認為可以通過技術讓産品落地,但實際上技術在很多問題上是沒有效果的。" 即使是上地鐵和下地鐵,買東西和結賬,都要面臨非常細分的問題,好的技術可能不是使用所謂的高科技,而是能夠低成本且有效的解決問題。" 最終團隊回歸到對人的依賴上,讓用戶可以聯系在線的緊急聯系人,或者一公裡内願意提供支持的用戶。
技術公益,出發點和落腳點,都是公益而非技術,最終也要回歸到幫助視障人群真正解決問題上。靈瞳團隊的産品經理也經曆過這樣的改變:" 技術人有時候會有一點技術潔癖,比如會追求一個漂亮的交互或者高級的算法,而忽略其他東西。比如,産品中有一個‘幫助視障者探索環境和定位感興趣物品’的小功能,它卡住了流程,交互和運行都不滿意。最後在受益人的建議下,我們采取了看起來比較低階的技術形式,但是解決了更多問題。關注真實需求,這也是我們的學習的經曆。"
比賽的評審問答互動環節
本次活動上,評委除了行業專家,還有視障專家團,如傅高山、盲人美妝師肖佳等。過程中他們作為觀察者,也坦誠給出各個隊伍和産品真實的反饋。中國盲人協會主席李慶忠,在比賽的最後表示,聽到這些項目很感動,因為感受到,項目團隊們對盲人的需求了解的非常深,也很有針對性。即使場景範圍較小的項目,比如美妝,也具有突破性的意義。
在最後,負責賽事的相關負責人表示,比賽隻是為了提供更多的創意,創意之後可能還有 demo、還有上線、還有運轉和維護等,賽後,抖音公益會支持和協助有價值的項目進行孵化和落地。