《打卡智能中國》系列更新了幾期,有讀者表示,很愛看這類接地氣的真實故事,也有讀者反映,不是電工,就是文員、農民、治沙人,人工智能不是高精尖學科嗎?那些學曆很高的博士都去哪兒了?
答案是:他們在地裏,廠裏,礦裏呢。
中科院的林博士,我見過他兩次。
第一次是 2020 年,某 AI 精英培訓班的開學典禮。當時,林博士對 AI 的了解,還停留在 " 深度學習的皮毛 ",他調用平台的機器視覺模型,開發了一個識别動物的模型,他說:" 可以識别的種類還比較少,我來也想看看其他學員都用 AI 做些什麽工作,跟大家多學習。" 林博士那次介紹這個 AI 産品時,還有些沒底氣。
第二次是 2022 年,在一個普通的會議室采訪間,林博士的言談内容,變得自如和豐富了很多。
" 之前的那個生物識别應用,這幾年已經多出了好多個模型,擴展到了哺乳動物、兩栖爬行、昆蟲科一級、蝴蝶種一級的識别," 他說," 我們還用 AI 做了别的事,一個是野外生物的圖像采集和自動化識别,一個是通過聲紋識别來進行野外動物保護,目前設備已經弄好了。我們還支撐别的企業去做 AI 商業化應用,比如農業病蟲害的識别 "。
兩年時間,林博士從 AI 新手成長爲 AI 熟手,也從一個坐在電腦前搞研究的學者,多了很多上深林、下農田的經驗。他眼中的 AI,倒映着智能中國的上限與縱深。
今天的故事,是科研領域的博士,怎麽從零開始用 AI、做 AI。
研究所裏的 AI,有什麽不一樣?
科研領域的智能化,與工農商等行業既有相同點,也有不同點。
相同點在于:1. 缺人;2. 缺數;3. 缺場景。
科研領域彙聚了大量高學曆人才,但依然缺少能将 AI 與細分學科相結合的複合型人才。就拿林博士來說,他本身是信息學專業的,因爲生物研究要用到計算機分析等信息技術,才加入了中科院下屬的動物研究所,對于深度學習、圖像識别、聲紋識别等人工智能技術,他也要從頭學起,叠代自己的知識體系。
此外,研究型機構大多有一定的數據積累,但也分領域、分專業甚至分物種。比如林博士想做的物種識别、鳥類聲紋識别等 AI 應用,很多珍稀動物,别說語音資料,連野外活動的圖像,數據庫裏一共都沒幾張,而缺少充足的數據,AI 很難發揮作用。
還有,科學研究的哪些課題、方向能用到 AI,這也是一個需要科學家們發揮 " 主觀能動性 " 去摸索的東西。林博士提到,很多科學研究中已經有很成熟的計算工具了,要用到 AI 肯定是要從一線科研人員開始推動,這就需要自己有一定的想法,他說:" 所以我聽說有這個深度學習人才培訓,就帶着我的課題主動來報名了,希望能順利畢業。"
當然,AI+ 科研也有其特别的地方。
比如,特别沒錢途。
第一次見面,我好奇地問," 當下 AI 跟生物的碰撞多不多?" 林博士笑言:
"AI 在醫學領域應用的很快,但在生物識别方面就沒有那麽好,可能跟動物保護這種基礎性研究的商業價值不大有關系,投入上有一定的滞後性。"
玩笑歸玩笑,AI 與科研的結合也特别重要。
林博士的經曆證明,基礎研究領域的 AI 創新一旦成長起來,可以帶來産學研用的一系列聯動效應。
2020 年,林博士剛剛做出了一款識别動植物的科普類 App,集成了計算機視覺技術和他們單位的動植物百科資料,方便一些動物愛好者、野外觀測調查員以及小學生和家長們使用。
中國領土廣闊,專家考察有一定的時間線,比如每五年一次,很可能就會錯失某些物種的觀察機會,導緻采樣到的數據是有偏差的。而且生物領域的分類學家、人才也處于萎縮狀态,越來越少人願意從事這樣艱苦的野外工作,所以全靠研究者和野外工作者去采集和分類,是非常不現實的。
通過智能技術的創新應用,聚集起更多數據合作夥伴,發動機構乃至廣大用戶一起參與進來,對于生物保護和研究的開展很有幫助。
而這樣一個純公益的工作,随後也凝聚起了很多研究機構、公益組織以及企業 / 産業界的關注。
林博士告訴我,開發完那個 App 之後,很多類似的國際動物保護機構跟他們建立了很好的聯系,他們輸出技術,而對方将獲取的生物數據資料反饋給他們,讓他們獲得了幾十萬的影像數據,其中很多都是新增的觀測點位,相當于給國家節省了好多科研經費。
可持續的數據獲取機制,對于後續科研任務的開展是非常重要的。
除此之外,他們還吸引到了一些商業化項目方,前來尋求合作。
比如有企業知道他們有這個技術,找到他們想開發一種害蟲識别的系統,恰好林博士所在的單位本身也承擔着病蟲害防治工作,有做好糧食安全保障的職能。于是雙方一拍即合,開始搭建病蟲害的數據庫,進行識别算法的開發。
相比跟經濟價值更近的工農商業,科研領域的智能化看起來好像沒那麽緊迫,卻有着 " 創新發動機 " 的作用:影響的不是一個人、一家企業,而可能是一個行業(比如上文提到的農業)、一個群體(比如科普教育)乃至一個國家(比如學科人才建設)。
從象牙塔到農田:一個博士的腳步
此前報道中的電力工人、水廠員工都是 AI 應用末端環節的一份子。
而借助林博士的腳步,我們可以看到,一種 AI 能力是如何誕生的又如何抵達應用末端。
第一步:從零做數據。
接收到企業提出的識别病蟲害的需求之後,林博士發現,數據就是一個很大的挑戰。
從生物學的角度,害蟲也有很多種,一種害蟲的發育過程中還有很多種形态,從蟲卵、弱蟲、幼蟲、成蟲的發育狀态都不同,在圖像分類過程中就屬于不同類别,如果是外行人來做,根本做不明白也沒有一個成型的數據庫。
所以林博士和團隊,必須從電腦桌前走到地裏,去實地采集不同階段的圖像,确定病蟲害不同發育階段的形狀特征,爲後續模型的精準識别打下基礎。
第二步:跟農業專家深入交流。
不同地區的病蟲害可能并不相同,裏面涉及到很多非常專業的知識點,比如北京郊區的番茄有哪些常見的病蟲害?發現害蟲後會對接怎樣的防治措施?提供什麽藥物?這都要深入到大棚裏,跟當地的植保專家以及長期從事一線生産的農民們進行交流,這樣才能保證後期打造的 AI 系統,能夠提供從病蟲害識别到防治指導的全套工作。
第三步:模型開發與調優叠代。
林博士和同事們基本都是信息學專業,并不是深度學習算法工程師出身,而農業項目的模型叠代又很快,一批圖像采集完了之後,馬上就要叠代一批模型,爲了精準識别不同作物,還要開發不同的模型,這樣模型很多,開發和叠代工作量很大。
林博士表示,科研工作中可能很看重 AI 開發框架的靈活性、可擴展性、先進性等,比如爲了發 paper 便于同行複現,大家更傾向于使用 TensorFlow、PyTorch 這樣的海外平台,而真正在開發産業用模型時,我們更看重的是平台的易用性,以及面向應用的工業化能力是不是很簡單易用,有沒有已經訓練好的性能不錯的模型。
因爲底層的技術手段、理論方法,國内外開發平台都是一樣的,也都是開源的,沒什麽區别,但容不容易訓練,容不容易部署,能不能工業性地批量生産(模型),這些問題的答案對産業智能化很重要。
目前,由林博士及團隊支持的該農業病蟲害應用已經在北京落地了,這也是北方地區第一款病蟲害識别的 App。
爲什麽做這個項目?林博士及團隊的出發點和商業公司的想法就不太一樣——一方面是企業 / 農戶有需求;另一方面是爲了幫助新農人。
" 現在大量的新型農業生産者,比如年輕一代," 林博士提到," 他們沒有熟練的生産經驗,也不依賴上一輩傳授的經驗,而是更依賴從互聯網獲取的信息。這時候我們給他提供一個工具—— AI 識别,慢慢地他們也會成長爲有經驗的生産者。"
以往《打卡智能中國》的主角,電力工人放飛的無人機,水廠員工日常使用的智慧系統,這些 AI 工具背後就是無數個林博士。
學員?導師?研究員?開發者?
一個 AI 人的身份轉換
第一次見到林博士,他還是一個帶着課題等待被評判的 "AI 新手學員 "。
第二次見到他,已經是國内某 AI 開源社區的技術專家了。
林博士平時還會承擔一些新手指導、開發經驗分享等任務,把自己的數據和模型開源放到平台上,讓開發者和學生用戶有實踐和練手的機會。
培養多一點 AI 人才,這種 " 利他 " 的思維,好像就刻在這位學者的腦子裏,不用猶豫和思索,自然而然地就去做了。
AI 人才需求量大、缺口大,已經是公認的事實,也成爲人工智能産業進一步繁榮發展的限制。
AI 人才的培養難,一是因爲技術新,相較于理數生化等傳統學科,以及計算機這樣的成熟學科來說,AI 本身是一門新興技術,還在不斷更新叠代,沒有完善的人才培養模式和課程體系;二是交叉性強,AI 是一門應用型技術,要求跟産業緊密結合、實踐落地,僅靠學校教育是無法滿足 AI 複合型人才的培養需求。
十四五規劃中提出,人工智能行業要形成産學研用深度融合的技術創新體系,連通企業、高校、研究院所、政府等創新主體。
在 AI 生态裏," 産學研用 " 是分層的,每一層都承擔着各自主要的創新任務,但分層不代表割裂,各層還要緊密聯動,擰成一個創新鏈條。
" 林博士們 " 就成了那個遊走在各層的關鍵角色:
在産業中,他們是 AI 創新的開發者;
在高校人才培養中,他們是那個給學弟、學妹指導的前輩;
在研究中,他們是将 AI 技術與科學探索相結合的先行者;
在應用環節,他們會主動去貼近一線使用者,讓 AI 工具能變得更好用。
" 談笑有鴻儒,往來無白丁 " 這就是今天的 AI 學人,既有身處象牙塔兼濟天下的理想情懷,又有身先士卒深入産業的行動能力。
有一個工業大學的老師曾告訴我,要把 AI 研究做到工廠裏,這和林博士把 AI 做進農田裏,有異曲同工之妙。
這些學者擁抱 AI 的經曆,讓我深切的感受到:AI 既是一個專業,也不是一個專業。AI 将更多專家和學者拉進 AI 的世界," 産學研用 " 的閉環加速轉動,才能持續打開 AI 的上限和想象空間。
大鵬之動,非一羽之輕也,多元人才的合力,才能托舉起智能中國。