" 吟過詩詞文賦,熬過高數線代,品過經史子集,研過算法結構,啃過句法文法,train 過神經網絡。"
這是林子對自己本科生涯的速寫。她的專業過于迷你,是北大中文系 4 個專業中最沒有存在感的應用語言學(中文信息處理)。存在感有多低呢?每年畢業生不過 4、5 個,一些同學因爲無法堅持轉了出去,也有同學對中文專業情有獨鍾而轉了進來,而林子是 2015 級學生中唯一從頭到尾讀下來的那個。
林子。 圖源:科學網
【1】意料之外的選擇
應用語言學是一個計算機科學和語言學交叉的專業,主要學習中文信息處理,文理兼修,側重培養開發傳輸、檢索等計算機語言處理,研發智能理解與人機對話的複合型人才。
中文信息處理是從計算機的角度去認識和理解語言文字的特性,探索如何将有關語言文字的規律轉化爲計算機可用的知識系統,幫助計算機更好地進行信息處理,包括信息存儲、傳輸、檢索、智能理解與人機交互等等。
" 選擇 " 這門應用語言學專業完全在林子的意料之外。當初她懷抱着一顆文學夢選擇了中文系,甚至都不知道什麽是語言學,更不知道中文系有專門爲理科生開設的應用語言學。
但當林子看着培養方案上的現代漢語和高等數學、古代文化和線性代數、語言學概論和計算概論,她甚至來不及尋思這到底是什麽,腦海裏隻剩下一個念頭:" 我想試試,這看上去太酷了。"
【2】闖出了一條自己的路
林子高中讀的是理科,但她也很喜歡文學,她還拿過新概念作文比賽的一等獎,由此得到了北大中文系自主招生的名額,并通過筆試和面試,最終獲得降分錄取。
大一上基礎課的時候,和林子同級的很多學生都非常不适應。在上語言學課程的時候,有的同學就對需要背誦且閉卷考試的課程不适應,尤其是寫滿繁體字的古代漢語課,不僅需要去理解還要溯源那些字;計算語言學模塊的課程需要他們學編程語言和算法;至于數學,更是需要學習微積分、線性代數和概率統計。
因此,有的同學轉到文學專業或者純語言學專業,而有的同學轉到了數學專業和計算機科學專業。但是林子依然堅持着,她認爲,沒有看清沿途風景就調轉車頭,是對當年決定啓程的不負責。
在摸索了一年之後,林子在科研中找到了這個學科的樂趣。從大二開始,林子先後加入了北大計算語言所和計算機所實習,從事這個領域的科研項目,進一步了解——這個領域的人們都在關心什麽?哪些是科學性的問題,哪些是技術性的問題?也漸漸發現,原來,對于前者,林子在語言學的課堂上早已接觸過;對于後者,她也曾經在理科課上反複練習。
她在計算語言所參與的一些科研工作中,其中有兩項工作分别發表在自然語言處理領域很有影響力的兩個國際會議上:一項工作是探索了漢語中介語語料庫的語義角色自動标注;另一項工作是提出一種新的方法,将人工構建的關于漢語語素的語言學知識庫跟深度神經網絡中的詞向量表示結合起來,改進了詞向量表示在詞義相似度計算任務上的效果。
海外計算語言學的研究早已形成了一定的規模,因此,林子在在完成了三年的學業之後出國讀研。畢業後去了矽谷的谷歌總部,在自然語言處理(NLP)研究部門從事了兩年的全職工作,其工作還被收錄進谷歌研究科學家 Kevin Murphy 的機器學習教科書;2021 年,她回到了學術界,在美國加州大學聖地亞哥分校開始攻讀計算機科學博士,3 年來的論文被引用次數超過 2000 次。
林子說:" 能在北大接觸到它,是一種值得慶幸的緣分。語言學帶給我的知識和思考,會一直陪伴着我。"