古彜文傳承至今已有數千年曆史,是世界上最古老的文字之一。2022 年 12 月 21 日,合合信息與上海大學社會學院正式簽署校企合作協議,雙方将合力完成以國家珍貴古籍《西南彜志》為中心的貴州古彜文圖像識别及數字化校對項目(簡稱 " 古彜文數字化項目 ")。
上海大學社會學院院長黃曉春、合合信息智能技術平台事業部副總經理郭豐俊共同出席簽約儀式
此前,在中國西南多家高校的共同努力下,規範和通用彜文的數字化工作取得了重要突破,而上海大學攜手合合信息推進的古彜文數字化項目,更側重于對原生态彜文識别的攻堅克難。項目将根據上海大學古彜文研究員設計的四字節編碼系統,引入合合信息智能文字識别技術,對異體字、變體字、誤用字和混用字等進行标注、識别、比對,并由此建立起精确的彜文古籍電子數據庫,在古彜文研究領域屬于首創。
由于古彜文尚未取得預留的 Unicode 編碼區段,數字化工程還處于起步階段,所以在印刷出版時,需由一位彜文繕寫員先将彜文字和國際編碼抄寫在書頁的左側,再将已輸入電腦的漢文譯文打印、剪切後粘貼在相應彜文字的右側,形成目前常見的 " 四行體 " 彜漢文對譯,過程相對繁瑣。
畢節市彜文文獻翻譯研究中心展示漢譯書稿
古彜文與漢字并非一 一對應關系,存在大量的異體字、變體字。在相對規範的漢譯本彜文典籍中就有至少 15%的變體字,原稿中隻會更多;每個字的異體寫法少則 2-3 個,多則幾十種。從總量上看,未經整理規範的古彜文字符數高達八萬七千多個,比《康熙字典》的四萬七千餘字還多。據古彜文數字化團隊研究人員透露,若想要找到某個字在一本古籍裡的全部樣例,手動查閱需要耗費一整天,如建立起完善的古彜文數據庫和翻譯系統,可極大提升研究效率。
" 漢文古籍識别所面對的頁面殘損、字形複雜、字迹模糊等問題,在彜文古籍識别中全部存在,還有一些任務是更加特殊的。" 合合信息智能技術平台事業部副總經理郭豐俊博士提到,彜文古籍時常出現加字、替字、整句倒置、文字方向不統一等現象,給文字定位造成挑戰。再加上古彜文從未經過統一,異體字、變體字衆多。合合信息将基于 "AI+OCR" 融合下的智能文字識别技術,解決古彜文識别的版式檢測、圖像處理和文字識别的難題。
據悉,2021 年、2022 年世界人工智能大會上,合合信息用 AI 技術對甲骨文、西周鐘鼎文進行精準識别受到關注。郭豐俊博士表示,甲骨文和古彜文追溯源頭都屬于以刻畫符号表意的文字,兩種文字的識别方式有相通之處,此次古彜文數字化項目的開啟,也成為合合信息智能文字識别技術賦能文字保護及文化傳承的重要裡程碑。