在全球文字識别(OCR)領域頂級盛會 ICDAR 2023 上,騰訊 OCR 團隊基于自研算法,斬獲四項冠軍,這是繼 2017 年、2019 年、2021 年以來,連續四屆參會同時創造佳績,共獲得 18 項官方認證冠軍,展示了騰訊 OCR 技術在全球的一流水平。
ICDAR 大會是全球文檔圖像分析識别領域公認的權威學術會議,每兩年舉辦一次,賽事舉辦至今已經吸引了超過 100 多個國家的近 8000 支隊伍參與其中。ICDAR 競賽因其極高的技術難度和強大的實用性享譽國内外,與賽後非正式刷榜不同,ICDAR 官方認證的正式競賽采用全新的數據集,并且在比賽期間不公布參賽團隊的信息和成績,同時限制了結果提交時間和次數,屬于高難度的 " 盲打 "。
今年,騰訊 OCR 參賽團隊是由騰訊數據平台部、微信技術架構部聯合組成,重點參加了 DSText(稠密小文本視頻文本識别)和 SVRD(結構化信息抽取)兩大項目的比賽,取得 4 項賽道冠軍。
DSText 賽道,騰訊包攬全部兩項冠軍
DSText(稠密小文本視頻文本識别)競賽設置了 2 個任務:視頻文本跟蹤、視頻文本端到端識别。由于文字非常密集且非常小,再加上環境幹擾(相機抖動、運動模糊、光照變化等)與後期編輯(多鏡頭切屏、人工背景、遊戲界面切換等),從視頻幀中準确檢測、跟蹤、識别文本對算法魯棒性要求很高,挑戰性極大。部分比賽視頻幀展示如下:
ICDAR-DSText 競賽示意幀
在 DSText 競賽的全部 2 個任務中,騰訊 OCR 團隊均以絕對領先的優勢獲得冠軍。
其中,任務 1 中,旨在跟蹤視頻中所有文本流,将視頻幀間屬于同一個文本實例的檢測框聚合起來,評價指标是 MOTA,騰訊以領先第二名 12.04%的成績取得冠軍。
視頻文本跟蹤:冠軍證書
在任務 2 中,旨在評估視頻文本識别的端到端性能,任務要求在每一幀上正确檢測文本,在視頻幀上正确跟蹤,并在序列級别正确識别,評價指标是 OCR-MOTA,騰訊以領先第二名 11.93%的成績取得冠軍。
視頻文本端到端識别:冠軍證書
SVRD 賽道,騰訊以絕對優勢獲得兩項冠軍
SVRD(結構化信息抽取)競賽包含 HUST-CELL 和 BAIDU-FEST 兩大賽道共 4 個任務 : 複雜文檔實體關系提取 ( E2E Complex Entity Linking ) 、複雜文檔實體語義提取 ( E2E Complex Entity Labeling ) 、零樣本結構化信息抽取 ( E2E Zero-shot Structured Text Extraction ) 和小樣本結構化信息提取 ( Few-shot Structured Text Extraction ) 。由于文檔圖像版式複雜、結構多樣,自然場景圖像采集不規範、存在背景複雜、折損、彎曲、形變等問題,競賽存在較大的挑戰難度。部分比賽圖片展示如下:
ICDAR-SVRD 結構化信息抽取大賽樣例
在 SVRD 競賽中騰訊 OCR 團隊共獲得了 2 個冠軍。
其中,任務 2 (E2E Complex Entity Labeling)旨在提取複雜文檔圖像上的語義實體,如标題、機構名、日期、金額、數字、商品名、人名等,騰訊在這個任務上以較大優勢取得了冠軍
E2E Complex Entity Labeling:冠軍證書
任務 4 (E2E Few-shot Structured Text Extraction)賽題需要在提供非常少量訓練數據的前提下,提取 10 個不同場景下的圖像的關鍵信息,如銀行卡、營業執照、出租車發票、購物小票、交通發票、定額發票、論文等場景下的關鍵信息,騰訊同樣取得了冠軍。
E2E Few-shot Structured Text Extraction:冠軍證書
據介紹,騰訊 OCR 團隊是騰訊内部緻力于研究和開發 OCR 技術的專業團隊,團隊在技術上自主研發了高精準度、高穩定性的文本檢測和識别技術,在應用上,支持了騰訊内數百個業務場景,如騰訊廣告、微信、QQ、騰訊雲、騰訊視頻、騰訊信息流産品。
雷峰網