騰訊OCR團隊斬獲ICDAR大賽四項冠軍

在全球文字識别（OCR）領域頂級盛會 ICDAR 2023 上，騰訊 OCR 團隊基于自研算法，斬獲四項冠軍，這是繼 2017 年、2019 年、2021 年以來，連續四屆參會同時創造佳績，共獲得 18 項官方認證冠軍，展示了騰訊 OCR 技術在全球的一流水平。

ICDAR 大會是全球文檔圖像分析識别領域公認的權威學術會議，每兩年舉辦一次，賽事舉辦至今已經吸引了超過 100 多個國家的近 8000 支隊伍參與其中。ICDAR 競賽因其極高的技術難度和強大的實用性享譽國内外，與賽後非正式刷榜不同，ICDAR 官方認證的正式競賽采用全新的數據集，并且在比賽期間不公布參賽團隊的信息和成績，同時限制了結果提交時間和次數，屬于高難度的 " 盲打 "。

今年，騰訊 OCR 參賽團隊是由騰訊數據平台部、微信技術架構部聯合組成，重點參加了 DSText（稠密小文本視頻文本識别）和 SVRD（結構化信息抽取）兩大項目的比賽，取得 4 項賽道冠軍。

DSText 賽道，騰訊包攬全部兩項冠軍

DSText（稠密小文本視頻文本識别）競賽設置了 2 個任務：視頻文本跟蹤、視頻文本端到端識别。由于文字非常密集且非常小，再加上環境幹擾（相機抖動、運動模糊、光照變化等）與後期編輯（多鏡頭切屏、人工背景、遊戲界面切換等），從視頻幀中準确檢測、跟蹤、識别文本對算法魯棒性要求很高，挑戰性極大。部分比賽視頻幀展示如下：

ICDAR-DSText 競賽示意幀

在 DSText 競賽的全部 2 個任務中，騰訊 OCR 團隊均以絕對領先的優勢獲得冠軍。

其中，任務 1 中，旨在跟蹤視頻中所有文本流，将視頻幀間屬于同一個文本實例的檢測框聚合起來，評價指标是 MOTA，騰訊以領先第二名 12.04%的成績取得冠軍。

視頻文本跟蹤：冠軍證書

在任務 2 中，旨在評估視頻文本識别的端到端性能，任務要求在每一幀上正确檢測文本，在視頻幀上正确跟蹤，并在序列級别正确識别，評價指标是 OCR-MOTA，騰訊以領先第二名 11.93%的成績取得冠軍。

視頻文本端到端識别：冠軍證書

SVRD 賽道，騰訊以絕對優勢獲得兩項冠軍

SVRD（結構化信息抽取）競賽包含 HUST-CELL 和 BAIDU-FEST 兩大賽道共 4 個任務 : 複雜文檔實體關系提取 ( E2E Complex Entity Linking ) 、複雜文檔實體語義提取 ( E2E Complex Entity Labeling ) 、零樣本結構化信息抽取 ( E2E Zero-shot Structured Text Extraction ) 和小樣本結構化信息提取 ( Few-shot Structured Text Extraction ) 。由于文檔圖像版式複雜、結構多樣，自然場景圖像采集不規範、存在背景複雜、折損、彎曲、形變等問題，競賽存在較大的挑戰難度。部分比賽圖片展示如下：

ICDAR-SVRD 結構化信息抽取大賽樣例

在 SVRD 競賽中騰訊 OCR 團隊共獲得了 2 個冠軍。

其中，任務 2 （E2E Complex Entity Labeling）旨在提取複雜文檔圖像上的語義實體，如标題、機構名、日期、金額、數字、商品名、人名等，騰訊在這個任務上以較大優勢取得了冠軍

E2E Complex Entity Labeling：冠軍證書

任務 4 （E2E Few-shot Structured Text Extraction）賽題需要在提供非常少量訓練數據的前提下，提取 10 個不同場景下的圖像的關鍵信息，如銀行卡、營業執照、出租車發票、購物小票、交通發票、定額發票、論文等場景下的關鍵信息，騰訊同樣取得了冠軍。

E2E Few-shot Structured Text Extraction：冠軍證書

據介紹，騰訊 OCR 團隊是騰訊内部緻力于研究和開發 OCR 技術的專業團隊，團隊在技術上自主研發了高精準度、高穩定性的文本檢測和識别技術，在應用上，支持了騰訊内數百個業務場景，如騰訊廣告、微信、QQ、騰訊雲、騰訊視頻、騰訊信息流産品。

雷峰網