此刻閱讀這段文字的你,或許在點亮手機屏幕時,就已經用到了指紋識别。哲學家萊布尼茨曾說,世界上沒有兩片完全相同的葉子。指紋識别基于同樣的信念:每個人的指紋都獨一無二、與衆不同;即使對來自同一人不同手指的指紋,也是如此。而現在,一名本科生帶領團隊在 Science Advances 發表論文,試圖用 AI 挖掘它們之間的相似之處。
一、緣起
" 你覺得,指紋是獨一無二的嗎?"
三年前在和教授的一次閑聊中,Gabe Guo 被這樣問道。彼時他剛被哥倫比亞大學錄取,正憧憬着自己的大學生活。他沒有料到,正是這次閑聊,爲自己後續三年的研究重心打下了伏筆。
現在, Gabe Guo 試圖對前述問題給出否定的回答。1 月 12 日,計算機科學專業本科在讀的他領導團隊在 Science Advances 發表論文,證明人工智能可以判斷兩枚來自不同手指的指紋是否來自同一個人,揭示了同一人不同手指的指紋之間具有驚人的相似性。
乍一看,新結論似乎打破了我們對指紋的固有印象。畢竟,在流行觀念中,往往更強調指紋的獨一無二、不可重複,即使對來自同一人不同手指的指紋,也是如此。發轫于 19 世紀的現代指紋識别技術同樣基于上述信念。一本出版于 1921 年的大學教材這樣寫道:
" 有一點我們深信不疑,那就是:沒有兩枚指紋是相同的。我們可以從許多人那裏提取成百上千枚指紋,但不會有兩枚指紋的每個細節都毫無二緻。可能會有兩枚、甚至更多的指紋總體看來大緻相同,但即便如此,在仔細檢查後還是會發現它們之間的巨大差異。"
基于以上性質,指紋識别已成爲辨别身份的重要手段。下面是一個直觀的例子,可以說明指紋識别的可靠性——即使是外貌看起來極爲相似的人,他們的指紋也會千差萬别:
來源:Harris Hawthorne Wilder and Bert Wentworth. Personal Identification: Methods for the Identification of Individuals, Living Or Dead.
二、異中之同
黑格爾曾說:" 假如一個人能夠看出當前顯而易見的差别,譬如,能區别一支筆與一頭駱駝,我們不會說這個人有了不起的聰明。同樣,另一方面,一個人能比較兩個近似的東西,如橡樹與槐樹,或寺院與教堂,而知其相似,我們也不能說他有很高的比較能力。我們所要求的,是要能看出異中之同和同中之異。"
Gabe Guo 決定找出指紋的異中之同。他帶領研究團隊,通過訓練孿生神經網絡,來比較兩個指紋樣本間的相似度。他們輸入指紋樣本,通過卷積神經網絡将其轉化爲嵌入高維空間的表示向量,使用向量間的距離來表征樣本間的差異。
模型首先使用來自 MSU 的 PrintsGAN 訓練集進行預訓練,這是一個由生成式對抗網絡創建的人工數據集,其中包含來自 35000 個虛構身份的 525000 張合成指紋圖像;接着使用多個真人數據集進行微調,其中包含來自 927 人的 53315 個指紋樣本;最後使用來自 133 人的 7703 個指紋進行測試。
在訓練過程中,研究人員向模型輸入三組圖像:一個人的指紋作爲 " 标準答案 "(錨示例,anchor,表征向量爲 a),來自同一人不同手指的指紋作爲正例(positive,表征向量爲 p),來自其他人的指紋作爲負例(negative,表征向量爲 n)。通過梯度下降來最小化三元組損失函數 L ( a, p, n ) = max {d ( a, p ) − d ( a, n ) + α, 0} (d 表示歐氏距離,α 爲超參數),從而在向量空間中以錨示例爲錨點," 拉近 " 正例," 推遠 " 負例。
訓練結果顯示,與不同個體指紋間的向量距離相比,同一個體指紋間的向量距離顯著更短,單邊 t 檢驗(α=10-4)P<0.0001。此外,模型 " 看到 " 的正例和負例數量相等,也就是說随機判斷兩枚指紋來自同一個人的正确率爲 50%,而在測試中神經網絡表現出了 77% 的正确率。這意味着,同一人的不同指紋并非截然不同,而是存在相關性。
三、多次被拒
三年耕耘終于開花結果,論文發表卻并非一帆風順。他們迅速将成果發給了一家知名法醫學期刊,等待幾個月後,收到的卻是冰冷的拒稿信。審稿人和編輯的回複斬釘截鐵:" 衆所周知,指紋是獨一無二的。" 此後研究團隊輾轉多家期刊,屢屢碰壁。Gabe Guo 沒有法醫背景,他回憶," 起初在法醫學界有很多反對意見。" 多數審稿意見認爲,訓練集太小,不足以質疑指紋的獨特性。
研究團隊沒有放棄,他們擴充訓練數據,多次叠代修改論文。" 在頭兩輪修改過程中,他們說衆所周知,沒有兩枚指紋彼此相像。我想這反而有助于改進研究,我們不斷輸入更多數據,直到最後證據确鑿。"
在意識到法醫學界持懷疑态度後,團隊選擇轉向綜合性期刊,卻又碰了釘子。這一次,參與研究的哥倫比亞大學機器人專家 Hod Lipson 決定發起申訴," 我通常不會置喙編輯的決定,但這項研究太重要了,不容忽視。" 他表示," 假設(犯罪)現場 A 有一組指紋,現場 B 有另一組指紋,它們來自不同的手指,很難将這兩個現場聯系起來。但通過這個系統,你就能判斷這兩組指紋是來自同一個人。"
" 如果這些信息能成爲關鍵力量,那麽我想懸案可能會柳暗花明,甚至無辜的人可能會被無罪釋放。"
Gabe Guo 也認爲,新發現有助于刑事調查。" 最直接的應用是,對于那些犯罪現場遺留指紋和檔案記錄不同的懸案,它可以提供新線索。另一方面,這不僅有助于抓捕罪犯,實際上也會幫助無辜的人,讓他們免于不必要的調查。" 論文寫道,在某些情況下,藉由新研究建立起來的聯系,可将嫌疑人範圍從 1000 人縮小到 40 人,這将大大提高調查效率。
他們也承認,與同指指紋匹配相比,異指匹配相當困難,新系統準确度仍明顯偏低,并不适合在法庭或鑒權場合用作決定性證據。實驗還顯示,系統存在一定的人群偏倚,某些特定人群會比其他人更易蒙受不白之冤。
雖然準确度不足,但編輯認爲,新研究有助于在模棱兩可的情況下确定線索的優先順序。幾經波折,這篇論文最終被 Science Advances 接受發表。
四、質疑
對一篇論文而言,發表不是故事的終點。新研究面世後,遭到了多位業内專家批評。
瑞士洛桑大學法醫學教授 Christophe Champod 表示,使用深度學習技術研究指紋很有趣,但他不認爲這項工作有什麽新發現。他批評道," 他們的論點是,不同手指間的指紋具有一定相關性,這早在指紋識别研究的起步階段就已爲人所知,當時是人工完成的,多年來一直有據可查。"
Champod 所言非虛。在上世紀二、三十年代,就有學者觀察到不同手指間的指紋具有相似性。八十年代,有研究對這種相似性進行了因子分析,從中提取出 2 個獨立因子。2005 年,學者 A.S.Nagy 将各手指間指紋的相似性命名爲 " 花紋間影響 "(pattern influence),即中間三枚手指(左右手食指、中指和無名指)之間的指紋花紋高度相關。
" 在我看來,由于缺乏相關知識,他們的論文有些過于誇張了。我很高興他們重新發現了一些已知的東西,但從本質上講,這是大驚小怪。"
對此 Gabe Guo 回應,他們使用人工智能系統性地量化了不同手指間指紋的相似程度,此類工作前所未有。" 我們首次明确指出了這種相似性來自指紋中心的嵴紋走向。此外,我們也是首次嘗試匹配同一人不同手指上的指紋,至少是用自動化系統。"
密歇根州立大學的計算機科學家 Anil Jain 則認爲,同一個人不同手指的指紋具有很強的相似性,這并不是什麽新發現。因爲一個人的指紋和遺傳因素相關,所以和其他人的指紋相比,自體指紋相似的可能性自然會更高。
加州大學爾灣分校的犯罪學教授 Simon Cole 也認爲新研究言過其實。" 在指紋方面我們并未‘出錯’。沒有兩枚指紋‘完全相同’——這個說法未經證實,但在直觀上是正确的。發現指紋相似并不能推翻這種說法,衆所周知,不管是否來自同一個人,指紋之間總是相似的。"
對于 Lipson 提到的,研究用于比對來自犯罪現場和警方記錄的異指指紋,Simon Cole 表示,這種情況很難發生,因爲在采集指紋時,通常會記錄所有 10 根手指的指紋(往往還包括掌紋)。" 我不清楚他們認爲執法部門在何種情況下會隻記錄部分指紋,而不是全部。"
以上種種質疑,指向了同一個問題:指紋是否獨一無二?要回答這個問題,得從指紋的形成過程說起。
五、圖靈斑圖
指紋形成背後的數學機制要追溯到一個熟悉的名字——艾倫 · 圖靈(Alan Turing)。他在 1952 年發表著名論文《形态形成的化學基礎》(The chemical basis of morphogenesis),用反應擴散模型成功說明了某些生物體表面複雜斑紋的由來。圖靈從數學角度表明,在反應擴散系統中,穩定态會在某些條件下産生空間均勻态失穩(圖靈失穩),導緻空間平移對稱破缺,并自發産生空間定态圖紋(圖靈斑圖)。
不光人類,靈長類動物、甚至考拉都長有指紋。| 來源:Macie Hennenberg, et al. and naturalSCIENCE
以上概念比較拗口,這并不奇怪——畢竟,生物生長發育是個複雜的過程,其中可能有數百種化學物質參與反應。不過,高度簡化且抽象的模型仍然對科學直覺大有裨益。圖靈先知先覺地寫道:" 這個模型将是簡化和理想化的,因此也将是失真的。對當前知識水平下那些最爲重要的特征,我希望能将其保留,并加以讨論。"
追随圖靈的腳步,我們來考察最簡單的一維系統。不妨假設系統中含有激活劑和抑制劑兩種成分,它們之間存在相互作用:激活劑既能促進自身增長,也能促進抑制劑增長;反過來,抑制劑則會抑制激活劑增長。
從均勻初始條件開始,微小漲落導緻激活劑和抑制劑的水平出現随機波動,那麽總會在某處,激活劑的水平略高于常态(綠色曲線上升)。由于激活劑能促進自身增長,其在該處的水平将進一步上升(正反饋效應)。
随着激活劑水平升高,它也會促進抑制劑增長(紅色曲線上升)。
然而,兩種成分的擴散系數不同,抑制劑的擴散速度快于激活劑。這導緻兩個後果:其一,抑制劑快速擴散,向峰兩側湧入,抑制那裏的激活劑水平,形成側抑制區域,這裏不會再出現新的峰;其二,峰區域的抑制劑由于擴散而水平下降,這樣原來的激活劑濃度峰值就能穩定存在。
在遠離峰的地方,抑制劑濃度不足,抑制效應減弱,又會形成新的峰。
峰與峰之間的距離由全局參數(例如抑制劑的擴散系數)決定。整個過程無需外部控制,系統中的各組分彼此之間相互作用,通過局部行爲和反饋機制,逐步形成全局有序結構,組成了一個自組織系統。
以上過程的關鍵在于,系統中的兩種反應物質,不僅能相互作用,還能獨立擴散。事實上,圖靈斑圖對應的是非線性反應動力學過程與特殊擴散過程的耦合。這個擴散過程由于兩種因子的擴散速度不同會發生失穩,這就是圖靈斑圖産生的機理。在數學上,圖靈斑圖可以用無量綱化的反應擴散方程組描述:
其中 u 和 ν 代表兩種反應物質的濃度,c 和 d 是擴散系數,t 是時間,f ( u, v ) 和 g ( u, v ) 代表反應項。線性穩定性分析可知,圖靈斑圖的波長 λ= ( 2πPD ) 1/2,其中 P 爲體系在 Hopf 分岔上的振蕩周期,由體系的化學反應機制決定,D 是反應物的平均擴散系數。由此可見,圖靈斑圖的波長取決于系統的内禀性質。
六、萬物皆數
将以上讨論推廣至二維情形,我們能看到許多似曾相識的紋理:
事實上,從斑馬紋到西瓜紋,再到風在沙丘上吹出的皺褶,自然界有數不清的圖案都被認爲出自圖靈機制。在 2021 年發表于 Nature Physics 的一項研究中,研究人員甚至發現在金屬襯底上生長铋晶體,也會出現醒目的圖靈條紋:
來源:Alan Fang and Aharon Kapitulnik
在晶體生長過程中,铋原子在垂直方向(即遠離平面方向)的位移充當了激活劑,在平面方向的位移充當了抑制劑。起作用的是原子位移,而不是化學分子。
自 20 世紀 70 年代以來,湧現了大量計算機建模和理論工作,成功利用圖靈機制再現了斑點和條紋等圖案。但當時的分子生物學水平有限,始終未能找到指紋形成過程中激活劑和抑制劑對應的特定分子。
直到 2023 年,一項發表在 Cell 上的研究顯示,人體中兩種名叫 WNT 與 BMP 的信号分子,充當了激活劑和抑制劑的角色,促成了指紋形成。WNT 負責刺激初生嵴生長,BMP 反過來抑制嵴生長。在胚胎發育過程中,兩者相互作用,産生的周期性嵴紋波從指尖、指腹中心、指尖根部折痕出發,擴散并相互碰撞。由于局部信号環境和手指解剖結構不同,起始位點存在差異,從而産生了弓、箕、鬥等不同的指紋類型。妊娠 10 周後,在手指指尖腫脹消退的掌墊(volar pads)上開始出現嵴線。到第 14 周時,在表皮和真皮的交界處确立了初生嵴構型。
七、後天影響
Karmakar 和 Loesch 等人提出,絕大多數膚紋特征都受到多個基因影響,存在調控指紋特征的主效基因。2022 年發表于 Cell 的一項研究表明,人體的 EVI1 基因通過調控肢體發育,主導了指紋形成。許多研究表明,血親之間指紋嵴的特征(如數量、寬度、深度和間距)以及指紋類别(如弓、箕、鬥)均具備一定的相似性。
既然如此,如果兩個人的遺傳物質相同(比如同卵雙胞胎),他們會有相同的指紋嗎?
答案是否定的。這是因爲指紋形成既受遺傳調控,也受胚胎發育的環境影響。在妊娠過程中,羊水流動、胎兒胎位會發生變化,胚胎指尖細胞所處的微環境也因手指不同而存在差異,這種差異在細胞分化過程中不斷放大,造就了指紋間細微的不同。有研究顯示,遺傳因素對指紋形成的影響程度占 60%~90%,而臍帶長度、血壓、營養狀況和手指生長速度的參差均能影響這一過程。其間的變化是如此繁複,以至于幾乎不可能存在兩枚完全相同的指紋。據估計,兩個人碰巧擁有相同指紋的可能性不到 640 億分之一。一篇發表于 2002 年的論文寫道:指紋的形成是一個混沌系統,而不是随機系統。
惟其如此,指紋被認爲具備獨特性。不過重要的是,必須明确 " 獨特性 " 的含義:當我們聲稱一枚指紋 " 獨一無二 " 的時候,并不意味着指紋之間不會存在相同的模式——正如本文開頭研究所揭示的,同一個人的指紋具備相似之處。我們說沒有兩個人擁有相同的指紋,其實是在說從指紋中提取的細節特征點不盡相同。最常見的指紋局部特征包括紋線端點、分叉點和短紋(孤立點)。
來源:Harris Hawthorne Wilder and Bert Wentworth. Personal Identification: Methods for the Identification of Individuals, Living Or Dead.
在鑒别指紋時,通常不會對比整幅指紋圖像,而是提取細節特征點的類型及位置進行比對。這裏暗含了一種可能的弊端:因爲提取的特征點數量或質量有限,指紋的個體唯一性并不能保證其鑒别的準确可靠。這也是爲什麽,對于理論上不會重複的指紋,iPhone 的觸控 ID 仍然會有五萬分之一的失誤率。Simon Cole 提出了 " 指紋檢驗員謬誤 " 的概念來描述這一現象,他寫道:
當法院要求證明法醫指紋證據的 " 可靠性 " 時,指紋檢驗員回答說,所有指紋圖案都是獨一無二的。法院沒有理解這兩種說法之間的邏輯差距,于是唯一性就被奉爲法醫指紋鑒定準确性的圭臬 …… 今天,我們仍然在這種謬論中掙紮。
Cole 的觀點是,指紋的唯一性和指紋識别的準确性是兩個完全不同的問題。将犯罪現場發現的指紋與從嫌疑人身上采集的指紋進行比對是一個複雜的過程,仰賴于多層面的觀察、分析和解釋。指紋對個人來說獨一無二,并不能說明識别過程是如何進行的,也不能說明識别過程是否準确可靠。事實上,指紋識别的科學性、準确性和可靠性問題,正是研究人員當下密切關注的前沿。
八、另類特征
而本文開頭的研究,或許在這方面做了一次有趣的嘗試。Gabe Guo 和他的團隊通過可視化手段,對深度神經網絡的決策過程進行分析,發現系統使用了一種新的特征提取模式。"AI 并沒有使用指紋嵴的分支和端點等‘細節特征’——也就是傳統指紋比對中使用的模式。相反,它使用了指紋圖案中心渦環的角度和曲率。"
" 這不僅僅涉及法醫取證,還涉及人工智能。指紋與生俱來,司空見慣,但在我們用 AI 分析它之前,沒有人注意到這種相似性。這恰恰說明了 AI 自動識别并提取相關特征的能力。"
" 我認爲這項研究會是推動一系列進展的第一塊多米諾骨牌,人們将會利用 AI 發現那些我們平日裏視而未見的事物,比如說我們的手指。"
論文共同作者、哥倫比亞大學大四學生 Aniv Ray 對新研究的前景充滿信心:" 試想一下,如果它可以對數百萬、而不是數千枚指紋進行訓練,會達到怎樣的表現。我們的研究僅僅是個開始。"