近日在蘇州舉行的中國圖象圖形大會(CCIG 2023),亮點之一是技術論壇《文檔圖像智能分析與處理》。在該論壇上,合合信息智能技術平臺事業部副總經理、高級工程師丁凱博士,與中科院、北大、中科大、華為的專家,探討文檔圖像處理領域的未來進階方向。
近期火爆的ChatGPT,讓“大模型”技術進入了公眾的視野。中國科學院自動化研究所副所長劉成林認為,大模型與光學字符識別(OCR)技術的結合,能夠對海量數據進行理解、處理。北京大學鄒月嫻教授認為,在與文檔圖像處理技術密切相關的OCR領域中,專業化大規模的預訓練模型是可行的。
(丁凱就《智能文檔處理技術在工業界的應用與挑戰》研究課題進行分享)
人工智能大模型的快速發展為文檔分析與識別帶來了一些機遇,除了解決識別層次的遺留問題,在性能提升、應用拓展上大有可為。合合信息通過ROI提取、干擾去除、形變矯正、圖像恢復以及圖像增強,將文檔圖像的彎曲矯正、摩爾紋去除,圖像質量大幅提升;針對手寫板圖片中出現的反光問題,通過算法模型對反光進行“擦除”;通過智能文字識別、智能圖像處理等核心技術,確定文檔中的文字位置、字體、大小和排版方式等信息,實現版面的分析和還原。
利用人工智能的合成技術,偽造的多媒體信息在網絡上泛濫。中科大教授謝洪濤指出,隨著基于深度學習的偽造與取證技術的出現,目前文本圖像的真偽鑒定問題進入了攻防博弈階段。
合合信息在文檔圖像內容安全領域也進行了深入的部署。據丁凱介紹,合合信息研發了基于深度學習的圖像篡改檢測技術及相關系統,可以智能捕捉圖像在篡改過程中留下的細微痕跡,檢測出復制粘貼、拼接、擦除等多種篡改形式,進行針對性的處理。合合信息圖像篡改檢測技術已被銀行、保險、制造業等多個行業引入。
作為人工智能企業,合合信息依托智能文檔處理技術,對復雜場景下的多版式、多語種文字內容進行精準提取,打造的合同機器人、財報機器人及行業解決方案,已在金融、政務、制造、物流等30個行業落地,服務的世界500強公司超過80家。未來,合合信息將持續為全球C端用戶和多元行業B端客戶提供數字化、智能化的產品及服務,促進AI技術在文檔處理領域的應用落地與信息安全保障。(企業供圖)