從阿里云官方獲悉,近日,國際權威機器視覺問答榜單VQA Leaderboard出現關鍵突破,阿里巴巴達摩院以81.26%的準確率創造了新紀錄,讓AI在“讀圖會意”上首次超越人類基準。
近10年來,AI技術保持高速發展,然而在視覺問答VQA(Visual Question Answering)這一涉及視覺-文本多模態理解的高階認知任務上,AI始終未取得超越人類水平的突破。
自然語言技術與計算機視覺交融,是多模態領域重要的前沿研究方向,其中,VQA是AI領域難度最高的挑戰之一,對研發通用AI具有重要意義,
VQA的任務是根據給定圖片及自然語言問題,生成正確的自然語言回答。
例如下面這張圖,圖中玩具人的IP出自哪部電影?AI先提取了問題關鍵資訊——玩具人;再根據常識做出回答——星球大戰,
在首屆VQA挑戰賽上,AI的最高準確率僅能達到55%。今年8月,達摩院以81.26%的準確率創造VQA Leaderboard全球紀錄,首次超越人類基準線80.83%。
這是VQA測試以來,AI第一次超過人類水平,是標志性的重大突破。