李飛飛研究團隊正在研發打造可看圖說故事的電腦視覺系統。(史丹福大學提供)
電腦軟體直至近期才具備識別照片中物體的能力。史丹福大學的學者利用機器學習技術打造出一個系統則更進一步,可簡單描述任何數位圖片的故事。
史大人工智能實驗室主任、電腦科學教授李飛飛說:「這一系統能夠分析未知的圖像,然後用文字進行合理描述。這是首個能確認離散物體,再將它們連貫的電腦視覺系統。」
李飛飛說,人類能將看到的事物聯繫在一起。看圖說故事是人類視覺智慧的核心要素,但到目前為止仍難以用電腦計算實現。史大的系統運用改善系統準確度的電腦計算,逐一掃描場景、分析模式、利用原先累積的、已描述場景來推斷未知圖像的內容。李飛飛與電腦科學研究生卡帕西(Andrej Karpathy)等組成的研究團隊認為,此一電腦視覺領域的研究,有朝一日可運用於在未知環境中導航的機器人。在不久的未來,人們便可利用懂得領悟故事的電腦系統,搜索圖片或影片檔案,找到特定的圖像。
李飛飛的研究是基於麻省理工學院帕佩特教授(Seymour Papert)在1966年打造的電腦視覺。科學家難以在電腦上複製人類經數百萬年進化而得的智慧。研究者耗費20多年設立的電腦視覺系統,僅能簡單識別照片中的離散物體。
互聯網推動電腦視覺的研究。一方面網路上越來越多的照片與視頻,人們對於檢索、整理、篩選視覺資訊工具的需求增多;另一方面,越來越精細的運算法可幫助功能強大的電腦,透過不斷重複任務接受培訓與改善。科學家稱之為機器學習,李飛飛則喜歡將這比作兒童學踢足球。透過教練的示範與指導,透過眼、腦、神經與肌肉的協調,兒童慢慢學會如何踢球。
李飛飛的視覺算法系統透過分析一個視覺場景詞典來學習。詞典由大量圖片構成,每個場景用兩種方式來描述,以便機器可識別類似場景,並提供簡單易懂的描述。如兩個場景:貓躺在鍵盤上,女孩在田間騎馬。但目前的視覺系統,看到四條腿的有毛動物躺在一個物體,可能提供的描述為狗躺在地毯上。兩足生物與四足生物,可能描述為一個男孩站在一頭牛旁。