深圳大學(xué)未來媒體技術(shù)與計算研究所江健民教授基于近年來在腦視覺感知與認(rèn)知的研究,開創(chuàng)了一種嶄新的腦臆想多媒體研究方向。在全球首次引入“臆想多媒體/Brain Media”的概念和形式,將使傳統(tǒng)的多媒體不僅能夠呈現(xiàn)人眼所看到的外部世界,同時還能夠呈現(xiàn)人腦內(nèi)部的臆想,包括人們對外來的憧憬,對過去的回憶,以及對人生的感悟等。為實現(xiàn)真正的‘讀心術(shù)’走出了基于計算機技術(shù)的第一步。相關(guān)成果近日發(fā)表在多媒體領(lǐng)域國際頂級雜志IEEE Transaction on Multimedia上面(全文鏈接:https://ieeexplore.ieee.org/document/9105088)。 同時于今年以深圳大學(xué)為唯一依托單位獲得國家基金委信息學(xué)部重點項目資助:“臆想多媒體的深度分析與可視呈現(xiàn)”,在2021-2025這五年內(nèi)將在目前對腦認(rèn)知圖像分類研究的基礎(chǔ)上進一步升華到腦認(rèn)知語義識別的科學(xué)研究。為實現(xiàn)基于計算機的讀心術(shù)及在人工智能環(huán)境下開發(fā)腦智的最前沿研究準(zhǔn)備雄厚的基礎(chǔ)。該團隊于去年獲批建設(shè)廣東省高校重點實驗室:人工智能環(huán)境下的腦視覺感知實驗室。
圖1
圖2
如圖1所示,目前的腦科學(xué)研究主要采用定向腦激勵模式來完成對人腦相關(guān)反應(yīng)的分析。如心理學(xué)領(lǐng)域常用的二維選擇性模式和腦科學(xué)領(lǐng)域常用的數(shù)字激勵及基于計算機圖型的激勵模式等。這種現(xiàn)象在人機交互領(lǐng)域涉及人腦的研究也比較普遍,如采用人腦控制機器或動物的行為等研究當(dāng)中,即使涉及復(fù)雜的控制過程但實際的交互仍然是以多級二維選擇的方式來實現(xiàn)的。2015年美國斯坦福大學(xué)的科研團隊在全球率先使用目標(biāo)圖像直接激勵人腦的方法(圖2),突破了傳統(tǒng)的腦科學(xué)研究僅采用簡單數(shù)字或計算機圖形激勵的模式,完成包含6個類別的腦電圖像自動分類研究并取得高達40.68%的準(zhǔn)確率。2017年美國佛羅里達大學(xué)的科研團隊在此基礎(chǔ)上直接從ImageNet圖像庫內(nèi)提取40個類別的圖像用來激勵人腦產(chǎn)生相應(yīng)的腦電信號(EEG)并向全球發(fā)布了第一個腦電圖像庫ImageNet-EEG。在同年計算機視覺及人工智能的頂級學(xué)術(shù)會議CVPR2017上報告了他們采用深度學(xué)習(xí)的手段對40個類別的圖像腦激勵取得了高達82.9%的分類準(zhǔn)確率的科研成果(Spampinato C, Palazzo S, Kavasidis I, et al. “Deep Learning Human Mind for Automated Visual Classification”CVPR2017)。2018年美國康奈爾大學(xué)的科研團隊對此數(shù)據(jù)庫的產(chǎn)生方法提出了質(zhì)疑,并將相關(guān)的實驗結(jié)果及分析提交到T-PAMI雜志上發(fā)表,目前因為存在爭議仍在評審中。2019年深圳大學(xué)江健民教授團隊通過在圖像庫內(nèi)的預(yù)選圖像提取偽腦電信息及其映射的方法,提出一種雙模態(tài)深度學(xué)習(xí)框架,將分類的準(zhǔn)確率提高到94.1%。之后又利用人腦不同區(qū)域?qū)Σ煌钚畔⒋嬖诿舾胁町惖奶厣岢鲆环N帶attention-gate的新型LSTM深度學(xué)習(xí)方法(圖3),將腦圖像感知分類進一步提高到98.4%。這意味著你在世界的任一地方看一幅圖像,只要將你看這幅圖像時的腦信號傳到深圳,深圳大學(xué)的科研人員就能夠以高達98.4%的概率知道你針對這幅圖像的腦思維活動并對其內(nèi)容做具體的可視化呈現(xiàn)(圖4)。
圖3
針對人腦思維的不確定性及其腦電信息采集的不穩(wěn)定性,深圳大學(xué)科研團隊進一步提出了具有腦特色的深度學(xué)習(xí)研究,并結(jié)合傳統(tǒng)的深度學(xué)習(xí)理論和方法取得了一系列的初步成果。包括能夠突破目前深度學(xué)習(xí)需要大量帶標(biāo)簽訓(xùn)練數(shù)據(jù)瓶頸的跨域?qū)W習(xí)方法,圖像視頻內(nèi)的顯著性檢測,以及新的三維場景重構(gòu)模型等。