在通勤的地鐵上、嘈雜的餐廳里,廣播聲、音樂聲、周圍人說話聲,似乎都不會妨礙你與同伴進行交流。而這,就是大腦在處理聲音信息時發揮的特殊優勢——它可以將注意力集中在感興趣的對話或聲音上,忽略其他無關的聲音或者噪音。
其實,早在70多年前,神經科學家就注意到大腦的這種神奇能力,并將其稱為“雞尾酒會效應”。
“盡管我們每天都在不知不覺地運用大腦這種優勢,可以輕松地在混合的聲音中識別特定的目標聲音,但要讓計算機做到這一點卻非常困難。”近日,清華大學生物醫學工程學院苑克鑫教授團隊聯合該校計算機系胡曉林教授團隊,基于哺乳動物丘腦和皮層整合多模態感覺信息的工作原理,構建了一款新的腦啟發AI模型(CTCNet),實現了混合語音分離技術突破,讓計算機進一步學會像人腦一樣“聽話”。相關研究成果發表于最新一期的《模式分析與機器智能IEEE匯刊》 (IEEE Transactions on Pattern Analysis and Machine Intelligence)。
計算機尚不能有效分離兩個人聲音
據了解,現有的多模態語音分離方法大多只是模擬了哺乳動物的皮層通路,即從較低功能區域(例如初級視覺、聽覺皮層區)到較高功能區域(例如高級視覺、聽覺皮層區)。同時,在人工智能(AI)領域,迄今為止也尚無有效的辦法使計算機有效分離兩個人的聲音。
然而,實際上,聽覺、視覺的信息整合中,以丘腦為代表的皮層下結構發揮了不可忽視的重要作用。
采訪中,記者了解到苑克鑫團隊長期聚焦于腦的聽覺處理機制,近年來的一系列工作逐漸揭示了高級聽覺丘腦的聯接、功能與工作機制。
“高級聽覺丘腦作為處理聽覺信息的關鍵中樞節點,具有聽覺、視覺雙模態的特性。其腹內側在介導聽覺、視覺刺激觸發的危險感知中發揮關鍵作用;其背側既接收來自聽覺皮層第5層的投射,也接收來自視覺皮層第5層的投射,且在整體上形成了皮層-丘腦-皮層(CTC)循環聯接架構。”苑克鑫表示,這提示高級聽覺丘腦可能通過特殊的聯接模式整合聽覺、視覺信息從而增強聽覺感知。
在背側高級聽覺丘腦聯接特點的啟發下,苑克鑫團隊與胡曉林團隊合作提出了一種皮層-丘腦-皮層神經網絡(CTCNet)來執行音頻-視覺語音分離任務。
新模型打開腦啟發范例
據介紹,CTCNet模型包括三個模塊——聽覺子網絡、視覺子網絡和聽-視融合子網絡,分別模擬了聽覺皮層、視覺皮層和背側高級聽覺丘腦。
其基本工作原理為:首先,聽覺信息(語音)和視覺信息(唇部運動)以自下而上的方式分別在獨立的聽覺和視覺子網絡中處理;然后,經過處理的聽覺和視覺信息通過自上而下的連接在聽-視融合子網絡中進行多時間分辨率尺度的融合;最后,融合后的信息被回傳至聽覺和視覺子網絡。上述過程會重復數次,最終輸出至聽覺子網絡。
研究顯示,在三個語音分離基準數據集上的測試結果表明,在參數極少的情況下,CTCNet能在視覺信息(唇部運動)的輔助下,高度準確地將混合在一起的語音分離開。
苑克鑫表示,語音分離模型CTCNet是基于高級聽覺丘腦的視、聽融合能力及其皮層-丘腦-皮層循環聯接架構構建的腦啟發AI模型。通過多次融合和循環處理聽覺和視覺信息,使AI能夠更好地實現“雞尾酒會效應”。
“新模型的語音分離性能大幅領先于現有方法,不僅為計算機感知信息處理提供了新的腦啟發范例,而且在智能助手、自動駕駛等領域有潛力發揮重要作用。” 該研究負責人之一苑克鑫說,未來,研究團隊將基于自主創新的組織光學透明化方法,在單神經元水平上深入解析高級聽覺丘腦的輸入-輸出連接模式,進一步提升人工智能系統在自然場景中的感知能力。
據悉,清華大學碩士生李凱為論文第一作者,清華大學博士后謝鳳華、博士生陳航分別為論文第二、第三作者,苑克鑫和胡曉林為該論文共同通訊作者。
相關論文信息:https://doi.org/10.1109/TPAMI.2024.3384034
山西大學智能信息處理研究所團隊在圖神經網絡研究方面取得重要進展,相關成果5月23日發表于人工智能領域國際期刊《IEEE模式分析與機器智能學報》(IEEETransactionsonPatternAna......
原文地址:http://news.sciencenet.cn/htmlnews/2024/10/531421.shtm10月11日,科幻電影《749局》科影融合特別場在京舉行。電影主創團隊與科技領域相......
10月11日,甘肅省迎來了職業教育領域的一個重要里程碑——甘肅林業職業技術大學正式揭牌成立。這一歷史性時刻標志著歷經六十八載發展的甘肅省唯一一所林業類高等院校,正式邁入了本科教育的新階段,開啟了新的征......
”標志性科考活動獲系列重大突破 “第二次青藏科考標志性科考活動守護水塔‘一原兩湖三江’科考主體任務已經基本完成,這次科考從天到地、從冰到水取得了全方位的進展。”第二次青藏科考隊隊長、中國科學......
關于確定2024年國家環境健康管理試點名單的通知北京市、河北省、內蒙古自治區、遼寧省、黑龍江省、江蘇省、浙江省、江西省、山東省、湖北省、湖南省、廣東省、重慶市、四川省、貴州省、陜西省、青海省生態環境廳......
10月8日,華中農業大學果蔬園藝作物種質創新與利用全國重點實驗室、藥用植物資源可持續利用團隊梅之南教授和楊慶勇教授課題組,發布了首個專門面向菊科植物的多組學數據庫平臺——AsteraceaeMulti......
實驗桌上堆放著精密儀器和焊接工具,電腦上是正在運行的電路圖,一頁頁寫滿了數據、畫滿了圖樣的紙張在桌面鋪開,各式或大或小的電子元件前,南京郵電大學工程實驗教學部創新中心副主任郝學元正在埋首研制電工電子實......
近日,記者從中國計量大學獲悉,該校生命科學學院蜜蜂與蜂產品學研究團隊主持的兩項推薦性國家標準《GB/T44349-2024 蜂花粉總多酚的檢測福林酚試劑比色法》和《GB/T44350-202......
10月10日,由廣東省機械行業協會組織并主持召開的“面向軟性物料的多級賦碼追溯柔性包裝生產線研制與應用”項目科技成果鑒定會議在廣東佛山舉行。經專家鑒定,該項目成果總體技術水平達到國際先進水平。記者獲悉......
近日,中國熱帶農業科學院橡膠研究所組培與轉基因團隊在全球率先獲得了橡膠樹CRISPR/Cas9純合基因編輯橡膠苗。相關研究成果在線發表于《經濟作物和產品》(IndustrialCropsandProd......