我國學(xué)者實現(xiàn)對類腦語音的識別
發(fā)布時間:2024.04.17        閱讀次數(shù):

安徽大學(xué)獲悉,該校集成電路學(xué)院吳秀龍課題組與北京大學(xué)楊玉超教授課題組合作,利用動態(tài)憶阻器的動力學(xué)行為,開發(fā)了一種生物學(xué)可解釋的特征提取單元,用于提取語音事件信號時空特征,并基于此單元成功構(gòu)建了語音識別硬件系統(tǒng)進(jìn)行實驗驗證。相關(guān)研究成果日前在線發(fā)表于國際學(xué)術(shù)期刊《科學(xué)進(jìn)展》上。


目前,基于深度學(xué)習(xí)的語音識別模型,在取得高性能的同時往往依賴于高算力、高存儲容量的硬件平臺。這使得這些模型往往無法滿足移動邊緣端對低功耗、低延遲的要求,增加了邊緣端計算的復(fù)雜度與能耗。腦啟發(fā)的脈沖神經(jīng)網(wǎng)絡(luò)(SNN)是實現(xiàn)低功耗人工智能的重要途徑。然而,現(xiàn)有的基于SNN模型的語音識別系統(tǒng),由于缺乏可以高效地進(jìn)行聲學(xué)特征提取和神經(jīng)編碼的聽覺前端,導(dǎo)致高性能的語音識別系統(tǒng),往往依賴于復(fù)雜的語音特征提取算法和網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜的深度脈沖神經(jīng)網(wǎng)絡(luò),這限制了在邊緣端的應(yīng)用。因此,為了優(yōu)化性能并簡化系統(tǒng)架構(gòu),急需設(shè)計一種高效的聽覺前端,以實現(xiàn)基于SNN模型的超低功耗語音識別系統(tǒng)。


針對這一問題,研究人員利用鈷酸鋰動態(tài)憶阻器的非線性動力學(xué)特性,設(shè)計了硬件DTSN神經(jīng)元作為聽覺前端,提取基于事件的語音信號的時空特征。研究人員通過構(gòu)建具有可調(diào)節(jié)衰減時間核的鈷酸鋰動態(tài)憶阻器,實現(xiàn)了硬件動態(tài)時間表面神經(jīng)元(DTSN),其中衰減時間核的結(jié)構(gòu)包括zero-sum時間核和指數(shù)時間核兩種形式。該神經(jīng)元具有高效提取音頻信號中事件流的時空特征的功能。這不僅增強了脈沖神經(jīng)網(wǎng)絡(luò)硬件系統(tǒng)的語音識別性能,而且簡化了網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度,從而提高了整個硬件系統(tǒng)的計算效率。


研究人員表示,這項工作顯著提升了脈沖神經(jīng)網(wǎng)絡(luò)硬件系統(tǒng)處理基于事件的語音信號的識別性能,為超低功耗的語音處理硬件系統(tǒng)提供了一種神經(jīng)形態(tài)解決方案,將會推動邊緣AI技術(shù)在智能語音識別領(lǐng)域的發(fā)展。