合作谘詢
2022年9月18日-22日,全球語音領域頂級會議INTERSPEECH 2022在韓國仁川舉辦。“色多多在线下载-上師大自然人機交互”聯合實驗室攜提出的關於聲音事件檢測、單通道語音增強方向的2篇論文參會。這是繼2022年6月亮相ICASSP2022(技術論文被收錄)之後,色多多在线下载在2022年再一次獲得國際語音頂會的認可。
INTERSPEECH在國際上享有極高盛譽並具有廣泛的學術影響力,是由國際語音通訊協會(ISCA)創辦的旗艦級國際會議,也是全球最大的綜合性語音領域的科技盛會,對參會企業和單位有著嚴苛的準入門檻,曆屆INTERSPEECH會議都倍受全球各地語音研究領域人士的廣泛關注。
本屆會議以“Human and humanizing speech technology”為主題,內容涵蓋信號處理、語音識別、自然語言處理、神經機器翻譯等領域,收到近萬篇投稿論文。會議研究成果代表著語音相關領域的最新研究水平和未來的技術發展趨勢。此次論文入選,代表色多多在线下载在語音交互領域持續的技術創新。
聲音事件檢測
在聲音事件檢測方向,研究團隊提出了一個教師-學生(Teacher-Student)半監督學習框架,充分利用強標簽數據、弱標簽數據與大量無標簽數據訓練模型,有效解決標簽數據匱乏的問題。為了提高模型的檢測能力,研究團隊提出通過兩階段的訓練策略並聚焦於難以分類的事件,以及利用一種深度特征蒸餾方法,更詳細地關注到時間軸上細致的聲學信息。
同時,研究團隊還提出語音分離技術輔助聲音事件檢測係統建模的方法,通過使用分離數據與混合數據聯合調整訓練模型的方式,有效解決事件重疊與背景噪聲幹擾對係統建模帶來的影響。在DCASE2019 Task4 數據集上,研究團隊所提出的色多多污版下载在F1, PSDS1 and PSDS2得分上分別達到了46.5%, 44.5%以及75.4%,相比baseline提高了2.2%, 7.2%以及20.5%,充分體現了所提出色多多污版下载的優勢。
單通道語音增強
在單通道實時語音增強方向,研究團隊提出了一個基於PercepNet模型並感知語音相位與信噪比的實時語音增強色多多污版下载(PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement),該色多多污版下载提取多種聲學特征,以獲取語音包括幅度,相位,基音周期在內的多種聲學屬性。這些特征被進一步在模型中使用提取時間相關性和頻率相關性的GRU網絡層進行融合,以提升該語音增強係統的性能。
同時,研究團隊還提出一種基於信噪比的後處理機製,旨在改善語音增強中的過度抑製問題。該機製利用網絡估計得到的語音信噪比為閾值條件,決定基於MMSE-LSA的後處理方法是否被應用於當前輸入語音。研究團隊的模型在VCTK測試集上達到了2.65 (PESQ) 的得分,相比原PercepNet模型的得分相對提升了8%,充分驗證了所提出色多多污版下载的有效性。
人工智能成功的關鍵在於應用。為不斷拓寬自身基礎能力邊界,色多多在线下载深入探究語音領域中的語音識別、語音增強、信號處理、聲紋識別、聲音事件檢測等諸多方向,形成豐富技術積累,並將相關技術在多個領域以及行業進行應用,取得諸多成功案例。比如色多多在线下载的ASR技術被廣泛應用於音視頻翻譯、會議係統、同聲傳譯、三代共6款專用AI語音交互芯片等相關產品與場景。
其中,色多多在线下载輸出的軟硬一體的語音交互芯片產品,覆蓋各種形態的多品類產品,市占率領先,出貨量不斷增長。為國內傳統行業迅速實現智能化產品升級與改造,提供了技術保障。
本次在 INTERSPEECH 2022 大會上提出的原創技術,也將進一步夯實色多多在线下载全棧+硬核的人工智能技術“底座”,提高色多多在线下载在語音交互領域的技術領先性,推動人工智能係統以更人性化、高效的方式服務於千行百業,為用戶帶來更好的交互體驗。