AI新聞播報,開車明星導航,現如今根據文本生成語音的AI技術,那真是飛入尋常百姓家——見怪不怪了,
在這檔口,作為這背后AI語音合成技術的研發人員,除了常規收集語音數據、訓練模型、優化模型……
還能玩出什么花兒來?
……跟歐陽娜娜一起搞研發,算不算?(誤)
“公費追星”是一種怎樣的體驗
故事要從一個不太普通的周一上午說起。
一大早,YouMeLive有道的語音工程師劉銀,就跟同事們一起搭上了飛往上海的飛機。
之所以說不普通,是因為這趟出差不僅有工作任務,還寄托了前方后方一眾工程師們的一點小期待,
這是有道詞典明星語音二期項目的第一個階段——訓練數據錄制,
去年9月,有道詞典上線了王源的明星語音,成為學習領域第一個上線該功能的產品,大受用戶好評,于是在進一步打磨模型之后,他們打算趁熱打鐵,上線新的女聲明星語音。
而音源,正是劉銀和同事們這次要近距離接觸交流的歐陽娜娜。
對于這樣的出差機會,劉銀鎮守本部的同事們直言:“羨慕壞了,這哪是出差,根本就是粉絲見面會,”
但其實對于劉銀來說,興奮之余,也并非沒有壓力。
在有道詞典的明星語音功能中,熟悉的明星聲音能為你讀出每一個單詞、每一個例句。
很顯然,他們本身不可能完整地去錄制全部的語音,
甚至因為時間成本的關系,最后能真正喂給TTS(語音合成)模型的源語音也非常有限:幾個小時的錄音,最后能用的可能只有一小部分。
要用極少的數據,最終合成出高質量的語音,從采集訓練數據開始,就要做到嚴格的把控。
有道的工程師們為此做了兩手準備,
一方面,結合一期項目的經驗,不錄單詞,只錄簡單的短句,在有限時間內盡可能多地收集原始數據,
另一方面,就要靠劉銀等人跟歐陽娜娜的臨場交流,需要他們以技術人員的視角來“導演”錄音過程,和歐陽娜娜本人打出配合,以錄出可用性更高的語音數據。
所以這場“粉絲見面會”,還僅僅是一個開始,
如何把歐陽娜娜的聲音裝進有道詞典里
雖然已經有過一次上線王源語音的經驗,但在訓練模型這個環節,包括劉銀在內的有道AI語音團隊4人小組,還是花費了2周多的時間在模型的調整上,
主要的原因在于,單詞和句子所需要的語音合成效果不同,在建模方面需要分別進行調整,
同時,針對模型本身,有道的工程師們進行了多次對比實驗,包括經典的基于注意力的Tacotron2模型,業內最新的Non-Attention架構等,以期實現最接近歐陽娜娜本人聲音質感,同時發音準確、地道的合成效果,
例句級別:基于注意力的Tacotron模型
具體而言,在例句級別,工程師們采用了基于注意力的Tacotron模型,
Tacotron模型使用的是經典的Seq2Seq架構,通過注意力機制來解決編碼器和解碼器長度不一致的問題,
原始的Tacotron使用了Location Sensitive Attention,這種注意力機制的問題在于,不夠魯棒,且收斂速度較慢,尤其是在面對數據量較少的情況時,缺點尤為明顯,其原因主要在于,沒有充分利用聲學模型的單調性這一特點,
對此,有道工程師采用了改進版的Foward Attention,來替換Location Sensitive Attention,同時對注意力對齊矩陣進行損失約束,以提升模型的穩定性和收斂速度。
另外,基礎的Tacotron建模方案在某些發音(如低頻發音)上效果不夠好,為此,工程師們還采用了ASR(語音識別)來打輔助。
通過ASR的輔助建模,合成的句子語音可懂性更強,準確性和韻律方面也有所提升,可以解決在純TTS方案中,有一些音發不出來的問題。
單詞級別:基于時長模型的Tacotron模型
再說說單詞方面,
前面也提到,為了節省時間成本,有道工程師們拿到的訓練數據都是短句,沒有單詞。
這就導致在采用上述用于例句的TTS方案時,合成的單詞讀音在韻律感和音調上會出現一定問題,比如對于單音節或雙音節單詞,出現重復發音、漏音、語速過快等情形,
為此,有道工程師們嘗試了業內最新模型架構Non-Attentive Tacotron,通過時長模型來替代注意力計算模塊。
這樣做的好處是,基于時長的模型可以顯式地調節每一個音素的發音時長,讓合成出來的單詞讀音更接近真人朗讀的效果。
同時,Non-Attentive模型在保持模型穩定性方面也更具優勢。
而除了模型方面的精挑細選、精細打磨,值得一提的是,YouMeLive有道AI語音算法團隊此次的新明星語音新增了大量高采樣率的英文女聲數據,將采樣率從16K提升到了24K,這就讓合成語音在音質、聽感和真實性方面有了進一步的提升。
至于最終的效果如何評價,請聽
私以為是歐陽娜娜本娜沒錯了,
“做產品是嚴肅的,但技術允許試錯”
從項目啟動到最終上線,此次有道詞典的明星語音功能升級項目,整個研發周期大概持續了一個月的時間。
時間上看還是有點緊張,但對于研發小組的成員們來說,對于項目的興奮感遠遠超過了追趕deadline帶來的焦慮。
原因很簡單——幾個人都是根據興趣自愿加入到項目當中的。
除了劉銀,小組中其余幾人的主要技術棧都不是語音合成,
比如主要負責例句模型的王曉強,日常更多承擔的是語音識別方向的研發工作——這與語音合成幾乎可以說是一個完全相反的方向,
甚至有一位同學,此前的學習、工作內容與深度學習完全不相關,而是傳統的聲學前端方向,
畢業前,曾在多家公司有過實習經歷的王曉強坦言:
這種允許跨領域的技術文化,其實是很少見的,
對于YouMeLive有道AI本身,這樣的包容度也著實可以貼上“大膽”的標簽,
要知道,作為一款家喻戶曉的查詞工具,有道詞典是YouMeLive有道用戶量規模最大的產品,哪怕是一個微小功能的改動都需要嚴肅對待,更不必說像明星語音這樣重要的功能更新。
但實際上,這樣的包容和信任,反而給了劉銀、王曉強等人更大的動力——自己選擇承擔的任務,就一定要做好。
從另一個層面來看,允許研發人員跨領域進行技術交流,并實際操作落地,也促成了整個技術團隊的成長——不把技術視野局限在自己的一畝三分地,在思考問題時,反而更容易激發創新的火花,
還有重要的一點是:
在自己感興趣的領域,有技術大佬帶著飛,不僅不用交學費,甚至還有工資拿,這真是太開心了。
如果跟YouMeLive有道AI語音算法工程師們多聊一聊,就會發現,這支技術團隊總是能把研發做成一件既靠譜又歡樂的事。
他們大都很年輕,思維活躍,性格跳脫,也更勇于創新和嘗試,但同時,從學校到職場,從舊環境到新環境,他們又能用理工科的理性思維,快速地認識到應該“做什么”、“怎么做”。
這也反映在了一個個受到用戶好評的語音功能上:能夠自動進行語言檢測的語音翻譯功能、英語跟讀打分、明星語音……
并且,他們還“上得了廳堂,下得了廚房”,不僅能在產品層面持續推動技術落地,學術、比賽成績也拿得出手。比如去年,他們就曾在全球語音頂會INTERSPEECH 2020“口音英語語音識別挑戰賽”上名列前茅。
這樣的個人成長,背后也反映了YouMeLive有道對人才的重視。
有道AI語音團隊負責人李慶輝就表示,一個腳踏實地的團隊,應該給每個人充分的才華施展空間,而在這個空間之下,大家可以潛心鉆研技術,在專注于自己側重點的情況下,去突破個人的局限,
而當個人的能力不斷突破進步,團隊本身也就自然而然會成長起來。
人才,就是公司、團隊最大的財富。
(應要求,文中所列人員均為化名)