近日,搜狗上線了一款名為“故事大王”的小程序,它基于搜狗知音引擎的語音合成能力,首次將個(gè)性化TTS技術(shù)落地到微信當(dāng)中。用戶根據(jù)提示,錄制5分鐘左右的簡(jiǎn)短音頻后,“搜狗故事大王”小程序就會(huì)自動(dòng)生成用戶的個(gè)性化合成音色,小朋友就可以聽到用父母聲音講述的童話故事。
顛覆傳統(tǒng)“機(jī)器音”,搜狗獨(dú)家提供個(gè)性化TTS技術(shù)
在專業(yè)領(lǐng)域,技術(shù)員們把“文本文件向語音的實(shí)時(shí)轉(zhuǎn)換”稱為TTS功能。還記得“哪里不會(huì)點(diǎn)哪里”的點(diǎn)讀機(jī)么?這個(gè)曾經(jīng)風(fēng)靡一時(shí)的兒童英語學(xué)習(xí)神器就應(yīng)用了這款功能,點(diǎn)讀筆掃描文本內(nèi)容,再通過點(diǎn)讀機(jī)轉(zhuǎn)換成人聲朗讀出來。在其他諸如電子書閱讀、語音導(dǎo)航、語音提示等領(lǐng)域,TTS功能的應(yīng)用也十分廣泛,但他們擁有一個(gè)共同的缺點(diǎn),即只能實(shí)現(xiàn)文本向特定聲音模板的轉(zhuǎn)變,且聲音質(zhì)量較為呆板,機(jī)器感十足。
使用過“搜狗故事大王”的用戶都知道,在該小程序上用戶可以定制自己專屬的個(gè)性化合成音色。然后就能隨時(shí)隨地的通過手機(jī)為小朋友講故事了,聽起來聲情并茂、自然流暢,明顯區(qū)別于以往的機(jī)器音。
這都得益于搜狗知音引擎獨(dú)創(chuàng)的個(gè)性化TTS合成技術(shù),與傳統(tǒng)技術(shù)相比,“搜狗故事大王”具有高表現(xiàn)力,更趨于真人口音。此外,除了可以定制個(gè)性化聲音,還能使用該聲音實(shí)現(xiàn)任意文本的合成,搜狗是目前成功將兩項(xiàng)技術(shù)進(jìn)行完美結(jié)合并成功落地的公司。
依托個(gè)性化TTS技術(shù),“搜狗故事大王”對(duì)用戶錄制聲音的要求很低,不需要去專業(yè)錄音室、不需要長(zhǎng)時(shí)間錄制。用戶只需5分鐘左右的操作,搜狗的后臺(tái)技術(shù)模型就能自動(dòng)精準(zhǔn)排除噪點(diǎn),完美復(fù)制原始聲音的各項(xiàng)數(shù)據(jù),合成專屬定制的個(gè)性化音色。該合成音色的朗讀效果與真人相似度極高,可以做到“以假亂真”的地步。
堅(jiān)持創(chuàng)新,克服難關(guān),個(gè)性化定制終實(shí)現(xiàn)
搜狗獨(dú)家推出的個(gè)性化TTS技術(shù),在技術(shù)研發(fā)層面具有很多的挑戰(zhàn)。
首先,聲音來源的清晰度直接影響后續(xù)音色的定制。但不可避免的是,日常生活中通過普通錄音設(shè)備,很難收集到噪音小、音質(zhì)清的聲源。個(gè)性化TTS技術(shù)集成了搜狗知音引擎已有的信噪比檢測(cè)、口語評(píng)測(cè)、識(shí)別、降噪、去混響、高穩(wěn)定性聲學(xué)參數(shù)提取與模型自適應(yīng)、深度學(xué)習(xí)平臺(tái)等多項(xiàng)前沿技術(shù),并在此基礎(chǔ)上進(jìn)行了突破。最終,“搜狗故事大王”終于交出一份滿意的答卷,讓用戶無需去專業(yè)錄音室錄音,在臥室、會(huì)議室和甚至車內(nèi)等常見的環(huán)境下就可以進(jìn)行聲音采集。
其次,如何為機(jī)器聲音賦有情感神經(jīng)也是一大技術(shù)難點(diǎn)。人類擁有豐富的語言情感表達(dá)能力,是因?yàn)槿说拇竽X皮層中有140億個(gè)神經(jīng)元,模擬這樣一個(gè)人工智能大腦是不可能的。但是搜狗研發(fā)團(tuán)隊(duì)找到了另一個(gè)開發(fā)途徑,一款基于人工智能的新技術(shù)——多目標(biāo)學(xué)習(xí)技術(shù)。該技術(shù)可以同時(shí)學(xué)習(xí)三個(gè)目標(biāo)對(duì)象,分別是表征音色的“說話人編碼器”、表征內(nèi)容的“文本編碼器”和表征表現(xiàn)力的“風(fēng)格編碼器”,再經(jīng)過模擬融合進(jìn)行表現(xiàn)力遷移,為呆板的合成聲音注入情感,使其聽起來更真實(shí)。
最后,搜狗還采用了國(guó)際領(lǐng)先的波形合成模型WaveRNN,讓最終輸出的音質(zhì)擁有更好效果。
至此,“搜狗故事大王”這款小程序可以完美實(shí)現(xiàn)用戶聲音的個(gè)性定制,并通過這個(gè)AI合成聲音聲情并茂地為小朋友講故事了?!肮适麓笸酢弊鳛樗压分粢嬖谌斯ぶ悄茴I(lǐng)域開發(fā)出的又一創(chuàng)新應(yīng)用,除了為當(dāng)代人的日常生活提供了更大便捷性,也為智能科技研究領(lǐng)域提供了新選題,比如為未來人工智能機(jī)器人的開發(fā)提供語言系統(tǒng)搭建的參考,讓機(jī)器人言談更富情感,影視劇中的人機(jī)共享智能未來將成為現(xiàn)實(shí)。
熱門推薦: 上海微信小程序 小程序開發(fā) 小程序設(shè)計(jì) 支付寶小程序 百度小程序
