
拿起手機(jī),打開應(yīng)用,按下麥克風(fēng)圖標(biāo)的按鈕,然后對著麥克風(fēng)位置說話。
這樣的應(yīng)用場景是否讓你似曾相識?只不過微軟將這樣的使用場景用在了實(shí)時語音翻譯上。
借助智能手機(jī),微軟開發(fā)的新一代翻譯工具,能夠?qū)崿F(xiàn)實(shí)時的語音翻譯。13日,微軟發(fā)布了最新一代翻譯工具(Microsoft Translator),目前可以實(shí)現(xiàn)包括中文在內(nèi)的9種語言的實(shí)時語音轉(zhuǎn)為文本翻譯。
微軟翻譯產(chǎn)品營銷總監(jiān)Olivier Fontana 14日對騰訊科技表示,微軟認(rèn)為,現(xiàn)在幾乎人人都擁有的智能手機(jī),為實(shí)時語音翻譯提供了良好的硬件條件。

微軟翻譯產(chǎn)品營銷總監(jiān)Olivier Fontana展示微軟新一代翻譯工具
此次微軟發(fā)布的翻譯工具最大的亮點(diǎn)在于,通過底層的深度神經(jīng)網(wǎng)絡(luò)技術(shù)的應(yīng)用,能夠?qū)崿F(xiàn)更準(zhǔn)確的語音識別和翻譯。
Fontana介紹說,該工具的語音識別部分和翻譯部分分別采用了ResNet深度神經(jīng)網(wǎng)絡(luò)和LSTM(長期短期記憶)技術(shù),其中ResNet神經(jīng)網(wǎng)絡(luò)深度達(dá)到了150層。
在用戶界面方面,微軟采用了類似微信“面對面建群”的方式:參與到對話中的所有人都在一個群組中,任何人對著群組說自己的語言,其他群組成員就能在群組的聊天界面中實(shí)時看到翻譯成自己所使用的語言的文字。

以創(chuàng)建和加入群組的方式進(jìn)行實(shí)時語音翻譯
為了試驗(yàn)該翻譯工具的具體功能,F(xiàn)ontana 與我以及另一位公關(guān)人員就使用該工具的群組語音實(shí)時翻譯功能,進(jìn)行了一場三種語言的交互對話,我們各自用中文、法語和英語對著應(yīng)用說話,我們各自手機(jī)的群組中則自動呈現(xiàn)中各自能夠識別的語言文字。
就我個人的體驗(yàn)感受來說,整個過程非常簡單易用,界面簡潔直觀,發(fā)起對話的人只要新建群組,就隨機(jī)自動生成一個群組代號以及二維碼,其他參與到該群組中的人只需掃描二維碼或者輸入群組代號,并且選擇自己的語言,就能即刻加入到對話當(dāng)中。
對于語音的識別以及翻譯過程,也十分流暢,在我們?nèi)撕唵瓮ㄟ^該工具用各自語言進(jìn)行對話的過程中,并沒有出現(xiàn)太多的影響對話節(jié)奏的延遲問題。
當(dāng)然,語音的識別和翻譯的準(zhǔn)確率依然存在一定的瑕疵,比如當(dāng)我用更為口語化的中文語言進(jìn)行對話時,翻譯的質(zhì)量便并不是特別好,只有當(dāng)我使用簡潔、邏輯清晰的語言時,翻譯出的文本質(zhì)量才讓我比較滿意。

翻譯結(jié)果以用戶熟悉而親切的聊天界面方式呈現(xiàn)
Fontana介紹說,這一工具能夠在很多實(shí)際的場景下得到應(yīng)用,例如國際旅游團(tuán)的導(dǎo)游向使用不同語言的各國游客介紹景點(diǎn),在陌生的國度乘車時與司機(jī)進(jìn)行實(shí)時對話,參加使用不同語言的國際性會議等。
目前該翻譯工具支持蘋果iOS、安卓、Windows等系統(tǒng),除了手機(jī)端,也能夠在個人電腦上通過網(wǎng)頁創(chuàng)建或加入群組對話。
Fontana介紹說,該翻譯工具使用了深度神經(jīng)網(wǎng)絡(luò)技術(shù),在使用過程中的語音數(shù)據(jù)也會上傳至云端供神經(jīng)網(wǎng)絡(luò)的訓(xùn)練使用,他強(qiáng)調(diào)了所有上傳到云端的語音都是匿名的,以保護(hù)使用者的隱私。
此外,微軟在該產(chǎn)品的開發(fā)過程中,還特別注意到了一些其他特殊場景的應(yīng)用所需考慮到的細(xì)節(jié),例如在教室中使用,系統(tǒng)會自動只讓創(chuàng)建群組的教師的聲音能夠被錄入,而學(xué)生的聲音不被錄入,因?yàn)槊绹梢?guī)定在不被允許的前提下,不能讓學(xué)生的聲音被采集。另外,該翻譯工具還能自動屏蔽污言穢語,這些文字會以*號呈現(xiàn),翻譯的語音則由“嗶”音或其他用戶自定義的聲音代替。
目前,越來越多的人工智能技術(shù)被運(yùn)用到翻譯應(yīng)用中。前不久谷歌(微博)翻譯團(tuán)隊(duì)發(fā)布的全新的翻譯工具,同樣也運(yùn)用了LSTM技術(shù),無論是翻譯的準(zhǔn)確度還是質(zhì)量相較過去的基于詞組和短句的翻譯方式,都得到了顯著的提高。
特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾,并請自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。