- 翻譯公司資訊
-
谷歌神經(jīng)網(wǎng)絡(luò)翻譯是如何煉成的?
發(fā)布時(shí)間:2017-09-29 14:22 點(diǎn)擊:
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)主辦的2017中國(guó)互聯(lián)網(wǎng)大會(huì)在北京北京舉行。會(huì)上,谷歌翻譯研發(fā)科學(xué)家高勤發(fā)表了《利用機(jī)器學(xué)習(xí)消除語(yǔ)言障礙》 的演講,闡述了谷歌神經(jīng)網(wǎng)絡(luò)翻譯背后的技術(shù)以及未來(lái)研發(fā)的方向。Unitrans世聯(lián)翻譯公司在您身邊,離您近的翻譯公司,心貼心的專業(yè)服務(wù),專業(yè)的全球語(yǔ)言翻譯與信息解決方案供應(yīng)商,專業(yè)翻譯機(jī)構(gòu)品牌。無(wú)論在本地,國(guó)內(nèi)還是海外,我們的專業(yè)、星級(jí)體貼服務(wù),為您的事業(yè)加速!世聯(lián)翻譯公司在北京、上海、深圳等國(guó)際交往城市設(shè)有翻譯基地,業(yè)務(wù)覆蓋全國(guó)城市。每天有近百萬(wàn)字節(jié)的信息和貿(mào)易通過(guò)世聯(lián)走向全球!積累了大量政商用戶數(shù)據(jù),翻譯人才庫(kù)數(shù)據(jù),多語(yǔ)種語(yǔ)料庫(kù)大數(shù)據(jù)。世聯(lián)品牌和服務(wù)品質(zhì)已得到政務(wù)防務(wù)和國(guó)際組織、跨國(guó)公司和大中型企業(yè)等近萬(wàn)用戶的認(rèn)可。 專業(yè)翻譯公司,北京翻譯公司,上海翻譯公司,英文翻譯,日文翻譯,韓語(yǔ)翻譯,翻譯公司排行榜,翻譯公司收費(fèi)價(jià)格表,翻譯公司收費(fèi)標(biāo)準(zhǔn),翻譯公司北京,翻譯公司上海。
全球僅20%的人能看懂英文,谷歌翻譯支持100種語(yǔ)言翻譯
據(jù)悉,谷歌翻譯在2006年就已經(jīng)推出,經(jīng)過(guò)11年的發(fā)展已經(jīng)支持超過(guò)100種語(yǔ)言的翻譯,覆蓋世界99%的網(wǎng)民。據(jù)高勤透露,谷歌翻譯每天提供超過(guò)10億次的翻譯,月度活躍用戶超過(guò)10億人次,其中95%來(lái)自于美國(guó)以外地區(qū)。
目前,谷歌翻譯支持手機(jī)攝像頭識(shí)別即時(shí)翻譯,手機(jī)麥克風(fēng)和揚(yáng)聲器即時(shí)對(duì)話翻譯,離線翻譯等等。
高勤在會(huì)上解釋了谷歌翻譯服務(wù)推出的原因,“今天全世界互聯(lián)網(wǎng)內(nèi)容中英文占到了50%。與此同時(shí)僅有20%的人口能夠看懂英文?梢哉f(shuō)對(duì)于世界上大多數(shù)的人來(lái)說(shuō)互聯(lián)網(wǎng)上的大部分內(nèi)容是與他們絕緣的。”
神經(jīng)網(wǎng)絡(luò)翻譯初露鋒芒,已堪比非專業(yè)人工翻譯
而谷歌翻譯質(zhì)量的大幅提升則得益于神經(jīng)網(wǎng)絡(luò)翻譯的發(fā)展。據(jù)悉,谷歌的神經(jīng)網(wǎng)絡(luò)翻譯從2015年9月研發(fā),13個(gè)月后上線。谷歌的測(cè)試顯示,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯和非專業(yè)人工翻譯已經(jīng)相當(dāng)接近,對(duì)于英中、中英翻譯也取得最大的提升。
高勤還透露了谷歌神經(jīng)網(wǎng)絡(luò)研發(fā)的過(guò)程。高勤稱,谷歌神經(jīng)網(wǎng)絡(luò)在研發(fā)之初預(yù)期要花三年時(shí)間來(lái)完成,但實(shí)際發(fā)布時(shí)間超乎我們意料。據(jù)了解,2015年9月,谷歌翻譯項(xiàng)目開(kāi)始基于TensorFlow研發(fā),2016年2月獲得首個(gè)產(chǎn)品規(guī)模模型,2016年11月總計(jì)16個(gè)語(yǔ)言上線,自此神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯初具規(guī)模。目前,谷歌翻譯中超過(guò)50%的流量采用神經(jīng)網(wǎng)絡(luò)翻譯。這得益于谷歌在機(jī)器學(xué)習(xí)軟硬件上的全面布局,尤其是谷歌張量處理器(TPU)的誕生。
高勤認(rèn)為,神經(jīng)網(wǎng)絡(luò)相對(duì)于傳統(tǒng)技術(shù)是一種革命性的改變;诙陶Z(yǔ)的統(tǒng)計(jì)機(jī)器翻譯是拼圖過(guò)程,通過(guò)對(duì)短語(yǔ)對(duì)的排列和組合,嘗試找出較好的翻譯選項(xiàng),而整個(gè)決策過(guò)程是離散的,支持這個(gè)決策的信息也都是局部的。神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)反其道而行之,做每一步翻譯過(guò)程中可以利用云語(yǔ)言與目標(biāo)語(yǔ)言所有信息,使整個(gè)決策過(guò)程既是連續(xù)也是全局的。
探索多語(yǔ)言模型:疑似發(fā)現(xiàn)多語(yǔ)言的通用語(yǔ)!
然而,從一個(gè)實(shí)驗(yàn)室研究結(jié)果到服務(wù)10億人的產(chǎn)品,其中仍有很長(zhǎng)的路要走。
目前來(lái)看,因?yàn)檎Z(yǔ)言的不同,谷歌翻譯仍需要對(duì)200個(gè)模型進(jìn)行訓(xùn)練與維護(hù),這仍然是極為繁重的任務(wù)。因此,谷歌翻譯目前已將目光投向多語(yǔ)言模型。所謂多語(yǔ)言模型是指用同一套神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)多種語(yǔ)言的互相翻譯。如,可以將英語(yǔ)、西班牙語(yǔ)、韓語(yǔ)放在同一個(gè)翻譯模型中進(jìn)行翻譯。高勤稱,實(shí)現(xiàn)多語(yǔ)言模型的機(jī)器翻譯其方法可以非常簡(jiǎn)單,只需要將我們想要翻譯的目標(biāo)語(yǔ)言代碼通過(guò)特殊符號(hào)形式告訴神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)就可以處理多種語(yǔ)言的翻譯。如,要翻譯到日語(yǔ),只需要在原語(yǔ)言前加入2ja+簡(jiǎn)單符號(hào)。通過(guò)這樣處理的多語(yǔ)言簡(jiǎn)單符號(hào),很多情況下其性能超過(guò)單語(yǔ)言情況。
高勤同時(shí)指出,多語(yǔ)言模型可以非常好地處理零數(shù)據(jù)翻譯,無(wú)需通過(guò)英語(yǔ)中轉(zhuǎn)就可以實(shí)現(xiàn)兩者非英語(yǔ)語(yǔ)言的翻譯,這為未來(lái)構(gòu)建統(tǒng)一翻譯模型提供了可能性。
最新研究顯示,谷歌翻譯團(tuán)隊(duì)目前對(duì)多語(yǔ)言模型、以及在神經(jīng)網(wǎng)絡(luò)內(nèi)部對(duì)不同語(yǔ)言中意義相近的句子向量表示進(jìn)行多維空間投影,發(fā)現(xiàn)意義相近的句子投影到相鄰區(qū)域,這表明神經(jīng)網(wǎng)絡(luò)內(nèi)部對(duì)多種語(yǔ)言的表示具有一定的普適性。高勤表示,“這是否代表我們找到了一種能夠代表多種語(yǔ)言的通用語(yǔ)呢?現(xiàn)在還不能確定。我認(rèn)為還需要進(jìn)一步研究。”
谷歌翻譯下一步:探究新的模型結(jié)構(gòu),追求性能極限
目前,谷歌已經(jīng)推出神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型,其API接口已提供開(kāi)發(fā)者下載使用。高勤稱,下一步我們將繼續(xù)致力于改進(jìn)數(shù)字、日期、姓名、品牌以及不常見(jiàn)短語(yǔ)翻譯,同時(shí)進(jìn)一步研究新的模型結(jié)構(gòu)與訓(xùn)練方法。
高勤稱,過(guò)去一年的研究,我們對(duì)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的認(rèn)識(shí)仍然非常膚淺。我們認(rèn)為神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯僅僅是初露鋒芒,并沒(méi)有達(dá)到性能的極限。