- 翻譯公司資訊
-
大數(shù)據(jù)時代,語言服務(wù)行業(yè)將何去何從?
發(fā)布時間:2017-09-12 14:26 點擊:
為使大數(shù)據(jù)生成的數(shù)字內(nèi)容有效,需要針對不同渠道將其進行轉(zhuǎn)換,以用于各種用途和其他市場的本地化。這是一個對于所有譯員來說都充滿機會的領(lǐng)域。
參加任何一個會議你都能發(fā)現(xiàn)常見的行業(yè)術(shù)語流行語多了一些不一樣的東西——“大數(shù)據(jù)”。還會聽到數(shù)字化數(shù)據(jù)大規(guī)模增長的消息、某領(lǐng)域知識庫增長速度驚人、公司如何來管理和詮釋來勢洶洶的數(shù)據(jù)等。迅速增長的內(nèi)容包括結(jié)構(gòu)化數(shù)據(jù)庫、應(yīng)用程序代碼、圖像、視頻文件和文本。可能還會聽說機器學(xué)習(xí)和大數(shù)據(jù)如何使軟件更靈敏、更能滿足客戶需求。
我們談?wù)摰臄?shù)據(jù)有多大?數(shù)字內(nèi)容、代碼和結(jié)構(gòu)化數(shù)據(jù)已經(jīng)非常龐大,但仍以驚人的速度24小時不停增長著。每一天,世界上就生成2.5兆字節(jié)的數(shù)據(jù)。這些數(shù)據(jù)來源很多,包括文件、社交媒體、電子采購交易記錄和手機GPS信號。據(jù)估計,每日新增的數(shù)據(jù)將使全球信息資源庫的信息從2015年的7.9澤字節(jié)(7.9×1021字節(jié))增加到2025年的176澤字節(jié)。別忘了1澤字節(jié)等于1,000,000,000,000,000,000,000字節(jié),這是一個令人費解的數(shù)字,并且這個總數(shù)還不包括每天交流的大量內(nèi)容。
不論創(chuàng)建的內(nèi)容是什么,其容量之大都給翻譯和本地化帶來巨大且未實現(xiàn)的潛能。這對語言行業(yè)來說意味著什么,對人工翻譯和機器翻譯又意味著什么?
何為大數(shù)據(jù)?其重要性何在?
我們談?wù)摰拇髷?shù)據(jù)指的是獲取大量數(shù)據(jù)和使用軟件工具來識別以前未被發(fā)現(xiàn)的模式、趨勢、相關(guān)性和關(guān)聯(lián)的新方法。如果你在網(wǎng)上買了一本書,是因為在線零售商告訴你,與你有類似瀏覽歷史的顧客都喜歡這本書,那么你就已經(jīng)是大數(shù)據(jù)分析的受益者了。
過去幾十年里,商業(yè)、政府和日常生活的數(shù)字化使這種做法成為可能。這些信息存儲在巨大的數(shù)據(jù)庫中,數(shù)據(jù)庫中有結(jié)構(gòu)化數(shù)據(jù),以及大大小小的文檔資料。我們每天用更多的數(shù)據(jù)來喂養(yǎng)這只正在不斷成長的“野獸”。雖然所有機構(gòu)都依賴數(shù)據(jù)來運行,但只有少量機構(gòu)利用數(shù)據(jù)更好地理解其所在領(lǐng)域人們的行為、偏好和趨勢,這種機構(gòu)數(shù)量雖少,卻呈現(xiàn)出增長態(tài)勢。機構(gòu)利用這些數(shù)據(jù)作出的分析,可以更好地決定如何推銷產(chǎn)品、幫助客戶、提高運營效率,或者作出其他偉大構(gòu)想。
他們是怎么做的?使結(jié)構(gòu)化數(shù)據(jù)和文本富有多樣性并不不容易。對于高度結(jié)構(gòu)化的數(shù)據(jù),則使用專門處理大數(shù)據(jù)的軟件從大型全網(wǎng)上數(shù)據(jù)庫中提取。然后,分析師采用新一代的商業(yè)智能和文本分析工具,將這些原始數(shù)據(jù)轉(zhuǎn)換成可用的信息和可操作的內(nèi)容。他們可能會將交易數(shù)據(jù)與服務(wù)器日志,點擊流數(shù)據(jù),社交媒體內(nèi)容、客戶電子郵件文本,傳感器數(shù)據(jù)和電話記錄結(jié)合起來,再提取出數(shù)據(jù)分析。他們提取分析數(shù)據(jù)時,也使用高級分析工具,包括統(tǒng)計分析、數(shù)據(jù)和內(nèi)容挖掘、預(yù)測分析和文本分析。傳統(tǒng)的商業(yè)智能和現(xiàn)代數(shù)據(jù)可視化軟件可幫助分析師以人類可讀的形式呈現(xiàn)出他們的發(fā)現(xiàn)。
語言行業(yè)實際上是首個對大數(shù)據(jù)應(yīng)用表現(xiàn)出興趣的領(lǐng)域之一。早期的主流應(yīng)用就有谷歌和微軟推出的統(tǒng)計機器翻譯(SMT)。2011年卡門森斯顧問公司(CSA)在一份機器翻譯(MT)發(fā)展趨勢報告中指出,這些基于統(tǒng)計的方法都是大數(shù)據(jù)在MT領(lǐng)域的應(yīng)用,因為它們必須用到大量的雙語數(shù)據(jù)。例如,它們會將英文源文件與人工翻譯后的俄文文件進行比對。
簡單來說,SMT可以通過將源文件中的零和一與譯文中的相關(guān)信息進行對比,找出其中的相關(guān)性和翻譯模式。換句話說,計算機強大的處理能力可將文件與其譯文進行拆分,然后分析其中的翻譯模式并預(yù)測未存儲文本的譯文。這種分析大大加快了語言支持的速度,而不是像從前MT那樣要依靠語言專家團隊來創(chuàng)建語法,把它們整理成翻譯規(guī)則,創(chuàng)建雙語詞典,之后還要不斷地在發(fā)現(xiàn)問題后作出修改以及添加規(guī)則。
2011年CSA在一份報告中預(yù)測專家在處理更多的語言種類和大量的多語言內(nèi)容時,會使用這些基于數(shù)學(xué)的大數(shù)據(jù)算法來解決不同語言之間的溝通與營銷問題,這已經(jīng)成為事實。
過去幾年里,基于大數(shù)據(jù)分析的MT使用頻率早已超過了第一代基于規(guī)則的解決方案。Google翻譯吸引了大量的用戶,這證明其操作簡單、易于領(lǐng)會,從某種程度上說,也是MT輸出的質(zhì)量得到提高的結(jié)果。盡管學(xué)術(shù)研究表明BLEU7(雙語評估替代技術(shù))等流行的質(zhì)量評估系統(tǒng)已經(jīng)有了提高,但這種提高并不是簡單的累加,在不同語言和不同可譯內(nèi)容類型(例如常規(guī)文本、音頻、視頻和社交媒體)之間,翻譯結(jié)果也會出現(xiàn)較大的差異。因此,能提升翻譯質(zhì)量的數(shù)據(jù)很少,除非用戶對翻譯質(zhì)量沒有很高的期待。
像Amazon Web Services和Microsoft這樣基于云計算并能無限使用的算法能為這些大數(shù)據(jù)實踐提供支持。隨著數(shù)以億計的設(shè)備(如傳感器、嵌入式控制器、可穿戴設(shè)備、健康檢查器以及尚未發(fā)明的小部件)接入互聯(lián)網(wǎng),這類獲取和分析方式將會繼續(xù)發(fā)展成為“物聯(lián)網(wǎng)”。
為使大數(shù)據(jù)生成的數(shù)字內(nèi)容有效,需要針對不同渠道,將其進行轉(zhuǎn)換,以用于各種用途和其他市場的本地化。企業(yè)和政府規(guī)劃人員早已了解到只用一種語言提供所有數(shù)字化信息是不夠的。他們的任務(wù)是盡可能多地使用數(shù)據(jù)來支持重要人群的用戶體驗。否則就不可能吸引并留住國內(nèi)外的多元文化受眾。
只需考慮翻譯的必要要求,使其在轉(zhuǎn)換成另一種語言時能夠面向更廣泛的受眾。據(jù)估計,要提供14種語言才能滿足世界上90%經(jīng)濟活躍人口的需求,但大多數(shù)網(wǎng)站最多只支持六種語言或地區(qū)。許多公司的產(chǎn)品和文件本地化工作都很滯后?谧g活動更是受到限制。
隨著各機構(gòu)產(chǎn)生的數(shù)據(jù)越來越多,人們也越來越渴望為更多受眾提供產(chǎn)品和服務(wù)。近期CSA對于客戶方面受訪者的調(diào)查報告顯示,他們計劃在未來三年內(nèi)將翻譯量增加67%,從平均每年的5.9億字增至9.9億字。這種增長是語言行業(yè)現(xiàn)有方式無法滿足的,并且在CSA調(diào)查樣本中,買家希望能結(jié)合供應(yīng)商后期編輯內(nèi)容和原始MT來解決這種增長需求。
大數(shù)據(jù)在當(dāng)代的應(yīng)用,及其在未來的應(yīng)用
各機構(gòu)表示,要實現(xiàn)他們增加翻譯量的計劃,會耗盡所有現(xiàn)有譯員和短期內(nèi)會進入該領(lǐng)域的譯員的精力。
為了滿足日益增長的翻譯需求,各機構(gòu)紛紛采取措施提高譯員和機器翻譯的生產(chǎn)力,以解決翻譯量和周轉(zhuǎn)時間的挑戰(zhàn),以及多種目標(biāo)語言處理和預(yù)算有限的問題。公司對人工翻譯和后期編輯MT進行投資,以應(yīng)用于重要的業(yè)務(wù)內(nèi)容,如比較固定的產(chǎn)品和營銷材料。例如,消費者要依靠大批數(shù)量不斷增長的翻譯提供商,使用機器翻譯對源材料進行預(yù)處理,然后語言專家再對輸出材料進行人工編輯。一小部分客戶組織也將未經(jīng)編輯的機器翻譯輸出材料直接用于商業(yè)領(lǐng)域,比如“常見問題”和“知識庫”。
除了使用機器翻譯一些有限的商務(wù)文本外,一些消費者也開始使用機器翻譯處理一些用戶生成的內(nèi)容,例如過去一些機構(gòu)不愿翻譯的產(chǎn)品評估、酒店評論和論壇討論等。但CSA的研究顯示,線上消費者和商業(yè)買家都喜歡翻譯用戶評論,即使這些評論都已經(jīng)翻譯過了。
為何大數(shù)據(jù)的數(shù)量與翻譯消費者和提供商有關(guān)
大數(shù)據(jù)代表了大量的數(shù)字,但翻譯行業(yè)的數(shù)據(jù)對于大數(shù)據(jù)來說簡直是冰山一角。我們只需看看書面單詞以及它們與每天生成的2.5兆字節(jié)數(shù)據(jù)有什么關(guān)系就知道了。
盡管當(dāng)今的目標(biāo)是使人類更加具有生產(chǎn)力,以節(jié)約時間和金錢,但全球的在線內(nèi)容遠遠無法適用于所有語言。從多年的研究和咨詢中可知,是否投資翻譯、本地化和口譯的討論都必須先審查可用的數(shù)據(jù)。
CSA決定調(diào)查本地化行業(yè)面臨的眾多挑戰(zhàn),從翻譯內(nèi)容的角度看,從所有可譯數(shù)據(jù)中找出應(yīng)該翻譯什么。我們決定從某一天的數(shù)字內(nèi)容輸出開始,確定應(yīng)該翻譯什么,如果整個語言行業(yè)只處理這些內(nèi)容并且沒有積壓的數(shù)據(jù),那么到底應(yīng)該翻譯什么。
什么是數(shù)據(jù)?數(shù)據(jù)就是每天數(shù)字化所創(chuàng)建的一切,包括從文檔到SQL數(shù)據(jù),從遙測技術(shù)到數(shù)字多媒體技術(shù)。我們先將這個假設(shè)應(yīng)用于外包服務(wù)的支出。據(jù)估計,多種形式的翻譯——包括人工翻譯、譯后編輯、轉(zhuǎn)錄以及網(wǎng)站全球化和以文本為中心的本地化翻譯在381億美元的語言服務(wù)和技術(shù)市場中占264億美元。
然后,我們算出單詞每日花費的金額。我們將26.4億美元平均分在365天里,估計翻譯行業(yè)日值7200萬美元。若假設(shè)每個字20美分,則預(yù)計專業(yè)譯員每天處理近3.62億個詞。然后,我們將每個詞轉(zhuǎn)換成9.71個字符,即相當(dāng)于七十億字節(jié)的雙字節(jié)字符。(請注意,某些語言較其他語言平均每個字的字符較少)。
最后,我們將其與日常創(chuàng)建的內(nèi)容量進行比較。當(dāng)我們將2.5兆字節(jié)除以語言服務(wù)提供商產(chǎn)生的目標(biāo)語言內(nèi)容的數(shù)量時,預(yù)計翻譯公司每天只能處理全部創(chuàng)建內(nèi)容的0.00000000009%。然而,我們可以保守估計,絕大多數(shù)的數(shù)據(jù)將永遠不會被翻譯——要么材料不可譯,要么翻譯此類材料沒有意義。
但是今天有些沒有翻譯的東西(如用戶評論和社交媒體帖子),隨著企業(yè)努力提高客戶體驗,將來也會被翻譯。即使排除那些極小比例的日常字節(jié),外包內(nèi)容的翻譯量仍然遠低于每天創(chuàng)建內(nèi)容的1%。別忘了我們討論的是僅僅一天內(nèi)的翻譯缺口。這并不包括尚未翻譯的積壓內(nèi)容。
該假設(shè)的結(jié)果表明,若內(nèi)容被完全翻譯,通常在網(wǎng)上只會被翻譯成六種語言(在其他地方則更少)。這遠遠低于國內(nèi)外交流和商業(yè)中重要的網(wǎng)上語言總數(shù)。
當(dāng)然,還有許多影響計算的其他變量和因素。例如,應(yīng)該翻譯卻沒有翻譯的,以及現(xiàn)有內(nèi)容的許多部分。但能確定的是有大量內(nèi)容永遠不會被翻譯或本地化。這不僅對技術(shù)公司而言是機會,對語言行業(yè)而言也是如此。
大數(shù)據(jù)對語言行業(yè)而言意味著什么
我們討論的大數(shù)據(jù)和翻譯需求為語言行業(yè)展現(xiàn)了機會,但是許多譯員由此擔(dān)心MT的廣泛應(yīng)用會剝奪了他們的工作機會。我們的研究估計,譯員實際上會因MT而失去一些較低價值的工作,但在可預(yù)見的將來,譯員的總體工作量將以穩(wěn)定的速度增長。
如果我們還考慮擴展譯后編輯——可以肯定,這是一個有爭議的話題——相對于當(dāng)下對未來譯員的依賴,譯后編輯更加依賴專業(yè)人才。因此,如果要跟上需求,譯員們需要利用大數(shù)據(jù)來提高生產(chǎn)率。一些人將更進一步成為可以構(gòu)建、訓(xùn)練和改進MT引擎的專家。
在生產(chǎn)力方面,我們看到今天的大數(shù)據(jù)是基于統(tǒng)計的MT引擎,可用來補充其他MT模型的譯后編輯過程。與MT的連接可用于CAT工具,如Kilgray memoQ、Memsource Cloud和SDL Trados Studio。同時,像Lilt這樣的創(chuàng)業(yè)公司也使用類似CAT的工具中的MT輸出加速人工翻譯進程。軟件開發(fā)人員也向我們表明,他們正在評估大數(shù)據(jù)機器學(xué)習(xí)技術(shù),以改進術(shù)語、翻譯記憶庫、消歧,以及對其他各種內(nèi)容的創(chuàng)建、本地化和任務(wù)審校。簡而言之,大數(shù)據(jù)將改進譯員使用的大多數(shù)軟件工具。隨著MT技術(shù)的發(fā)展,口譯員也將受益匪淺。
大數(shù)據(jù)對語言專家而言意味著什么?正如他們看到的翻譯記憶庫和術(shù)語管理一樣,語言專家將能使用另一種工具。由于這種軟件會對源內(nèi)容的分析進行改進,最終買方和代理方的雇主都希望他們使用這種軟件提高工作效率。
我們2016年針對語言服務(wù)提供商的調(diào)查發(fā)現(xiàn),49%的受訪者已經(jīng)承認(rèn)將MT譯后編輯作為其服務(wù)。早在2012年,我們的研究就顯示,21%的自由職業(yè)者都使用過這項技術(shù)。
有些人將舍棄傳統(tǒng)的翻譯公司結(jié)構(gòu),成為大數(shù)據(jù)專家。他們將創(chuàng)建行業(yè)和領(lǐng)域?qū)S糜洃泿觳⑹占、分析和翻譯內(nèi)容。語言專業(yè)人員與數(shù)據(jù)應(yīng)用程序合作利用相關(guān)結(jié)果“豐富”有用元數(shù)據(jù)(如主題分類、名稱和實體分類等)的內(nèi)容策略傾向正在出現(xiàn)。這種傾向?qū)⑹贡镜鼗藛T能夠創(chuàng)造特殊的市場價值。有些將采取下一步措施進入全球主流營銷,增加他們的投資組合服務(wù),如跨國商業(yè)智能,以幫助公司更好地了解其市場,或跨語言語義和情緒分析,以消除多語言的消費者和商業(yè)買家的多語言內(nèi)容。
大數(shù)據(jù)大大增加了內(nèi)容量。同時,基于大數(shù)據(jù)科學(xué)的自動化內(nèi)容豐富和分析工具將能夠訓(xùn)練更復(fù)雜的工具,幫助人們翻譯不斷增長的內(nèi)容,并使機器能夠縮小生成的內(nèi)容與實際翻譯內(nèi)容之間的差距。毫無疑問,一些語言專家會將這些基于大數(shù)據(jù)的創(chuàng)新視為威脅。而另一些人則會將這種進步看成是一種機遇,它可以幫助確定源內(nèi)容的意義,增強其他工具的有用性,以此提高生產(chǎn)率。
雖然這還沒有發(fā)生,但我們推測,由這些現(xiàn)象推動的MT可以消除譯員的“隱身衣”,給予他們更大的認(rèn)可和更高的地位。即使機器翻譯的比例大于人工翻譯的比例,人工翻譯的數(shù)量也絕對會增加,例如生命科學(xué)等領(lǐng)域。反過來,人工翻譯的感知價值可能會增加。這是為什么呢?因為當(dāng)采用人工翻譯時,則意味著這項工作非常非常重要。這跟會計差不多。軟件可以處理日常事務(wù),但是當(dāng)出現(xiàn)問題或事情至關(guān)重要時,還是需要資深會計來進行處理。
由于語際交流變得透明化,我們預(yù)測出現(xiàn)高價值交易(即需要筆譯譯員和口譯譯員)的情況將會增多,而不是減少。如果提供商費用增加,并且公司使用MT來滿足較大比例的語言需求,則會使譯員受益,因為他們付出了很大的代價來支持客戶體驗和其他高價值互動的最重要內(nèi)容。
Unitrans世聯(lián)翻譯公司在您身邊,離您近的翻譯公司,心貼心的專業(yè)服務(wù),專業(yè)的全球語言翻譯與信息解決方案供應(yīng)商,專業(yè)翻譯機構(gòu)品牌。無論在本地,國內(nèi)還是海外,我們的專業(yè)、星級體貼服務(wù),為您的事業(yè)加速!世聯(lián)翻譯公司在北京、上海、深圳等國際交往城市設(shè)有翻譯基地,業(yè)務(wù)覆蓋全國城市。每天有近百萬字節(jié)的信息和貿(mào)易通過世聯(lián)走向全球!積累了大量政商用戶數(shù)據(jù),翻譯人才庫數(shù)據(jù),多語種語料庫大數(shù)據(jù)。世聯(lián)品牌和服務(wù)品質(zhì)已得到政務(wù)防務(wù)和國際組織、跨國公司和大中型企業(yè)等近萬用戶的認(rèn)可。 專業(yè)翻譯公司,北京翻譯公司,上海翻譯公司,英文翻譯,日文翻譯,韓語翻譯,翻譯公司排行榜,翻譯公司收費價格表,翻譯公司收費標(biāo)準(zhǔn),翻譯公司北京,翻譯公司上海。- 上一篇:語料庫是語言知識的可靠來源
- 下一篇:翻譯的兩難困境