- 翻譯公司資訊
-
語料庫是語言知識的可靠來源
發(fā)布時間:2017-09-29 14:22 點擊:
首先祝賀第三屆漢語中介語口語語料庫國際會議在北京召開。漢語中介語口語語料庫是獲取語言知識,發(fā)現(xiàn)語言偏誤,提高語言習得水平的重要手段! ∥沂且粋自然語言處理的研究者,早在1957年,我就對于語言研究的發(fā)生了濃厚的興趣,夢想著打破人類的語言障礙,后來我知道了美國在1954年就研制成功俄英機器翻譯,受到極大的鼓舞,決心投身機器翻譯研究,實現(xiàn)自己的科學夢想。1979年-1981年我在法國格勒諾布爾理科醫(yī)科大學留學時,曾經(jīng)研制過一個把漢語自動地翻譯為法語、英語、日語、俄語和德語5種外語的機器翻譯系統(tǒng),叫做FAJRA系統(tǒng),提出了多叉多標記樹形圖模型(multiple-branched and multiple-labeled tree model, MMT),這是一個基于短語的機器翻譯模型(phrase-based machine translation, PBMT)。Unitrans世聯(lián)翻譯公司在您身邊,離您近的翻譯公司,心貼心的專業(yè)服務,專業(yè)的全球語言翻譯與信息解決方案供應商,專業(yè)翻譯機構品牌。無論在本地,國內還是海外,我們的專業(yè)、星級體貼服務,為您的事業(yè)加速!世聯(lián)翻譯公司在北京、上海、深圳等國際交往城市設有翻譯基地,業(yè)務覆蓋全國城市。每天有近百萬字節(jié)的信息和貿易通過世聯(lián)走向全球!積累了大量政商用戶數(shù)據(jù),翻譯人才庫數(shù)據(jù),多語種語料庫大數(shù)據(jù)。世聯(lián)品牌和服務品質已得到政務防務和國際組織、跨國公司和大中型企業(yè)等近萬用戶的認可。 專業(yè)翻譯公司,北京翻譯公司,上海翻譯公司,英文翻譯,日文翻譯,韓語翻譯,翻譯公司排行榜,翻譯公司收費價格表,翻譯公司收費標準,翻譯公司北京,翻譯公司上海。
當時我采用的方法,是基于語言規(guī)則的理性主義方法。我用了3年時間,編寫了漢語分析規(guī)則5000條左右,法語、英語、日語、俄語和德語的轉換規(guī)則和生成規(guī)則各3000條左右,一共20000多條規(guī)則,此外,我還編制了若干部機器可讀的、代碼化的機器翻譯詞典,由于工作量大,我每天工作時間都超過10小時,扎扎實實苦干了3年,于1981年11月在IBM 4341大型計算機上輸出了法語、英語、日語、俄語和德語等5種語言的機器翻譯譯文。這是世界上第一個把漢語自動地翻譯成多種外語的機器翻譯系統(tǒng)。 這個系統(tǒng)研制成功之后,在有限規(guī)模的語言范圍內,翻譯的正確率還比較高,而當擴大語言范圍時,對于任意的漢語句子,翻譯的正確率只能達到70%左右,這樣的機器翻譯系統(tǒng)顯然是難以實用的。我在1982年回國之后,又相繼研制了法漢、英漢、日漢和德漢機器翻譯系統(tǒng),翻譯正確率都沒有超過70%! ∥液馁M了如此巨大的精力,卻得到了很不理想的結果,在嚴峻的考驗面前,我在少年時代的機器翻譯夢想遭到了挫敗。我沒有得到多少成功的經(jīng)驗,卻留下了大量失敗的教訓。我為此感到困惑,有一種難言的失落感。 正當我愁眉不展之際,1993年7月在日本神戶召開的第四屆機器翻譯高層會議(MT Summit IV)上,英國著名學者哈欽斯(J. Hutchins)在他的特約報告中指出,自1989年以來,機器翻譯的發(fā)展進入了一個新紀元。這個新紀元的重要標志是,在基于規(guī)則的技術中引入了語料庫方法。這種建立在大規(guī)模(large-scale)真實文本(authentic text)處理基礎上的機器翻譯,是機器翻譯研究史上的一場革命,它會把自然語言的計算機處理推向一個嶄新的階段! “颜Z料庫方法引入到機器翻譯中,改變了機器翻譯翻譯研究者獲取知識的手段,由于語料庫是大規(guī)模的真實文本,人們就可以得到更加完善的統(tǒng)計性的語言知識,因此,也就大大地提高了機器翻譯的質量,加快了機器翻譯系統(tǒng)的研制周期! ≌Z言知識究竟在哪里?語言知識固然存在于語法書里,存在于各種類型的詞典里,存在于汗牛充棟的語言學論文里,但是,更加全面的、更加客觀的語言知識應當存在于大規(guī)模的真實文本語料庫里,語料庫是語言知識最可靠的來源。 語料庫改變了機器翻譯的命運,基于短語的機器翻譯發(fā)展成為統(tǒng)計機器翻譯( statistical machine translation,SMT),機器翻譯走向了商品化和實用化的新階段! ‰S著互聯(lián)網(wǎng)的迅速發(fā)展,我們進入了大數(shù)據(jù)時代。數(shù)據(jù)挖掘成為計算機科學的一個重要研究領域,數(shù)據(jù)挖掘中采用的機器自動學習的方法,對于統(tǒng)計機器翻譯具有重要的價值! C器自動學習的方法主要有三種類型:有指導的學習、無指導的學習、半指導的學習! ∮兄笇У膶W習實際上是對于數(shù)據(jù)進行分類,首先使用事先定義好的類別或范疇標記對于數(shù)據(jù)的實例進行標注,作為訓練數(shù)據(jù),機器根據(jù)這些標注好的訓練數(shù)據(jù)進行自動學習,再根據(jù)學習得到的知識對于新的數(shù)據(jù)進行分類。由于用來學習的訓練數(shù)據(jù)是用事先定義好的標記進行過標注的,機器學習的過程是在這些訓練數(shù)據(jù)的指導下進行的,所以叫做有指導的學習! ≡跓o指導的學習中,用來學習的數(shù)據(jù)沒有使用事先定義好的類別或范疇標記進行過標注,要使用機器學習的算法來自動地發(fā)現(xiàn)隱藏在數(shù)據(jù)中的特征、結構或規(guī)律。這種無指導學習的一個關鍵技術是聚類,聚類技術根據(jù)數(shù)據(jù)實例的相同點或相異點,自動地把它們聚類為不同的組合! ∮兄笇У膶W習要求事先人工標注大量的數(shù)據(jù)實例,需要付出巨大的人工的勞動量,費力而又費時,為了減少人工標注的勞動量,可以同時從標注過的數(shù)據(jù)實例和沒有標注過的數(shù)據(jù)實例中進行學習,標注過的數(shù)據(jù)實例的集合可以比較小,而沒有標注過的數(shù)據(jù)實例的集合可以很大,這樣的模型叫做半指導的學習! C器自動學習的這些方法已經(jīng)成熟,而且廣泛地應用于統(tǒng)計機器翻譯的研究中,這就從根本上改變了傳統(tǒng)的獲取語言知識的手段,從大規(guī)模的雙語對齊語料庫中,通過機器自動學習的方法,去獲取語言的翻譯信息,對于機器翻譯的發(fā)展具有革命性的意義! ∧壳,基于多層神經(jīng)網(wǎng)絡的、以大數(shù)據(jù)作為輸入的深度學習(deep learning)方法引入到機器翻譯中。這是一種新型的機器自動學習。深度學習的訓練方式是無監(jiān)督的特征學習,使用多層神經(jīng)網(wǎng)絡的方法。這種多層神經(jīng)網(wǎng)絡是非線性的,可以重復利用中間層的計算單元,減少參數(shù),計算機從海量的大數(shù)據(jù)中可以自動地產生模型的特征和算法! ≡~向量是多層神經(jīng)網(wǎng)絡的一種重要方法,詞向量把單詞映射為一個固定維度的向量,不同的詞向量構成詞向量語義空間,在這個詞向量語義空間中,語義相似的單詞距離較近! ∩疃葘W習研究者米克羅夫(Tomas Mikolov)發(fā)現(xiàn),如果用“意大利”這個單詞的屬性向量來減去“羅馬”這個單詞的屬性向量,再加上“巴黎”這個單詞的屬性向量,我們就能得到“法國”這個單詞或者相近的屬性向量。類似地,如果用“國王”的屬性向量減去“男人”的屬性向量,再加上“女人”的屬性向量,就能得到“王后”的屬性向量。這非常令人振奮的結果,因為米克羅夫事先并沒有刻意地做這樣的安排! 2007年以來,采用深度學習的方法,以大規(guī)模的雙語對齊的口語語料庫作為語言知識的來源,從雙語對齊的口語語料庫中獲取翻譯知識,統(tǒng)計機器翻譯又進一步發(fā)展成了神經(jīng)機器翻譯(neural machine translation, NMT),口語神經(jīng)機器翻譯正確率已經(jīng)超過了 90%,針對日?谡Z的神經(jīng)機器翻譯基本上已經(jīng)可以付諸實用了。
但是,在這種神經(jīng)機器翻譯中,語言之間的翻譯細節(jié)還是一個黑箱(black box),盡管翻譯的結果不錯,我們對于其中的語言處理機制仍然是不清楚的,在語言學理論上,我們還難以做出科學的解釋! ∽罱,深度學習向神經(jīng)網(wǎng)絡中融入了記憶機制,把基于理性主義的知識驅動與基于經(jīng)驗主義的數(shù)據(jù)驅動結合起來,架起了符號主義與聯(lián)接主義之間的橋梁。這應當是今后神經(jīng)機器翻譯發(fā)展的新方向! 】梢钥闯觯捎谠跈C器翻譯中引入了語料庫技術,已經(jīng)獲得了巨大的進步,這是令人可喜的。不論是書面語文本語料庫還是口語語料庫,都是機器翻譯得以發(fā)展進步的關鍵性因素。語料庫對于機器翻譯的發(fā)展具有舉足輕重的作用! ∧壳埃瑵h語中介語語料庫建設已經(jīng)取得了很大的成績。北京語言大學、南京師范大學、魯東大學、暨南大學、中山大學、上海交通大學、廈門大學、臺灣師范大學先后建立了不同規(guī)模的漢語中介語語料庫。香港中文大學、新疆醫(yī)科大學還建立了漢語口語習得語料庫! ≡谶@些中介語語料庫的基礎上,研究者們進行了卓有成效的研究,成果斐然。第三屆漢語中介語口語語料庫國際會議為交流這些成果提供了一個很好的交流機會,我衷心祝賀這次國際會議成功。