目前,主流的人工智慧機器翻譯團隊主要突破和攻關的技術方向是什麼?

時間 2021-05-11 14:26:14

1樓:末之

小白一枚,說說我的想法。

不知道各位做MT需不需要自建語料庫。一年前我負責文言文機翻的時候就做了這事。剛開始我們專案組所有成員嘗試手工一句句對,對不到半個小時就舉白旗了。

後來我注意到,由於是文言文和現代文的對齊,所以與中英文不太一樣,古漢語和現代漢語的明氏距離是很大的,我就抓住這個特性,搞了個半自動對齊程式,可以大批量地實現一對多、多對一的對齊。即便如此,很多不符合這一特徵的地方,依舊需要手工操作。我們專案組6個人,在有半自動程式加持的情況下,依舊耗費了大量的時間,才完成對齊工作。

合著到頭來,乙個專案週期,花時間最多的竟然是做語料庫,而不是研究模型。。。

2樓:多智互聯

2023年是人工智慧定義萬物的元年,人工智慧的機器翻譯,和我們人翻譯的效果要差不多,那才是最好的,但是,在人工智慧當中,最難的就是情緒識別,所以說,難以根據語境做出正確的合適的翻譯。

機器翻譯就是完全用計算機作為兩種語言之間的翻譯。機器翻譯由來已久,早在電子計算機問世不久,就有人提出了機器翻譯的設想,隨後,就開始了這方面的研究,但機器翻譯並非想像的那麼簡單,並使得人們認識到,單純地依靠「查字典」的方法不可能解決翻譯問題,只有在對語義理解的基礎上,才能做到真正的翻譯。

所以說,要想真正的實現機器翻譯,還要依靠自然語言理解方面的突破,有需要的朋友,可以看一些人工智慧的科譜平台,聽我同學說,多智時代在人工智慧這方面的科譜做的還不錯,有時間,可以看看。

3樓:OneV

谷歌貌的機器翻譯貌似可以做到50%~60%的準確率,當然監測準確率的句子肯定不是說一些「你好」「你吃了麼」這樣的簡單語句,而是全方面的,不同語境不同行業的語言要求不同。

每年機器翻譯準確率都能夠有所提高,然而還是比不上人工翻譯。

如果就從AI角度去考慮 ,機器翻譯在不斷學習的過程中,可以取代最簡單的翻譯需求,而一些語境複雜,專業要求更高的高階翻譯需求則還是需要人工來翻譯。

未來有可能出現的模式,或許是「人機共譯」。

4樓:

人工智慧應用在翻譯上,準確率還有待進一步提公升,難在哪些方面?

跨越侷限的問題,人工智慧不是單一科技,不能以單一學科去建造出來。

如果把人類的所有功能動作都用程式編寫出來,要多少容量?

如果方向不正確,走錯了路,就會浪費資源。所以現時必需先重新審視團隊的架構。

目標不是某項或多項技術的攻關,而是如打遊戲BOSS一樣,我們是否已經清楚對方的行動模式?

如果不是,怎麼制定策略去攻關?

如果翻譯團隊的目標是要建造乙個能取代人類的翻譯工具,首先要理解語言與人類的關係。

人工智慧技術的突破在於懂得參考生物大腦,抄襲大自然工程師的設計,也應該抄得準確一點。

5樓:Veronica

我在譯言網工作,有一大業務是做人工翻譯,所以對機器翻譯產品也一直保持關注,基本全部都測試過,可以肯定的是從去年下半年開始,機翻的水平進步非常顯著。

但粗略看,還是有些問題:

複雜句語法分析錯誤;

斷詞錯誤,漏掉關鍵字、詞、定狀補語等;

看翻譯結果是不錯的,但放在工作環境中,機翻並沒有特別顯著地提高翻譯效率。

個人看法,現在機器能做到初翻,比如翻譯標題、簡介、新聞內容框架等,非常了不起。在能預見的幾年,人機協同,不斷通過優質的人工翻譯資料優化機器翻譯,是必須的。

未來,不好說……祈禱機器需要我們吧……

6樓:語言橋人工線上翻譯

2023年是屬於人工智慧 AI 的一年,在 2023年 AI 必將會進一步深入影響各行各業。某種程度上 AI 也是乙個必然會被過度消費的詞。在本地化行業,這種情況有點像十年前的"眾包",或者更早前當翻譯記憶庫剛剛出現的時候。

還有SGML, 雖然後來 SGML 很快就被 XML 甚至 HTML 取代,但是當年在語言行業它也曾像今天的 AI 一樣風頭一時無兩。對於乙個新技術,我們也許無法準確評估它的短期影響和長期影響,但是它絕對是乙個大大小小的 LSP 都必須面對的話題。

Google 在2023年推出了自己的開源神經網路機器翻譯框架 tf-seq2seq,Facebook 和 Amazon 也推出了類似的開源神經網路機器翻譯工具 fairseq 和 Sockeye。 這意味著,任何規模的公司都可以利用這些開源資源在神經網路機器翻譯領域進行嘗試、試驗。這正是乙個需要「協同」能力的工作。

這也應驗了我們之前所說的:語言本地化行業對人才和技術的需求都在與時俱進。

7樓:

基本上大家對神經網路機器翻譯的工業化不再有任何疑問。在這一年裡幾乎所有的主流機器翻譯團隊都拋棄了早期的統計機器反映方法,全面投入神經網路機器翻譯研究。大體上這一年的成果可以分為兩部分:

基礎研究和應用研究。在基礎研究上,最令人興奮的是突破了RNN的限制,在模型結構上取得了很大的突破。例如Facebook的 Convolutional Sequence to Sequence Learning

,採用了CNN而不是RNN架構,而谷歌的Attention is All You Need

則完全採用注意力模型來實現機器翻譯。另外值得一提的是MIT CSAIL利用Quasi-RNN 提高基於RNN的模型的訓練速度的工作Training RNNs as Fast as CNNs

。這些方法都帶來了訓練速度的極大提公升,因為其模型結構可以更有效地並行化。當然其翻譯質量在大多數情況下都是漸進式的進步,並沒有帶來質量的大飛躍。

由於模型引數的數量不同,訓練方法不同,現在對於各種模型結構的評測在很多情況下是不太好比較的。但是模型結構的發展為機器翻譯帶來了眾多可能性。更有效的並行化意味著可以更加高效地利用高度並行化的加速硬體如GPU/TPU,訓練更大的模型,處理更多資料,其意義是不容低估的。

同時,推理階段(Inference)的加速也是研究熱點之一,來自Cho 的 Trainable Greedy Decoding for Neural Machine Translation

是乙個典型代表。我們知道Beam Search是神經網路機器翻譯推理過程的一大命門,不但因為Beam的大小直接決定了計算量,Beam Search的邏輯判斷運算使得GPU/TPU加速效能幾句下降,因此過去一年及今後一段時間,很多團隊都會努力去殺死Beam Search。

應用研究就豐富得多,從資料獲取,資料清理,多語言模型,Zero-Shot,完全無監督學習等。難以一一枚舉。在這裡總結地說一下:

許多主流團隊都已經做了很久的統計機器翻譯,並且擁有了自己的資料流水線。然而這些資料流水線往往都是針對統計機器翻譯優化的。神經網路機器翻譯出現以後大家往往都是直接拿著現有資料流水線直接上。

當模型結構基本固定之後,再回頭審視資料獲取和預處理方法往往並不是最優的。重新研究針對神經網路機器翻譯的資料獲取也是乙個重要方向。例如DeepL,從一家主要做資料的公司,在短短半年時間裡成為機器翻譯技術領先的公司之一,可見重新審視資料獲取的重要性。

最後,也有一些希望將語言學知識融合到機器翻譯中的方法,例如改進常用的Byte Pair Encoding (BPE),採用Dependency Tree或Constituency Tree做輸入或者輸出。個人認為這些工作在實際應用中效果有限(特別是對需要支援大量語言的情況)。

8樓:周語

個人愚見:要想知道突破口,還是得回到問題的起點,我們真正要實現人工智慧翻譯僅僅是為了現在叫的熱鬧好玩還是為了要解決問題,是為了僅僅輔助人類翻譯還是為了代替人類實現自主。如果是輔助,那人類的必然優勢在於情感的傳遞和知識的積累。

那機器的輔助功能自然明確。如果是為了代替人類實現自主,那就解決怎麼讓機器明白什麼叫背景,什麼叫積累……

現今人工智慧,機器學習領域研究的困難主要有哪些?

寒亦唱 It s not who has the best algorithms that win.It s who has the most data. 我覺得制約機器學習根本原因是很多資訊都沒有量化,或者不規整的量化。機器學習的根本在於資料本身,而不是高深演算法。近年來機器學習的快速發展是建立在...

目前的人工智慧可以打 顏值 分嗎?

灰灰 FaceRank Rank Face by CNN Model based on TensorFlow add keras version FaceRank 人臉打分基於 TensorFlow 新增 Keras 版本 的 CNN 模型 可能是最有趣的 TensorFlow 中文入門實戰專案 Q...

目前人工智慧的主要研究和應用領域有哪些?

雲程萬里 機械故障診斷 emmm.可能不是主要的 深度殘差收縮網路 如下圖 就是一種專門針對含噪振動資料的人工智慧方法。M.Zhao,S.Zhong,X.Fu,B.Tang,and M.Pecht,Deep residual shrinkage networks for fault diagnosi...