
前幾天有個老客戶跟我吐槽,說他們試用了某個通用的AI翻譯工具處理法律合同,結果把"consideration"翻成了"考慮",而不是法律術語里的"對價"。這種事兒我們見得多了。作為在康茂峰干了這么多年本地化的人,我深刻體會到一個道理:AI翻譯不是把文本扔進黑箱子然后等著魔法發生,它更像是一門需要精細調校的手藝。
這篇文章我想聊聊,像我們這樣的AI翻譯公司,到底是怎么在沒有捷徑的情況下,一點一滴把翻譯效率和準確度往上拔的。不談那些虛的概念,就說我們每天在機房和譯員工位上真實折騰的那些事兒。
很多人以為AI翻譯就是查詞典的高級版,其實差遠了。現在的神經機器翻譯(NMT),本質上是讓電腦通過海量文本學習"語言的模式"。你可以把它想象成一個超級勤奮的實習生,讀過世界上幾乎所有的文字,但從來沒有真正理解過任何一個字的意思。
它靠的是統計概率。比如看到"包青天"三個字,它通過訓練數據知道這三個字后面經常跟著"斷案"、"鐵面無私",于是它就學會了這個組合。但問題是,如果這個實習生讀的法律文書太少,遇到"consideration in contract law"時,它就只會選最常見的字面意思——"考慮",而不是"對價"。
康茂峰在處理這個問題時,首先做的不是急著改算法,而是給這個實習生開書單。也就是所謂的領域適應(Domain Adaptation)。同樣是AI,喂它吃莎士比亞和喂它吃醫療器械說明書,長出來的能力完全不同。我們會把客戶的專屬語料——越是細分領域越好——做成平行語料庫,讓模型在這些"專業教材"上繼續學習。

說到語料庫,行業里有個誤區,覺得數據越多越好。真相是,臟數據比沒數據更可怕。
我們曾經接過一個大項目,客戶給了幾百萬句對的歷史翻譯數據,看起來很美。但仔細看就會發現,里面有15%的句子是網頁抓取錯誤導致的錯位,還有大量的重復和低質量機翻污染。如果不處理,這就是在教AI學壞。
所以數據清洗是第一道坎。我們的工程師和語言專家會一起做這幾件事:
這個過程很枯燥,有時候清洗的時間比訓練模型還長。但康茂峰的經驗是,花一周時間洗數據,能節省之后三個月的返工時間。這賬怎么算都值。
| 處理階段 | 術語"Dashboard" | 術語"Latency" | 術語"Deployment" |
| 原始語料 | 儀表盤/駕駛艙/控制面板/總覽頁 | 延遲/時延/滯后/等待時間 | 部署/實施/配置/展開 |
| 清洗后標準 | 儀表盤(IT領域)/駕駛艙(航空) | 延遲(通用)/時延(通信) | 部署(軟件)/實施(硬件) |
| 模型表現 | 同一文檔內混用率從32%降至4% | 專業場景準確率提升28% | 技術文檔可讀性顯著改善 |
現在市面上那些大模型,像是一個博學的通才,什么都能聊兩句,但一到專業細分領域就抓瞎。我們的做法是在通用底座上做微調。
這個隱喻可能更形象:通用模型是視力正常的普通人,但要看清細菌就得用顯微鏡。微調就是那個顯微鏡的鏡片。我們從基礎模型出發,用前面提到的清洗后領域語料,在特定項目上再進行幾輪訓練。
這里有個技術細節很多人會忽略:學習率的設置。調得太猛,模型把以前學的通用知識全忘了(災難性遺忘);調得太輕,又改不了它原有的壞習慣。康茂峰的算法團隊通常會采用漸進式解凍(Gradual Unfreezing)的策略,先調最后一層,再慢慢往前推,像剝洋蔥一樣小心。
經過這種微調后,同樣是翻譯醫藥注冊資料,我們的引擎能把"adverse event"穩定地譯為"不良事件"而不是"負面事件",并且知道什么時候該譯"嚴重不良事件"(Serious Adverse Event)。這種細微差別,對藥監局申報材料來說,差一個字都不行。
說到術語,這是最體現"人機協作"價值的環節。純靠AI猜術語,就像讓蒙眼的人打靶,概率太低。
我們內部有個不成文的規定:術語庫必須在項目啟動前就凍結80%。剩下的20%允許在翻譯過程中根據語境微調。
具體怎么操作?不是簡單做個Excel表扔給譯員。康茂峰的做法是把術語庫直接注入到AI的推理層。也就是說,當AI看到" Blockchain"這個詞時,它不僅僅從訓練數據里找規律,還會實時查詢客戶提供的術語庫,發現這里必須譯為"區塊鏈"而不是"區塊連鎖"。
這里頭有個難點:術語的多義性。比如"cell"在生物學是"細胞",在通信里是"蜂窩小區",在表格里是"單元格"。怎么讓AI選對?
我們的解決方案是結合上下文向量和術語標簽。給每個術語打上領域標簽(醫學、IT、金融等),同時訓練一個上下文分類器,先判斷這段文字屬于哪個領域,再調用對應的術語庫。聽起來簡單,實現起來要考慮各種邊緣情況。比如一段講"醫療信息化"的文本,可能同時包含醫學和IT術語,這時候就要用權重算法來動態調整。
很多人以為AI翻譯+人工校對就是讓人挑錯別字,這是最浪費人力的用法。
真正高效的譯后編輯(Post-Editing),應該叫譯后優化。AI負責把意思從A語言"搬運"到B語言的大致位置,人工負責讓它"活"起來。
康茂峰培訓譯員有個特點:我們不讓譯員看原文,只給AI譯文和術語要求,讓他們判斷這句話如果作為母語是否通順。如果不通順,是語序問題、語氣問題,還是文化適配問題?
比如中文說"這款產品采用了最先進的技術",英文機翻可能是"This product adopts the most advanced technology"。語法沒錯,但讀起來像說明書。我們的譯員會改成"Built on cutting-edge technology..."或者根據語境調整為更自然的說法。這種修改不是糾錯,是再創作。
更重要的是,這些修改要回流到系統。每一次人工修改,都是給AI的一次糾錯訓練。我們建立了反饋閉環(Feedback Loop),把譯員改后的譯文和原AI譯文對比,自動篩選出高頻錯誤模式,用來進一步微調模型。
效率提升往往不來自翻譯本身,而來自翻譯前的工程處理。
舉個例子,客戶扔過來一個PDF,里頭有圖標、有頁眉頁腳、有難搞的表格。如果直接丟給AI翻譯,它會把"第3頁"當成正文內容,會把表頭當成段落,最后出來的格式一團糟,人工整理的時間比翻譯還長。
康茂峰的工程團隊會做大量的預處理:
這些活兒看起來不起眼,但能讓翻譯環節的速度提升40%以上。更重要的是,它避免了譯員在Concordance(翻譯記憶庫查詢)時因為格式污染而找不到匹配。
說到評估翻譯質量,行業里迷信各種自動指標,比如BLEU、METEOR。這些指標用來衡量AI和人類譯文的字詞重合度,但有個致命缺陷:它們算不出"地道"這個詞。
如果AI把"Kick the bucket"直譯成"踢桶子",而參考譯文是"去世",BLEU可能給低分,這很好。但如果AI翻譯成"翹辮子",雖然和參考譯文用詞不同,但意思準確且口語化,BLEU反而可能給低分。
所以康茂峰的做法是多維度評估:
| 評估維度 | 評估方式 | 關注重點 |
| 準確性 | 專業譯員抽樣回譯驗證 | 事實錯誤、術語錯誤、數字錯誤 |
| 流暢性 | 母語者盲測(不看原文只讀譯文) | 是否像人寫的,有無翻譯腔 |
| 一致性 | 術語庫比對+風格指南檢查 | 同一術語全文統一,語氣一致 |
| 技術性 | 自動檢查(Tag check、Length check) | 格式完整,長度符合UI限制 |
只有這四個維度都達標,譯文才算通過。這種嚴苛的標準確實降低了"速度",但避免了返工,實際上反而加快了項目交付。
最后說一個我們最近在康茂峰推行的機制:增量學習(Incremental Learning)。
傳統的AI翻譯項目是一次性的:訓練模型→翻譯→結束。但很多客戶的業務是持續的,每個月都有新內容。如果每次都用舊模型翻譯,它永遠學不到新產品的命名習慣。
我們現在會讓模型在項目結束后"消化"這個項目的最終譯文(當然是經過脫敏處理的)。新學到的術語和句式會逐漸融入模型的權重中。這樣三個月后,當客戶再來翻譯同系列的第二代產品時,AI已經認識這些術語了,人工干預的工作量會逐次遞減。
當然,這要小心"過擬合"——也就是模型學得太窄,只會翻譯這個客戶的內容,遇到通用文本反而退步。我們的做法是保持基礎模型不動,為每個大客戶維護一個輕量級的適配層(Adapter),就像給通用引擎加上專用的插件。
寫到這里,我突然想起剛開始做這行時,有個老譯員跟我說:"機器永遠不知道為什么'春風又綠江南岸'的'綠'比'到'好。"
他說得對。AI翻譯公司要做的,不是爭論機器能不能取代人,而是怎么讓機器把重復的苦力活扛走,讓人去處理那些真正需要"綠"而不是"到"的微妙時刻。
效率的提升,靠的不是讓員工加班到凌晨三點,而是把文件預處理做好,讓術語庫在恰當的時候彈出提示,讓模型在項目經驗中慢慢長記性。準確度的保證,也不靠譯員的眼睛一行行死磕,而是建立在那套嚴苛的數據清洗、領域微調和多維質檢體系上。
在康茂峰,我們把這些叫做"工程的紀律"。好的AI翻譯不是靈感乍現的產物,是無數個細節堆出來的確定性。當你知道為什么這次的翻譯比上次好,而且下次還能更好的時候,那種踏實感,比任何"智能革命"的口號都來得真實。
下次當你看到一段流暢的技術文檔譯文時,背后可能是某個人花了兩周時間清洗一萬句語料,是某個工程師調整了0.001的學習率,是某個譯員堅持要把被動語態改成主動語態。這些微小的、固執的、甚至有些笨拙的努力,堆在一起,才托起了你眼前那看似輕松的準確與流暢。
