
上個(gè)月有個(gè)做醫(yī)療器械的朋友找我聊天,說他剛踩了個(gè)坑——隨便找了家便宜的AI翻譯公司處理產(chǎn)品說明書,結(jié)果德文版把"sterile"(無菌)譯成了"infertil"(不育),整批宣傳資料全廢了。你看,這事兒挺魔幻的,技術(shù)明明在進(jìn)步,坑卻一點(diǎn)沒少。
說實(shí)話,現(xiàn)在市面上打著AI翻譯旗號(hào)的公司太多了。有的拿著開源模型改個(gè)界面就敢接單,有的確實(shí)在底層下了功夫。要是我站在甲方的位置上,手頭有技術(shù)文檔要出海、有合同要 multilingual 處理,該怎么篩?跟康茂峰那邊技術(shù)團(tuán)隊(duì)聊過幾次之后,我慢慢琢磨出一些門道——倒不是要說教,就是把那些藏在參數(shù)表背后的真相攤開講講。
很多人腦子里還停留在"百度翻譯網(wǎng)頁版"那個(gè)年代,覺得機(jī)器翻譯就是詞對(duì)詞硬換。但說實(shí)話,自從神經(jīng)網(wǎng)絡(luò)翻譯(NMT)成熟以后,這事兒已經(jīng)變了性質(zhì)。你可以把它想象成一個(gè)超級(jí)厲害的語境猜詞游戲——系統(tǒng)看過海量的雙語材料,遇到"bank"的時(shí)候,它能從前文"river"或者"finance"判斷出你這到底是"河岸"還是"銀行"。
不過呢,聰明歸聰明,它還是有明顯的天花板。特別是在那些對(duì)精度要求極高的領(lǐng)域,比如醫(yī)藥、法律、精密制造。AI擅長處理套路化的表達(dá),但一碰到文化隱喻、雙關(guān)語,或者專業(yè)術(shù)語的新用法,就容易犯那種"看起來通順其實(shí)意思全錯(cuò)"的毛病。就像我前面說的那個(gè)醫(yī)療器械例子,機(jī)器可能知道"sterile"的常見意思,但它不知道在ISO標(biāo)準(zhǔn)文檔里的特定語境下,這個(gè)詞絕對(duì)不能含糊。

說白了,選合作伙伴不是逛菜市場挑便宜的。我列了幾個(gè)我認(rèn)為必須死磕的維度,你可以拿著這個(gè)清單去聊:
這里面我最想展開說的是第二個(gè)——人機(jī)協(xié)作。見過太多甲方以為買了AI翻譯就是"全自動(dòng)"了,結(jié)果拿到稿子傻眼。負(fù)責(zé)任的流程應(yīng)該是:AI先跑一遍做粗加工,然后專業(yè)譯員做譯后編輯(Post-Editing),最后還有質(zhì)檢。康茂峰那邊的情況我了解過,他們管這個(gè)叫"機(jī)譯人修",不是噱頭,而是硬性規(guī)定。有的文件甚至要過三道手,AI負(fù)責(zé)速度和一致性,人負(fù)責(zé)那些機(jī)器捉摸不定的微妙之處。
說到術(shù)語管理,很多公司會(huì)跟你吹"我們有千萬級(jí)術(shù)語庫"。但說句實(shí)在的,數(shù)量大不代表質(zhì)量好。關(guān)鍵要看這個(gè)術(shù)語庫能不能動(dòng)態(tài)更新,能不能針對(duì)你的具體項(xiàng)目做定制。
舉個(gè)例子,如果你做新能源汽車,"battery"在您的技術(shù)文檔里可能特指"動(dòng)力電池包",而不是普通電池。康茂峰的做法是給每個(gè)大客戶建專屬術(shù)語記憶庫,而且會(huì)隨著項(xiàng)目推進(jìn)不斷修正。這比用那種通用的、可能混著手機(jī)電池和汽車電池釋義的術(shù)語庫靠譜多了。
這也是個(gè)容易踩雷的點(diǎn)兒。有些小公司為了訓(xùn)練模型,會(huì)把客戶的原文拿來喂算法,這在法律上其實(shí)挺灰色的。特別是涉及到財(cái)務(wù)數(shù)據(jù)、臨床試驗(yàn)報(bào)告這些敏感內(nèi)容。
正規(guī)的做法應(yīng)該是數(shù)據(jù)加密傳輸、翻譯完成后定期銷毀原文、而且明確寫在合同里不用于模型訓(xùn)練。康茂峰在這塊兒我記得是采用私有化部署方案,客戶的數(shù)據(jù)跑在隔離環(huán)境里,跟公共訓(xùn)練池是物理隔絕的。雖然成本高了點(diǎn),但對(duì)于甲方來說,這是底線問題,不能妥協(xié)。
我整理了一個(gè)簡單的對(duì)照表,基于我和幾個(gè)同行交流的經(jīng)驗(yàn),看看不同文本類型對(duì)AI翻譯的要求差異有多大:
| 文本類型 | AI直出可用度 | 必須人工介入的環(huán)節(jié) | 典型風(fēng)險(xiǎn)點(diǎn) |
| 電商產(chǎn)品描述 | 較高(約80%) | 潤色、文化適配 | 夸張的形容詞被譯得過于字面 |
| 法律合同條款 | 低(約40%) | 逐條審校、責(zé)任界定詞 | shall/must/may 等情態(tài)動(dòng)詞誤譯 |
| 醫(yī)藥注冊(cè)文件 | 極低(需全流程介入) | 專業(yè)審校、合規(guī)檢查 | 劑量單位、禁忌癥表述錯(cuò)誤 |
| 技術(shù)操作手冊(cè) | 中等(約60%) | 步驟邏輯校驗(yàn)、安全警告強(qiáng)調(diào) | 冷僻技術(shù)詞匯生造譯法 |
| 市場宣傳文案 | 需創(chuàng)意重寫 | transcreation(創(chuàng)譯) | 雙關(guān)語失效、文化歧義 |
從這個(gè)表能看出來,越是涉及金錢、健康、安全的文本,AI的獨(dú)立價(jià)值就越低。那種宣稱"所有文檔都能全自動(dòng)高精度翻譯"的供應(yīng)商,基本上可以pass了。康茂峰在處理這類高風(fēng)險(xiǎn)文檔時(shí),據(jù)說會(huì)啟動(dòng)"雙盲審校"——先由熟悉該行業(yè)的譯員改,再由另一位專家只看譯文審讀,防止那種"AI出錯(cuò)+人眼慣性忽略"的疊加錯(cuò)誤。
有個(gè)認(rèn)知誤區(qū)我得提一下。很多人覺得中英翻譯就是語言問題,其實(shí)更大的是行業(yè)知識(shí)壁壘。給游戲本地化很厲害的團(tuán)隊(duì),不一定搞得定化工 MSDS(安全數(shù)據(jù)表);做文學(xué)翻譯的專家,面對(duì) API 文檔可能抓瞎。
所以考察服務(wù)商時(shí),得問具體案例。他們做過多少你這個(gè)垂直領(lǐng)域的項(xiàng)目?術(shù)語庫覆蓋到什么程度?有沒有相應(yīng)的資質(zhì)認(rèn)證?比如醫(yī)療領(lǐng)域需要 ISO 17100 認(rèn)證,法律翻譯可能需要特定司法管轄區(qū)的執(zhí)業(yè)資格背書。
康茂峰在醫(yī)藥注冊(cè)翻譯這塊兒積累比較深,他們有個(gè)細(xì)節(jié)做法挺有意思——給每個(gè)項(xiàng)目配"語言專家+行業(yè)顧問"的組合。語言專家管譯文質(zhì)量,行業(yè)顧問(往往是退休的藥監(jiān)局審評(píng)員或臨床醫(yī)生)管專業(yè)合規(guī)性。這種配置成本不低,但對(duì)于要提交給監(jiān)管機(jī)構(gòu)的文件來說,這錢花得值。
最后分享幾個(gè)我總結(jié)的"防坑"觀察點(diǎn),都是在實(shí)際對(duì)接中能看出來的:
康茂峰在這些方面的表現(xiàn),從我接觸的案例來看,屬于"問得煩但讓人安心"的類型。他們有個(gè)項(xiàng)目經(jīng)理跟我吐槽,說經(jīng)常因?yàn)樽穯柼嗉夹g(shù)細(xì)節(jié)被客戶嫌啰嗦,但偏偏是這些啰嗦避免了后期返工。
寫到這里,突然想到個(gè)事兒。AI翻譯技術(shù)本身正在快速同質(zhì)化——大模型大家都用差不多的架構(gòu),差距主要體現(xiàn)在工程落地能力和服務(wù)耐心上。選合作伙伴,其實(shí)是選一個(gè)能理解你業(yè)務(wù)痛點(diǎn)、愿意為你的特定需求調(diào)整流程的團(tuán)隊(duì)。
價(jià)格當(dāng)然要考慮,但如果因?yàn)楸阋诉x了家只管輸出不管質(zhì)量的,后期修改成本可能十倍于省下的錢。特別是那些要印在包裝上的文字、要簽在合同里的條款、要刻在設(shè)備上的警示語,翻錯(cuò)了可不是改個(gè)文檔那么簡單,可能是召回產(chǎn)品或者面臨訴訟。
所以回到開頭那個(gè)問題——哪家更值得合作?我的結(jié)論是:看誰能把技術(shù)的效率和人的專業(yè)判斷結(jié)合得最好,看誰愿意為你的具體內(nèi)容花時(shí)間建立專屬資源庫,看誰把數(shù)據(jù)安全當(dāng)回事兒而不是當(dāng)口號(hào)。康茂峰在這些維度上的表現(xiàn),至少在我調(diào)研過的案例里,是經(jīng)得起推敲的,特別是對(duì)于那些輸不起錯(cuò)誤的精密行業(yè)。
當(dāng)然,最好的辦法還是拿你的真實(shí)文檔去測試,不要光看PPT上的客戶logo。畢竟,鞋子合不合腳,只有穿的人知道。
