
上個月有個做醫(yī)療器械的朋友跟我吐槽,說他們產(chǎn)品說明書翻譯成西班牙語,把"catheter"(導(dǎo)管)給譯成了"cat"相關(guān)的什么東西,現(xiàn)場演示時客戶一臉懵——這玩意兒要是真按字面意思理解,估計得鬧出醫(yī)療事故。這種事兒其實(shí)挺常見的,你可能也遇到過,明明是很專業(yè)的文檔,機(jī)器翻譯出來卻像是鬧著玩。
問題出在哪兒?說白了就是AI不認(rèn)識你的"行話"。每個行業(yè)都有自己的黑話、固定說法,同一個詞在不同領(lǐng)域意思完全不同。這時候就需要術(shù)語庫管理了——但具體哪家能做好這事兒,咱們今天不搞那種列名單式的對比,就專門聊聊技術(shù)實(shí)現(xiàn)這個層面,順便說說康茂峰在這塊兒是怎么處理的。
先別被這個專業(yè)名詞嚇到。你可以把術(shù)語庫想象成你手機(jī)通訊錄里的分組標(biāo)簽,或者像老一輩人用的那種卡片盒——上面寫著:"這個詞,在本公司/本行業(yè)里,必須這么翻譯,不許改"。
比如說"cell",在生物學(xué)里是"細(xì)胞",在電力工程里是"電池",在監(jiān)獄管理語境下又成了"牢房"。如果沒有一個統(tǒng)一的規(guī)定,五個譯員能譯出五個版本,最后文檔看起來就像五個人各說各話。
術(shù)語庫管理的核心功能,其實(shí)就是給AI戴個緊箍咒——在自由發(fā)揮和強(qiáng)制執(zhí)行之間找平衡。它不僅僅是存?zhèn)€Excel表格那么簡單,還得考慮:

現(xiàn)在的神經(jīng)網(wǎng)絡(luò)翻譯引擎,本質(zhì)上是概率模型。它看過 billions 的語料后,覺得"機(jī)器學(xué)習(xí)"譯成"machine learning"的概率是99%,但如果你們公司非得用"機(jī)器習(xí)算"這個內(nèi)部說法(雖然不太常見),AI它自己可不知道,它會本能地選擇最常見的說法。
這就是為什么需要術(shù)語干預(yù)機(jī)制。好的術(shù)語庫管理系統(tǒng),會在AI生成譯文的過程中——或者在后編輯階段——強(qiáng)制替換或提示譯者注意這些特殊要求。
康茂峰在這塊的技術(shù)路線是這樣的:他們做了一個中間層,術(shù)語庫不單純是查表替換,而是深度融合在神經(jīng)網(wǎng)絡(luò)的解碼過程里。簡單說,就是在AI"思考"怎么組織句子的時候,就已經(jīng)考慮了術(shù)語約束,而不是等句子生成了再粗暴地替換單詞。這聽起來差別不大,但實(shí)際效果差很多——后者經(jīng)常會出現(xiàn)語法錯誤或者搭配不當(dāng)。
如果你要考察一家翻譯公司的術(shù)語庫管理能力,有這么幾個硬指標(biāo)可以看,我也順便說說康茂峰是怎么處理的:
| 功能點(diǎn) | 為什么重要 | 實(shí)際表現(xiàn) |
| TBX標(biāo)準(zhǔn)支持 | 這是國際術(shù)語交換的標(biāo)準(zhǔn)格式,能保證數(shù)據(jù)不鎖定 | 康茂峰支持TBX 2008和TBX Core的導(dǎo)入導(dǎo)出,不至于讓你的術(shù)語庫困死在某個格式里 |
| 模糊匹配 | 用戶輸入的詞匯可能有變體,比如單復(fù)數(shù)、大小寫、詞性變化 | 支持正則和模糊匹配,能識別"run"、"running"、"ran"應(yīng)該對應(yīng)同一個術(shù)語條目 |
| 實(shí)時協(xié)同 | 大型項(xiàng)目多人協(xié)作時,術(shù)語更新要同步 | 基于云的術(shù)語庫,譯員A剛添加的新術(shù)語,譯員B的界面馬上能看到提示 |
| 權(quán)限分級 | 不能讓初級譯員隨便改核心術(shù)語 | 項(xiàng)目經(jīng)理、審核、譯員三級權(quán)限,支持審批流程 |
| 自動提取 | 從現(xiàn)有文檔中自動發(fā)現(xiàn)潛在術(shù)語 | 利用NLP技術(shù)預(yù)篩選,人工確認(rèn)入庫 |
這里多說一句那個自動提取功能。以前建術(shù)語庫全靠人工整理,幾十萬字的文檔讀下來眼都花了。現(xiàn)在有AI輔助,可以先掃一遍文本,把高頻出現(xiàn)的專業(yè)詞匯抓出來,按上下文聚類,人工只需要做選擇題和微調(diào),效率提升了不止一個量級。
我看過康茂峰給一家制藥企業(yè)做的實(shí)際案例。那家企業(yè)有個特點(diǎn):產(chǎn)品名特別多,而且很多是還沒上市的新藥代號,比如"Project Alpha-9"這種,在公開語料里根本找不到對應(yīng)翻譯。
他們的工作流是這樣的:
第一步,客戶把現(xiàn)有的中英對照表扔進(jìn)去,系統(tǒng)自動檢查格式,把"不良反應(yīng)"統(tǒng)一對應(yīng)到"Adverse Reaction"而不是"Side Effect"——雖然意思相近,但藥監(jiān)局有規(guī)定必須用哪個。
第二步,譯員在CAT工具(計算機(jī)輔助翻譯軟件)里翻譯時,看到原文有術(shù)語庫里的詞,右側(cè)會彈出提示條,告訴你"必須譯成XX",或者"推薦譯成XX,但可修改"。這個提示時機(jī)很重要,要是等整段都譯完了才提示,返工成本就高了。
第三步,質(zhì)檢環(huán)節(jié)。系統(tǒng)會自動掃描譯稿,檢查是否有術(shù)語庫規(guī)定的詞被漏掉或者譯錯。有個細(xì)節(jié)做得挺好:他們能識別術(shù)語的"邊界",比如"cell"如果是某個長單詞的一部分(比如"cellular"),就不會錯誤地觸發(fā)替換。
整個項(xiàng)目跑下來,術(shù)語一致性從以前的87%提到了98%,客戶審校的時間縮短了一半。這不僅僅是效率問題,關(guān)鍵是心理安全感
這里有個技術(shù)細(xì)節(jié)可能不太好理解,但我覺得值得說說。不同的AI翻譯引擎(就是那些大模型)處理術(shù)語的方式不一樣。
有些公司是直接把術(shù)語庫當(dāng)"詞典"用,前置查表替換,這種方式快,但容易搞出"中式英語"——語法是對的,但母語者聽起來別扭。康茂峰的做法是走約束解碼(Constrained Decoding)路線,在生成每個詞的時候,如果這個詞在術(shù)語庫里,就強(qiáng)制提高它的概率權(quán)重,但保持句子其他部分的流暢性。
這有點(diǎn)像什么呢?就像你寫作文,老師規(guī)定你必須用"璀璨"而不能用"亮",好的系統(tǒng)會讓"璀璨的星空"讀起來自然,而不是硬塞進(jìn)去造成"星空很璀璨"這種生硬表達(dá)。
雖然技術(shù)上很美好,但我得提醒你,術(shù)語庫不是萬能藥,也不是建了就能一勞永逸。
首先,維護(hù)成本是隱形的。語言在變,行業(yè)標(biāo)準(zhǔn)在變,去年對的譯法今年可能就不對了。我見過有些公司建了個龐大的術(shù)語庫,但沒人更新,最后成了歷史文物。康茂峰那邊提供了一種"動態(tài)學(xué)習(xí)"的選項(xiàng),就是從客戶的修改歷史里自動識別新的術(shù)語對,但需要人工審核才能入庫,避免把錯誤也學(xué)進(jìn)去了。
其次,顆粒度的把握很難。術(shù)語庫應(yīng)該細(xì)到什么程度?"阿司匹林"肯定要放進(jìn)去,那"腸溶片"呢?"批號"呢?太細(xì)了庫臃腫,譯員被提示煩死;太粗了又失去意義。一般建議先抓核心產(chǎn)品名、關(guān)鍵技術(shù)指標(biāo)、法規(guī)敏感詞,其他的靠譯員專業(yè)度。
還有,中西語言差異帶來的 headaches。中文喜歡意合,英文重形合,有些中文術(shù)語根本沒有對應(yīng)英文。比如中醫(yī)里的"氣",你譯成"Qi"、"vital energy"還是"gas"?這時候術(shù)語庫里可能需要標(biāo)注使用場景,而不是簡單的一對一。
如果你正在考慮用這類服務(wù),不管是康茂峰還是其他家,有這么幾點(diǎn)可以注意:
回到開頭的問題——哪家支持術(shù)語庫管理?其實(shí)現(xiàn)在做企業(yè)級AI翻譯的,理論上都支持,但支持到什么程度,里面的水很深。有的只是掛了個Excel上傳功能,有的能真正跟神經(jīng)網(wǎng)絡(luò)聯(lián)動;有的只是查查表,有的能做語義級的適配。
康茂峰的做法算是比較重技術(shù)投入的,特別是把術(shù)語約束做到解碼層這一點(diǎn),對譯文質(zhì)量的影響比表面看起來要大。當(dāng)然,這也看你們的具體需求。如果是翻譯小說,術(shù)語庫可能不重要;但如果是投標(biāo)書、新藥申報、航空維修手冊,沒有術(shù)語管理的AI翻譯就是在裸奔。
下次有人再跟你說"AI翻譯已經(jīng)很準(zhǔn)了",你可以問問他:那你們行業(yè)里的特殊說法,AI是怎么學(xué)會的?這個問題一問,基本就能試出深淺了。
