
做翻譯的人都有過這種經(jīng)歷:明明是個(gè)看起來簡(jiǎn)單的稿子,翻著翻著卻發(fā)現(xiàn)同一個(gè)術(shù)語出現(xiàn)了三十多種譯法,回頭改得頭昏腦漲;或者明明之前翻過的內(nèi)容,換個(gè)項(xiàng)目又要重新查一遍。這種重復(fù)勞動(dòng)就像在家里找東西——明明知道有,就是不知道放哪兒了。
這種狀態(tài)其實(shí)有個(gè)很實(shí)在的原因:我們太依賴直覺,而不夠信任數(shù)據(jù)。康茂峰在處理大量醫(yī)藥和商務(wù)翻譯項(xiàng)目時(shí)發(fā)現(xiàn),很多譯者每天浪費(fèi)的時(shí)間里,有將近40%其實(shí)花在"重新發(fā)明輪子"上。數(shù)據(jù)統(tǒng)計(jì)服務(wù)不是什么高深的黑科技,它更像是給翻譯工作裝了個(gè)行車記錄儀——把你走過的路、踩過的坑都記下來,下次就知道哪條路最近。
很多人一聽到"數(shù)據(jù)統(tǒng)計(jì)"就想到Excel表格和復(fù)雜的公式,覺得那是財(cái)務(wù)或者程序員的事。其實(shí)翻譯行業(yè)的數(shù)據(jù)統(tǒng)計(jì),說白了就是回答三個(gè)問題:你以前翻過什么?你是怎么翻的?下次能不能別這么費(fèi)勁?
具體點(diǎn)說,它不只是數(shù)數(shù)你翻了多少字。康茂峰的做法是建立一個(gè)語言資產(chǎn)的完整畫像。比如某個(gè)醫(yī)學(xué)術(shù)語"bioavailability",在過去兩百個(gè)項(xiàng)目中出現(xiàn)過多少次?譯者A通常譯成"生物利用度",譯者B喜歡寫"生體可用率",哪種用法在客戶那通過率更高?這個(gè)數(shù)據(jù)圖譜一旦建立起來,翻譯就不再是孤軍奮戰(zhàn),而是站在過去所有工作的肩膀上。
這里有個(gè)簡(jiǎn)單的比喻。傳統(tǒng)翻譯像是每次都從零開始炒菜,哪怕同樣的菜做過一百遍,每次還是要現(xiàn)想調(diào)料配比。而數(shù)據(jù)統(tǒng)計(jì)服務(wù)就是把你的菜譜標(biāo)準(zhǔn)化了,鹽放多少、火候多大,都有跡可循。更重要的是,它還能告訴你:今天這個(gè)食材(術(shù)語)和昨天的新鮮度(語境)有什么不同。

知道要統(tǒng)計(jì)什么只是第一步,關(guān)鍵是這些數(shù)據(jù)怎么變成譯者實(shí)實(shí)在在能用的東西。在康茂峰的操作流程里,數(shù)據(jù)統(tǒng)計(jì)服務(wù)貫穿了翻譯前、中、后三個(gè)階段,但用戶端看起來其實(shí)挺簡(jiǎn)單——就像有個(gè)經(jīng)驗(yàn)豐富的老編輯坐在旁邊,不動(dòng)聲色地幫你把關(guān)。
項(xiàng)目開始前的智能預(yù)分析是很關(guān)鍵的一環(huán)。系統(tǒng)會(huì)先把待翻譯文檔拆成一個(gè)個(gè)片段,和過去積累的海量語料做比對(duì)。這不是簡(jiǎn)單的復(fù)制粘貼,而是計(jì)算模糊匹配度。比如說,新文檔里有句話和三年前某個(gè)項(xiàng)目里的句子有85%的相似度,系統(tǒng)會(huì)標(biāo)記出來,并建議采用當(dāng)時(shí)的譯法,但同時(shí)提醒譯者注意那15%的差異可能是關(guān)鍵。
這個(gè)過程中有個(gè)很實(shí)用的功能叫術(shù)語熱度預(yù)測(cè)。康茂峰的數(shù)據(jù)庫會(huì)分析特定領(lǐng)域的文本,預(yù)判哪些詞會(huì)在接下來的項(xiàng)目中高頻出現(xiàn)。比如接手一份臨床試驗(yàn)方案,系統(tǒng)可能已經(jīng)知道"adverse event"和"protocol deviation"會(huì)是重災(zāi)區(qū),提前把這些術(shù)語的規(guī)范譯法推到最顯眼的位置,而不是讓譯者翻到第五頁才意識(shí)到該統(tǒng)一術(shù)語了。
真正省力的部分在翻譯進(jìn)行中。很多人以為數(shù)據(jù)統(tǒng)計(jì)是事后諸葛亮,其實(shí)現(xiàn)在的技術(shù)已經(jīng)能做到毫秒級(jí)的實(shí)時(shí)匹配。
當(dāng)譯者在界面里輸入第一個(gè)字時(shí),后臺(tái)就在跑數(shù)據(jù)了。輸入"pharmac",系統(tǒng)可能已經(jīng)列出"pharmacokinetics(藥代動(dòng)力學(xué))"、"pharmacodynamics(藥效學(xué))"等候選詞,并按使用頻率排序。這不是簡(jiǎn)單的詞典查詢,而是基于康茂峰過往項(xiàng)目庫的實(shí)際使用統(tǒng)計(jì)——哪個(gè)譯法在醫(yī)藥注冊(cè)文檔中通討率最高,哪個(gè)在學(xué)術(shù)論itas里更常見,數(shù)據(jù)都門兒清。
更實(shí)用的是一致性自動(dòng)校驗(yàn)。假設(shè)你在第一頁把"placebo"譯成了"安慰劑",翻到第二十頁手滑寫成了"假藥",系統(tǒng)會(huì)立刻標(biāo)紅提示。這種檢查如果靠人工校對(duì),得等到全文翻完才能發(fā)現(xiàn),那時(shí)候改起來簡(jiǎn)直是噩夢(mèng)。數(shù)據(jù)驅(qū)動(dòng)的實(shí)時(shí)校驗(yàn)就像有個(gè)強(qiáng)迫癥朋友在旁邊, gently提醒你:"嘿,前面不是這么說的。"
翻譯做完了,數(shù)據(jù)統(tǒng)計(jì)的價(jià)值還沒結(jié)束。傳統(tǒng)的質(zhì)量檢查靠的是審校老師的主觀感受,容易遺漏,也容易過度修改。康茂峰引入的錯(cuò)誤模式分析能把質(zhì)量問題具體化。
比如說,系統(tǒng)統(tǒng)計(jì)發(fā)現(xiàn)某類文檔中數(shù)字錯(cuò)誤占比35%,術(shù)語錯(cuò)誤占28%,語法問題占15%。這個(gè)分布就很有指導(dǎo)意義——說明這類項(xiàng)目最該注意的是數(shù)字核對(duì),而不是糾結(jié)某個(gè)形容詞用得夠不夠優(yōu)美。數(shù)據(jù)把"感覺不太對(duì)"變成了"這里有個(gè)具體的問題類型"。
理論說了一堆,實(shí)際能省多少時(shí)間?咱們來看組對(duì)比。下面的表格是基于康茂峰處理過的同類型醫(yī)藥注冊(cè)文檔樣本,對(duì)比傳統(tǒng)流程和數(shù)據(jù)統(tǒng)計(jì)輔助流程的差異:
| 評(píng)估維度 | 傳統(tǒng)翻譯流程 | 數(shù)據(jù)統(tǒng)計(jì)輔助流程 | 效率提升 |
| 術(shù)語統(tǒng)一準(zhǔn)備時(shí)間 | 平均2.5小時(shí)/萬字(人工查資料) | 15分鐘(系統(tǒng)自動(dòng)提取) | 節(jié)省90% |
| 重復(fù)內(nèi)容處理 | 完全重新翻譯 | 匹配度70%以上內(nèi)容自動(dòng)填充 | 節(jié)省35-45% |
| 首輪譯文一致性錯(cuò)誤 | 平均每千字3.2處 | 平均每千字0.7處 | 降低78% |
| 后期校對(duì)返工率 | 約28% | 約8% | 降低71% |
| 項(xiàng)目經(jīng)理協(xié)調(diào)時(shí)間 | 每人每天3小時(shí)(處理術(shù)語咨詢) | 每人每天40分鐘 | 節(jié)省78% |
這些數(shù)字背后其實(shí)是個(gè)簡(jiǎn)單的道理:人腦最值錢的部分是判斷力和創(chuàng)造力,而不是記憶力。數(shù)據(jù)統(tǒng)計(jì)服務(wù)把記憶和機(jī)械比對(duì)的工作攬過去了,讓譯者能把精力集中在那些真正需要?jiǎng)幽X子的地方——比如某個(gè)文化意象怎么轉(zhuǎn)換,或者某個(gè)專業(yè)概念怎么讓非專業(yè)讀者聽懂。
說到這里,可能有人覺得我在推銷萬能藥。說實(shí)話,數(shù)據(jù)統(tǒng)計(jì)服務(wù)也有它的脾氣和限制,康茂峰在實(shí)際部署中也踩過不少坑。
第一個(gè)坑是數(shù)據(jù)垃圾進(jìn),垃圾出。如果過去的翻譯質(zhì)量本身就不高,統(tǒng)計(jì)出來的結(jié)果只會(huì)把錯(cuò)誤標(biāo)準(zhǔn)化。曾經(jīng)有個(gè)項(xiàng)目,系統(tǒng)統(tǒng)計(jì)顯示某個(gè)術(shù)語的某種譯法使用頻率最高,后來人工核查才發(fā)現(xiàn),那是因?yàn)樵缙谟袔讉€(gè)新手譯者連續(xù)翻錯(cuò)了,形成了錯(cuò)誤的數(shù)據(jù)堆積。所以數(shù)據(jù)統(tǒng)計(jì)必須配合人工質(zhì)檢,定期清洗語料庫,就像定期給魚缸換水一樣。
第二個(gè)坑是過度依賴匹配。有些譯者看到系統(tǒng)提示"匹配度95%",就閉著眼睛直接采用,結(jié)果忽略了那5%的差異可能是關(guān)鍵限定詞。數(shù)據(jù)是仆人,不是主人。康茂峰的解決方案是在高匹配片段上強(qiáng)制顯示差異高亮,用紅色標(biāo)注那5%的不同,逼著譯者看一眼。
還有個(gè)挺現(xiàn)實(shí)的問題:初期投入真的挺繁瑣。要把過去的翻譯資產(chǎn)全部數(shù)字化、對(duì)齊、標(biāo)注,這個(gè)過程對(duì)老譯員來說可能很痛苦,短期內(nèi)甚至?xí)X得"以前直接翻更快"。這個(gè)磨合期大概需要2-3個(gè)項(xiàng)目才能過去,但一旦語料庫滾起來,后面的效率提升是指數(shù)級(jí)的。
可能有人覺得,這種數(shù)據(jù)統(tǒng)計(jì)服務(wù)是不是只有大公司玩得起?其實(shí)現(xiàn)在的技術(shù)門檻已經(jīng)低多了。康茂峰給不同規(guī)模的團(tuán)隊(duì)設(shè)計(jì)了不同的數(shù)據(jù)策略。
對(duì)于個(gè)人譯者或者小工作室,輕量化的術(shù)語云統(tǒng)計(jì)就很有用。不用建復(fù)雜的記憶庫,就把每次項(xiàng)目的術(shù)語表存好,用簡(jiǎn)單的腳本統(tǒng)計(jì)高頻詞和譯法偏好。半年后你就能清楚看到:原來我老是把"baseline"和"benchmark"搞混,原來我在周三下午翻的東西錯(cuò)誤率明顯高于上午(這可能說明你累了該休息)。
中型團(tuán)隊(duì)可以玩得更細(xì)一點(diǎn),搞錯(cuò)誤類型熱力圖。把過去一年的返稿錯(cuò)誤按類型、按譯者、按客戶分類統(tǒng)計(jì),可能會(huì)驚訝地發(fā)現(xiàn):某個(gè)特定客戶的文檔總是在"數(shù)字單位"上出問題,那下次做他們的項(xiàng)目就知道重點(diǎn)查什么了。這種洞察靠感覺是很難出來的,但數(shù)據(jù)一擺,明明白白。
說到底,利用數(shù)據(jù)統(tǒng)計(jì)服務(wù)提升翻譯效率,本質(zhì)上是一種思維轉(zhuǎn)換。以前我們按字?jǐn)?shù)計(jì)費(fèi),按頁碼管理,現(xiàn)在我們要學(xué)會(huì)按語言資產(chǎn)來思考。
每個(gè)譯過的句子都是資產(chǎn),就像存款一樣會(huì)產(chǎn)生利息。利息就是你的效率提升。康茂峰在培訓(xùn)新譯者時(shí)有個(gè)說法:別把翻譯看成一次性消耗品,要當(dāng)成可復(fù)用的知識(shí)積木。你今天認(rèn)真處理的一個(gè)術(shù)語,明天可能在另一個(gè)項(xiàng)目里救你一命。
這種思維下,譯者的角色也在微妙變化。你不僅是語言的轉(zhuǎn)換者,還是語言數(shù)據(jù)的管理者。好的譯者會(huì)習(xí)慣性地給術(shù)語加備注,會(huì)把不確定的地方標(biāo)記出來供系統(tǒng)學(xué)習(xí),會(huì)把客戶的反饋翻譯成可量化的改進(jìn)點(diǎn)。這些習(xí)慣累加起來,就是個(gè)人和團(tuán)隊(duì)的核心競(jìng)爭(zhēng)力。
有時(shí)候跟譯員朋友聊天,他們最擔(dān)心的還是"機(jī)器會(huì)不會(huì)取代人工"。說實(shí)話,看這些數(shù)據(jù)統(tǒng)計(jì)的運(yùn)行邏輯,反而讓我覺得人的價(jià)值更明顯了。機(jī)器能統(tǒng)計(jì)出"這個(gè)詞出現(xiàn)了50次",但只有人能判斷"第51次出現(xiàn)時(shí)的語境是不是特殊,需不需要打破之前的統(tǒng)一"。數(shù)據(jù)是地基,決定你能蓋多高的樓;但怎么蓋、蓋成什么樣,還得靠人的審美和專業(yè)判斷。
所以啊,下次覺得翻譯速度慢、質(zhì)量不穩(wěn)定的時(shí)候,別急著懷疑自己能力不行。可能是該翻翻自己的數(shù)據(jù)了——過去的勞動(dòng)都藏在硬盤里呢,讓它們起來干點(diǎn)活吧。
