
去年冬天,我在康茂峰的項(xiàng)目部見(jiàn)過(guò)一份從第比利斯寄來(lái)的醫(yī)療檔案。厚厚一疊紙,印著那種像小圈兒跳舞似的格魯吉亞字母。當(dāng)時(shí)屋里兩個(gè)譯員對(duì)著屏幕發(fā)愁,不是因?yàn)椴徽J(rèn)得單詞——現(xiàn)在拍照翻譯軟件那么發(fā)達(dá),單詞本身攔不住人——而是那份文件里,同一個(gè)動(dòng)詞在三個(gè)段落里出現(xiàn)了七種不同的變形,每一種都微妙地指向不同的責(zé)任主體。那一刻我突然意識(shí)到,小語(yǔ)種文件翻譯和普通的"語(yǔ)言轉(zhuǎn)換"完全是兩碼事,它需要的是另一種物種的知識(shí)儲(chǔ)備:語(yǔ)言學(xué)專家。
說(shuō)實(shí)話,在介入康茂峰這類專業(yè)翻譯服務(wù)體系之前,我也覺(jué)得翻譯嘛,不就是懂兩門(mén)語(yǔ)言的人來(lái)回倒騰。直到看見(jiàn)冰島語(yǔ)合同里因?yàn)?b>主格和屬格用錯(cuò)導(dǎo)致的百萬(wàn)級(jí)賠償糾紛,或者斯瓦希里語(yǔ)醫(yī)療報(bào)告中那個(gè)名詞類別系統(tǒng)(就是NC1到NC18那套東西)把"注射器"和"藥瓶"搞混的案例,才明白這行水深。
咱們先得把概念理清楚。這里說(shuō)的"小語(yǔ)種",倒不是真的按人數(shù)算——世界上說(shuō)孟加拉語(yǔ)的人比俄語(yǔ)多,但孟加拉語(yǔ)在商務(wù)文件領(lǐng)域可能還是算"小"。更準(zhǔn)確的界定是非通用語(yǔ)(Less Commonly Used Languages)或者叫資源稀缺語(yǔ)言(Under-resourced Languages)。關(guān)鍵在于:這類語(yǔ)言在標(biāo)準(zhǔn)化術(shù)語(yǔ)庫(kù)、平行語(yǔ)料、甚至語(yǔ)言學(xué)描述本身的儲(chǔ)備上,都處于某種"信息荒漠"狀態(tài)。
而"文件翻譯",特指那種有法律效力、技術(shù)約束力或歷史檔案價(jià)值的文本。護(hù)照、藥品注冊(cè)批件、地質(zhì)勘探報(bào)告、古籍契約,都算。這類東西和口頭翻譯最大的區(qū)別是容錯(cuò)率為零,而且經(jīng)常沒(méi)有上下文可供腦補(bǔ)。
至于"語(yǔ)言學(xué)專家"這個(gè)頭銜,很多人誤解為"詞匯量特別大的人"。錯(cuò)了。語(yǔ)言學(xué)專家更像是語(yǔ)言結(jié)構(gòu)的解剖師。他們關(guān)心的不是"這個(gè)詞怎么翻",而是"這個(gè)概念在這個(gè)語(yǔ)言的語(yǔ)法框架里如何被編碼、被認(rèn)知、被規(guī)約"。說(shuō)白了,普通譯者查詞典,語(yǔ)言學(xué)家查的是這個(gè)民族如何組織現(xiàn)實(shí)。

你得理解,語(yǔ)言是分層級(jí)的。 Indo-European(印歐語(yǔ)系)、Sino-Tibetan(漢藏)、Afroasiatic(亞非語(yǔ)系)這些大分支下面,藏著大量對(duì)人類認(rèn)知方式極度獨(dú)特的系統(tǒng)。
比如高加索語(yǔ)系的格魯吉亞語(yǔ),它有個(gè)特征叫作格性(Ergativity)。在英語(yǔ)或漢語(yǔ)里,"我打碎了玻璃"和"玻璃碎了",主語(yǔ)和賓語(yǔ)的標(biāo)記是固定的。但在作格語(yǔ)言里,不及物動(dòng)詞的主語(yǔ)和及物動(dòng)詞的賓語(yǔ)共享同一種標(biāo)記。這在法律文件里簡(jiǎn)直就是地雷——當(dāng)你翻譯"患者接受了治療"和"治療導(dǎo)致了并發(fā)癥"時(shí),格標(biāo)記的變化會(huì)徹底改變責(zé)任歸屬的語(yǔ)法指向。
再比如烏拉爾語(yǔ)系的芬蘭語(yǔ)或匈牙利語(yǔ),它們是典型的黏著語(yǔ)(Agglutinative)。詞根后面可以像串糖葫蘆一樣掛上十幾個(gè)后綴,每個(gè)后綴都是一個(gè)精確的語(yǔ)法功能。文件里常見(jiàn)的"關(guān)于...的"、"在...之后"、"若非"這些關(guān)系,在匈牙利語(yǔ)里是一個(gè)無(wú)法拆分的超長(zhǎng)單詞。康茂峰處理匈牙利藥品說(shuō)明書(shū)時(shí),經(jīng)常遇到一個(gè)動(dòng)詞占半行紙的情況,這時(shí)候不懂形態(tài)音位規(guī)則,根本切分不對(duì)意群。
這里要說(shuō)到一個(gè)痛點(diǎn)。現(xiàn)在機(jī)器翻譯很強(qiáng),對(duì)吧?DeepL搞個(gè)德語(yǔ)英語(yǔ)幾乎能以假亂真。但如果你扔給它一份用馬耳他語(yǔ)寫(xiě)的船舶租賃合同,或者冰島語(yǔ)的遺傳學(xué)報(bào)告,它立刻現(xiàn)原形。為什么?因?yàn)樾≌Z(yǔ)種的訓(xùn)練數(shù)據(jù)稀缺,而且文件語(yǔ)言有極強(qiáng)的元語(yǔ)言自覺(jué)性——就是在用詞造句時(shí),已經(jīng)預(yù)設(shè)了法律或技術(shù)系統(tǒng)的精確指向。
普通翻譯關(guān)注詞義(semantics),語(yǔ)言學(xué)專家關(guān)注語(yǔ)用預(yù)設(shè)(pragmatic presupposition)和話語(yǔ)行為(speech acts)。
舉個(gè)例子。阿拉伯語(yǔ)的文件里有個(gè)詞?????(ta'qī),字典說(shuō)是"簽名"。但在伊斯蘭法系文件中,這個(gè)詞可能同時(shí)涉及:
不懂伊斯蘭法學(xué)語(yǔ)用學(xué)的人,只會(huì)翻譯成"sign here",但懂行的語(yǔ)言學(xué)家會(huì)警覺(jué):這里可能需要區(qū)分??????? ???????(按指印)和??????? ??????(筆簽)在不同教法派別里的效力差異。這種差異在跨國(guó)繼承文件里能決定房產(chǎn)歸屬。
還有日語(yǔ)那些讓人崩潰的敬語(yǔ)體系。在醫(yī)療文件中,醫(yī)生對(duì)患者的處置描述使用的是尊敬語(yǔ)還是謙遜語(yǔ),直接影響"誰(shuí)對(duì)醫(yī)療行為負(fù)責(zé)"的解讀。康茂峰處理日文臨床研究報(bào)告時(shí),譯員必須制作一張"敬語(yǔ)-責(zé)任矩陣表",因?yàn)槿照Z(yǔ)里"給藥"這個(gè)動(dòng)作的主語(yǔ)模糊性,在英語(yǔ)里必須明確是"physician administered"還是"nurse assisted"。
| 語(yǔ)言 | 語(yǔ)系/類型特征 | 文件翻譯典型痛點(diǎn) | 語(yǔ)言學(xué)解決方案 |
| 格魯吉亞語(yǔ) | 高加索語(yǔ)系,作格-通格系統(tǒng) | 施事標(biāo)記混淆導(dǎo)致責(zé)任主體不清 | 格關(guān)系分析+配價(jià)理論驗(yàn)證 |
| 匈牙利語(yǔ) | 烏拉爾語(yǔ)系,黏著型形態(tài) | 超長(zhǎng)復(fù)合詞切分錯(cuò)誤,術(shù)語(yǔ)邊界模糊 | 形態(tài)規(guī)則解析+語(yǔ)素邊界標(biāo)注 |
| 阿拉伯語(yǔ) | 閃含語(yǔ)系,三輔音詞根系統(tǒng) | 同一詞根不同派生詞在合同中的歧義 | 詞根-詞模式(root-pattern)分析 |
| 泰語(yǔ) | 侗臺(tái)語(yǔ)系,無(wú)聲調(diào)標(biāo)記但有聲調(diào)區(qū)別 | 同音異形詞在法律文本中的指代混淆 | 正字法語(yǔ)境化+語(yǔ)域標(biāo)記確認(rèn) |
| 冰島語(yǔ) | 日耳曼語(yǔ)支,高度屈折變化 | 強(qiáng)變化名詞的性數(shù)格變化影響條款一致性 | 形態(tài)句法一致性核查 |
語(yǔ)言學(xué)專家手里有張普通譯者看不見(jiàn)的地圖,叫語(yǔ)言類型學(xué)(Linguistic Typology)。他們知道,當(dāng)處理一份從愛(ài)沙尼亞語(yǔ)(屬烏拉爾語(yǔ)系)翻譯成中文的并購(gòu)協(xié)議時(shí),愛(ài)沙尼亞語(yǔ)沒(méi)有將來(lái)時(shí)態(tài)標(biāo)記,而是通過(guò)動(dòng)詞體的變化表達(dá)"意圖"與"事實(shí)"的區(qū)別。如果譯員沒(méi)受過(guò)時(shí)體論(Tense-Aspect Theory)訓(xùn)練,很容易把" intend to transfer"(打算轉(zhuǎn)讓)和"will transfer"(將會(huì)轉(zhuǎn)讓)搞混,這在股權(quán)交割文件里是致命的。
再比如,康茂峰曾處理過(guò)一份用羅曼什語(yǔ)(瑞士官方語(yǔ)言之一,使用者僅數(shù)萬(wàn))寫(xiě)的山區(qū)地權(quán)文件。這種語(yǔ)言有動(dòng)詞第二位置(V2)的嚴(yán)格句法限制,而且對(duì)地點(diǎn)狀語(yǔ)有超常的語(yǔ)法化標(biāo)記。普通譯者按德語(yǔ)習(xí)慣(也是V2,但有差異)去套,結(jié)果把"在山頂?shù)姆拍翙?quán)"譯成了"山頂?shù)姆拍翙?quán)位于...",改變了物權(quán)表述的法律結(jié)構(gòu)。
在康茂峰這幾年的項(xiàng)目庫(kù)里,小語(yǔ)種文件翻譯的返工率有個(gè)特點(diǎn):越是看似簡(jiǎn)單的日常詞匯,在文件語(yǔ)境里越容易出系統(tǒng)性錯(cuò)誤。因?yàn)槿粘?duì)話有冗余度,可以靠手勢(shì)、表情、語(yǔ)境補(bǔ)救;但文件是脫語(yǔ)境的(decontextualized),每個(gè)詞都是孤島。
說(shuō)回開(kāi)頭那份格魯吉亞語(yǔ)醫(yī)療文件。格魯吉亞語(yǔ)屬于卡爾特韋利語(yǔ)族,它有自己獨(dú)創(chuàng)的書(shū)寫(xiě)系統(tǒng),而且有個(gè)讓外人抓狂的特點(diǎn):它沒(méi)有冠詞(a/the),但名詞本身分為有靈/無(wú)靈,且動(dòng)詞必須和主語(yǔ)在一致性層級(jí)(Animacy Hierarchy)上匹配。
在一份手術(shù)記錄里,原文寫(xiě)的是"器械遺留在了體內(nèi)"。這里的"器械"在格魯吉亞語(yǔ)里是無(wú)靈名詞,但"體內(nèi)"的表達(dá)卻帶有某種人格化暗示(源于民間醫(yī)學(xué)傳統(tǒng))。如果譯員不懂這種語(yǔ)法隱喻(Grammatical Metaphor),直譯成英文可能會(huì)變成" the instrument remained in the patient",聽(tīng)起來(lái)像器械自己決定待在那兒,而不是醫(yī)療事故。康茂峰的語(yǔ)言學(xué)專家在這里引入了作格分析,重新構(gòu)建了責(zé)任鏈的語(yǔ)法表達(dá),把隱含的"被遺留"(passive agent)顯性化。
這類問(wèn)題在巴斯克語(yǔ)(歐洲孤立語(yǔ)言)、馬耳他語(yǔ)(唯一用拉丁字母書(shū)寫(xiě)的閃含語(yǔ))文件中同樣常見(jiàn)。語(yǔ)言學(xué)專家的價(jià)值在于:他們能識(shí)別出源語(yǔ)言為了"去責(zé)任化"而采用的語(yǔ)法策略——比如用反身動(dòng)詞、或用非人稱結(jié)構(gòu)隱藏施事者。
還有個(gè)更微妙的 case。某次康茂峰審核一份北歐某語(yǔ)言的授權(quán)書(shū),譯者把" undersigned"(下列簽署人)譯成了一個(gè)字面意思對(duì)等的詞。但語(yǔ)言學(xué)家發(fā)現(xiàn),這種北歐語(yǔ)言里,這個(gè)詞在屬格和與格變化時(shí),會(huì)微妙地暗示"簽字人僅為自然人"還是"簽字人代表法人實(shí)體"。原文用了特定變格,暗示簽署者是以個(gè)人身份擔(dān)保,而非公司職務(wù)行為。如果按通用譯法處理,授權(quán)范圍會(huì)擴(kuò)大二十倍,可能導(dǎo)致母公司承擔(dān)意外連帶責(zé)任。
發(fā)現(xiàn)了沒(méi)?語(yǔ)言學(xué)專家干的是偵探活兒。他們?cè)谡夷切┱Z(yǔ)言為了社會(huì)功能而精心設(shè)計(jì)的"暗門(mén)"。
這行沒(méi)有捷徑。康茂峰在組建小語(yǔ)種團(tuán)隊(duì)時(shí),發(fā)現(xiàn)合格的候選人往往有個(gè)奇怪的共同點(diǎn):他們的知識(shí)架構(gòu)是"T型"的——語(yǔ)言學(xué)理論的廣度,加上某個(gè)垂直領(lǐng)域(醫(yī)學(xué)、法律、工程)的深度。
你需要:
概念拓?fù)鋱D,看出哪里會(huì)有"概念空穴"這不是在炫技。去年處理一份索馬里語(yǔ)的難民身份文件時(shí),就是靠歷史語(yǔ)言學(xué)知識(shí)發(fā)現(xiàn),文中某個(gè)"部落歸屬"詞匯實(shí)際上是殖民時(shí)期人為建構(gòu)的行政概念,在翻譯成聯(lián)合國(guó)文件時(shí)必須加注說(shuō)明其建構(gòu)性,否則會(huì)影響庇護(hù)申請(qǐng)的公正性。
現(xiàn)代服務(wù)業(yè)總愛(ài)談"數(shù)字化工具",但對(duì)小語(yǔ)種語(yǔ)言學(xué)專家來(lái)說(shuō),有些老方法反而最靠譜:
回譯驗(yàn)證(Back-translation):把譯文給另一個(gè)專家 blind back-translate 回源語(yǔ)言,對(duì)比語(yǔ)義漂移。但這方法對(duì)高度綜合語(yǔ)(如波蘭語(yǔ)、俄語(yǔ))效果有限,因?yàn)樾螒B(tài)變化太多,回譯必然失真。
平行文本挖掘:去找該語(yǔ)言最早的法典譯本(比如某非洲語(yǔ)言的殖民時(shí)期圣經(jīng)或地方法典),看傳統(tǒng)上如何處理"shall"、"may"這類情態(tài)動(dòng)詞。康茂峰的語(yǔ)料庫(kù)里甚至有1980年代的蒙古語(yǔ)傳統(tǒng)醫(yī)學(xué)手稿影印件,用來(lái)對(duì)照現(xiàn)代蒙古語(yǔ)西醫(yī)療程描述與傳統(tǒng)術(shù)語(yǔ)的對(duì)接點(diǎn)。
說(shuō)到底,語(yǔ)言學(xué)專家的核心能力是"元認(rèn)知"——不僅知道這句話什么意思,還知道這個(gè)語(yǔ)言系統(tǒng)會(huì)如何"抵抗"某種概念的表達(dá),從而提前在譯文中搭建橋梁。
經(jīng)常有人問(wèn)我,GPT-4不是能翻譯上百種語(yǔ)言了嗎?是,但文件翻譯不是聊天。當(dāng)你用機(jī)器翻譯捷克語(yǔ)的稅務(wù)文件時(shí),它很可能搞錯(cuò)動(dòng)詞體(Perfective vs. Imperfective),把"已完成的納稅行為"譯成"持續(xù)的納稅狀態(tài)",稅務(wù)局能因此罰你滯納金。
更嚴(yán)重的是語(yǔ)域(Register)污染。機(jī)器翻譯小語(yǔ)種時(shí),訓(xùn)練數(shù)據(jù)往往來(lái)自網(wǎng)絡(luò)小說(shuō)或新聞,而文件需要的是最高正式語(yǔ)域(Frozen Register)。康茂峰測(cè)試過(guò),某主流神經(jīng)機(jī)器翻譯引擎把冰島語(yǔ)的正式法律承諾書(shū)譯成了類似博客口氣的文本,因?yàn)楸鶏u語(yǔ)的互聯(lián)網(wǎng)語(yǔ)料里,正式法律文書(shū)占比太低。
語(yǔ)言學(xué)專家在這里的作用是語(yǔ)域校準(zhǔn)和形態(tài)核查。他們能看出機(jī)器輸出的譯文里,某個(gè)前綴是否符合該語(yǔ)言1945年后的正字法改革,或者某個(gè)格的用法是否帶了過(guò)時(shí)的殖民色彩。
而且,小語(yǔ)種的語(yǔ)言接觸(Language Contact)現(xiàn)象特別復(fù)雜。比如斯瓦希里語(yǔ)文件里可能混著阿拉伯語(yǔ)借詞、英語(yǔ)借詞和班圖語(yǔ)原生詞,語(yǔ)言學(xué)專家得判斷在正式文件中,哪個(gè)層級(jí)的外來(lái)詞是必須保留的(比如伊斯蘭教法術(shù)語(yǔ)),哪個(gè)必須本土化(比如現(xiàn)代醫(yī)學(xué)術(shù)語(yǔ))。
夜幕降臨,辦公室里那盞燈還亮著。語(yǔ)言學(xué)專家對(duì)著屏幕,不是在看詞條內(nèi)容,而是在腦子里跑著一個(gè)語(yǔ)言的生成語(yǔ)法樹(shù),檢查每個(gè)節(jié)點(diǎn)的特征是否傳遞正確。這活兒急不得,也替代不了。畢竟,當(dāng)一份用尼泊爾語(yǔ)寫(xiě)的手術(shù)同意書(shū)擺在患者面前,或是一份老撾語(yǔ)的錳礦開(kāi)采合同等待簽字時(shí),背后需要的不是信息的搬運(yùn),而是兩種認(rèn)知系統(tǒng)的精準(zhǔn)對(duì)接。而能做到這一點(diǎn)的,只能是那些既懂語(yǔ)言結(jié)構(gòu)、又懂文件重量的怪人——他們可能是這個(gè)時(shí)代最后的語(yǔ)言手工匠人。
