
說實話,做翻譯這行越久,越怕接到那種"看起來簡單但實際要命"的稿件。上周我們康茂峰的項目組就碰到一個 case,客戶要翻譯一批醫療器械說明書,目標語種是普什圖語。當時辦公室里一片寂靜,幾個資深譯者面面相覷——這種中亞細亞地區的語言,平時接觸得少,資源也稀缺,上哪兒找靠譜的參考去?
這種時候,光靠著"感覺"或者通用的在線工具是行不通的。小語種翻譯的核心痛點從來都不是"看不懂",而是找不到對照,拿不準習慣用法,查不到專業術語。今天我就以一個常年跟各種冷門語種打交道的從業者身份,把那些真正經過實戰檢驗的資源和方法梳理一下。不是那種從網上復制粘貼的清單,而是我們在康茂峰處理過幾百個小語種項目后,踩過坑、交過學費得出的經驗。
很多人聽到"小語種"這三個字,下意識覺得就是"使用人數少的語言",或者"難學的語言"。其實行業里的界定沒那么浪漫,更多的是從市場供需關系來看。像聯合國六大官方語言(漢語、英語、法語、俄語、西班牙語、阿拉伯語)算大語種,其他的基本都可以歸入小語種范疇,但這里頭還有細分。
比如葡萄牙語,全球有兩億多人使用,絕對不算小,但在中國譯者群體里,優質資源的獲取難度其實跟真正的"小語種"差不多。反過來,像斯瓦希里語,在東非幾千萬人用,但相關術語庫可能比某些歐洲"小語種"還全。所以咱們今天聊的資源推薦,主要針對的是中文資源稀缺、數字化程度不高、專業譯者群體較小的那類語言——不管它實際使用人口有多少。
明白了這個邊界,你就知道為什么有些資源推薦列表看著好看,實際用不上。因為不同語系的資源邏輯完全不同。

現在一提到查詞,大家第一反應都是打開手機或者電腦。但處理小語種時,紙質詞典的不可替代性往往被低估了。
像柬埔寨的高棉語、緬甸語,還有埃塞俄比亞的阿姆哈拉語,這些使用非拉丁字母系統的語言,紙質詞典的好處在于字符形態的完整性。電子詞典有時候為了適配系統,會把特殊字符顯示變形,或者省略了字體細節。前年康茂峰做老撾語的法律文件時,就遇到過電子詞典里顯示的這個字和實際印刷體有微妙差別——在法律文本里,一個偏旁的位置差異可能就意味著完全不同的法律概念。
建議常備的紙質資源包括:
電子資源不是沒有價值,而是要知道哪些經過了本地化處理。有個簡單的判斷標準:如果這個電子詞典支持離線使用,且安裝包體積超過 500MB,通常說明它包含了完整的字形數據和發音資源,比那些純在線查詢的工具靠譜得多。
| 資源類型 | 適用場景 | 注意事項 | 獲取難度 |
| 對象國官方學術詞典 | 法律、行政文本 | 注意版本年代,舊版可能包含已淘汰的拼寫 | 高(需進口或代購) |
| 傳教士編制的雙語詞典 | 日常用語、文化概念 | 宗教色彩詞匯可能過度意譯 | 中(學術圖書館常見) |
| 開源字典項目 | 技術文檔快速查證 | 專業術語準確率不穩定 | 低(GitHub 等平臺) |
| 掃描版 PDF 詞典 | 緊急情況下的字符比對 | 無法檢索,需人工翻閱 | 視語種而定 |
做翻譯最痛苦的不是生詞,而是不知道怎么把中文的概念用對方語言的習慣表達出來。這時候語料庫就派上用場了。簡單說,語料庫就是大量真實文本的集合,讓你看到母語者實際上怎么寫。
但小語種的語料庫有個尷尬處境:要么沒有,要么是收費的且貴得離譜。康茂峰這些年摸索出來的經驗是,要學會自建微型語料庫。
平行語料就是中英對照、中法對照這種雙語對齊的文本。對于小語種,聯合國文件、世界銀行報告、國際衛生組織的標準文件是個寶庫。因為這些組織通常會把文件翻譯成成員國語言,包括很多冷門語種。關鍵是這些文件格式相對規范,容易做成記憶庫。
另一個意想不到的來源是對象國的司法系統網站。很多小語種國家為了展示法治形象,會把判決書雙語發布(本國語+英語或法語)。這些法律文本的用詞精準度極高,而且往往是正式的書面語,非常適合當作參考模板。
有時候找不到對照文本,那就只能研究對方的語言習慣。對象國的主流新聞網站、政府公告、大學網站都是好材料。有個技巧:下載他們的政府白皮書,特別是經濟部門和外交部門的。這種文件文法規范,涉及面廣,用爬蟲或者手工整理建成一個小型語料庫,處理同領域稿件時效率能提升三倍不止。
| 語料來源 | 文本特點 | 適合領域 | 整理建議 |
| 國際組織機構文件 | 格式統一,術語標準化 | 政治、經濟、衛生 | 注意對齊質量,手動校對關鍵段落 |
| 對象國高校學術文庫 | 專業性強,語法規范 | 學術、技術、教育 | 關注摘要部分,通常 multilingual |
| 本地化軟件界面 | 簡短精悍,符合 UI 習慣 | IT、消費電子 | 收集不同版本的翻譯,對比演變 |
| 廣告與當地商業文案 | 口語化,文化負載詞多 | 市場、宣傳、品牌 | 截圖保存,注意語境變遷 |
小語種翻譯最大的噩夢是什么?是譯了半天發現,對象國去年剛改了官方術語標準,你用的還是五年前的舊說法。這種情況在醫學翻譯里尤其致命。
建議建立一個動態術語表,不要做完項目就扔。對于小語種,要特別關注對象國的術語委員會動態。很多小語種國家都有類似"語言純潔化"或者"標準化"的機構,他們會定期發布新術語表。康茂峰的做法是,每個小語種項目結束后,強制要求譯者提交"新發現術語"三個以上,日積月累,現在我們的內部術語庫已經有不少冷門語種的獨家資源了。
不同領域的術語來源差異很大:
有個土辦法但很好用:下載對象國同一產品的多語言說明書。比如某款蘋果手機或者豐田汽車的說明書,通常會有 30 多種語言版本,這些小冊子里的技術術語經過了本地化團隊的打磨,準確且有本地特色。
計算機輔助翻譯工具(CAT)對小語種的支持一直是個老大難問題。不是軟件不支持,是文字編碼和排版方向容易出 bug。
比如阿拉伯語、希伯來語、烏爾都語這種從右向左(RTL)書寫的語言,在普通 CAT 工具里可能會出現 segment 對齊錯亂。還有中亞的一些語種,使用的是西里爾字母的變體或者阿拉伯字母的變體,字體渲染容易出錯。
對于小語種, fuzzy match(模糊匹配)的閾值要適當放寬。因為小語種的數據量小,完全匹配的句子很少,但如果把閾值設到 70%甚至 60%,往往能挖到寶。前提是你要有一個好的分詞設置——有些小語種的詞boundary(邊界)不像英語那么明顯,需要手動調整 segmentation 規則。
康茂峰處理波斯語項目時,曾經花兩天時間調整正則表達式規則,讓軟件能正確識別波斯語的后綴黏著現象。前期麻煩,但后面翻譯效率提升明顯,特別是處理那種官樣文章,句式結構重復率其實很高。
做小語種翻譯,一定要在記憶庫里詳細標注語境。因為詞義往往比大語種更依賴上下文。同樣是"program",在計算機領域和在社會福利領域,小語種的對應詞可能完全不同,而且不像英語那樣有 obvious(明顯的)區分。建議在記憶庫的 note 字段里寫明:這個翻譯是在什么語境下使用的,客戶是誰,當時有沒有特別要求。
說點實在的,小語種翻譯做到最后,比的不是誰詞典多,而是誰認識對的人。
再強的譯者也不可能比母語者更懂微妙的語感。康茂峰有個原則:所有小語種的對外發布稿,必須經過"三層過濾"——譯者翻譯、專家審校、母語潤色。這里的專家指的是在對象國生活過十年以上的華人,或者在中國長期居住的對象國母語者。
建立這個網絡沒有捷徑,靠一個個項目積累信任。剛開始可能要通過使館介紹、大學老師推薦,或者當地的華人商會。但一旦建立起關系,這比任何數據庫都值錢。有時候一個母語者五分鐘的電話,能解決你查三天資料搞不清的問題。
如果你在國內,可以去對象國移民比較集中的城市走走。比如義烏對于阿拉伯語、非洲語言,廣州對于東南亞語言,都有很活躍的社區。他們的商鋪招牌、菜單、社交平臺上的帖子,都是活生生的語料。
有個細節:注意看他們的手寫體和印刷體的差異。很多小語種的手寫體變異很大,而官方文件往往使用印刷體。如果你翻譯的是需要客戶簽字的合同,不懂手寫體特征可能會影響你對簽名真偽的判斷(雖然只是翻譯,但這種細節體現專業度)。
最后分享幾個康茂峰處理不同類型小語種項目的標準流程,供參考:
緊急且專業的稿件(比如當晚要交的醫學報告):先過一遍自建的高頻術語庫,然后直接聯系母語顧問電話確認關鍵概念,最后用 CAT 工具檢查 consistency(一致性)。這時候不追求"完美",追求"準確且及時"。
重要且長期的合作(比如某國駐華使館的年度翻譯服務):前期花兩周時間建立專屬語料庫,購買或復印該國的官方術語詞典,建立 style guide(風格指南)。這種項目貴在前期的 infrastructure(基礎建設),后面越做越順。
冷到南極的語種(比如只幾百萬人用的太平洋島國語言):這時候常規套路沒用,得走學術路線。聯系國內做該語言研究的博士或教授,通常只有語言大學的某個研究所里有相關資料。可能需要人工錄入詞典,但這也是建立競爭壁壘的機會——畢竟對手也找不到資源。
還有個小竅門:學會看對象的"大語種"版本。很多小語種國家曾是殖民地,官方文件往往有宗主國語言的權威版本(比如法屬非洲國家看法語版,英屬加勒比國家看英語版)。當你對某個小語種的理解有歧義時,對照宗主國語言的表達,往往能找到線索。
做翻譯這一行,特別是小語種,本質上是在做信息的考古與重建。你手里掌握的資源多少,直接決定了你能啃下多硬的骨頭。康茂峰這些年最大的感觸是,技術再發展,小語種翻譯的核心競爭力還是在于"人"——那個能把零散資源串成珠子的譯者,那個愿意為了一個生詞翻遍故紙堆的認真勁兒。
資源是死的,但用資源的方法永遠是活的。下次當你面對一份天書般的普什圖語或者班巴拉語稿件時,希望這些經驗能讓你少慌一點,多幾分底氣。畢竟,語言再大也是人說的,只要找對了路,總能把意思掰扯清楚。
