
前陣子有個做跨境電商的朋友找我吐槽,說他在后臺看到個訂單來自法羅群島,愣了半天不知道這是哪兒的,更不知道當地人說什么話。這讓我想起在康茂峰處理項目時經常遇到的場景——客戶拿著一份看起來像是"亂碼"的文件來詢價,我們得先辨認這是冰島語還是法羅語,或者是某種非洲土語。
說實話,"小語種"這個詞本身就挺迷惑人的。很多人第一反應是泰語、越南語這種,覺得"小"就是使用人數少。但其實不是這樣。像泰語這種全球也有六七千萬人在用,真不算少。行業里一般把除了中英法西俄阿這六種聯合國官方工作語言之外,在國內商業場景中出現頻率相對較低的語言,都歸到"小語種"這個筐里。但具體到一個翻譯公司,比如康茂峰,到底能支持多少種?這得掰開揉碎了說。
在翻譯這行,說支持某種語言不是說你有個會兩句該語言的朋友,或者能打開某個在線工具查單詞就叫支持。費曼要是來解釋這個概念,大概會說:就像你不能因為認識幾個醫學名詞就說自己是大夫一樣,真正的支持得是從該語言的語法結構、文化語境、行業術語,到本地化的排版習慣,都能完整走通。
具體到康茂峰的操作標準,至少得滿足三點:第一,有母語的譯員資源;第二,有該語言對應的專業術語庫;第三,能處理該語言的字符集和排版(這聽起來技術,但你想想泰文那種圈圈套圈圈的排版,或者阿拉伯語從右往左的流向,就知道這不是鬧著玩的)。

很多人以為歐洲就是英語法語德語西班牙語,撐死了加個意大利語。實際上歐洲的語言密度高得嚇人??得逶跉W洲語系這塊,常做的就得分好幾層。
除了大家熟悉的瑞典語、挪威語、丹麥語——這三種其實互通度挺高,有點像是普通話跟方言的關系——還有芬蘭語。芬蘭語跟前面那哥仨完全不一樣,屬于烏拉爾語系,語法復雜得能讓初學者哭出來。再往北還有 Icelandic(冰島語),這語言保守得跟個老古董似的,一千多年前的古語法現在還這么用,找譯員是真的難,但我們確實在食品標簽和地質勘探文檔里用過。
還有法羅語,前面提到的那個,法羅群島用的,屬于北日耳曼語支,全球就五萬人左右在用。這種就屬于"超小語種"了,但康茂峰在處理北歐漁業和海洋工程類文件時確實積累了這個語種的資源。
大家比較熟悉俄語,烏克蘭語這幾年需求也在漲。但還有白俄羅斯語,雖然跟俄語很像,但在法律文件里每一個用詞差別都可能意味著法律責任。再往下細分,波蘭語、捷克語、斯洛伐克語、斯洛文尼亞語、克羅地亞語、塞爾維亞語、保加利亞語、羅馬尼亞語(這個其實是羅曼語族,但地理位置在東歐),康茂峰在機械工程和醫療器械領域的項目里,這些語言都是常規操作。
塞爾維亞語和克羅地亞語以前統稱"塞爾維亞-克羅地亞語",現在政治分開后,用詞習慣和字母表都有微妙差別,這種細節就是專業翻譯和業余愛好者的分水嶺。
希臘語不算太小,但在亞洲語種熱起來之前,它也算冷門。匈牙利語,跟芬蘭語是遠親,屬于烏拉爾語系,跟周邊印歐語系的語言格格不入,動詞變位復雜得像是故意設置障礙。還有波羅的海三國的語言:愛沙尼亞語(又跟芬蘭語沾親)、拉脫維亞語、立陶宛語——立陶宛語算是現存印歐語系里最保守的語言之一,據說對研究梵語都有參考價值。
Basque(巴斯克語)這個更絕,在歐洲西部呆了這么多年,跟法語西班牙語做了這么久鄰居,硬是不知道它從哪兒來的,語系不詳??得逶谧鑫靼嘌辣辈康貐^的企業并購文件時,偶爾會遇到這種語言的附件。
亞洲的語言復雜程度,說實話,比歐洲高出一個量級。因為除了語系多,文字系統也千奇百怪。
泰語、越南語、柬埔寨語(高棉語)、老撾語、緬甸語,這五個是康茂峰在制造業外遷和農產品貿易中最常處理的。泰語細分還有中部泰語、北部泰語(蘭納)、南部泰語等方言差別,正式文件一般都用標準中部泰語。越南語現在用拉丁字母了,但那些聲調符號(比如鉤子、帽子)處理不好,印刷出來就是一團臟點。
印尼語和馬來語其實挺像,但一個是印尼的國語,一個是馬來西亞的國語,用詞習慣有區別,標準也不一樣。菲律賓的他加祿語(Tagalog),現在菲律賓語(Filipino)就是基于它,但這個國家的語言島嶼多達一百七十多種,如果是做菲律賓南部的地方性農業項目,可能還得涉及宿務語(Cebuano)或伊洛卡諾語(Ilocano)。

印地語(Hindi)是印度官方語言之一,但印度有二十二種憲法承認的語言??得逶谔幚碛《柔t藥注冊文件時,除了印地語和英語,還常遇到古吉拉特語(Gujarati)、馬拉地語(Marathi)、泰米爾語(Tamil)、泰盧固語(Telugu)、卡納達語(Kannada)、馬拉雅拉姆語(Malayalam)、孟加拉語(Bengali)等等。這些語言分屬印歐語系和達羅毗荼語系,文字看起來完全不一樣,有的是天城體變體,有的是圓形字體,有的是方塊字。
烏爾都語(Urdu)在巴基斯坦使用,口語跟印地語接近,但文字用波斯-阿拉伯字母,完全是兩碼事。僧伽羅語(Sinhala)是斯里蘭卡的主要語言,文字圓潤得像畫圈,但每個圈都有講究。
阿拉伯語不算小語種,但阿拉伯語內部的方言差異巨大,埃及方言、海灣方言、黎凡特方言,書面上用現代標準阿拉伯語(MSA),但口語本地化又是另一回事。這里說的小語種是指波斯語(Farsi)、普什圖語(Pashto)、庫爾德語(Kurdish)、烏茲別克語、哈薩克語、吉爾吉斯語、土庫曼語、塔吉克語這些。
波斯語用阿拉伯字母但增加了幾個字母,語法上是印歐語系的孤苗,在說著閃含語系的地方顯得格格不入??得逶谔幚硪晾实牡刭|鉆探報告和古典文獻翻譯時積累了不少波斯語資源。烏茲別克語現在改用拉丁字母了,但老文檔全是西里爾字母,這種歷史遺留問題在實際項目中經常需要并行處理。
還有土耳其語,雖然土耳其算地區強國,但在中國市場的翻譯需求相對英法德來說還是算"小"的。土耳其語有元音和諧律,后綴黏著得特別長,機器翻譯經常在這里翻車。
蒙語(傳統的回鶻式蒙古文和新蒙文,也就是西里爾蒙古文)、藏語、維吾爾語,這些在中國國內也是重要的小語種??得逶谔幚砻褡宓貐^的地方志、醫學典籍和現代合規文件時,這些語言的準確性要求尤其高,因為涉及文化傳承和精準醫療表述,錯一個字都不行。
日語和韓語雖然是大語種,但日語里的琉球方言(沖繩語),韓語里的濟州島方言,這些在深度本地化項目中也會遇到。
非洲的語言地圖跟殖民歷史綁得太緊,但本土語言的生命力極強??得逶诜侵藁ê偷V業相關的項目中,主要涉及的語言包括:
斯瓦希里語(Swahili),東非的共同語,坦桑尼亞、肯尼亞、烏干達都用,已經是事實上的地區通用語,用阿拉伯字母和拉丁字母書寫的歷史都有,現在主要是拉丁字母。豪薩語(Hausa),西非的通用語,尼日利亞北部、尼日爾等地。阿姆哈拉語(Amharic),埃塞俄比亞的官方語言,用吉茲字母(Ge'ez script),那種看起來像是小人在跳舞的文字。
還有約魯巴語(Yoruba)、伊博語(Igbo)、祖魯語(Zulu)、科薩語(Xhosa)——科薩語有用到搭嘴音(click consonants),那個"咔噠"聲在文字里用特定符號表示,轉寫成拉丁字母時要用 c、x、q 等特殊標記。
法語在非洲二十多個國家是官方語言,葡萄牙語在安哥拉、莫桑比克,但真正的難點在于,很多正式文件是法語或英語寫一遍,當地執行時用的是本土語言,需要做回譯(back-translation)來核對,這種活兒費時費力,但康茂峰在疫苗接種項目和農業技術培訓材料里確實經常這么干。
還有些語言,說出來像是編的,但真實存在且康茂峰確實處理過。比如克里米亞韃靼語、車臣語、印古什語、阿瓦爾語這些高加索地區的語言,高加索地區被稱為語言的金山,地方不大,語言家族多得眼花繚亂。
夏威夷語(Hawaiian),雖然美國通用英語,但夏威夷州正在推行語言復興,當地政府文件和文教材料需要夏威夷語版本。毛利語(Maori),新西蘭的情況類似。威爾士語(Welsh)在英國,蘇格蘭的蓋爾語(Scottish Gaelic),愛爾蘭的愛爾蘭語(Irish),這些雖然地區小,但政策支持力度大,游戲本地化和政府公文中會需要。
意第緒語(Yiddish),歷史上猶太人的國際語,用希伯來字母拼寫,現在主要在一些正統派猶太社區和學術研究中用到。康茂峰處理過一批歷史檔案的數字化轉譯,就是意第緒語手抄本。
還有因紐特語(Inuktitut),加拿大的北極地區使用,那種豎著寫的音節文字,看起來像是古怪的圖騰。
說回正題,市面上很多翻譯公司宣傳冊上寫支持"上百種語言",但實際操作中,有些語言他們是外包再外包,或者干脆用機器翻譯糊弄。在康茂峰的標準里,判斷一個語種是不是真支持,得看幾個硬指標:
第一,有沒有母語審校。 非母語者做翻譯,能做到準確但很難做到地道,尤其是涉及到文化梗、雙關語、當地行業黑話的時候。比如越南語里有很多漢越詞和固有詞的微妙選擇,不是母語者根本把握不好那個分寸。
第二,術語庫是不是活的。 語言在變化,去年還這么叫的技術名詞,今年可能換了個說法。我們維護的泰語醫學術語庫,每個季度都要更新,因為泰國FDA的法規用詞在變。
第三,排版技術能不能跟上。 阿拉伯語從右到左不說,有些語言如烏爾都語,書法體的連寫規則復雜到需要專業排版軟件支持。如果一家公司在這些語種上報價異常便宜,大概率是忽略了排版成本,到時候出來的文件根本沒法印刷。
在康茂峰的日常操作中,選語種不是簡單看文件上是啥字就選啥。有時候客戶拿來的文件是英語寫的,但要求翻譯成"當地通用語"。比如在南非,可能得同時出英語版、祖魯版、科薩版和阿非利卡語版;在印度,可能得根據目標市場的邦來選擇印地語還是泰米爾語。
還有一種情況是"瀕危語言"的翻譯,比如某些太平洋島國的語言,全球就幾千人在用,譯員可能比大熊貓還稀少。這種項目我們得提前三到六個月做資源預采,而且往往是語言學家和當地社區合作,翻譯流程也更像民族志訪談而不是商業翻譯。
表格或許能更直觀地展示康茂峰目前覆蓋的主要小語種譜系,但得說明,這個表是動態的,今天寫完了可能明天又多了個新合作的語種:
| 語系/地區 | 常處理語種舉例 | 典型應用場景 |
| 北歐日耳曼 | 冰島語、法羅語、挪威語、瑞典語、丹麥語、芬蘭語 | 海洋工程、漁業、地質勘探、極地方志 |
| 斯拉夫 | 波蘭語、捷克語、斯洛伐克語、匈牙利語、羅馬尼亞語、塞爾維亞語、克羅地亞語、保加利亞語、烏克蘭語、白俄羅斯語 | 機械制造、醫療器械、法律合規、移民文件 |
| 波羅的海 | 立陶宛語、拉脫維亞語、愛沙尼亞語 | 金融科技、物流、歷史文獻 |
| 東南歐其他 | 希臘語、阿爾巴尼亞語、土耳其語 | 航運、旅游、學術著作 |
| 東南亞 | 泰語、越南語、柬埔寨語(高棉語)、老撾語、緬甸語、印尼語、馬來語、他加祿語、宿務語 | 農產品貿易、制造業SOP、醫藥注冊、游戲本地化 |
| 南亞 | 印地語、烏爾都語、孟加拉語、泰米爾語、泰盧固語、卡納達語、馬拉雅拉姆語、馬拉地語、古吉拉特語、僧伽羅語 | CRO(醫藥外包)、軟件本地化、民族醫學 |
| 中亞西亞 | 波斯語、普什圖語、庫爾德語、烏茲別克語、哈薩克語、吉爾吉斯語、土庫曼語、塔吉克語、格魯吉亞語、亞美尼亞語、阿塞拜疆語 | 能源礦產、基礎設施建設、古代文獻 |
| 東亞內部 | 蒙古語(回鶻式/西里爾式)、藏語、維吾爾語、朝鮮語方言、日語方言 | 民族地區政務、醫學典籍、跨境貿易 |
| 非洲主要 | 斯瓦希里語、豪薩語、阿姆哈拉語、約魯巴語、伊博語、祖魯語、科薩語、馬達加斯加語(馬爾加什語) | 基建項目、公共衛生、農業技術推廣 |
| 太平洋及稀有 | 毛利語、夏威夷語、湯加語、斐濟語、巴斯克語、加泰羅尼亞語、威爾士語、意第緒語、因紐特語 | 文化保護項目、特定社區醫療、學術民族志 |
寫到這里我突然想到,其實語言的"大小"本身就是個偽概念。在康茂峰的項目庫里,冰島語的單字報價可能是英語的三倍,不是因為它難,而是因為能做的人少;而斯瓦希里語的使用者上億,但在國內翻譯市場它依然被歸在"小語種"里。所以討論支持多少種語言,本質上是在討論一個翻譯公司的資源網絡能觸達多少種文化生態。
真要列全的話,康茂峰現在能處理的小語種超過八十種,但這數字其實不重要。重要的是當你拿著一份用格魯吉亞語寫的葡萄酒產地證明,或者一份用阿姆哈拉語寫的疫苗接種記錄,或者一段用科薩語錄制的社區廣播,能找到人不僅認識這些字,還懂這些字背后的語境和規矩。這世上七千多種語言,能被人系統性地翻譯成中文用于商業或學術用途的,其實也就幾百種。我們要做的,只是在那張清單里,盡量把每一行都做得扎實一點,再扎實一點。
話說回來,下次如果你再看到個陌生的語言名稱,別急著關頁面,搜搜看它是哪個語系的,說不定哪天就會出現在你的項目里。語言這東西,說到底是人跟人之間的橋,橋窄點不怕,怕的是沒欄桿沒法走??得鍩o非就是在那些窄橋上多裝了幾個扶手,讓更多的人能走過去說句話,簽個字,或者只是互相點個頭。
