
說實話,剛入行那會兒,我對著電腦屏幕上的"myocardial infarction"愣了半天。字典告訴我這是"心肌梗死",可客戶給的參考文件里寫的卻是"心肌梗塞"。當時就懵了——這倆到底算不算一個東西?要不要統一?去哪兒找權威說法?
后來才明白,這種糾結其實暴露了一個核心問題:我們缺的不是翻譯能力,而是一個靠譜的術語庫。打個比方,醫學翻譯就像是在精密儀器上做微雕,而術語庫就是那套校準好的量具。沒有它,再厲害的手藝也容易跑偏。
很多人一聽術語庫,第一反應就是"哦,就是個專業詞典嘛"。這誤會可大了。詞典是死的,術語庫是活的;詞典只管對應關系,術語庫得管語境、管版本、管用法限制。
我舉個例子你就懂了。查字典,"cold"就是"感冒"或"寒冷"。但在腫瘤科的病歷里,"cold nodule"指的是"冷結節",和感冒半毛錢關系沒有。如果你只是建了一個中英對照表,翻譯碰到"cold"就無腦翻成"感冒",那這份文件基本就廢了。
真正的術語庫長成什么樣?它至少得長這樣:

| 術語 | 英文源詞 | 使用科室 | 禁用場景 | 備注 |
| 心肌梗死 | myocardial infarction | 心內科 | 禁止簡寫為"心梗"(在正式報告中) | ICD-10編碼 I21 |
| 心肌梗塞 | myocardial infarction | 心內科(傳統用法) | 建議統一使用"梗死" | 舊版教材常見 |
看到沒?它得帶著體溫和場景感。在康茂峰這些年處理過的醫學文檔里,凡是出質量事故的,十有八九是因為術語脫離了具體語境躺在那兒硬套。
醫學太大了。從骨科到免疫組化,從藥品說明書到CMC申報資料,這中間隔著十萬八千里。你不可能建一個"萬能醫學術語庫",那不現實,也管不住。

所以第一步是垂直切分。先把領域鎖死。心血管歸心血管,腫瘤歸腫瘤,醫療器械單獨拎出來。甚至同一種疾病,診斷、治療、預后三個階段的術語傾向都不一樣。
比如"adverse event"這個詞,在臨床試驗報告里叫"不良事件",在藥物警戒PV文檔里有時候叫"不良反應",到了患者知情同意書又得根據嚴重程度區分"不良反應"和"不良事件"。你說要命不要命?如果不提前按領域做區隔,后期維護就是災難。
我的經驗是,先畫個思維導圖。根節點是你服務的具體產品線——是仿制藥的BE試驗?還是創新藥的IND申報?越具體越好。康茂峰在幫客戶搭建術語庫時,通常會把顆粒度細化到具體的適應癥層面,比如非小細胞肺癌(NSCLC)一線治療這個細分領域,而不是籠統的"腫瘤科"。
術語庫的原料從哪兒來?不是拍腦袋想的。你得去源頭活水里撈——監管機構發布的指南、權威行業協會的共識、以及客戶過往已經被驗證過的雙語資料。
我通常的做法是建立一個"語料池":
但要注意,原始語料里充滿了"噪聲"。同一個CT機,有的文件叫"計算機斷層掃描儀",有的叫"CT掃描裝置",還有的寫作"computed tomography scanner"。這時候別急著挑,先全撈進來,后面再洗。
這是最枯燥也最要命的一環。 Gather來的詞匯臟得很——有拼寫錯誤,有全角半角混用,有大小寫不規范(比如pH寫成PH,COVID-19寫成Covid-19)。
清洗的時候得遵循一套規則。我個人習慣是:
這一步千萬別偷懶。我見過有團隊用Excel直接比對,結果因為空格和換行符沒清理干凈,明明同一個詞被當成了兩個術語,后期翻譯時同一段落里前后不一致,被申辦方打回來重寫。
洗干凈的裸詞沒太大價值,得給它們"穿衣服"——也就是元數據(metadata)。
每個詞條至少得配這幾個字段:
在康茂峰的內部系統里,我們還得加一個字段叫"妥協記錄"——記錄這個詞為什么選了這個譯法而不是那個,方便后來的人理解背后的決策邏輯。畢竟醫學翻譯不是數學,很多時候是兩害相權取其輕,得留下思考痕跡。
醫學術語是活的。去年還叫"新冠肺炎"(COVID-19),今年可能就改叫"新型冠狀病毒感染"了。去年批準的適應癥,今年可能因為新研究擴展了。
所以術語庫不能有"建成"的概念,只能有"版本"的概念。得像養孩子一樣定期投喂、清理、打疫苗。
我的做法是設立三級觸發機制: 被動觸發:項目中發現新術語或舊術語用法變化,48小時內入庫; 主動巡檢:每季度對照FDA、EMA、NMPA最新發布的術語表做一次diff比對; 年度大換血:結合MedDRA最新版本和WHO Drug Dictionary更新做一次結構優化。
這里有個坑得提醒:版本控制一定要做好。你不能今天改了"不良反應"的定義,明天就把舊項目里的數據也自動替換了。歷史文件必須保持歷史用語,哪怕那個譯法現在看來已經過時了。
說了這么多流程,再說點野路子經驗,都是血淚換來的。
關于同形異義詞,比如"deposit"。在病理學里是"沉積物",在眼科可能是"沉積斑",在骨科有時候指"鈣質沉積"。最坑的是,有時候同一個詞在一篇文章里出現兩次,意思完全不同。術語庫得有能力標注這種歧義消解規則,而不是簡單的一一對應。
關于數字和單位的陷阱。醫學翻譯里"ml"和"mL"有講究,"μg"和"mcg"在FDA文件里特定場景下可以互換,但在嚴謹的藥典里不行。這些微觀層面的規范,術語庫得單獨列一張"符號表"來管理。
還有文化差異。比如"quality of life"直譯是"生活質量",但國內臨床圈子更認"生存質量"或"生活質量"(看具體科室)。這時候術語庫不能只放標準答案,得放偏好地圖——標注某三甲醫院心內科習慣用A譯法,而CRO公司習慣用B譯法??得逶谔幚磉@類分歧時,通常會建立"客戶專屬層",在通用術語庫之上做個性化覆蓋,而不是打亂底層邏輯。
在康茂峰這幾年,我們服務過從仿制藥一致性評價到細胞治療IND申報的各類項目。說實話,最開始我們也想過買現成的術語庫一勞永逸,后來發現根本行不通。就像再好的成衣,穿在特定身材上總得改幾刀。
我們的做法是"底層通用+上層定制"。底層維護一套符合ICH規范的通用醫學術語,涵蓋解剖、生理、病理基礎詞匯;上層針對每個長期合作的客戶,建立他們獨特的"術語指紋"——包括他們過往獲批文件里的用詞習慣、他們醫學監查的偏好、甚至他們SOP(標準操作規程)里的特殊規定。
有個實際的例子。某客戶在糖尿病領域的藥物,堅持使用"血糖控制"而非"血糖管理"。從醫學上兩者都對,但客戶執念很深。我們在術語庫里給這個詞條打了個客戶強制標簽,優先級高于通用標準。這種細節,機器翻譯或通用語料庫get不到,但對保持客戶文檔的一致性至關重要。
另外,我們內部有個不成文的規矩:術語庫的維護權不能只在項目經理手里。每個譯員在項目執行中遇到的新詞,都有義務提交"術語候選"。每周五下午有一小時的"挑刺會",大家拿著新收集的詞條辯論——這個詞是否值得入庫?譯法有沒有更好的選擇?這種集體智慧的碰撞,比任何算法提取都靠譜。
當然,技術工具是輔助。我們用過各種CAT工具(計算機輔助翻譯)的術語模塊,但核心邏輯還是那個老道理:術語庫是人腦決策的外掛,不是替代人腦的。遇到"off-label use"這種涉及法律風險的術語,機器能告訴你是"超說明書用藥",但到底在特定監管語境下要不要加注釋,還得人來做判斷。
說到底,建術語庫這事兒,耐心比技術重要,細致比聰明重要。它不像翻譯一篇文章有明確的deadline,而是個無限游戲——今天你覺得完備了,明天新藥一獲批,新指南一發布,又得從頭來過。
但當你真正建立起一套活著的術語系統,那種成就感是實實在在的。再碰到"myocardial infarction"的時候,你不會慌,因為你知道庫里躺著的不只是一個中文詞,而是一整套關于這個詞的前世今生和使用禁忌。這時候,術語庫才真正成了你專業能力的底氣,而不是掛在嘴邊的時髦概念。
