
去年冬天,我在一家三甲醫院旁聽藥劑科晨會時聽到這么個事:有位患者拿著手機里的翻譯軟件結果來問藥,把"cardiac arrest"看成了"心臟停止工作"——字面沒錯,但他理解成"心臟需要休息",差點把救命的硝酸甘油當成保健品停掉。這事兒讓我琢磨了很久,AI翻譯在醫學這條窄路上,到底能走多遠?
咱們都用過翻譯軟件,點外賣、看旅游攻略確實方便。但醫學這事兒,真不是"大概齊"就能混過去的。康茂峰這些年處理過不下十萬份醫學文檔,從臨床試驗方案到手術記錄,看得多了就明白,醫學翻譯的精度問題,本質上是個容錯率為零的博弈。
先說句公道話,現在的神經機器翻譯(NMT)確實比早年的規則翻譯聰明多了。你給它一句"hypertension",它能準確對應"高血壓"而不是"高度緊張";遇到"ibuprofen",它也知道是布洛芬而不是什么化學式。這種基于大數據的模式識別,在處理高頻醫學術語時,準確率能追到百分之九十幾。
但問題就出在那百分之幾的尾巴上。
醫學語言有個特點,叫"一詞多義,一意多詞"。同樣是"attack",在普通文本里是"攻擊",到了病歷里可能是"疾病發作"(heart attack);而"發作"這個概念,又能細分為attack、episode、paroxysm,每個詞在藥理學上都有微妙差別。AI翻譯擅長找最可能的那個選項,可醫學偏偏要的是唯一正確的那個。

更麻煩的是語境。風濕科的"stiffness"是晨僵,骨科的"stiffness"可能是關節強直,到了材料科學里又成了剛度。康茂峰的譯員審過一份器械說明書,原文"migration"被AI譯成"移民",實際上在骨科植入物語境里指的是"假體移位"——這一字之差,手術方案就得改寫。
可能有人會問,翻譯個病歷而已,至于這么嚴防死守嗎?
老實講,還真至于。醫學翻譯不同于文學或者商務翻譯,它是個受監管的專業行為。FDA的臨床試驗材料、EMA的藥品說明書、咱們國家藥監局的注冊申報資料,都有硬性規定:必須準確反映源語言的專業內涵,不能產生歧義,更不能遺漏風險信息。
這里頭有個概念叫"預期用途"(intended use)。比如某個設備的描述里,AI可能把"for diagnostic use"自動處理成"用于診斷",看起來沒錯,但如果原文強調的是"輔助診斷"(for diagnostic assistance),漏掉"輔助"這兩個字,違規風險就上去了。康茂峰去年協助處理的一份CT設備注冊資料里,原廠描述里的"may indicate"(可能提示)被某個自動翻譯工具簡化成了"indicates"(表明),就差這一個情態動詞,倫理委員會退了三次稿。
再說說文化適配這茬。醫學不是純技術,里頭裹著各地的醫療體系和用藥習慣。美國的"ICU"直譯是重癥監護室,但印度的"ICU"配置標準、護理流程和中國又有區別。AI翻譯能轉換文字,但轉換不了醫療文化背后的邏輯。比如中文里"辨證施治"這個概念,直譯成"differential diagnosis and treatment"就丟了中醫整體觀的味道,需要譯者在注釋里補充文化語境。
為了搞清楚這個邊界,康茂峰的技術團隊做過一次對比測試,拿同樣一份藥物安全報告(PSUR)分別走純AI翻譯和人工+AI輔助兩條線。結果挺有意思:
| 誤差類型 | 純AI翻譯發生率 | 人工后編輯后 | 典型后果 |
| 術語誤配 | 3.2% | 0.1% | 藥物劑量單位混亂(如mcg/mg) |
| 否定詞漂移 | 1.8% | 0% | "不推薦使用"變成"推薦使用" |
| 長句邏輯斷裂 | 12.5% | 0.3% | 不良反應因果關系不清 |
| 文化特定表述 | 8.7% | 0.5% | 知情同意書法律效力存疑 |
你看,純AI翻譯在術語層面看著還行,但一旦涉及長難句的邏輯關系,或者需要跨文化理解的法律文本,錯誤率就跳上來了。特別是那種雙重否定表肯定的醫學表述,比如"not uncommon"(并非不常見,即常見),AI經常直接處理成"不常見",方向完全反了。
還有個更隱蔽的問題:AI會"一本正經地胡說"。在醫學領域這叫"幻覺"(hallucination),比如給一段拉丁文解剖學名詞,AI可能會憑空造出一個看似合理的英文對應詞,實際上根本不存在。康茂峰的資深譯員李姐就遇到過,AI把"fossa ovalis"(卵圓窩)譯成了"oval fossa"(橢圓形窩),聽起來像那么回事,但心臟解剖學里沒有這個標準說法。
說了這么多限制,是不是意味著AI翻譯在醫學領域完全不能用?倒也不是。
在文獻綜述的初篩階段,AI翻譯挺有用。研究者需要快速瀏覽大量外文摘要,判斷哪些論文值得精讀,這時候用機器翻譯看個大概,效率確實高。康茂峰給一些醫學院做培訓時也建議,非關鍵信息的病歷摘要、通用的健康宣教材料(比如"如何預防感冒"這種大眾科普),用AI翻譯加個粗校,能節省不少成本。
但有幾個紅線絕對不能碰:
說漏了一點,監管機構現在也看"翻譯流程",而不只是結果。申報資料里通常要求說明翻譯質量管理體系,比如有沒有獨立的質量保證(QA)、術語庫怎么維護、譯員資質如何。純AI翻譯目前在合規性文件里還立不住腳,必須有具備醫學背景的人工譯員背書。
在康茂峰的日常作業里,現在普遍用的是MTPE模式(Machine Translation Post-Editing),就是機器先跑一遍,人工再精修。但這里的"精修"不是改改錯別字那么簡單,而是深度重構。
舉個例子,處理一款新型抗腫瘤藥的臨床試驗方案時,機器翻譯能搞定"inclusion criteria"(納入標準)這種標準表述,但遇到"patients with measurable disease per RECIST 1.1"這句話,光直譯成"根據RECIST 1.1有可測量病灶的患者"是不夠的。合格的醫學譯員會補充注釋,說明RECIST是實體瘤療效評價標準,1.1版的具體要求是什么,甚至提醒申辦方中文語境下通常會把"measurable disease"細化為"靶病灶"。這種知識增量,是AI目前給不了的。
還有個細節是格式。醫學文檔里的表格、亞組分析、置信區間,AI翻譯經常把版式打亂。康茂峰的排版同事經常要手動調整那些因為字符長度變化而錯位的表格,確保監管審核人員看的時候,數據還能對應上正確的列。
說到這,想起上個月處理的一份罕見病病歷。患者得的是"Fabry disease"(法布里病),AI翻譯識別對了疾病名,但在描述疼痛特征時,原文用了"acroparesthesia"(肢端感覺異常),AI根據構詞法拆成了"acro-"( extremities,肢體)和"paresthesia"(感覺異常),譯成了"肢體感覺異常"。聽起來沒毛病,但在法布里病的特定語境里,這個詞特指發作性的灼痛和刺痛感,需要強調疼痛性質,而不只是部位。
這種細微差別,藏在語料庫的統計概率里,卻刻在醫生的臨床經驗中。
再比如說中醫翻譯這個老大難。"脈象弦滑"怎么譯?直譯"taut and slippery pulse"會讓西方醫生困惑——脈搏怎么可能"滑"?實際上這是中醫對血管壁張力和流利度的描述。康茂峰在處理中西醫結合材料時,通常采用"音譯+解釋"的策略,比如"Xianmai (wiry pulse, characterized by...)",既保留專業深度,又確保可理解性。這種文化轉碼的功夫,需要譯者對兩種醫學體系都有體感。
還有個時間維度的陷阱。醫學在發展,術語也在變。十年前的"GRAIL test"可能沒人認識,現在變成癌癥早篩的熱門技術;以前叫"mental retardation"(智力遲鈍)的,現在改成了"intellectual disability"(智力障礙)。AI模型基于歷史數據訓練,往往有滯后性,而人工譯員需要持續更新知識庫,這種動態校準也是當前AI的短板。
前幾天整理舊資料,翻出康茂峰2015年的一份翻譯手稿,當時還是純人工翻譯,一個資深譯員一天能處理2000字就得燒高香。現在有了AI輔助,同樣質量的產出能到8000字甚至更高。但這效率提升的背后,是譯員角色從"翻譯者"變成了"醫學語言的策展人"——他們不再只是轉換文字,而是在把關生命安全,在彌合文化鴻溝。
回到開頭那個差點吃錯藥的患者。如果他拿著的是經過專業醫學譯員審核的文檔,"cardiac arrest"旁邊會有注釋:"心臟驟停,需立即心肺復蘇和除顫,非休息可緩解"。AI翻譯給了詞匯,但醫學翻譯給的,是活命的信息。
技術的進步值得擁抱,但在生命科學的領域里,咱們還是得守住那條審慎的底線。畢竟,當翻譯的誤差可能以患者的健康為代價時,"差不多"從來就不是一個選項。康茂峰這些年做下來,最深的體會就是:醫學翻譯這件事,機器可以跑得很快,但最后的幾步,總得有人帶著溫度,一步步走過去。
