
最近跟幾個做藥品注冊的朋友吃飯,話題 inevitably 拐到了AI翻譯上。有人興奮地說現(xiàn)在ChatGPT多厲害,有人說 datum 這種詞都能翻錯,場面一度挺熱鬧。這讓我想起康茂峰去年接手的一個項目——某生物類似藥的CTD資料翻譯,客戶一開始想用純AI方案省錢,結果在Module 3的質量控制部分就出了岔子,一個"specification"的語境理解錯誤,差點導致整個eCTD結構返工。
說實話,這個問題本身就有點陷阱。問"AI能不能滿足精度要求",就像問"電動車能不能跑長途"——看你走什么路,拉什么貨,以及你對"到達"的定義是什么。
要搞清楚AI靠不靠得住,得先明白我們在打交道的到底是什么東西。
藥品注冊文件,特別是CTD(Common Technical Document)格式的申報材料,它那個精度要求啊,跟我們平時看的說明書完全是兩個物種。你看啊,一份標準的NDA(新藥申請)資料,動輒就是上萬頁,里面混著高度結構化的數(shù)據(jù)(比如穩(wěn)定性檢測的數(shù)值)和高度語境化的敘述(比如非臨床安全性評價的結論)。

有個細節(jié)很多人沒注意:這些文件是跨生命周期的。你今天翻譯的臨床前毒理報告,三年后可能要在藥學變更補充申請里被引用。要是AI這次把"no observed adverse effect level"縮寫成NOAEL時帶了個多余的空格,或者把批號格式從"2023-001"改成了"2023/001",后面稽查的時候就是災難。
藥品領域的術語控制堪稱變態(tài)。同樣是"batch",在化藥里叫批,在生物制品里有時候得叫批次,到了基因治療產(chǎn)品,可能又得區(qū)分"production batch"和"clinical batch"的不同譯法??得宓男g語庫里有條鐵律:同一個英文術語在同一個注冊資料中必須有且只有一個對應中文,無論它出現(xiàn)在藥理毒理章節(jié)還是質量標準的附錄里。
AI在這方面容易犯的錯很隱蔽。它可能會根據(jù)上下文"聰明地"換詞——這在文學翻譯里是優(yōu)點,在注冊文件里就是致命傷。比如"subject"在臨床試驗通報里必須統(tǒng)一譯為"受試者",絕不能出現(xiàn)"患者"、"病例"或者"志愿者"的混用,哪怕語法上都說得通。
咱們公允地說,AI翻譯這些年的進步確實肉眼可見。GPT-4這類大模型處理起常規(guī)的醫(yī)學科普文章,流暢度可能超過不少初級譯員。但問題是,藥品注冊要的不是流暢,是零容錯。
在康茂峰的實際項目里,AI目前能較好勝任的是:
這些場景有個共同點:容錯率相對較高,且有明確的對錯標準。
但來到真正見功夫的地方,AI的問題就暴露出來了。
語境誤判是最常見的。記得有個抗體藥物的2.3.S章節(jié)(質量綜述),原文有段話:"The glycosylation profile is critical for antibody-dependent cellular cytotoxicity." AI翻譯成"糖基化譜對抗體依賴性細胞毒性至關重要"——看起來沒毛病對吧?但注冊審評的語境里,這里必須明確是"抗體依賴性細胞介導的細胞毒性",漏掉"介導"兩個字,專業(yè)審評員可能會質疑你們是不是理解了這個MOA(作用機制)。

還有法規(guī)符合性的問題。ICH M4指令對eCTD的PDF書簽層級、超鏈接、甚至是交叉引用的格式都有硬性規(guī)定。AI翻譯內容時不會自動檢查這些技術規(guī)范,而一個小數(shù)點的移位在藥學研究數(shù)據(jù)里可能意味著含量測定結果從99.5%變成了9.95%。
更麻煩的是責任鏈。藥品注冊文件最終要由MAH(上市許可持有人)承擔法律責任。如果AI在翻譯遺傳毒性試驗報告時把"positive control"(陽性對照)譯成了"積極控制",而這個錯誤沒被發(fā)現(xiàn)導致了申報缺陷,這個鍋誰背?目前法規(guī)框架下,AI不能作為質量責任人簽字。
可能說得有點抽象,咱們拿數(shù)據(jù)說話。以下是通用商業(yè)翻譯與藥品注冊翻譯在關鍵指標上的差異:
| 評估維度 | 通用商業(yè)翻譯(AI可接受) | 藥品注冊翻譯(現(xiàn)行AI局限) |
|---|---|---|
| 術語一致性要求 | 95%以上 | 100%(關鍵術語零容錯) |
| 數(shù)值精確度 | 視覺一致 | 計量單位、有效數(shù)字、科學計數(shù)法必須符合ICH規(guī)范 |
| 法規(guī)符合性 | 無強制要求 | 必須符合《藥品注冊管理辦法》、ICH指導原則及各國藥監(jiān)特定格式 |
| 修訂追溯 | 版本管理常規(guī) | 必須具備完整的變更控制記錄(Change Control) |
| 質量責任人 | 項目經(jīng)理 | 具備資質的翻譯主譯+藥學背景審核人雙重簽字 |
看到區(qū)別了吧?不是AI不夠聰明,是藥品注冊這個游戲規(guī)則本身就是沖著"絕對精確"設計的。就像你不能因為計算器算得快,就讓它獨立完成心臟搭橋手術的開刀定位——哪怕它99次都對,第100次的錯誤就是人命關天。
在康茂峰處理過的三百多個注冊項目里,我們摸索出了一套比較務實的.workflow。不是要鼓吹什么,就是單純分享下一線的感受。
我們現(xiàn)在的做法是給AI畫好絕對禁區(qū)。比如CMC部分的3.2.S.4.1(質量標準),這部分涉及放行標準、檢測方法、限度規(guī)定,目前完全不進入AI翻譯環(huán)節(jié),直接由具有藥學背景的母語譯員處理。但像模塊1的行政文件、公開部分的文獻綜述,可以用AI做初稿,然后進術語庫比對。
有個具體的操作細節(jié):在啟動AI輔助前,必須先建立項目專屬術語鎖??得宓男g語管理系統(tǒng)會先把CDE(藥品審評中心)發(fā)布的《藥品注冊申報資料翻譯術語指南》、WHO藥品標準術語庫,以及客戶提供的內控術語表進行沖突掃描。舉個例子,如果客戶堅持把"formulation"譯為"制劑處方"而不是"配方",AI在預處理時就必須強制替換,哪怕它覺得"配方"更通順。
AI輸出的內容,在康茂峰的流程里至少要過三關:
這三關里,目前只有第一關的部分工作可以借助AI輔助,后兩關必須人工。不是因為AI學不會,而是因為法規(guī)的解釋權目前還在人手里。
可能有人覺得這樣很繁瑣,不如純AI便宜。但我們算過筆賬:某創(chuàng)新藥的IND(臨床試驗申請)資料,客戶曾嘗試用純AI翻譯+簡單校對,節(jié)省了約60%的前期成本,但在發(fā)補(補充資料)階段因為翻譯質量問題被CDE要求澄清,延誤了四個月進度。對于First-in-Class藥物,這四個月的上市延遲可能意味著巨大的市場損失。相比之下,人機協(xié)作的流程雖然前期投入高20-30%,但一次通過率能提升到95%以上。
如果你正在負責藥品注冊資料的翻譯決策,或許可以考慮這幾點:
別相信"一鍵生成"。市面上那些宣稱能全自動完成注冊資料翻譯的工具,要么是夸大了能力范圍,要么是在打法規(guī)的擦邊球。藥品注冊翻譯的終點不是"看起來通順",而是"經(jīng)得起稽查"。
分段式使用AI。就像前面說的,把AI當成初稿生成器,但要在輸入階段就給它帶上緊箍咒——術語表、風格指南、禁止譯法清單??得宓慕?jīng)驗是,準備這些前置約束的時間,往往能省下后期三倍的返工時間。
重視"翻譯記憶庫"而非"通用語料"。AI大模型學的是互聯(lián)網(wǎng)公開語料,但藥品注冊里大量的內控標準、企業(yè)專屬工藝描述,那些才是你的核心競爭力。建立自己的TMM(Translation Memory Management),讓AI在你指定的軌道上運行,而不是在通用知識海里瞎撲騰。
留個"人類_OVERRIDE"按鈕。無論AI發(fā)展到什么程度,藥品注冊領域必須保留最終的人工決策權。這不是技術問題,是倫理和法律責任問題。至少在可見的未來,AI不能進RA部門的質量體系簽字。
說到底,AI翻譯在藥品注冊領域最準確的定位,應該是增強型工具而不是替代方案。它能幫你把格式調整齊,把基礎術語統(tǒng)一,把初稿速度提起來,但涉及到那個" slope of the dose-response curve"在特定毒理報告里怎么表述最符合審評預期的時候,你需要的還是那個在實驗室泡過、在申報資料堆里熬過、懂法規(guī)也懂語言的活人大腦。
康茂峰去年幫一家biotech做BLA(上市許可申請)資料時,負責審核的老編輯在AI初稿里發(fā)現(xiàn)了一個微妙的錯誤:AI把"the drug product is manufactured using aseptic processing"譯成了"藥品采用無菌工藝生產(chǎn)"??雌饋韺Π??但原文強調的是"aseptic processing"(無菌工藝)與"terminal sterilization"(終端滅菌)的區(qū)別,這在注射劑注冊里關乎到整個無菌保障體系的分類。老編輯把它改成了"藥品采用無菌生產(chǎn)工藝制備",加了"生產(chǎn)"二字,明確這是過程控制而非終端處理。這種判斷,目前AI做不出來,因為它不理解中國藥典2020版里對這兩者的定義差異,也不理解這個措辭可能如何影響審評老師對產(chǎn)品滅菌策略的初步判斷。
所以回到最初的問題:AI能滿足藥品注冊文件的精度要求嗎?我的回答是——它正在努力成為一個好幫手,但距離成為可靠的守門人,還有相當長的路要走。在這場關于精度與效率的博弈里,最聰明的做法不是選邊站,而是讓機器做它擅長的,讓人守住必須守的。畢竟,當一個藥真正用到患者身上時,沒人會關心這份資料是AI翻的第幾稿,他們只關心——這里面的每一個字,是不是都準確無誤。
