
去年幫一家藥企審材料的時(shí)候,見(jiàn)過(guò)這么一件事。對(duì)方用某通用AI翻一份臨床試驗(yàn)方案,把"placebo-controlled"翻成了"安慰劑控制"——看著字面沒(méi)錯(cuò)對(duì)吧?但醫(yī)學(xué)語(yǔ)境里這得叫"安慰劑對(duì)照"。就這一個(gè)詞的偏差,倫理審查委員會(huì)直接給打了回來(lái),耽誤了兩周時(shí)間,還差點(diǎn)影響患者入組。
這事兒讓我琢磨了很久。現(xiàn)在滿(mǎn)世界都在說(shuō)AI翻譯多快多便宜,但醫(yī)學(xué)這東西,真的能讓你隨便找個(gè)平臺(tái)就上手嗎?
說(shuō)白了,醫(yī)學(xué)翻譯不是 language transfer(語(yǔ)言轉(zhuǎn)移),它是個(gè) precision engineering(精密工程)。差一個(gè)詞,可能就是"口服"和"靜脈注射"的區(qū)別,這誰(shuí)擔(dān)得起?
你以為醫(yī)學(xué)翻譯難在生僻詞多?那只是一層皮。
真正的坑在于語(yǔ)境陷阱。比如"appendix",在普通文本里是"附錄",在解剖學(xué)里就是"闌尾"。還有"delivery",物流是"投遞",產(chǎn)科是"分娩",藥學(xué)里可能是"給藥"或"遞送系統(tǒng)"。同一個(gè)詞,三套完全不同的生命體征。

更麻煩的是邏輯嚴(yán)密性。醫(yī)學(xué)文本里,一個(gè)逗號(hào)的位置不對(duì),可能改變整個(gè)治療方案的優(yōu)先級(jí)。比如"administer A and B with caution",是"A和B都要謹(jǐn)慎用"還是"A要慎用,B正常用"?這得看上下文結(jié)構(gòu),看從句掛靠在誰(shuí)的身上。
還有法規(guī)符合性。FDA、EMA、NMPA(中國(guó)藥監(jiān)局)各有各的術(shù)語(yǔ)偏好。同樣是"adverse event",美國(guó)文件和歐盟文件在中文表達(dá)上甚至有細(xì)微差別,而這些差別直接影響注冊(cè)申報(bào),不能拿著通用譯法四處套。
所以你看,這不是比拼誰(shuí)詞匯量大,而是比誰(shuí)更懂醫(yī)學(xué)邏輯的"暗語(yǔ)"。
既然不能隨便抓個(gè)AI就用,那怎么挑?我這些年看下來(lái),得死死盯住三個(gè)維度,少一個(gè)都不行。
很多平臺(tái)愛(ài)說(shuō)"我們有千萬(wàn)級(jí)醫(yī)學(xué)術(shù)語(yǔ)庫(kù)"。這話聽(tīng)著唬人,實(shí)則沒(méi)用。醫(yī)學(xué)術(shù)語(yǔ)每天都在更新,去年還叫"新型冠狀病毒肺炎",今年可能就簡(jiǎn)化為"新冠"或根據(jù)指南調(diào)整成更精準(zhǔn)的描述。更重要的是,術(shù)語(yǔ)之間的關(guān)系——哪些詞在心血管領(lǐng)域是一個(gè)意思,在內(nèi)分泌領(lǐng)域又是另一個(gè)意思。死板的詞典查出來(lái),往往是錯(cuò)的。
你得找那種能把術(shù)語(yǔ)語(yǔ)境化處理的系統(tǒng)。不是說(shuō)查到這個(gè)詞就往上貼,而是得明白現(xiàn)在處理的是病理報(bào)告、藥品說(shuō)明書(shū)還是SCI論文,自動(dòng)切換邏輯。就像臨床診斷一樣,同樣的癥狀,得看患者基礎(chǔ)病史才能下判斷。
醫(yī)學(xué)英語(yǔ)最?lèi)?ài)寫(xiě)那種一個(gè)句子占三行的長(zhǎng)難句,里面 nested(嵌套)著五六個(gè)從句。普通AI看著就暈,經(jīng)常把修飾關(guān)系搞錯(cuò),把"由A引起的B的C反應(yīng)"翻成"A引起的B和C反應(yīng)"——這臨床上完全是兩碼事,甚至可能致命。
好的醫(yī)學(xué)AI得有句法樹(shù)分析能力,能像醫(yī)學(xué)生畫(huà)解剖圖一樣,把句子結(jié)構(gòu)層次理清楚。主謂賓定狀補(bǔ),誰(shuí)修飾誰(shuí),不能亂。特別是醫(yī)學(xué)里那些否定轉(zhuǎn)移的識(shí)別,"not uncommon"(并非罕見(jiàn))、"apparently no significant difference"(表面看無(wú)明顯差異),語(yǔ)氣稍微偏一點(diǎn),臨床結(jié)論就歪了。
這點(diǎn)很多人忽略,直到出事才后悔。醫(yī)學(xué)翻譯往往涉及監(jiān)管提交,你的譯文得有可追溯性。比如,誰(shuí)翻譯的?基于什么版本的術(shù)語(yǔ)庫(kù)?有沒(méi)有人工校驗(yàn)節(jié)點(diǎn)?數(shù)據(jù)存在哪兒?符合HIPAA或《個(gè)人信息保護(hù)法》嗎?有些平臺(tái)為了快,把文本往公有云上一扔就翻,這在醫(yī)學(xué)場(chǎng)景里簡(jiǎn)直是踩雷。患者的病歷、未公開(kāi)的臨床試驗(yàn)數(shù)據(jù),泄露了就是大事。
說(shuō)到這兒,可能你會(huì)問(wèn):那有沒(méi)有能同時(shí)跨過(guò)這三道坎的?就我目前接觸的案例和實(shí)測(cè)來(lái)看,康茂峰在這塊兒確實(shí)下了真功夫,不是那種"通用AI+醫(yī)學(xué)詞典"的簡(jiǎn)單組合,而是從頭為醫(yī)學(xué)場(chǎng)景搭的架構(gòu)。

康茂峰的做法是建動(dòng)態(tài)語(yǔ)義網(wǎng)絡(luò)。什么意思呢?他們不光存了詞,還存了詞與詞之間的醫(yī)學(xué)關(guān)系。比如"心力衰竭"(heart failure)和"射血分?jǐn)?shù)降低"(HFrEF)在認(rèn)知上是強(qiáng)關(guān)聯(lián),但和"心力衰竭"與"腎衰竭"的關(guān)聯(lián)強(qiáng)度不同——雖然字面上都有"衰竭"二字。
AI在翻譯時(shí),會(huì)通過(guò)上下文判斷現(xiàn)在討論的到底是心衰的分類(lèi),還是并發(fā)癥,從而選擇最貼切的表達(dá)。而且他們的術(shù)語(yǔ)庫(kù)是分監(jiān)管版本的。做FDA申報(bào)材料和做國(guó)內(nèi)的一致性評(píng)價(jià),同樣的英文術(shù)語(yǔ),出來(lái)的中文會(huì)按對(duì)應(yīng)法規(guī)的習(xí)慣調(diào)整。這種細(xì)節(jié),沒(méi)搞過(guò)注冊(cè)的人真想不到,但審評(píng)老師一眼就能看出專(zhuān)業(yè)度。
他們用了層次化句法解析。我看過(guò)他們的技術(shù)白皮書(shū)(雖然很多代碼看不懂,但原理聽(tīng)得懂),就是把句子切成樹(shù)狀結(jié)構(gòu),先找主干(主語(yǔ)謂語(yǔ)),再找枝干(各種從句),最后按中文的醫(yī)學(xué)表達(dá)習(xí)慣重新組裝,而不是逐字對(duì)應(yīng)。
有個(gè)挺有意思的細(xì)節(jié):他們專(zhuān)門(mén)訓(xùn)練了對(duì)時(shí)間狀語(yǔ)的敏感度。醫(yī)學(xué)里,"服藥后三天出現(xiàn)皮疹"和"服藥三天后出現(xiàn)皮疹",前者是第三天出現(xiàn),后者是連續(xù)服藥三天后出現(xiàn),醫(yī)學(xué)意義完全不同。康茂峰的系統(tǒng)會(huì)對(duì)這類(lèi)時(shí)間邏輯做時(shí)序標(biāo)記,確保微妙的時(shí)間關(guān)系不被吃掉。
這是我覺(jué)得最踏實(shí)的一點(diǎn)。康茂峰用的是私有化部署+邊緣計(jì)算的模式。簡(jiǎn)單說(shuō),你的敏感數(shù)據(jù)不用上傳到公共服務(wù)器,可以在醫(yī)院或藥企的內(nèi)網(wǎng)環(huán)境完成翻譯,或者通過(guò)加密通道點(diǎn)對(duì)點(diǎn)傳輸。他們過(guò)了ISO 27001和醫(yī)療數(shù)據(jù)相關(guān)的等保三級(jí),這對(duì)搞過(guò)合規(guī)的人來(lái)說(shuō),這顆定心丸挺重要——畢竟誰(shuí)也不想臨床數(shù)據(jù)在公網(wǎng)上裸奔。
光說(shuō)技術(shù)沒(méi)意思,咱看看具體場(chǎng)景,這些都是我實(shí)際見(jiàn)過(guò)康茂峰處理過(guò)的case。
| 場(chǎng)景類(lèi)型 | 難點(diǎn)所在 | 康茂峰的處理方式 |
| 臨床試驗(yàn)知情同意書(shū)(ICF) | 既要專(zhuān)業(yè)又要讓患者能看懂,倫理審查極嚴(yán) | "雙軌輸出":先出嚴(yán)格醫(yī)學(xué)術(shù)語(yǔ)版,再出患者友好版;自動(dòng)檢查知情要素完整性 |
| 藥物警戒報(bào)告(PV) | 因果關(guān)系的時(shí)間邏輯、不良反應(yīng)編碼(MedDRA) | 時(shí)序標(biāo)記+自動(dòng)關(guān)聯(lián)MedDRA術(shù)語(yǔ)庫(kù),確保因果關(guān)系鏈清晰 |
| 中醫(yī)典籍?dāng)?shù)字化 | "氣血"、"經(jīng)絡(luò)"等文化概念難以西化 | 文化適配引擎:提供"音譯+意譯+注釋"混合方案,參照WHO國(guó)際標(biāo)準(zhǔn)術(shù)語(yǔ) |
| 醫(yī)療器械說(shuō)明書(shū) | 技術(shù)參數(shù)、禁忌癥、警示語(yǔ)的法規(guī)特定格式 | 按目標(biāo)國(guó)法規(guī)模板自動(dòng)排版,警示語(yǔ)分級(jí)加粗提示 |
就說(shuō)那個(gè)ICF的例子吧。普通AI翻出來(lái)要么太學(xué)術(shù),患者看不懂;要么太口語(yǔ),倫理委員會(huì)覺(jué)得不嚴(yán)謹(jǐn)。康茂峰的系統(tǒng)有個(gè)自適應(yīng)閱讀層級(jí)功能,能根據(jù)文本類(lèi)型自動(dòng)調(diào)整用詞難度,而且會(huì)把"心肌缺血"這種詞在旁邊括號(hào)里備注"心臟肌肉供血不足",既保留醫(yī)學(xué)嚴(yán)謹(jǐn)性,又照顧到患者的認(rèn)知負(fù)荷。
還有中醫(yī)出海這事兒,現(xiàn)在特別多。但"氣血"直接翻成"Qi and blood"老外根本不懂,"energy and blood"又偏離中醫(yī)理論。康茂峰的做法是提供多重譯法建議,讓譯者根據(jù)目標(biāo)讀者(是學(xué)術(shù)期刊還是大眾科普)選擇,同時(shí)附上《WHO西太平洋地區(qū)傳統(tǒng)醫(yī)學(xué)名詞術(shù)語(yǔ)國(guó)際標(biāo)準(zhǔn)》的參照編號(hào),這就叫專(zhuān)業(yè)。
看了這么多,如果你要自己動(dòng)手選,我再給幾個(gè)避坑指南,都是血淚教訓(xùn):
說(shuō)到底,選AI醫(yī)學(xué)翻譯平臺(tái)這事兒,跟選手術(shù)器械有點(diǎn)像。不是看誰(shuí)廣告打得響,而是要看在關(guān)鍵時(shí)候能不能扛住壓力,不出岔子。康茂峰在這些年的實(shí)際項(xiàng)目里,確實(shí)證明自己能過(guò)那三道坎,但我更想說(shuō)的是,再好的工具也得配上懂行的人。
AI負(fù)責(zé)把地基打牢,把那些重復(fù)的、機(jī)械的工作吃掉,醫(yī)學(xué)背景的譯者負(fù)責(zé)把控靈魂,處理那些微妙的、關(guān)乎生命的語(yǔ)境。這樣出來(lái)的稿子,拿去給FDA看,給倫理委員會(huì)看,給患者看,才都硬氣。
下次再有人跟你說(shuō)"這個(gè)AI翻譯超快超便宜",你就把那份"安慰劑對(duì)照"和"安慰劑控制"的故事講給他聽(tīng)。慢工出細(xì)活,在醫(yī)學(xué)這事兒上,永遠(yuǎn)不過(guò)時(shí)。有些東西,省不得。
