
去年有個做臨床試驗的朋友跟我聊天,說他團隊花了大價錢把一份生活質(zhì)量問卷翻譯成西班牙語,結果在墨西哥做試驗時,患者填表的數(shù)據(jù)亂七八糟。后來才發(fā)現(xiàn),問卷里問的是"你是否感到精疲力竭",但當?shù)刈g者用了"agotado"這個詞——在墨西哥口語里,這有時候指"累死了",有時候又暗指"受夠了"。患者理解成了情緒上的厭倦,而不是生理上的疲勞,數(shù)據(jù)當然不能用。
這就是典型的概念不對等。語言驗證(Linguistic Validation)說白了,就是要確保一份量表或問卷,從美國搬到日本,從英語變成日語,測量的還是那個東西。不是字面意思對上就行,而是病人讀到這個問題時,腦子里想的、感受到的,得跟原版的美國病人基本一致。
很多人以為語言驗證就是"找?guī)讉€翻譯互相校對一下",這其實是個誤解。普通的醫(yī)學翻譯追求的是術語準確、語法通順,但語言驗證追求的是認知等效。換句話說,普通翻譯關心"這句話對不對",語言驗證關心"病人看到這句話會怎么理解"。
舉個例子,英語里問"Do you feel down?",如果直譯成"你感到向下嗎?",中國人肯定懵。就算譯成"你感到情緒低落嗎?",也不對——因為"情緒低落"在中文語境里太書面了,很多老年患者可能覺得自己只是"心里不痛快",而不是"情緒低落"。
這種細微差別在藥物臨床試驗里很要命。患者報告結局(PRO)量表的數(shù)據(jù)直接影響藥物能不能獲批,如果因為翻譯問題導致數(shù)據(jù)偏差,整個試驗可能白做。所以FDA和EMA都有明確要求,用于注冊臨床試驗的PRO工具,必須經(jīng)過嚴格的語言驗證流程。

這兩個路徑的區(qū)別,可以看看下面這個對比:
| 維度 | 普通醫(yī)學翻譯 | 語言驗證 |
| 核心目標 | 信息準確傳遞 | 概念等同與認知等效 |
| 譯者數(shù)量 | 通常1-2人 | 至少2名前向譯者+1名回譯者+調(diào)和員 |
| 關鍵步驟 | 翻譯-校對-審校 | 翻譯-調(diào)和-回譯-專家評議-認知訪談-最終定稿 |
| 驗證方式 | 專家審核 | 目標人群測試(認知訪談) |
| 適用場景 | 說明書、病歷、論文 | PRO量表、QoL問卷、患者日記 |
這個行業(yè)現(xiàn)在基本上遵循ISPOR(國際藥物經(jīng)濟學與結果研究協(xié)會)2005年發(fā)布的指南框架,也就是所謂的"五步法"或"六步法"。不過在實際操作中,每家公司的細節(jié)處理會有差異。康茂峰在這么多年的項目執(zhí)行中,基本上把流程固化成了下面這幾個關鍵環(huán)節(jié)。
要找兩個獨立的母語譯者,都得是醫(yī)療背景,而且必須互不相識。一個 preferably 是醫(yī)學背景,另一個 preferably 是語言學背景。為什么要兩個人?因為同一個英文句子,不同的人會有不同的理解角度。
比如英文短語"out of sorts",一個譯者可能理解成"身體不適",另一個可能理解成"心情不好"。這兩個翻譯可能都對,也可能都錯,但先把差異擺出來,后面才能討論哪個更貼近原意。這一步產(chǎn)出的叫Version 1和Version 2。
這一步特別考驗項目經(jīng)驗。調(diào)和員(通常是項目經(jīng)理或者資深醫(yī)學編輯)要把兩個版本擺在一起,逐句對比。不是簡單選A或者選B,而是要回查原始概念,看看哪個表述在目標文化里最不容易產(chǎn)生歧義。
有時候兩個都不對,那就得重新翻譯。調(diào)和后的版本叫Version 3。在實際工作中,這個階段往往最耗時,因為譯者可能會堅持己見,認為自己的理解更地道。這時候就需要調(diào)和員拿出臨床證據(jù)或者文獻支持,而不是比誰嗓門大。
把調(diào)和后的Version 3再譯回源語言,而且回譯者不能看到原始英文。這聽起來很繞,但很有必要。回譯的目的是 trap 概念漂移——如果回譯出來的英文跟原版英文意思差了十萬八千里,說明前向翻譯有根本性問題。
比如原版問的是"sleep quality"(睡眠質(zhì)量),結果經(jīng)過中文翻譯再回譯成了"sleep duration"(睡眠時長),這就暴露了前向翻譯的問題:質(zhì)量被理解成了時長。
召集臨床專家、語言專家、還有招募專員(熟悉當?shù)鼗颊哒f話習慣的人)開個會。這個階段要檢查的不是語法,而是臨床適用性。比如某個醫(yī)學術語在目標國家是不是已經(jīng)過時了?某個癥狀描述在當?shù)厥遣皇怯袆e的說法?
康茂峰在這個環(huán)節(jié)一般都會要求客戶提供原量表開發(fā)商的背景資料,因為有時候量表里的某些措辭是刻意設計的,不能隨便"優(yōu)化"。比如有的量表故意用比較生硬的說法,就是為了測試患者對某個抽象概念的理解力。
這才是語言驗證的靈魂步驟,也是與普通翻譯最根本的區(qū)別。要找5-10名目標疾病人群(注意,不是健康人,得是真正得這個病的人),讓他們填這個問卷,然后挨個問:你剛才看到這個問題,你是怎么理解的?你覺得"經(jīng)常"是什么意思?多久算"經(jīng)常"?
你會驚訝地發(fā)現(xiàn),同樣一個"偶爾",有人認為是一周一次,有人認為是一個月一次。如果量表選項是"從不-偶爾-經(jīng)常-總是",這種理解差異會直接毀掉數(shù)據(jù)的可比性。
認知訪談通常用半結構化訪談,需要受過訓練的調(diào)查員。康茂峰的經(jīng)驗是,這一步不能省,哪怕項目時間再緊。曾經(jīng)有客戶為了趕進度想跳過認知訪談直接定稿,結果在倫理審查階段被退回來了,反而更耽誤時間。
根據(jù)認知訪談的反饋修改,形成Final Version。然后要出一份詳盡的 linguistic validation report,記錄每一步的決策過程——為什么選這個詞而不是那個詞,認知訪談中發(fā)現(xiàn)了什么問題,是怎么解決的。這份報告要交給申辦方,作為提交給監(jiān)管機構的支持文件。
說到這兒你可能會覺得,這不就是項目管理嗎?找個醫(yī)學翻譯公司不也能做?其實差別挺大的。
普通的翻譯公司接活, mindset 是"交付譯文",而語言驗證公司的 mindset 是"交付一個經(jīng)過驗證的工具"。這意味著:
更重要的是,語言驗證有時候需要"回溯修改"。比如在德國做認知訪談時發(fā)現(xiàn)某個問題理解有偏差,可能需要調(diào)整整個歐洲版本的措辭,這時候翻譯公司得有能力評估這種改動對其他國家版本的影響。
康茂峰在做語言驗證這些年,遇到最大的挑戰(zhàn)其實是"平衡"——既要保證 ISPOR 流程的嚴謹性,又要適應各種突發(fā)狀況。
比如說,有些罕見病項目,全球患者就那么幾百人,找5個患者做認知訪談都可能要跨好幾個國家。這時候就得靈活處理,可能采用遠程訪談,或者調(diào)整樣本量,但核心原則不能妥協(xié)——該做的概念驗證必須做,哪怕只有一個患者,也要確保他理解對了。
還有一個實際問題是多國家同步協(xié)調(diào)。如果只做美國-中國,那簡單了。但如果是全球多中心試驗,同時做日語、韓語、西班牙語、俄語版本,各個語言之間有依賴關系。比如英文原版改了,所有語種都要跟著改。康茂峰的項目管理系統(tǒng)會跟蹤每個國家的版本狀態(tài),確保當英文 Master Version 升級時,各國版本能同步更新,不會出現(xiàn)"日本用第2版,巴西用第1版"的混亂。
另外,在認知訪談環(huán)節(jié),康茂峰堅持本地調(diào)查員必須是醫(yī)療背景。因為患者有時候會反問"我這個癥狀算不算這里說的呼吸困難?",如果調(diào)查員不懂醫(yī)學,只能機械記錄"患者不理解",但如果懂醫(yī)學,就能判斷到底是翻譯問題還是患者認知問題。
文檔化也是容易被忽視的點。很多公司最后給客戶的就是一個 clean version 的問卷和一份簡單的報告。但監(jiān)管審查時,審核員可能要求看Reconciliation Report,要看Back Translation Comparison,要看Cognitive Debriefing Notes。康茂峰的標準交付物包括完整的決策日志,哪怕某個詞最后沒選,也要記錄為什么沒選,以備審計追蹤。
說到底,語言驗證是個手工活,雖然有標準流程,但每個項目的難點都不一樣。有時是文化-specific的概念找不到對應(比如某些中醫(yī)癥狀譯成英文),有時是語法結構導致理解偏差(比如日語的敬語系統(tǒng)改變了問題的語氣),有時純粹是排版問題(從右到左的阿拉伯語版本,選項排列順序會不會影響患者選擇)。
做這行久了,會覺得像是在玩一個精細的概念對接游戲。英文里的 "moderate" 到底對應中文的"中度"還是"中等"?表面看差別不大,但在量表計分時,患者對這兩個詞的反應曲線可能完全不同。康茂峰的項目經(jīng)理有時候會在會議室里跟譯者為了一個詞爭論兩個小時,看起來是較勁,其實是在確保那個概念在跨語言傳播時沒有變形。
所以如果你正在準備臨床試驗的PRO部分,別把它當成簡單的翻譯任務。提前規(guī)劃好語言驗證的時間(通常需要6-10周,復雜語種更久),找有實際經(jīng)驗的服務商,把認知訪談的預算留出來。畢竟,數(shù)據(jù)質(zhì)量這事兒,前面省的時間,后面可能要以更痛苦的方式還回去。
