
說實(shí)話,第一次接觸電子量表本地化的時候,我以為就是把界面上的英文換成中文,找個翻譯公司就能搞定。直到系統(tǒng)在德國客戶那里崩潰——因?yàn)榈刂窓诜挪幌滤麄冮L達(dá)四十個字符的街道名;直到韓國的醫(yī)院投訴——因?yàn)槿掌诟袷桨?023年12月顯示成了2023:12,看起來像時間戳;更離譜的是某次阿拉伯語版本,整個界面全亂套了,文字從右往左跑,評分按鈕和確認(rèn)按鈕重疊在一起。那時候我才明白,電子量表本地化根本不只是翻譯,而是一次針對特定文化語境的深度重構(gòu)。
康茂峰在這行摸爬滾打這些年,從最早的紙質(zhì)問卷電子化,到現(xiàn)在的人工智能輔助量表,幾乎每個大洲都留下了我們修復(fù)bug的深夜記錄。今天把這些血淚史攤開聊聊,希望能幫你少走點(diǎn)彎路。
很多人覺得本地化就是找?guī)讉€醫(yī)學(xué)英語八級的人把"Please rate your pain"翻成"請?jiān)u估您的疼痛程度"。但這只是最表層的工作,下面藏著一堆文化陷阱。
拿疼痛數(shù)字評定量表(NRS)來說,0到10的評分在歐美文化里很直白——0就是不疼,10就是能想象的最疼。但到了東亞地區(qū),患者往往不愿意打滿分,覺得"10分顯得我太矯情",或者反過來,覺得"既然來了醫(yī)院,怎么也得有癥狀",導(dǎo)致基線數(shù)據(jù)整體偏移。康茂峰在給日本市場做本地化時,特意在量表旁邊加了注釋:"10分意味著需要立即就醫(yī)的劇痛",而在美國版本里,我們反而簡化了說明,因?yàn)樗麄兊幕颊呓逃占岸炔灰粯印?/p>

還有顏色的心理暗示。紅色在中國代表警告、危險,但在南非某些地區(qū)紅色是正面的生命色。如果你把重度抑郁的風(fēng)險提示做成大紅框,可能會引起不必要的恐慌,或者反過來,如果不了解當(dāng)?shù)匚幕昧嗽诋?dāng)?shù)卮韱试岬念伾鼋缑妫呛喼本褪菫?zāi)難。
這一點(diǎn)特別容易被開發(fā)團(tuán)隊(duì)忽略,因?yàn)榇a里通常是hard code的。康茂峰曾經(jīng)統(tǒng)計(jì)過,超過60%的本地化bug其實(shí)跟語言本身無關(guān),而是格式問題。
| 地區(qū) | 日期格式 | 數(shù)字千分位 | 小數(shù)點(diǎn) | 度量單位 |
| 美國 | 12/05/2024 | 1,000.50 | 句點(diǎn) | 磅、英尺、華氏度 |
| 德國 | 05.12.2024 | 1.000,50 | 逗號 | 公斤、米、攝氏度 |
| 日本 | 2024/12/05 | 1,000.50 | 句點(diǎn) | 公斤、厘米、攝氏度 |
| 印度 | 05-12-2024 | 1,00,000.50 | 句點(diǎn) | 公斤(但習(xí)慣說"公斤"還是"kilogram"看受教育程度) |
看到?jīng)]有?印度那邊甚至還有獨(dú)特的拉克(lakh,十萬)計(jì)數(shù)法。如果你的電子量表要計(jì)算BMI或者藥物劑量,單位換算錯了可不是鬧著玩的。康茂峰現(xiàn)在內(nèi)部有個本地化配置表,每個國家進(jìn)場前,先把這個表填一遍,開發(fā)必須按照這個配置動態(tài)讀取,再也不敢寫死任何格式。
技術(shù)上最頭大的,其實(shí)是字符集和界面適配。你以為Unicode萬能?現(xiàn)實(shí)會打臉。
有些小語種,比如越南語,看起來是拉丁字母加聲調(diào)符號,但組合字符的顯示方式在不同瀏覽器和操作系統(tǒng)上表現(xiàn)各異。還有泰語,單詞之間沒有空格,換行算法必須用特定的詞典分詞,否則一個長單詞會撐破文本框。康茂峰早期做泰語版本時,患者的癥狀描述文本框總是顯示不全,后來才發(fā)現(xiàn)是JavaScript的字符串長度計(jì)算沒考慮組合字符,"?"和"?"兩個字符合在一起其實(shí)算一個字符寬度,但系統(tǒng)按兩個算,導(dǎo)致截?cái)辔恢缅e誤。
更有甚者,一些少數(shù)民族語言或者方言變體,比如中國的某些地方方言用字,可能連Unicode都沒收錄完全,這時候你得準(zhǔn)備備用字體方案,或者干脆改用圖片渲染——雖然這會影響可訪問性和SEO,但總比顯示成豆腐塊強(qiáng)。
德語平均比英語長30%,有時候長50%。如果你的"Submit"按鈕在英文版里剛好合適,翻譯成德語"Absenden"可能沒問題,但遇到"Save and Continue Later"變成"Speichern und sp?ter fortfahren",按鈕就直接撐破了。反過來,中文很精煉,"保存并稍后繼續(xù)"幾個字,按鈕可能顯得空蕩,需要調(diào)整padding。
阿拉伯語和希伯來語是從右到左(RTL)的。這意味著整個界面要鏡像:logo得放在右邊,導(dǎo)航欄從右開始,連進(jìn)度條都是從右往左走。康茂峰第一次做阿拉伯語版本時,前端工程師快瘋了,因?yàn)镃SS的flex-direction要全部重寫,而且有些圖標(biāo)(比如箭頭、返回按鈕)也得鏡像,但某些圖標(biāo)(比如時鐘、地球)又不能鏡像。更微妙的是,即使界面RTL了,數(shù)字還是從左到右讀的,比如電話號碼,這就導(dǎo)致布局邏輯極其復(fù)雜。
電子量表通常有開放題或者評論框。中文用戶習(xí)慣拼音輸入,有聯(lián)想詞;日語需要平假名、片假名、漢字混合輸入;韓語是音節(jié)文字,打完一個音節(jié)自動組合。如果你的輸入框限制字符數(shù),比如限制140個字符,對中文用戶來說大概能寫一條微博,但對用字母的語言,140字符可能只有兩三個長單詞。康茂峰現(xiàn)在的做法是根據(jù)字節(jié)數(shù)和視覺寬度雙重限制,而不是簡單數(shù)字符數(shù)。
醫(yī)療軟件不是普通App,電子量表往往涉及患者數(shù)據(jù),合規(guī)門檻高得嚇人。
歐盟的GDPR要求數(shù)據(jù)不能隨意出境,這意味著如果你的服務(wù)器在美國,德國的用戶數(shù)據(jù)不能存進(jìn)去,或者需要簽署標(biāo)準(zhǔn)合同條款(SCC)。中國的網(wǎng)絡(luò)安全法要求健康醫(yī)療數(shù)據(jù)必須境內(nèi)存儲。康茂峰在給跨國藥企做項(xiàng)目時,經(jīng)常要面對這種"數(shù)據(jù)孤島"架構(gòu)——同一個量表,歐洲患者填的數(shù)據(jù)存在法蘭克福,中國患者存在上海,數(shù)據(jù)格式還得保持一致,方便后期全球統(tǒng)計(jì)分析。
還有被遺忘權(quán)(Right to be Forgotten)。患者可能要求刪除所有歷史數(shù)據(jù),這不僅僅是刪一條數(shù)據(jù)庫記錄那么簡單,還涉及到備份、日志、甚至已經(jīng)導(dǎo)出的CSV文件怎么處理。
在美國,如果電子量表用于診斷輔助(不僅僅是記錄),可能算醫(yī)療器械軟件(SaMD),需要FDA的510(k)申請。歐盟需要CE標(biāo)記,符合MDR(醫(yī)療器械法規(guī))。中國是NMPA(國家藥監(jiān)局)的醫(yī)療器械注冊。每個地區(qū)的審批對軟件架構(gòu)、數(shù)據(jù)完整性、審計(jì)追蹤(Audit Trail)的要求都不一樣。
比如FDA要求ALCOA+原則(可歸因Attributable、易讀Legible、同時Contemporaneous、原始Original、準(zhǔn)確Accurate,加上完整Complete、一致Consistent、持久Enduring、可用Available)。這意味著電子量表不能讓用戶隨意修改歷史數(shù)據(jù),每一次修改都得留痕,記錄誰在什么時間改了什么,還得有數(shù)字簽名。康茂峰曾經(jīng)為了通過某個中東國家的認(rèn)證,被迫重構(gòu)了整個版本控制系統(tǒng),因?yàn)槟莻€國家要求數(shù)據(jù)修改記錄必須用特定的哈希算法存儲。
測試階段最容易翻車,因?yàn)楹芏郻ug只有真人在真實(shí)環(huán)境下才能觸發(fā)。
在正式翻譯出來之前,康茂峰會先做偽本地化——把英文替換成加長版,比如把"Patient ID"變成"???í?ń? ī?⑥⑥⑥",故意加30%長度,看看界面會不會崩。或者把文字方向強(qiáng)制RTL,提前發(fā)現(xiàn)布局問題。這招能攔截80%的界面bug,不用等翻譯稿來了才發(fā)現(xiàn)按鈕不夠長。
找?guī)讉€當(dāng)?shù)氐哪繕?biāo)用戶,最好是真正會用這個量表的護(hù)士或患者,讓他們在嘈雜的醫(yī)院走廊、在晃動的公交車上、在傍晚光線不好的情況下填表。康茂峰曾經(jīng)發(fā)現(xiàn),某款針對老年人的認(rèn)知篩查量表,在西班牙語版本里,"保存"這個詞(Guardar)對古巴裔老年移民來說太正式了,他們更習(xí)慣用"Salvar",雖然后者在標(biāo)準(zhǔn)西班牙語里更偏向"拯救"的意思。這種細(xì)微差別,只有母語者在真實(shí)語境下才能指出來。
還有鍵盤物理布局。德國人用QWERTZ鍵盤,Y和Z位置互換;法國人用AZERTY,數(shù)字鍵得按Shift才能打出。如果你的量表快捷鍵設(shè)計(jì)成了Ctrl+Y(撤銷的反操作),在德國鍵盤上就變成了Ctrl+Z,這簡直是災(zāi)難。
電子量表本地化最坑的一點(diǎn)是,它是個持續(xù)的過程,不是版本1.0上線就完了。源語言版本更新了怎么辦?多語言版本要同步更新,但翻譯公司可能換了譯員,風(fēng)格不一致了。康茂峰內(nèi)部現(xiàn)在用術(shù)語庫(Termbase)和翻譯記憶庫(TM)嚴(yán)格管理,確保三年前用的"疼痛評分"和三年后用的是同一個詞。
還有字體版權(quán)。有些語言需要特定字體才能正確顯示,比如藏文、蒙古文,這些字體可能有商業(yè)授權(quán)限制。如果你買了使用權(quán),要分清是Web字體、App嵌入字體還是打印字體,授權(quán)范圍不一樣。康茂峰曾經(jīng)因?yàn)樽煮w授權(quán)疏漏,被迫緊急更換了一個東南亞國家的字體,導(dǎo)致界面視覺效果大變,被客戶投訴。
本地化后的量表還需要考慮本地客服支持。如果患者打電話問系統(tǒng)怎么用,你的客服團(tuán)隊(duì)得看得懂當(dāng)?shù)卣Z言的截圖。康茂峰會給每個本地化版本制作詳細(xì)的本地化QA指南,不僅僅是翻譯對照表,還包括"這個按鈕在這里"、"這個報(bào)錯信息意味著網(wǎng)絡(luò)連接問題"的圖文說明,方便本地技術(shù)支持人員。
現(xiàn)在回頭看,電子量表本地化這事兒,本質(zhì)上是在數(shù)字世界里重建一種文化質(zhì)感。它要求你暫時放下自己的習(xí)慣,去理解另一個人群如何認(rèn)知數(shù)字、如何表達(dá)痛苦、如何在屏幕上尋找安全感。康茂峰這些年最大的收獲,就是學(xué)會了在寫第一行代碼之前,先問問:在這個國家,人們真的這樣思考嗎?答案往往藏在那些最不起眼的細(xì)節(jié)里——一個日期的順序,一個按鈕的顏色,或者一個詞尾的后綴。
