語料庫 AI診療的基石

[事件] 作者 :byb.cn 日期:2026-5-8 00:01
【byb.cn 】(來源:生命時報)語料庫,AI診療的基石 亟需解決碎片化和標準不統(tǒng)一問題
什么是醫(yī)療健康語料庫?深圳大學附屬華南醫(yī)院院長吳松告訴《生命時報》記者,籠統(tǒng)來說,這是匯集了電子病歷、醫(yī)學影像、臨床診療路徑,以及基因組學、藥物研發(fā)、公共衛(wèi)生監(jiān)測等各類信息的一個數據庫。但這些數據不是簡單地堆在一起,而是進行系統(tǒng)性采集、清洗、脫敏(指把能定位到“某個人”的信息,處理成“看不出是誰”)和結構化整理后,形成的領域專用數據資產體系。
“如果把醫(yī)療AI比作一名學習型醫(yī)生,醫(yī)療健康語料庫就是它的‘學?!汀R床經驗積累庫’。沒有高質量的語料,AI無從學習,更談不上精準應用?!眳撬烧f。
在AI輔助診療方面,高質量的臨床語料庫可以支撐AI系統(tǒng)對多種影像資料進行秒級分析,展現(xiàn)出較高準確性。以眼底病變識別為例,部分研究顯示,其表現(xiàn)可與??漆t(yī)生相當;但在肺結節(jié)鑒別等復雜任務上,現(xiàn)階段仍主要作為輔助工具。
新藥研發(fā)方面,基于真實世界數據構建的AI模型,可以將化合物篩選、毒性預測等基礎科研的工作周期從數年壓縮至數天,大幅降低研發(fā)成本。
健康管理方面,深圳大學附屬華南醫(yī)院信息部助理主任楊凱介紹,在個人基因組、電子健康檔案、可穿戴設備等數據的基礎上,可以構建起真正意義上的“數字孿生體”,無差別反映一個人的生理狀況,從而實現(xiàn)慢病風險的提前預警,推動醫(yī)療模式從“有病治病”向“未病先防”轉變。
醫(yī)療健康語料庫建設,已在部分地區(qū)有所實踐。2024年11月,上海發(fā)布了全市首個衛(wèi)生健康行業(yè)語料庫;2025年6月,深圳市羅湖區(qū)啟動“羅湖醫(yī)療語料中心”建設項目,將整合市區(qū)兩級醫(yī)療機構的病理診斷、超聲影像、放射影像等7類場景數據,整合好的語料庫會面向羅湖區(qū)內AI企業(yè)開放,最終形成產學研綜合應用的閉環(huán)生態(tài)。
“我們目前正依托數據庫架構,建立覆蓋全院30余個科室、200余類核心數據字段的統(tǒng)一語義標準體系。這個過程既是為了在院內完善AI應用,也為將來參與區(qū)域性,甚至全國性語料庫共建打下基礎?!鄙钲诖髮W附屬華南醫(yī)院信息部主任歐陽杰說。
當醫(yī)療健康語料庫真正走向成熟,醫(yī)患體驗將會獲得質的提升。對患者而言,個性化的AI健康助手可以提前預警慢病風險,提供針對性管理方案;偏遠地區(qū)居民通過部署到本地的AI輔助工具,有望獲得三甲醫(yī)院級別的診斷建議;罕見病患者的確診等待時間,也可能從數年縮短至數月甚至數周。
對醫(yī)生而言,臨床決策支持系統(tǒng)將成為可靠的“智囊團”,不僅有數百萬份高質量病歷支撐,還能自動校驗診斷邏輯、提示遺漏檢查、推薦最優(yōu)方案。尤其是處在經驗積累期的年輕醫(yī)生,能大幅縮短成長周期,誤診漏診率有望顯著降低。
但在吳松看來,整個行業(yè)還處于早期發(fā)展階段,各地語料庫的建設基本是初期版本,碎片化、標準不統(tǒng)一的問題突出,能真正形成大規(guī)模產業(yè)化應用的案例尚不多見。主攻AI醫(yī)療的企業(yè)普遍反映“有模型、缺數據”,拿不到高質量、合規(guī)、有標注的基礎數據,成為阻礙行業(yè)突破的核心瓶頸之一。
統(tǒng)一入庫標準,規(guī)范數據質量。語料庫僅有海量數據還不夠,標注是否一致、準確才是關鍵。當前醫(yī)療大模型常出現(xiàn)“幻覺”問題,給出的診斷看起來像模像樣,實際卻經不起推敲,甚至出現(xiàn)錯誤。這主要是因為現(xiàn)有評估體系中,醫(yī)療大模型只盯著詞匯匹配度,對醫(yī)學邏輯是否嚴密判斷不準。這就需要在早期構建語料庫時,增強檢索內容與知識圖譜的關聯(lián),給大模型配上可查證的“知識字典”,形成可靠推理,從源頭抑制“幻覺”。
解決數據共享共用矛盾。醫(yī)療數據涉及核心隱私,法規(guī)要求嚴格,但AI訓練又需要大量數據,二者之間的矛盾若不能妥善解決,AI醫(yī)療的發(fā)展將舉步維艱。據介紹,當前的技術探索主要圍繞三個方向:一是聯(lián)邦學習,讓模型“移動”而非數據集中,實現(xiàn)數據“可用不可見”;二是在數據脫敏基礎上強化加密保護;三是實行數據信托機制,支持患者授權管理,實現(xiàn)全生命周期安全防護。
培養(yǎng)醫(yī)學、信息學交叉人才。語料庫建設需要兼具臨床知識和數據工程能力的復合型人才,其匱乏可謂當前最難突破的瓶頸。吳松認為,教育主管部門應與衛(wèi)生健康系統(tǒng)進一步協(xié)同,將醫(yī)工交叉人才培養(yǎng)納入國家醫(yī)學教育改革的整體布局,形成政策層面的制度性支撐。
“數據是新時代醫(yī)學研究的基礎。讓優(yōu)質醫(yī)療經驗成為可復制的數字資產,正是語料庫建設的核心價值所在。”吳松說,“我們期待在政策層面打通制度通道,讓更多醫(yī)院有動力、有能力、有保障地投身這場數據驅動的醫(yī)療革命,共同推動醫(yī)療健康產業(yè)進入更有質量的新階段?!?
受訪專家:
深圳大學附屬華南醫(yī)院院長 吳 松 □信息部主任 歐陽杰 □信息部助理主任 楊 凱
本報記者 喬 芮《生命時報》 2026-04-03 第01981期 第5版
什么是醫(yī)療健康語料庫?深圳大學附屬華南醫(yī)院院長吳松告訴《生命時報》記者,籠統(tǒng)來說,這是匯集了電子病歷、醫(yī)學影像、臨床診療路徑,以及基因組學、藥物研發(fā)、公共衛(wèi)生監(jiān)測等各類信息的一個數據庫。但這些數據不是簡單地堆在一起,而是進行系統(tǒng)性采集、清洗、脫敏(指把能定位到“某個人”的信息,處理成“看不出是誰”)和結構化整理后,形成的領域專用數據資產體系。
“如果把醫(yī)療AI比作一名學習型醫(yī)生,醫(yī)療健康語料庫就是它的‘學?!汀R床經驗積累庫’。沒有高質量的語料,AI無從學習,更談不上精準應用?!眳撬烧f。
在AI輔助診療方面,高質量的臨床語料庫可以支撐AI系統(tǒng)對多種影像資料進行秒級分析,展現(xiàn)出較高準確性。以眼底病變識別為例,部分研究顯示,其表現(xiàn)可與??漆t(yī)生相當;但在肺結節(jié)鑒別等復雜任務上,現(xiàn)階段仍主要作為輔助工具。
新藥研發(fā)方面,基于真實世界數據構建的AI模型,可以將化合物篩選、毒性預測等基礎科研的工作周期從數年壓縮至數天,大幅降低研發(fā)成本。
健康管理方面,深圳大學附屬華南醫(yī)院信息部助理主任楊凱介紹,在個人基因組、電子健康檔案、可穿戴設備等數據的基礎上,可以構建起真正意義上的“數字孿生體”,無差別反映一個人的生理狀況,從而實現(xiàn)慢病風險的提前預警,推動醫(yī)療模式從“有病治病”向“未病先防”轉變。
醫(yī)療健康語料庫建設,已在部分地區(qū)有所實踐。2024年11月,上海發(fā)布了全市首個衛(wèi)生健康行業(yè)語料庫;2025年6月,深圳市羅湖區(qū)啟動“羅湖醫(yī)療語料中心”建設項目,將整合市區(qū)兩級醫(yī)療機構的病理診斷、超聲影像、放射影像等7類場景數據,整合好的語料庫會面向羅湖區(qū)內AI企業(yè)開放,最終形成產學研綜合應用的閉環(huán)生態(tài)。
“我們目前正依托數據庫架構,建立覆蓋全院30余個科室、200余類核心數據字段的統(tǒng)一語義標準體系。這個過程既是為了在院內完善AI應用,也為將來參與區(qū)域性,甚至全國性語料庫共建打下基礎?!鄙钲诖髮W附屬華南醫(yī)院信息部主任歐陽杰說。
當醫(yī)療健康語料庫真正走向成熟,醫(yī)患體驗將會獲得質的提升。對患者而言,個性化的AI健康助手可以提前預警慢病風險,提供針對性管理方案;偏遠地區(qū)居民通過部署到本地的AI輔助工具,有望獲得三甲醫(yī)院級別的診斷建議;罕見病患者的確診等待時間,也可能從數年縮短至數月甚至數周。
對醫(yī)生而言,臨床決策支持系統(tǒng)將成為可靠的“智囊團”,不僅有數百萬份高質量病歷支撐,還能自動校驗診斷邏輯、提示遺漏檢查、推薦最優(yōu)方案。尤其是處在經驗積累期的年輕醫(yī)生,能大幅縮短成長周期,誤診漏診率有望顯著降低。
但在吳松看來,整個行業(yè)還處于早期發(fā)展階段,各地語料庫的建設基本是初期版本,碎片化、標準不統(tǒng)一的問題突出,能真正形成大規(guī)模產業(yè)化應用的案例尚不多見。主攻AI醫(yī)療的企業(yè)普遍反映“有模型、缺數據”,拿不到高質量、合規(guī)、有標注的基礎數據,成為阻礙行業(yè)突破的核心瓶頸之一。
統(tǒng)一入庫標準,規(guī)范數據質量。語料庫僅有海量數據還不夠,標注是否一致、準確才是關鍵。當前醫(yī)療大模型常出現(xiàn)“幻覺”問題,給出的診斷看起來像模像樣,實際卻經不起推敲,甚至出現(xiàn)錯誤。這主要是因為現(xiàn)有評估體系中,醫(yī)療大模型只盯著詞匯匹配度,對醫(yī)學邏輯是否嚴密判斷不準。這就需要在早期構建語料庫時,增強檢索內容與知識圖譜的關聯(lián),給大模型配上可查證的“知識字典”,形成可靠推理,從源頭抑制“幻覺”。
解決數據共享共用矛盾。醫(yī)療數據涉及核心隱私,法規(guī)要求嚴格,但AI訓練又需要大量數據,二者之間的矛盾若不能妥善解決,AI醫(yī)療的發(fā)展將舉步維艱。據介紹,當前的技術探索主要圍繞三個方向:一是聯(lián)邦學習,讓模型“移動”而非數據集中,實現(xiàn)數據“可用不可見”;二是在數據脫敏基礎上強化加密保護;三是實行數據信托機制,支持患者授權管理,實現(xiàn)全生命周期安全防護。
培養(yǎng)醫(yī)學、信息學交叉人才。語料庫建設需要兼具臨床知識和數據工程能力的復合型人才,其匱乏可謂當前最難突破的瓶頸。吳松認為,教育主管部門應與衛(wèi)生健康系統(tǒng)進一步協(xié)同,將醫(yī)工交叉人才培養(yǎng)納入國家醫(yī)學教育改革的整體布局,形成政策層面的制度性支撐。
“數據是新時代醫(yī)學研究的基礎。讓優(yōu)質醫(yī)療經驗成為可復制的數字資產,正是語料庫建設的核心價值所在。”吳松說,“我們期待在政策層面打通制度通道,讓更多醫(yī)院有動力、有能力、有保障地投身這場數據驅動的醫(yī)療革命,共同推動醫(yī)療健康產業(yè)進入更有質量的新階段?!?
相關文章 瀏覽更多相關文章>>
- [事件]語料庫 AI診療的基石05-08
- [事件]基因對壽命的影響可能占一半05-08
- [事件]喪偶 男性創(chuàng)傷大05-08
- [事件]多吃酸奶減少貧血05-07
- [事件]男性做家務死亡風險降四成05-07
- [事件]老人最該練的是深蹲05-07
- [事件]生命通道不能人為掐斷05-06
- [事件]存多少錢才夠養(yǎng)老05-06
最新文章
- [事件]語料庫 AI診療的基石05-08
- [事件]基因對壽命的影響可能占一半05-08
- [事件]喪偶 男性創(chuàng)傷大05-08
- [事件]多吃酸奶減少貧血05-07
- [事件]男性做家務死亡風險降四成05-07
- [事件]老人最該練的是深蹲05-07
- [事件]生命通道不能人為掐斷05-06
- [事件]存多少錢才夠養(yǎng)老05-06

