集团新闻

华体会大数据时代的流行病学研究:机遇、挑战与展望

2024-02-21 22:27:44

年夜数据时代的风行病学研究:机缘、应战与瞻望

本文将阐发年夜数据时代风行病学研究的机缘以及应战,瞻望将来学科的成长标的目的。风行病学应捉住机缘,斥地新标的目的、成长新要领,鞭策医学根蒂根基研究结果向大众卫生以及临床实践的转化运用,实现“康健中国”的夸姣愿景。

作者: 本站编纂来历: 中华风行病学杂志2021-02-05 10:19:45

前沿

最近几年来,高通量组学技能迅速成长,互联网以及信息技能奔腾前进,年夜数据开发东西逐渐涌现,康健医疗年夜数据的研究价值最先遭到器重。作为一门与数据互相关注的学科,风行病学正处在“年夜康健”“年夜数据”“人工智能”时代带来的学科成长机缘期,但于数据尺度化与同享、检测技能与阐发要领、法令以及伦理规范与轨制等方面尚存于诸多应战。本文将阐发年夜数据时代风行病学研究的机缘以及应战,切磋将来学科的成长标的目的,为年夜数据时代的风行病学研究提供参考。

1、年夜数据时代风行病学研究的机缘

1. 高通量组学技能的成长:

人类基因组规划启动以来,以新一代测序技能以及质谱技能为代表的高通量组学技能的冲破,鞭策了基因组、表不雅遗传学、转录组、卵白质组、代谢组、微生物组等生物医学组学数据的指数级增加。与此同时,计较机科学、生物信息学以及数理统计学的飞速成长使患上组学数据阐发的障碍逐渐消弭。以人群为根蒂根基的基因组研究、甲基化研究、代谢组研究等组学研究方兴日盛,于摸索疾病病因以及寻觅可能的干涉干与靶点方面取患了庞大冲破,也为将来的医学研究提供了富厚的数据资源。

2. 人群行列步队研究数据以及样本资源的堆集:

行列步队研究是切磋疾病致病要素以及评价干涉干与办法的有用要领,也是将根蒂根基研究转化运用到疾病防治实践的主要路子。很多发财国度已经将构建具备生物样本库的超年夜范围人群行列步队作为战略结构,如英国生物样本库、丹麦国度生物样本库、美国百万老兵工程,和美国“All of Us”研究规划。我国风行病学事情者经由过程海内外互助,成立了一批具备生物样本库的年夜型人群行列步队,如中国慢性病前瞻性研究以及泰州人群康健跟踪查询拜访行列步队。“十三五”时期,我国依托国度重点研发规划启动了精准医学重点专项以及庞大慢性病防控重点专项,成立了百万级天然人群行列步队以及庞大疾病专病行列步队。同时,基在双生子、母婴、老年人等非凡人群的行列步队也逐渐涌现,如国度出生行列步队、中国康健与退休前瞻性行列步队等。这将为将来开展全组学设计的风行病学研究创举前提。

3. 年夜数据以及互联网技能的成长:

现今科学技能高速成长,以物联网、互联网、挪动智能、云计较、年夜数据为代表的信息技能广泛应用在医疗范畴,医疗信息化获得周全、倏地成长。于我国,国度政策已经深切医疗信息化鼎新,各地正鼎力大举推进以电子病历为焦点的病院信息化设置装备摆设,踊跃摸索并成立以电子康健档案为焦点的区域医疗信息平台。医疗信息化的广泛运用于科学研究、医疗办事、康健保健以及卫生治理历程中造成了康健医疗年夜数据(health care big data)。我国在2019年7月发布的《康健中国步履(2019-2030年)》中指出“鼓动勉励以及撑持科研机构与高新技能企业深度互助,充实应用互联网、物联网、年夜数据等信息技能手腕,开展年夜型行列步队研究……”。于我国,疾病挂号、灭亡挂号、病院品质监测体系等数据已经经运用在疾病承担预计以及病因摸索。我国搭建了一些康健医疗年夜数据平台,如国度生物信息中央以及中国行列步队同享平台等。

4. 人工智能技能的成长:

康健医疗年夜数据的运用远景取决在对于这些数据举行多条理的挖掘以及全方位的整合,增进对于人类康健或者疾病的理解。传统的统计要领没法顺应年夜数据阐发的要求。而以呆板进修以及深度进修为代表的人工智能技能于年夜数据阐发中的运用正出现发作式增加,于风行病学监测、疾病诊断、病因学研究、危害猜测等方面显示出伟大的运用潜力。例如,有研究者将深度卷积神经收集模子用在超声图象举行甲状腺癌诊断,模子的敏捷度以及特异度均高在85%;呆板进修算法中的特性选择技能可以或许从高维数据中辨认相干特性,被广泛运用在组学数据以及临床数据的整合阐发,从而造成病因假定、猜测疾病危害及预后。人工智能技能的成长将为年夜数据时代的风行病学研究提供要领支撑。

5. 风行病学研究要领的成长:

最近几年来,组学数据阐发要领日益成熟,数理统计、人工智能等技能的前进鞭策了年夜数据的无机整合,风行病学研究也取患了长足成长。康健医疗年夜数据极年夜地富厚了潜于伤害要素图谱,有益在提出更多的病因假定。其富厚的表型组信息有助在方针遗传变异与全数康健终局的联系关系阐发,全表型组联系关系研究(PheWAS)应运而生。年夜数据拓宽了可研究的东西变量,为孟德尔随机化研究提供了新机缘。电子康健档案的普及以及完美鞭策了时效性临床实验(PCT)的成长,PCT于真实世界中评价预防干涉干与办法的效果,与传统的随机比照实验互为增补,助力干涉干与办法的效果评价。年夜数据时代为风行病学研究提供了史无前例的机缘,将鞭策根蒂根基医学研究结果向大众卫生以及临床实践的转化运用。

2、年夜数据时代风行病学研究面对的应战

1. 我国康健医疗年夜数据来历、网络以及治理的同享机制尚不可熟,造成数据孤岛:

我国康健医疗年夜数据的同享治理机制尚不可熟,致使年夜量数据分离于差别的试验室以及机构内部。来历在各个机构、范畴的数据每每使用差别的体系以及软件平台,数据网络、存储以及治理的尺度规范也各不不异,多来历的数据于格局、布局、语义联系关系、品质等方面都存于差异。这些要素严峻制约我国康健医疗年夜数据的整合同享与转化哄骗。怎样实现数据的尺度化以及规范化,将跨机构、跨范畴、跨平台的数据库买通同享,是今朝年夜数据使用面对的庞大应战之一。

2. 康健医疗年夜数据存于体系偏差,影响袒露-终局之间联系关系的真实性:

相对于在传统的随机抽样,年夜数据凡是来自具备某些特性的人群(如病院就医人群、携带可穿着装备人群),可能存于选择偏倚。多源异构的康健医疗年夜数据存于表型界说的不确定性、变量丈量的禁绝确性以及数据缺掉等问题,形成信息偏倚;部门信息的丈量要领以及获取路子难以得悉,为品质节制带来坚苦。康健医疗年夜数据存于年夜量噪声旌旗灯号,年夜范围地摸索疾病终局有关的要素而纰漏因果瓜葛判定的原则,可能致使疾病影响水平的过错预计、触发过错警报、形成虚伪联系关系以及生态学谬误。此外,基在康健医疗年夜数据的风行病学研究属在不雅察性研究,存于稠浊以及反向因果联系关系等诸多问题。是以,年夜数据时代的风行病学研究应留意对于研究品质的严酷节制,实现数据网络与处置惩罚的尺度化以及规范化,器重因果瓜葛判定的基本因素,确保结论的靠得住性。

3. 组学检测技能有待成长完美:

于年夜范围人群开展多组学检测依靠在成熟的高通量组学技能,其对于样本以及检测前提的要求不高,检测成本低廉、检测要领倏地、成果不变性以及正确度高。今朝基因组测序仍存于必然的过错率;卵白质组以及代谢组检测平台之间的技能差异增长了数据尺度化以及可反复性评估的难度。组学检测技能仍有待成长完美。值患上一提的是,近几年迅速鼓起的单细胞转录组测序不只展现出差别细胞类型之间的异质性,并且可以发明全新的细胞类型。此后,单细胞测序技能将慢慢扩大到基因组、表不雅遗传学、卵白质组等,为研究者于单细胞程度摸索疾发病生成长机制打开极新视角。

4. 康健医疗年夜数据阐发、整合与存储的要害技能需要新的冲破:

多组学生物统计以及生物信息要领有待进一步提高。基因、卵白质、代谢物等所构建的调控收集极其繁杂,怎样整合多组学信息以造成体系层面的理解是康健医疗年夜数据研究面对的主要应战之一。因为每一个组学数据都存于必然的偏倚以及变异度,需要针对于差别组学数据成立靠得住的统计阐发框架。而对于多组学数据举行整合阐发时,则需要更繁杂的多维统计要领,如贝叶斯模子、神经收集等。康健医疗年夜数据来历广泛,品种繁多,包罗布局化、半布局化、非布局化等差别的数据类型。然而,当前缺乏同一的数据尺度以及规范,致使差别条理、差别类型的数据整合坚苦。怎样对于半布局化(如电子病历)、非布局化(如心电图、医学影像资料)以及对于流数据(及时视频、传感器数据、医疗装备监测数据)举行处置惩罚,是康健医疗年夜数据阐发面对的又一主要应战。此外,临床诊疗年夜数据、康健监测数据等非科研数据存于信息缺掉(凡是为非随机性缺掉)以及丈量、记载禁绝确等数据品质问题;怎样举行数据预处置惩罚以及数据清算以保障研究成果的靠得住性是年夜数据研究亟须解决的主要问题。除了了数据阐发之外,康健医疗年夜数据的存储以及阐发需要伟大的计较资源。今朝合用在年夜数据的软硬件平台,年夜数据存储、传输、高机能计较以及云计较等技能尚不可熟。这些要素制约着康健医疗年夜数据的研究、转化以及运用。

5. 康健医疗年夜数据的法令以及伦理规制已经成为亟待解决的问题:

康健医疗年夜数据于存储、同享、阐发、挖掘等历程中存于小我私家信息权、隐衷权可能受损害的危害以及数据保险的隐患。怎样对于康健医疗年夜数据举行法令以及伦理上的规制,已经成为亟待解决的问题。我国应尽快鞭策小我私家康健信息以及隐衷掩护相干法令法例的立法,明确电子康健信息于存储、治理、哄骗、互换各环节的权责归属与历程尺度,促成数据保险技能的与时俱进。相干部分应从掩护小我私家保险以及公允的角度,合理界定伦理危害,掌握伦理审批的边界。我国于2019年颁发《人类遗传资源治理条例》,迈出了年夜数据保险与伦理规制的摸索性测验考试。2020年,国度药品监视治理局接踵发布《真实世界证据撑持药物研发与审评的引导准则(试行)》、《用在孕育发生真实世界证据的真实世界数据引导准则(征求定见稿)》以及《真实世界数据用在医疗器械临床评价技能引导准则(试行)》,指出“真实世界研究触及小我私家信息掩护应遵照国度信息保险技能规范、医疗年夜数据保险治理相干划定”,要求实施小我私家信息掩护以及数据保险性处置惩罚,拉开了我国羁系机构从羁系层面构建真实世界数据使用框架系统的序幕。

3、年夜数据时代风行病学研究的成长瞻望

1. 高品质人群行列步队的设置装备摆设:

跟着电子康健档案的普及以及完美,将电子康健档案与基在生物样本库的多组学数据和其他通例数据(如出生挂号、灭亡挂号、情况监测数据等)互融互通而成立年夜型动态行列步队已经成为风行病学研究的热门。因为研究资源以及经费的限定,年夜范围前瞻性行列步队难以实现全表型的网络以及全组学的检测。是以,选择具备代表性的研究对于象,使用开始进的技能网络行列步队成员的表型组信息,举行屡次动态随访,收罗以及贮存多时点生物标本,开展多组学检测,由此构建邃密行列步队,具备深远的研究价值。

2. 严酷的风行病学研究设计以及品质节制:

严酷的风行病学研究设计以及品质节制是高品质行列步队研究的主要保障。行列步队成员的多样性是研究成果外推运用在全人群的要害。美国“All of Us”研究规划将人群多样性作为行列步队设置装备摆设的首要方针,其80%的行列步队成员为弱势群体。行列步队研究应留意提高应对率以及允从性,防止选择偏倚。行列步队信息的类型以及深度应综合思量其与康健终局的相干性、检测要领的靠得住性以及研究经费。行列步队随访方面,最近几年来“成人疾病胎源说”备受存眷,抱负的随访应实现“从摇篮到宅兆”的终身不雅察;随访距离将视研究终局的变迁速率,研究的人力、物力等前提而定。

3. 康健医疗年夜数据治理以及同享平台的设置装备摆设:

年夜数据是国度主要的根蒂根基性战略资源。很多发财国度很早就最先器重年夜数据的网络、治理、阐发以及运用,成立起一批康健医疗年夜数据中央,如美国国度生物技能信息中央(NCBI)、欧�����APP洲生物信息学研究所(EBI)和日本DNA数据库(DDBJ)等。2019年,我国建立国度生物信息中央(CNCB),负担国度生命与康健年夜数据汇交存储、保险治理、开放同享与整合挖掘研究系统的设置装备摆设,研发年夜数据前沿交织与转化运用的新要领以及新技能,建成支撑我国生命科学成长、国际领先的基因组科学数据中央(NGDC),迈入了新的汗青成长阶段。

4. 基在行列步队研究的群体基因组学以及体系风行病学研究:

跟着高通量组学技能以及康健医疗年夜数据的成长,体系风行病学应运而生。体系风行病学借助体系生物学、风行病学、计较数学等技能,将人体从袒露组,到基因组、表不雅遗传组、卵白质组、代谢组等,再来临床表型组的各个条理无机地整合于一路举行研究,从而深切理解多条理要素间繁杂的瓜葛收集及其彼此作用,实现人群层面“袒露要素-组学标记物-疾病终局”的病因学揣度。于此根蒂根基上,体系风行病学将构建以病因收集为根蒂根基的疾病危害猜测模子,鞭策“精准预防”理念的实现。

5. 多学科交织、复合型人材的造就:

年夜数据时代对于风行病学专业人材提出了更高的要求,包孕扎实的风行病学理论根蒂根基,富厚的风行病学研究经验,对于年夜数据举行深切挖掘,做出有价值的阐发、判断以及猜测的威力。风行病学研究应聚焦国度庞大需求,增强学科交织交融,攻破行政壁垒,加速交织学科人材引进与造就,促成跨学科的互助与协同立异,完美促成跨学科互助的学术评价以及结果同享机制,让微不雅以及宏不雅风行病学无机地联合起来。看重体系整合协同,对峙开放立异,组建多学科、多范畴、多体系交融的立异年夜团队。

4、总 结

年夜数据时代为风行病学提供了富厚的数据资源以及广漠的科研平台。风行病学应捉住机缘,斥地新标的目的、成长新要领。此后无望于风行病学、计较机科学、临床医学、生命科学等学科的配合介入下,鞭策医学根蒂根基研究结果向大众卫生以及临床实践的转化运用,提高疾病防控技能程度,促成康健成长,实现“康健中国”的夸姣愿景。

年夜数据风行病学大众卫生

存眷年夜康健Pai官方微信:djkpai咱们将按期推送医健科技财产最新资讯

最新快讯医健资讯 | 官宣!新任国度医保局局长宣布

1周前

/华体会