【OHDSI】2017中美临床医疗大数据研讨会暨OHDSI中国工作组年会成功召开

 2017年8月21日,由观察性健康医疗数据科学与信息学(OHDSI)中国工作组,浙江大学生物医学工程与仪器科学学院,电子病历与智能专家系统教育部工程研究中心主办的2017中美临床医疗大数据研讨会暨OHDSI中国工作组年会在浙江大学玉泉校区成功召开,来自中国,美国,日本,韩国等多个国家约200余位专家学者参加了本次会议。会议总结了2016-2017年OHDSI全球协作网络在美国,日本等发达国家的应用,分享了国际最新临床大数据深度学习,人工智能,数据隐私与保护,OHDSI标准化数据模型与医学术语标准,临床自然语言处理等国际前沿领域课题,制定了OHDSI中国工作组2017-2018年度的详细规划,部署了2017年OHDSI中国工作组重点促进生物医学信息学领域的国际合作与教育培训的工作。 

 浙江大学生仪学院院长李劲松教授在开幕致辞中表示,本次大会邀请了美国临床医疗大数据的“一线”专家学者做专题汇报,内容一方面关注于顶尖科学研究,另一方面又重视脚踏实地,与时俱进,做临床大数据要紧跟临床需求,而不能高高在上,泛泛而谈。 

 OHDSI共同创始人,IMS Health VP,Christian Reich博士介绍了OHDSI作为一个国际组织的起源,以及基于OHDSI OMOP 标准化数据模型的相关研究,介绍了OHDSI作为一个开放的,开源的组织,主要面向临床医生,统计学家,数据科学家以及流行病学家等相关从业人员,是一个国际性的协作网络,在各个掌握数据的研究机构或者个人不用分享自己原始数据的情况下,更好的将大家的资源整合,通过OHDSI的相关数据查询与分析工具,术语库与标准,进行跨机构的大规模数据分析。 

 OHDIS中国工作组主席,美国德克萨斯大学生物医学信息学院终身教授徐华博士介绍了OHDSI中国工作组的成立背景,工作目标,团队以及协作运营模式。OHDSI工作组目标分为三个部分,第一,希望把现有的OHDSI标准知识库和软件推广到中国。第二,实现多中心,大规模的临床研究项目。第三是想推动生物医学信息学领域的国际合作与教育。OHDSI中国工作组共分为六个团队,分别为1术语库与通用数据模型,2数据分析方法,3自然语言处理,4数据清洗整理和分析工具5隐私保护6社区建设。 

来自日本京都大学的Tomohiro Kuroda教授给大家分享了日本医学信息学研究的相关情况,指出了医学信息学不仅是一个教育类学科,一个科研类学科,还是一个商业类学科,通过医院HIS系统,与远程医疗软件,医院管理系统等系统整合,形成一个新时代的聚合性电子病历系统,这样一个庞大的系统可以作为一个健康数据分析的平台,使得该平台的数据无论是在数据的覆盖量(深度)上,还是病人人数的覆盖量(广度)上,都能够很好的整合,真正的将医院,诊所,药厂,急救等各单位联系起来,形成一个“数据银行”。 

中国开放医疗与健康联盟(OMAHA)发起人,树兰医疗集团CEO 郑杰给大家介绍了下一代医院信息系统的构建模式,重点在于云架构,标准化,智能化。业务应用层面包含临床业务,经营管理,医院互联网以及第三方应用。服务平台主要为基于微服务的分布式数据服务与接口服务,架构平台为基于KuBernetes的混合架构管理平台。郑总还提出,每一个人健康医疗数据的产生都是贯穿在空间和时间轴上的连续过程,而目前的数据是无序的和分散的,个人档案的构成离不开硬件提供商提供产品和数据分析的传感器,便携设备,也离不开信息技术提供商的基础设施技术支持与指导,其中又包含了医疗机构,第三方服务机构,监管方和支付方。面对宝贵的健康数据,OMAHA希望逐步来推进个人对自身健康医疗信息的可及性,完整性和可用性。 

 康奈尔大学的王飞教授给大家带来了机器学习和计算医学研究的主题报告,关注点在Patient Similarity Analytics也就是病人的相似度分析。通过大规模的数据模型来解决一些有偏度的数据的分析问题。我们把病人,药物,疾病,基因等都分别看成一个个网络,通过网络模型来更好的实现精准医疗,基因测序,风险预测等应用。具体的方法是通过查询病人,计算出超过10万维度的特征向量,通过一系列算法找出其中的某些重要的特性,然后来做病人的相似度分析。从临床角度来说主要要解决的就是那些重要的有临床意义的特性,以及如何度量相似度。 

 下午的报告主要关注于OHDSI相关的技术与软件:梅奥诊所的蒋国谦教授介绍了OHDSI标准化数据模型与医学术语标准,通过构建医疗创新和大数据平台,进行准确诊断,精准治疗,并且改善预后。OHDSI为医疗数据的转化,特征提取以及分析提供了大量现成的工具,来做数据映射及转化。医学术语标准主要分为术语标准,数据元及模型标准,数据交互标准以及知识表示标准。 

 哥伦比亚大学的翁春华教授介绍了OHDSI中非常有用的工具ATLAS,可以选择有特定临床特征的病人组对他们进行分析。利用OHDSI的大数据和工具,研究人员可以刻画临床特征,比如糖尿病人吃什么药,有哪些并发症,他们对治疗的响应如何,同时可以做一些基于人群的估计,比如哪种糖尿病治疗方案最佳,还可以基于病人个体进行预测,比如哪个病人更加适合哪种方案。ATLAS是一个免费的网络开源软件工具,可以用来定义查询病人的条件,定义目标人群,比较人群,结果评估,统计分析等,然后创建病人组和必须的概念集,建立统计分析流程,然后输出临床研究文档和分析代码。ATLAS主要的功能分为7块,分别为1浏览数据源,2检索术语Vocabulary,3定义术语集Concept Set,4定义病人组和他们的临床特征,5查询数据库找到符合条件的病人组,6可视化单独病人的情况,7做人群的效果估计。 

 加州大学圣地亚哥分校蒋晓谦教授介绍了医疗数据隐私标准的相关研究,数据隐私是医疗数据分享的难题,也是医院之间的合作迫切需要解决的问题,然而中国医疗信息数据的脱敏缺少标准,缺少量化的风险分析。蒋教授给大家介绍了美国的HIPAA法案,这是一部发布于1996年,经过历年多次修订,在全美范围内执行,保护个人健康信息权益的法案,包括了隐私保护机制和相关安全措施,针对可识别的个人健康信息做出了明确的脱敏规定。HIPAA是一种约束和保护,但是也不是完全没有风险,而是把风险控制在一个很低的范围。OHDSI中国工作组数据隐私工作团队正在进行医疗数据的隐私量化分析,同时将对多地区的数据进行统计分析来衡量HIPAA脱敏标准在中国数据上的适用性。
 

 来自梅奥诊所的刘宏芳教授和哈尔滨工业大学的汤步洲教授给大家介绍了临床自然语言处理的方法以及中文临床医疗文本处理研究的现状。主要关注基础研究和应用研究两个方面。基础研究包括语义消歧,词性标注以及浅层句法分析。应用研究包括命名体识别与专业术语提取,词语标准化与规范化,否定语义分析,语义推断,时间信息挖掘,词间关系挖掘等。 

最后会议分成3个分会场进行了分组讨论活动,蒋国谦教授主持的中文CDM标准开发数据模型构建分会场中,弓孟春老师介绍了SNOMED CT中文版的现状;王理老师介绍了中文的药物术语标准化问题,包括西药和中药,初步工作已经结束。未来工作主要放在:1、提供一系列培训与教学,帮助大家进一步了解OHDSI相关工具;2、关于中文医学术语标准的完善,需要大家共同努力。徐华教授主持的数据清洗整理和分析分会场中,蒋晓谦教授介绍了OHDSI的ETL工具;李劲松教授介绍了临床数据相关研究的实例;来自江苏省人民医院的张昕老师给大家介绍了一个使用OHDSI CDM的真实案例。刘宏芳教授主持的自然语言处理分会场中,来自神州数码的杨博士给大家介绍了国家肿瘤大数据的实际数据处理应用;汤步洲老师给大家介绍了NLP工具开发的心得,以及遇到的问题,主要是国内没有比较健全的知识产权保护;北京大学的雷建波教授给大家介绍了语料库构建与标注的一些经验,以及碰到的问题,比如怎么建立一个可以分享的平台;周毅教授和郝天永教授给大家分享了OHDSI与别的系统的合作模式,制定了一些未来的工作方向。

2017中美临床医疗大数据研讨会参会人员合影