飞速发展中的医疗大数据 - 行业新闻 | 中国信息协会大数据分会

上世纪兴起的基因组、蛋白质组学等通过大通量技术预测疾病发生发展获得了巨大的关注，对其研究推动了对大数据数理模型的技术发展。

越来越多的研究发现，疾病不仅取决于基因及其表达还与表观修饰蛋白功能等多方面协同作用，仅对基因组等单一组学进行微观研究较难获得突破。医疗大数据的发展使得微观基因组基础大数据和宏观临床大数据结合，联合信息统计分析及人工智能技术，可更加准确地预测疾病的发生发展，从而推动预测医学的进一步提高。

一个明显的趋势是，医疗大数据行业正在成为下一波医疗行业的机会。在这个行业之中，千亿的市场规模，人工智能技术的进步都让人浮想联翩。

也诚然，这样的趋势也让无数投资人和企业趋之若鹜。

在癌症领域，我国现存750万肿瘤患者，人均花费7万元，按照肿瘤治疗渗透率60%计算，那么这就是一个3000多亿人民币的市场。

而如果未来在药物、手术、放疗都与国际接轨的话，那么这个市场将会变得更广阔。

国内外的医疗大数据

作为大健康医疗的一个分支，医疗大数据行业历史并不算悠久。但时至今日，该领域内已经发展出包括临床大数据、健康大数据、生物大数据、运营大数据等多个垂类分支，而每一个分支都在诸如临床科研、公共卫生、行业治理、管理决策、惠民服务和产业发展等方面影响着整个医疗行业的变革。

从国际大背景来看，美国在医疗大数据方面仍然领跑全球，截至目前，美国已经建成覆盖本土的12个区域电子病历数据中心、9个医疗知识中心、8个医学影像与生物信息数据中心。

由美国卫生与公众服务部(HHS)管理的联邦政府网站healthdata.gov是国家级的健康数据开放平台。通过该网站越来越多的来自于CMS（医疗保险和医疗补助服务中心)、CDC(疾病控制中心)、FDA(食品药品监督管理局)、NIH(美国国立卫生研究院)等渠道的HHS数据库向社会开放。

数据内容包括临床服务质量信息、全国卫生服务提供者目录、最新医疗和科学知识数据库、消费产品数据、社区卫生绩效信息、政府支出数据等。

2014年6月，美国FDA的公共数据开放项目openFDA正式上线。openFDA前期开放了2014—2013年间的300万份药物不良反应和医疗过失记录，以及医疗器械报告和执法报告，并且每年更新发布新的报告数据集。

而在英国和日本，医疗大数据同样是两国大力发展的战略领域之一。

由于受人口老龄化的影响，日本政府将健康医疗大数据用于控制医疗费用。受该国国情影响，大数据在其中的作用主要是控制医疗和护理费用。

在中国国内，医疗大数据行业起步时间不长，目前只是初步建立了医疗健康数据库，人口健康信息化初具规模，在信息技术和医疗行业的产学研方面有了一定成效。

比较重要的是，在生物数据库方面，国家基因库2016年正式建成，该基因库集生物资源样本库、生物信息数据库和生物资源信息网络为一体。而在我国的医疗大数据总体方向上，还和美英日等国有所不同，这一点下文详表。

国内的特点

一国的医疗大数据发展方向取决于这个国家的禀赋。

正如我们之前系列文章提及的那样，虽然国外医疗行业也有资源分配不均的情况出现，但就程度而言，这样的情况在我国表现的尤为明显。

也因此，在“健康中国2030”国家战略背景下，国内的医疗大数据行业发展方向几乎不可避免的迈向了智能化。

智慧医疗最大的好处是可以利用有限的医疗条件，最大程度发挥医疗机构的水平和技术优势。一方面，这样节约了成本，另一方面也让医疗资源实现了共享和下沉。

在这样的背景下，医疗大数据在国内获得了飞速的发展，2013年，我国的医疗大数据行业市场还仅为331亿元，而到了2017年，就已经增长至643亿元。

但智慧医疗只是最终的终点，而在这个万里长城的第一关则是数据。就目前来看，医疗数据面临着几大问题：

其一，是医院面对企业型合作方时，他们往往更为谨慎：医院对数据方面会更看重安全、准确、稳定且持续更新。数据处理需要精准且调用快捷，一旦共享则一定要保证安全。这点说明，绝大多数医院的信息化系统建设会由外部公司承接，各类信息数据均会留在本地服务器上，不会外传到第三方机构或平台。

这增加了第三方利用医院数据的难度。

数据的来源与利用

在获取数据的过程中，第三方数据公司的数据来源来自于以下几种：

其一是病人就医过程中产生的信息——即从挂号开始便将个人姓名、年龄、住址、电话等信息，还包括面诊过程中病患的身体状况、医疗影像等信息也会被录入数据库，并且，看病结束以后，费用信息、报销信息、医保使用情况等信息被添加到医院的大数据库里面。这就是医疗大数据最基础、最庞大的原始资源。

其二是临床医疗研究和实验室数据：即将临床和实验室数据整合在一起，这种数据极大，一张普通CT图像含有大约150MB的数据，一个标准的病理图则接近5GB。如果将这些数据量乘以人口数量和平均寿命，仅一个社区医院累积的数据量就可达数万亿字节甚至数千万亿字节(PB)之多。

其三是制药企业和生命科学数据：比如上文提到的2016年建造的国家基因库，以及一些研究院所所研究的生物数据库。

最后是智能穿戴设备所采集的健康管理数据，未来，便携式的可穿戴医疗设备正在普及，个体健康信息都将可以直接连入互联网，由此将实现对个人健康数据随时随地的采集，而带来的数据信息量将更是不可估量的。

收集的数据最后去了哪？去了四个地方。

其一，为相关企业提供医疗分析数据，即为医疗机构提供世界级的数据仓库解决方案；

其二，输入到了转译研究中心，即为医学研究机构以及制药中心提供新技术的研究保障；

其三，赋能健康科学网络，即为制药公司、资产管理公司以及研究机构之间提供安全的数据共享；

最后，用于旨在加强与患者联系的平台之中——甲骨文通过收购RightNow以及Eloqua等公司，就是为了加强医疗机构与患者之间的联系，而一部分数据就是被输入到了这里。

医疗大数据的创新

目前，人工智能技术通过算法和软件，分析复杂的医疗数据，达到近似人类认知的目的。因此AI使得计算机算法能够在没有直接人为输入的情况下预估结论成为可能。

在该领域的创新正在全球范围内发生，其中，在法国，科学家们正在采用一种被称为“时间序列分析”的技术，分析过去10年的患者入院记录。这项研究能够帮助研究人员发现患者入院的规律并利用机器学习，找到能够预测未来入院规律的算法。

这项数据最终会提供给医院的管理人员，帮助他们预测接下来15天中所需要的医护人员“阵容”，为患者提供更加“对口”的服务，缩短他们的等待时间，同时也有利于为医护人员尽可能合理地安排工作量。

在脑机接口领域，可以帮助恢复基本的人类体验，例如因神经系统疾病和神经系统创伤而丧失的说话和沟通功能。

在不使用键盘、显示器或鼠标的情况下，在人类大脑和计算机之间创建直接接口，将大幅提高肌萎缩侧索硬化或中风损伤患者的生活质量。

此外，AI还是新一代放射工具的重要组成部分，通过“虚拟活检”帮助分析整个肿瘤情况，而不再通过一个小小的侵入性活检样本。AI在放射医疗领域的应用能够利用基于图像的算法来表现肿瘤的特性。

在药物研发方面，依托大数据，人工智能系统可以快速、准确的挖掘和筛选出适合的药物。通过计算机模拟，人工智能可以对药物活性、安全性和副作用进行预测，找出与疾病匹配的最佳药物。这一技术将会大大缩短药物研发周期、降低新药成本并且提高新药的研发成功率。

例如，当某人被诊断为癌症时，智能药物研发系统会利用病人的正常细胞和肿瘤来将它的模型实例化，并尝试所有可能的药物，直到找到一种能杀死癌细胞又不伤害正常细胞的药物。如果它找不到有效药物或者有效药物组合，那么它就会着手研发一种能治愈癌症的新药。如果药物医治了疾病但仍有副作用，系统则会尝试通过相应调整摆脱副作用。

目前遇到的困境

在医疗大数据行业中，讲求对“真实世界数据”的挖掘和掌握，而其中最重要的核心内涵就是基于人群大数据的研究，从而推动药品研发和应用以及建立治疗方案疗效客观评价的新方法。

由于时间地域及硬件条件的不平衡，可能生成海量的医疗病例错误信息。有误的病历电子化后，将带来更多更大的扭曲删改和误导性的信息。此外，数据的不完整性也是制约医疗大数据发展的因素，可能对其应用产生错误或偏倚，所以，尽快统一各级医院病例数据模块，建立标准化的输出结构或格式，使得数据的采集标准化、规范化，让数据能够分析使用是当务之急，不同类型的医疗数据资料，采集传输时达到统一标准。

所以其大数据也必定具备一般的数据特性：规模大、结构多样、增长快速、价值巨大，但是其作为医疗领域产生的数据也同样具备医疗性：多态性、不完整性、冗余性、时间性、隐私性。

多态性：医疗数据包含有像化验产生的纯数据，也会有像体检产生的图像数据类似心电图等信号图谱，医生对患者的症状描述以及跟进自己经验或者数据结果做出的判断等文字描述，另外还有像心跳声，哭声，咳嗽声等类似的声音资料，同时现代医院的数据中还有各种动画数据（像胎动的影像等）。

不完整性：由于各种原因导致有很多医学数据是不完整的，像医生的主观判断以及文字描述的不完整，患者治疗中断导致的数据不完整，患者描述不清导致的数据不完整等。

冗余性：医疗数据量巨大，每天会产生大量多余的数据，这给数据分析的筛选带来了很大困难。

时间性：大多医疗数据都是具有时间性、持续性的，像心电图，胎动思维图均属于时间维度内的数据变化图谱。

隐私性：另外隐私性也是医疗数据的一个重要特性，同时也是现在大部分医疗数据不愿对外开放的一个原因，很多医院的临床数据系统都是相对独立的局域网络，甚至不会去对外联网。

此外，医疗大数据人才也相对缺乏，而且中国医疗大数据应用的主体医护卫生人员素质和能力整体水平也较高。

由于信息化网络基础设施建设发展，人们对信息化及数据的应用并不陌生，且已初步形成大数据研究的专业化人员队伍。但是医疗大数据建设及其研发有特殊性。首先医疗数据专业性强，其采集、整合、解读和应用都需要专业化卫生人员甚至医护人员的参与。

然而中国了解医疗大数据及参与医疗大数据建设的卫生人员极其稀缺，此类人才不光需要有医学背景，而且需要具有数理统计和信息分析等知识。

中国已建设的大数据人才多是数理统计方面的专家，但由于医学知识的缺乏，就无法真正深度应用已整合的医疗数据。所以医数医理交叉人才的短缺及医护卫生人员大数据相关知识的缺乏是目前阻挡中国医疗大数据发展的重大问题。

此外，医疗大数据相关研究基金和课题的缺乏也是目前卫生人员对医疗大数据不了解和不深入研究的原因之一。