在科技管理中,让科学数据“开放共享”

时间:2022-06-13
作者: 高雅丽

作为世界上首颗可持续发展目标监测卫星,可持续发展科学卫星1号预计将于今年9月向全球开放,届时将产生大批科学数据。这些数据如何管理、怎么用,牵动着全球科研界的神经。

“我们承诺获得的数据可以提供给联合国成员国共享,在未来数据开放期内,国内外授权用户可以通过相应的数据共享服务系统进行数据获取。”中国科学院网络安全和信息化专家咨询委员会主任委员、可持续发展大数据国际研究中心(以下简称SDG中心)主任郭华东院士表示。

这份承诺的背后,是近年来我国科研界不断推动科学数据开放共享的实践。当科研步入数据密集型的“第四范式时代”,如何才能开发好、利用好科学数据这座“富矿”?

作为国家战略科技力量主力军,中科院一直高度重视科学数据管理与开放共享工作。启动科学数据库建设40年来,中科院已积累超过80PB的科学数据存储量,初步建成了由总中心、18个学科中心和13个所级中心组成的院科学数据中心体系,在支撑国家重大战略、支持科技创新等方面发挥了重要作用。

促进共享:开放为常态,不开放为例外

做好科学数据管理,关键的第一步是“收集数据”。

科学数据公开还是“仅自己可见”?科学数据的共享边界在哪里?这些问题也让科学数据的收集困难重重。

2018年3月,国务院办公厅印发《科学数据管理办法》,明确了“开放为常态,不开放为例外”的原则,同时要求政府预算资金资助的各级科技计划(专项、基金等)项目所形成的科学数据要向科学数据中心汇交。

“《科学数据管理办法》的颁布强调了法人单位的主体责任,使得广大普通科学工作者可以介入到数据共享,而不必承担共享数据的成本,这必然会带来整个生态的繁荣。”中国科学院网络安全和信息化领导小组办公室执行副主任褚大伟说。

2019年6月我国首批发布的20个国家科学数据中心中,有11个依托中科院单位建设,在国家科学数据中心体系建设中发挥了重要作用。

为了进行科学管理,中科院制定了《中国科学院科学数据管理与开放共享办法(试行)》,并明确提出了建立“先制订数据管理计划再立项”的项目数据汇交机制及“论文关联数据的汇交与管理机制”。

为了消除科技工作者发布共享数据的门槛,中科院面向科学数据汇交业务场景,提出了数据中心建设、项目科学数据汇交、汇交数据质量管理和共享等方面的一系列工作指南,并由中科院科学数据总中心研制了一系列支撑科学数据中心业务的软件工具。

目前,中科院各国家科学数据中心已支持150项国家重点研发计划项目数据汇交,汇交数据总量4.80PB。褚大伟表示,长远来看,汇交科学数据的总量和增长速度必然会有所增加,知识从研究过程转化为共享数据的流程缩短,“科学数据会成为比论文更加快捷的科学信息传播与协作渠道”。

随着科学管理的推进,中科院科学数据中心的国际影响力也在进一步提升。微生物、基因组、天文、空间科学、地球系统、青藏高原等科学数据中心得到了国际知名出版机构认证,基因组科学数据中心被国际同行称为“全球主要生物数据中心”,微生物科学数据中心已处于国际合作主导地位,牵头开展了全球微生物菌种保藏目录等国际合作计划和国际科学数据库共建工作。

在不久前落幕的金砖国家可持续发展大数据论坛上,SDG中心面向金砖国家发布了4套可持续发展数据产品,为金砖国家开展可持续发展目标科学研究提供支撑。

服务创新:不要为了数据而“数据”

如何确保科学数据的质量以及更好地服务科技创新,是收集海量科学数据之后更为重要的一个命题。

郭华东曾担任国际科学院联盟国际科技数据委员会主席。在他看来,科学数据共享“不是拿着U盘去拷贝,更不能为了数据而数据,而是要在需求牵引、技术推动的理念下,充分发挥大数据支撑科技创新的作用”。

在这样的理念下,SDG中心遵循“FAIR”(可发现、可访问、可互操作和可重用)原则,在数据共享模式上进行创新。

郭华东说:“我们共享的不仅仅是数据,也是算法、模型和服务,实现多学科数据关联分析和融合应用,驱动重大科学发现与决策支持,形成可持续发展目标监测与评估的科学研究新范式。”

我国科技界在利用地球大数据服务可持续发展方面已开展了全面实践。SDG中心研发的可持续发展大数据平台系统,截至目前已汇聚地球科学数据达14PB,可提供DOI、CSTR、PID三种科学数据标识,已有174个国家和地区超过43万独立IP用户访问,浏览量超过6900万次,数据下载超93万次。

同样,为了让高质量科学数据服务科技创新,中科院科学数据中心推出了一套参考科技论文审核流程的工作机制,形成相关的工作指南,确保汇交数据附带充足的质量描述。

而从长远角度看,科学数据服务科技创新,需要在整个科学研究环境中形成一个闭环,“使共享数据能够像现在的科技论文那样,作者权益有保障,共享发表产生的效益可以得到评估、评价,那么科学工作者生产高质量科学数据、推动其公开传播的动力就会得到提升。”褚大伟表示。

郭华东建议,可以建立一个全新的数据引用指数,以公开发表数据集的他引次数乘以引用文章影响因子权重,作为衡量数据共享效果与数据影响力等的重要指标。

“科技资源标识、科学数据影响力评价等科学数据公共服务将成为科学数据共享生态的新型基础设施,连接起科学研究的各个环节。”褚大伟说。

自主可控:加强数据全生命周期管理

“很多国际期刊要求,论文发表需要在它们认证的存储库中发布论文关联数据,导致我国学者的很多研究数据在国内还没发布,就首先发到国外去了。”不少科研工作者都有过类似的经历。

为了把我国的关键科学数据“牢牢掌握在手中”,中科院加强我国自主产权的存储库建设,自主研发的ScienceDB(科学数据银行)目前已经获得施普林格·自然、爱思唯尔等多家国际出版商的认证,为我国的广大学者发表论文提供了强有力的数据存储支撑,同时也汇聚了全球的优质科学数据资源,为全球160余个国家和地区的科研人员提供数据共享与获取服务。

“在中科院数据中心体系内部,我们也推动数据中心快速达到相关认证要求。相信随着我国和中科院数据中心体系能力的提升,我国科学家在自主可控的环境发布数据、支撑科技论文的发表是可以做到的。”褚大伟说。

为了确保科学数据安全,中科院明确提出要建立网络安全保障体系,加强数据全生命周期安全管理。

在技术层面,通过研发的科学数据中心安全监控工具和备份平台等,为科学数据中心安全管理提供常态化的防护和保障;同时,在基于区块链的科学数据共享等技术方面开展探索,发布了国内科学数据领域首个区块链平台“开放科学数据联盟链”,后续将在可信计算等方面开展工作,确保科学数据在安全的前提下得到充分利用。

与此同时,在全球科研交流日益紧密的背景下,我国的科学数据共享不应孤立于全球开放科学的浪潮之外。褚大伟建议,要进一步加强跨领域合作和国际合作,参与并争取主导国际计划与合作项目。

郭华东指出,在全球范围内,开放科学正成为重要的发展模式和全球共识。开放数据是开放科学的核心组成,将会大力促进开放科学的发展,提升科技创新活动的透明性、可重复性、协作性,并将科学对社会发展的价值最大化。

褚大伟表示,中科院在科学数据共享事业上有着光荣的传统,未来将进一步加强科学数据共享制度机制的研究,为科学数据中心的建设提供一个完备的软环境。同时,中科院拥有产权的科学数据也将继续以开放共享为主的方式公开共享,为国内外科学研究提供有力支持。