“五问”大数据

时间:2023-07-12

本文从五个方面提出了大数据技术发展面临的一系列挑战

第一,如何构建以数据为中心的计算体系?

我们面临着一个问题:数据处理能力与数据处理需求之间的剪刀差正在加剧。这种情况下,我们迫切需要拥有更强的性能提升驱动力。新硬件技术和人工智能技术为大数据计算体系带来了新的机遇和挑战。同时,超大规模的数据处理需要耗费大量能源,增长速度极快。目前的计算体系偏重性能,但能效不高,可持续发展能力有限,这带来了对能效方面的挑战。我们需要思考如何在这种情况下创造一个满足高性能和高能效需求的可持续的大数据计算体系。

第二,如何管理超大规模的数据要素?

越来越多的数据现在以数据要素的形式存在于不同的组织、空间和信任域中,并参与数字经济活动的全过程。管理这些分散在不同领域的大规模跨域数据是一个重要的挑战。为了实现数据价值的最大化,我们需要将数据组织和管理的范围扩展到跨域模式。然而,这种跨域管理模式带来了新的挑战。大数据管理是大数据产业的基础,但是可用性是一个大的挑战。由于大数据规模呈指数级增长,大数据管理系统的规模也在不断扩大,因此错误的发生概率也在不断提高。此外,恶意节点可能会引发虚假消息或数据篡改等严重问题。因此,我们需要高效的组织和管理跨域数据,以确保数据的可信性和安全性。

第三,如何满足大数据高效处理的需求?梅宏认为,新型数据处理需求对现有大数据处理系统与架构提出多种技术挑战。具体来看,实时数据的特征是动态倾斜、稀疏关联、超大容量,需要应对资源效率低、时空开销大、扩展困难等技术挑战;图数据的特征是不规则访问,计算访存比小、依赖关系复杂,需要应对并行流水效率低、访存局部性低、内外存通道利用率低等问题。

第四,如何实现多源异构大数据的多模态融合分析与可解释性分析?梅宏提出了两方面挑战:一方面,异构多模态数据的融合分析从小规模、单模态转变到大规模、多模态;另一方面,模型在可解释性、稳定性、公平性、可回溯性这四个方面也需要更高的性能和要求。

第五,如何形成系统化大数据治理框架与关键技术?梅宏指出,数据要素化需要有效高效的大数据治理技术体系支撑,涉及数据汇聚融合、质量保证、安全与隐私保护、开放流通、标准化与生态系统建设等多个方面。