浅谈大数据模式下的审计数据安全及防范

时间:2023-10-26
作者: 高源

近年来,大数据技术作为推进审计全覆盖向纵深发展的重要手段,已全面运用于审计中。作为信息化发展和审计工作深度融合的产物,大数据审计对提升审计效率卓有成效。但是,随着大数据审计应用的深入推广,审计数据的安全问题也日渐凸显。大数据模式下,审计人员如何结合审计“新”特点,在充分发挥大数据审计作用的同时保证审计数据安全是值得深入思考的问题。

一、大数据模式下的审计“新”特点

传统审计工作以查账为导向,随着大数据的快速发展,审计重点的变化和全覆盖要求的提出,审计工作对全面性、高效性、绩效性要求更加突出。大数据模式下的审计以数据为基础,深度融合传统审计方式和信息化技术,兼具了系统化、总体化、多样化、智能化等特点,对挖掘数据资源、扩大审计覆盖面有着巨大的作用。

(一)审计思维系统化

传统审计思维是由发现问题推出结论,而大数据模式下的审计思维是以整体或系统为先导,审计人员广泛归集预算单位、社会团体、国有企业等数据,通过对跨领域的大规模经济、社会行为进行大数据分析,之后采取实地走访等方式核实发现的部分疑点,并对整体数据进行趋势分析及风险评估,及时发现某些潜在的规律,为政府制定政策、改进方法、完善制度提供重要依据。即大数据模式下审计思维是由整体推至局部最后回归整体的系统化思路。

(二)审计方式总体化

传统审计方式主要以抽样审计为主,实现抽样的绝对随机性非常困难,一旦抽样过程中存在任何偏见,分析结果就会相距甚远。而大数据模式下,区块链、云计算、网络爬虫、数据挖掘等技术的广泛使用为全部数据的采集、处理提供了条件,获取数据的难度变小,审计人员可充分运用采集到的各类数据,深度挖掘有价值的数据,多角度深层次分析审计疑点,达到“横向到边、纵向到底”的全覆盖审计,规避抽样审计的风险。

(三)审计内容多样化

传统审计内容主要面向的是与财务有关的“数字”,如主营业务收入、营业费用、管理费用等,这些通常是以简单文本或数字编码组成的文字,传统分析工具基本可以满足需求;而大数据模式下审计内容从财务延伸至与业务、履职、经济效益有关的全过程数据,审计内容不再是单一的结构化数据,更包括在不同时间生成的多源、异构的非结构化和半结构化数据,如图层数据、影像数据、XML、HTML、音频、视频和日志数据等。

(四)审计方法智能化

传统审计方法是通过电子数据采集转换对数据进行验证,常用的是查询分析。而大数据模式下,审计方法从一般性分析转变为挖掘分析。数据挖掘是以海量数据为基础,利用数据仓库、数据挖掘和模型预测等工具进行审计分析,从中发掘出隐藏的数据疑点和规律,常用的有离群点分析、聚类分析和序列分析等。通过离群点分析可以明显发现偏离数据总体、不符合业务规律的数据,从而发现审计疑点;通过聚类分析,可以根据数据的相似性划分若干类别,将各类数据同比,分析被审计单位数据的真实性;通过序列分析可发现数据在时间、序列上的规律,分析审计数据间的因果关系。

二、大数据模式下的审计数据安全

大数据背景下,审计模式从“散点创新”向“集成创新”、从“统筹发展”向“融合发展”迭代升级。数据作为重要的信息资源,数据应用贯穿审计全过程,数据安全融合审计全周期。新技术、新需求、新应用给审计数据安全带来了新挑战。笔者将从审计数据采集、存储、管理、应用四个环节阐述数据安全类型。

(一)数据采集安全

首先为采集传输阶段的安全。使用直接拷贝、前台导出、后台提取或网络爬虫等方式获取数据时,若基于公共网络链路,采用明文交换方式传输,数据内容可能会被恶意截取、篡改,从而造成数据在传输过程中泄密。其次采集拷贝介质管理不严,而造成数据泄露安全。从被审计单位获取数据后到提交数据之前,审计数据应由专人负责、加密保管,避免因随意存放而造成他人越权拷贝、或因介质遗失而造成数据丢失。

(二)数据存储安全

一是存储硬件安全,历年归集数据通常以持久化方式保存在硬盘中,包括结构化、半结构化、非结构化等多源数据。数据每年的增长量达TB级,若硬件发生故障,会带来数据全盘丢失或损害的风险。二是存储网络安全,数据的存储分布结构决定了数据抵抗安全风险的能力,数据可能因某一存储节点的安全故障而被破坏。三是数据备份安全,数据应定期备份至重要位置,根据实际情况,可采用手动或自动备份,若未及时备份或备份在次要位置,都会产生数据备份无效可能性,从而增加数据遗失风险。

(三)数据管理安全

与单一数据相比,聚合数据能产生高价值信息。数据集中存储后,在管理阶段可能因“用户-角色-权限”模式不清晰而产生数据泄密风险。首先表现为访问入口安全,用户连接数据时,访问权限过大会产生用户超范围读取数据,导致敏感信息传播,产生数据失真风险。其次表现为访问权限安全,用户权限映射关系不合理会造成数据被恶意挖掘,产生数据暴露风险。

(四)数据应用安全

数据应用阶段可采取本机分析或平台集中分析,本机分析是指完全获取数据操纵权限后开展分析,适用于数据管理员;平台分析是基于数据集成开展分析,适用于一般审计人员,管理员通过平台管理数据,允许可操作范围内查询分析,禁止非法拷贝、更改、增加、删除,防止破坏数据的完整性、真实性。数据可视化安全,在数据应用过程中,要禁止敏感数据直接传播,避免数据泄密风险。

三、大数据模式下的审计数据安全防范建议

针对大数据模式下审计数据存在的安全风险,笔者结合实际,从技术角度出发,对审计数据的采集安全、存储安全、管理安全、应用安全提出以下防范建议。

(一)采集安全防范

采集安全防范指在数据获取途径上做好安全防护,降低审计数据泄密的可能性。一方面在数据采集传输时,建议在做好网络边界防护的情况下,建立审计机关与被审计单位远程安全访问通道,专网专机采集,或直接对数据进行加密,以密文形式传输采集。另一方面在数据采集拷贝介质安全上,建议配备专用采集介质,再采用软件加密或硬件加密的方式提高介质的安全性,常用的软件加密有密码验证、证书验证,硬件加密有指纹加密、USB加密狗加密,软件加密一般通过软件系统设置、操作简单,硬件加密一般固化在硬件芯片中、安全性更高。

(二)存储安全防范

存储安全防范指应用物理、配置手段来保护审计数据只被授权用户或可信网络访问,避免因硬件、网络、自然灾害等造成数据丢失。一是建议采用磁盘阵列(RAID)方式存储。RIAD技术将许多小容量磁盘驱动器存储大量数据,使可靠性和冗余度得到增强,当某一块硬盘出现故障时,系统能自动重构保证数据的正常读取。二是建议通过开展数据存储系统等级保护测评、制定网络安全制度、采用国产核心设备、配备边界防火墙及数据库审计系统、安装不间断电源等措施提高存储网络的安全性。三是建议利用数据库自身备份或操作系统文件复制功能建立副本,将副本存储在不同网络节点,采用异地备份分布式结构部署,提高应对各种不可抗拒因素的能力。

(三)管理安全防范

管理安全防范指依托软硬件环境,采取一定措施对审计数据的读取进行管控,避免非法操作而暴露数据。首先是访问入口安全性,数据访问入口即是数据获取的开关,审计数据由专人负责管理的基础上,还需严格实施访问控制策略,如采用密码口令和数字证书相结合的多因子身份认定,验证通过后即为合法用户,获得入口权限。其次是访问权限安全性,成为合法用户后,数据管理员要对人员和数据建立权限分级映射关系,一是可利用数据库自带的权限模块实现资源访问控制,二是可基于数据管理平台,融合审计业务,采取“模块-权限-角色”三级映射法,将不同行业审计数据权限映射到不同用户组,从而实现审计数据访问的细粒度管理,三是定期检查存储系统的访问控制日志,从日志分析非法用户、非法操作。

(四)应用安全防范

应用安全防范指审计数据使用阶段,审计人员应确保数据操纵的合理性,避免错误运用而破坏数据的完整性、泄露敏感数据。一方面是分析权限安全性,数据管理员在用户权限管理基础上,为审计人员建立“数据安全域”,即允许审计人员访问分析数据,但不能复制拷贝,以此保证数据的完整性;常用办法是先将数据分配在虚拟机中,建立一个虚拟机集群组,再通过设置操作系统组策略禁止远程复制,最后通过虚拟机提供的应用程序访问数据。另一方面是可视化安全性,在审计经验推广、专项汇报中,审计可视化结果应完成数据的脱敏处理,避免直接展示敏感个人信息,如身份证号、银行卡号、电话号码、家庭住址等,缩小隐私数据暴露的范围;数据脱敏常用的有替换、无效化、乱序、平均取值、反关联等方法,审计人员可用替换法对数据进行批量处理即可。