本报记者 张卫海 通讯员 刘宜文
税收大数据具有覆盖经济领域“全”、反映经济活动“快”、数据颗粒度“细”等特点。但是,基层税务部门存在基础数据质量不高、运用分析能力不强等问题。如何让数据“宝库”更好地为基层税收征收管理赋能?
国家税务总局青岛市城阳区税务局的做法是,升级智税应用体系,通过夯实内外部数据深度整合和科学清洗后形成的“数据基础”、完善涵盖100个智税模型的“模型基础”、强化由100名智税分析人才组成的“人才基础”,提高征管效能。不久前,其相关做法获评山东省“大数据创新应用典型应用场景”。
国家税务总局青岛市城阳区税务局智税分析团队成员依托智税分析手册中的数据模型,对风险疑点进行检测和预测,导出结果实现了企业间关联关系可视化展示、业务流向模拟推演,税收管理效能大幅提升。
“数据基础”:从各类数据到关键数据库
如何以数据的深度应用推动税务管理?城阳区税务局做的第一步是打牢“数据基础”。那么,基础数据从何而来?
城阳区税务局党委书记、局长马政瑞说:“城阳区税务局从三个方面获取基础数据资源,包括税收征管系统发票等数据、对外公开的官方数据和外部门传递数据。”除了税务系统中关于登记、申报、征收等各类税费数据,以及跨地区、上下游等各类关联数据等内部数据外,城阳区税务局使用Python技术收集获取网络公开的各类官方信息,累计围绕35类数据分析主题,收集各类官方数据百万余笔。同时,深化协同共治,与财政、统计、工信、发改等12个政府职能部门建立数据交换共享机制,获取关键信息。
海量数据(13.610,0.19,1.42%)汇集后,为了保障数据质量,还需对它们进行预处理。
据介绍,所谓预处理,就是剔除无效数据、填补缺失数据、修正异常数据。随后,按照征管逻辑和规则,对预处理后的数据进行标准化、关联化和标签化处理,按照税种、人群、行业、行为特征等维度进行分类筛选、数据重组、清洗转换和规则计算,形成可以支撑后续分析和判定的关键数据库或数据表。
“模型基础”:从分析预测到长效长治
打好“数据基础”后,如何将纷杂庞大的数据,用于税务监管?城阳区税务局做的第二步是打造“模型基础”。
马政瑞介绍,通过卷积神经网络、BP神经网络、支持向量机、主成分回归、Lasso回归、Logistic回归、聚类算法等机器学习算法,结合税种、行业、行为、人群特征等不同维度,他们将数据转变为指标、形成体系,最终经实践应用打磨成100个智税模型。这些模型已经成为城阳区税务局将税收大数据应用于税务监管的“武林秘籍”。
例如,针对流转税、财产税,主管税务部门根据税种搭建了虚开发票风险模型、留抵退税异常进项等模型,对全区15万余户正常状态纳税人开展实时风险监测和预测。再如,在物业企业管理过程中,基层税务所针对服务型合同等疑点搭建了物业行业风险模型,其数据分析结果在防范税收流失方面发挥了重要作用。
通过风险模型进行分析预测只是智税应用的第一步。通过“分析预测—动态监控—更新迭代”的三级递进工作模式,城阳区税务局使智税应用不断“进化”,持续保持生命力。
对于模型导出的结果,该局通过企业画像等技术,直观展示相关关系和风险疑点,通过分类算法划分风险等级,进行分色预警,同时绘制风险热力图,动态监控税收风险动态,辅助迅速决策及有效应对。随着数据资源的不断丰富和风险应对经验的不断积累,该局依托实时加权算法赋分、强化高发生概率事项学习等方法,实现现有应用的更新迭代,确保数据应用的长效长治。
“人才基础”:从人为数据赋能到数据为人赋能
马政瑞介绍,模型从何而来,又用到哪里去?其中发挥重要作用的是“人”,“人机结合”在基层税收征管效能提升中的探索与实践不可或缺。
城阳区税务局在全局范围内优选智税分析团队,在数字化专业技术培训的基础上,再由团队成员立足本职岗位,聚焦重点行业、重点人群、重点工作等领域,紧盯流转税、所得税、资源税等类别,通过精细化指标和数理化算法,对不同风险场景建立8大主题智能化模型,实现风险疑点正列举、关联关系可视化展示、业务流向模拟推演、分色预警自动监测等税收大数据的赋能应用,推动基层税收征收管理效能提升。
“数据模型由人从实践中提炼总结出来,经过审核打磨固定下来,编写形成智税分析手册进行推广应用,最终再反哺于基层税收征收管理,实现了‘人为数据赋能、数据为人赋能’的有效闭环。”马政瑞说。
据了解,城阳区税务局将机关整体的“数字化转型”与干部的数字化能力提升同步推进,优化“常态推进”与“有效激励”两个机制,一方面,常态开展专题推进、项目讲评,定期举行“税收检查大比武”“干部智税分析大比武”;另一方面,优化“激励机制”,通过多种机制强化“智税”成效的结果运用。
本文刊发于《中国税务报》2025年5月26日A3版。