大数据时代的中共党史研究:挑战与变革

时间:2021-06-30
作者: 王冠中

2015年9月,中国政府发布《促进大数据发展行动纲要》,将数据认定为国家“基础性战略资源”,强调要“建立和完善大数据产业公共服务支撑体系”。与此同时,各学科研究者争相探讨大数据与本学科发展的关系,中共党史学自然不能置身事外。根据党史界较为一致的观点:“中共党史学是带有鲜明政治学特点的历史学科”,“是一个大的专门史”,所以史学界对大数据与历史研究关系的讨论,势必会影响到党史研究。

一、党史研究中运用和处理数据的学术史回顾

在党史学科发展史上,重视利用数据来记载历史和论证观点,并逐步做到对数据的科学化处理,是党史研究的一个优良传统。目前已知最早从党史角度研究中共发展进程的文章,是陈公博于1924年1月在哥伦比亚大学撰写完成的硕士论文《共产主义运动在中国》,就非常重视对数据的运用。在阐述中国革命爆发和中国共产党成立的必然性时,该文对当时中国走向赤贫的农民和无产者的数量、外债复利数、政府借款数、童工日工作时间等,都进行了数据统计。尤其难能可贵的是,文中还专门列出了《赔款和战争借款》《铁路借款》《一般借款》《各省借款》等表格,把本金数目、借款时间和利息率等内容,用具体数据予以说明,使作者的观点一目了然。此外,早期一些其他党史著作(报告),如蔡和森的《中国共产党史的发展》、瞿秋白的《中国共产党历史概论》、华岗的《中国大革命史》等,在阐述相关问题和论证作者观点时,也非常重视利用数据。

从红军长征到达陕北至新中国成立前,是党史研究取得重要进展的时期。这一时期党史研究的代表性成果,如由张闻天编著并于1936年开始印行的《中国现代革命运动史》,在列举帝国主义入侵罪行和阐述革命爆发的必然性等问题时,将列强输入商品、在华经营铁路、修建船厂、投资银行、发展工业,以及中国金银外流、原材料输出、清政府举债、入超等方面情况,都配以详细数据逐一说明。此外,叶蠖生于1939年编著的《中国苏维埃运动史稿》,也非常注重发挥数据在历史叙事中的作用。书中许多数据和材料,是作者利用当时各解放区负责人集中在延安学习的机会,广泛搜罗采访而来。

党史研究中重视运用数据的传统,必然会对党的领导实践和决策过程产生影响。将重视数量关系的自发行为进行理论升华,并上升到适用于指导一切工作的方法论层面,是由毛泽东来完成的。1949年中共七届二中全会报告在总结党委会工作方法时,毛泽东强调指出:“对情况和问题一定要注意到它们的数量方面,要有基本的数量的分析。任何质量都表现为一定的数量,没有数量也就没有质量。我们有许多同志至今不懂得注意事物的数量方面,不懂得注意基本的统计、主要的百分比,不懂得注意决定事物质量的数量界限,一切都是胸中无‘数’,结果就不能不犯错误”。这段话针对的是党委会和党员领导干部所面临的各项工作,表明在理论层面和党的决策思维中,做到胸中有“数”已引起高度重视。党史研究自然也不例外。

从新中国成立到20世纪80年代计量史学传入这一时期,党史研究继续沿袭了此前重视运用和处理数据的传统。在具体操作上,除了对数据进行图表化处理、注重考证数据的来源和出处外,并没有出现其他质变性的内容和创新。20世纪70年代末80年代初,随着对苏联和美国计量史研究成果的译介,中国史学界开始对计量史研究展开讨论,不少学者还将计量分析和定量方法运用到具体研究中,从而在80年代中后期形成了一股计量史学热潮。计量史学的观点和方法很快被引入党史界,一些党史研究者开始呼吁将计量方法应用于党史研究,并在1990—2010年间产生了批量成果。

综上,党史研究中无论是运用传统数据处理方式还是计量方法,由于互联网技术的缺位而使数据彼此间难以互联共生,数据的“自我繁殖”和自组织能力不能呈现,党史学科所拥有的数据规模也都在既有数据库软件能力管控范围之内。因此,这一阶段党史研究中运用和处理的数据,是一种名副其实的“小数据”。

二、大数据对党史研究的挑战

2011年5月,国际知名管理咨询公司麦肯锡发布了题为《大数据:创新、竞争和生产力的下一个前沿》的报告,将因这一轮数据大爆炸产生的大小超出了典型数据库软件采集、储存、管理和分析能力的数据集(Large pools of data),定义为“大数据”。这种能够带来价值溢价和实现思维革新的数据,一方面为党史研究带来了巨大机遇,但另一方面,大数据也会对党史研究形成巨大挑战,具体表现如下。

(一)大数据“4V”特征给党史研究的资料运用和存储带来挑战

进入大数据时代后,由于大数据具有体量巨大(Volume)、类型多样(Variety)、流动速度快(Velocity)和价值密度低(Value)的“4V”特征,必然给党史研究的资料运用带来难度。首先,对于研究者而言,搜罗、筛选想要的资料投入的时间、精力要多得多;其次,大数据的快速流动特征,使一切资料的精准性和时效性随时面临考验,很可能花费九牛二虎之力找到的资料,很快就被新出现的资料所证伪了;第三,大数据时代的党史研究,要求研究者搜寻、筛选、处理和存储资料,必须熟练掌握和运用相关的电脑和信息技术,这对此前只会翻阅纸张材料的研究者而言,知识结构的更新换代不可或缺。

(二)大数据带来的思维革命挑战现有的党史研究思维方式

大数据引发科学界和社会高度关注的另一个理由,就是它所带来的思维革命。传统党史研究在问题意识作用下,不仅要求选题不要跨越太长历史时段,而且对论据的选择也强调抽样取材。这种思维方式的理论依据,便是哲学上的归纳推理。但在整体性思维指引下,这种抽样思维和归纳推理总难免会出现挂一漏万的问题。要解决这一矛盾,就需要大数据的整体性思维。

大数据展现魅力的另一个重要途径,就是对事物相关关系的挖掘。多少年来,党史学者的一个基本使命,就是通过对党史重大事件、重要人物及其活动进行研究,进而探寻历史事件发生的原因和历史发展的规律,对“为什么”的追问和探求,已成为根植于党史学者大脑的“先天基因”。大数据时代,如何在重视因果关系的同时更加关注相关关系,显然也是党史研究者面临的重大思维挑战。

大数据给既有党史研究思维方式带来的第三个挑战,便是如何在接受混杂中追求精准的问题。在数据的处理上,大数据使用的是简单算法,其背后的理论依据是模糊理论和模糊逻辑。运用这种理论和算法是“以退为进”,接受混杂不是要放弃精准,也不是要把史实搞模糊,更不是要放弃对历史真相的追求,正好相反,这是在大数据时代从事物量的规定性方面去“求信”和“求真”所应具有的科学思维。

(三)大数据对既有党史叙事方式和“专家治史”格局形成挑战

小数据时代,承载党史叙事的主要工具是文字,研究者若要运用少量数据和图表,都会配以大量文字说明,为数据的出场创设语境,让读者能够弄清数据的用意和目标指向。与此相对应,党史叙述方式比较单一。在大数据时代,随着信息技术革新,党史叙事工具呈现出多样化趋势。除文字、图表外,视频、影像、动画等工具的广泛使用,使史实再现和观点呈现手段更加多元,效果更为生动逼真。相应地,这种叙事方式也会由二维转向多维、由线性转向非线性。

此外,从研究主体看,以往的党史研究主要由经过一定专业训练的人员来承担,党史表达崇尚权威,研究成果的受众通常是与党史学习和工作有关的“小众”,成果传播速度和知识更新换代都比较慢,形成了名副其实的“专家治史”格局。大数据时代来临之后,微信、微博、论坛等社交媒体的广泛运用,势必会诱发党史表达话语权向下位移。移动互联网使得对党史的意见表达呈现出多元化趋势,大众开始对被动接受者的地位说不,这势必会对现有“专家治史”格局形成挑战。从好的方面看,这会加速党史研究成果的大众化进程,但其消极方面也不容小觑。党史研究主体的大众化和“草根史学家”话语权的增大,不仅会导致史实错讹、以偏概全和讨好粉丝媚俗现象的出现,而且“必将逐渐颠覆我们的正统史学观念,重构一个新的历史解释体系”。大数据时代的党史研究,从数据库的建立到信息分类和编码,从方法选用到史实甄别,专家的作用仍不可替代。

三、利用大数据推进党史研究变革

面对大数据的冲击,党史界可以考虑从加快党史研究信息化步伐、完善党史研究范式和革新党史研究方法等方面入手,来理性应对和推进研究变革。

(一)加快党史研究信息化步伐

当前党史研究,在取得诸多成就的同时,也存在一些不足。从科研管理主体看,高校系统的主管部门是教育部,党校系统以中央党校为龙头,各级党史研究机构则由中央党史研究室主管,基本上是一个“三足鼎立”的格局。这三大系统缺乏一个权威的协调和指导机构,条块分割,各自为政,致使在课题选择、科研任务规划、人力物力资源配置诸方面,不可避免地出现了效率低下、重复劳动和资料难以共享等问题。

要改变此种状况,党史研究各大系统应从大局出发,利用大数据技术,加大对现有科研资源的整合力度,加速党史研究资料共享进度,大力推进党史研究的科学化和信息化。第一步便是要加强对党史现有纸质资料和信息的电子化处理工作,通过数据采集、分类、编码、存储和挖掘分析等环节,建立大规模与党史研究相关的量化数据库。在此基础上,第二步便是在确保安全、保密的前提下,以开放共享、互利互惠的心态,通过互联网实现这些数据库间的关联和对接,并将这些党史信息数据库与中国近代以来的档案数据库、报刊数据库、人口数据库、国土资源数据库、户籍登记数据库、卫生资料数据库等进行关联,大大提高数据的时效性和可获得性,防止因“单打独斗”和闭塞保守而限制数据价值增值。

(二)完善党史研究范式

如果说信息化是在为大数据时代的党史研究提供设施、平台等硬件准备,那完善研究范式则是为党史研究进行“软件升级”。党史研究现有基本范式包括革命史范式、现代化范式、自然史范式、社会史范式等。但遗憾的是,这些范式都没能系统完整地回答党史研究中该如何科学运用和处理数据的问题。在大数据时代,尤其是在党史研究面临上述挑战的情况下,如果我们局限于这些既有范式,便难以有效回应大数据的冲击。要寻求从理论、思维到研究方法的整体性变革,引入适应大数据发展趋势、符合党史研究实际的量化数据库研究范式便刻不容缓了。

所谓量化数据库研究范式,“是统指各种搜寻能够涵盖一定地域范围、具有一定时间跨度的整体性大规模个人或其他微观层面信息的系统(一手)资料,并将这些资料按照一定数据格式进行电子化,构建成适用于统计分析软件的量化数据库并进行定量研究”的一种研究框架。这种研究框架与传统研究的区别:一是以网络和大数据技术为基础,更加关注选材的长时段、大规模和微观细节;二是强调研究的宏观性和整体性,要求资料和信息齐全而非仅拘泥于抽样;三是技术门槛低,对相关的数学、统计等方面的知识要求不高,对复杂定量分析方法知之甚少的普通史学工作者也能把握。需要强调的是,这种新范式仍然应该坚持以唯物史观为指导,因为“让数据说话”的定量分析,使对引起社会上层建筑变动的经济基础的变化,对生产力发展的具体表征,有更为清晰的量化指标和逼真的呈现方式;在不放弃追求因果关系的同时,更加注重分析相关关系,有助于实现物质世界普遍联系规律的数量化呈现。同时,在史观、史德等价值层面,这种新范式通过运用新技术,扩大党史资料收集范围,变革党史研究思维方式,有助于党史研究更加接近历史本真,是帮助人类在“求信”“求真”的道路上更加前进了一步,而不是要搞所谓的“放弃真相”和“退守叙事”。

(三)革新党史研究方法

在大数据时代,党史研究在继续发挥传统研究方法作用的同时,也无疑需要采取新举措、引入新技术,实现研究方法革新。以互联网为核心的信息技术广泛运用,使记录党史的数据每天都在不断地做着增量运动。作为在超大政治体系中长期执政的中国共产党,拥有世界上最大的体量和最多的党员数,记录其活动方式、决策过程和党员行为等方面的数据,早已超出了个人的阅读和处理能力。引入大数据的关联分析法、预测分析法、非线性分析法和量化比较法等研究方法,已是大势所趋。限于篇幅,下面以关联分析法为例进行具体说明。

关联分析法就是挖掘存在于大量数据(集)之间的事物相关性,以此找出事物发展的主要矛盾和发展规律,是注重事物相关关系在方法论上的体现,主要包括灰色关联分析、模糊关联分析、矩阵关联分析、系统关联分析、动态关联分析等类型。在大数据时代的党史研究中,这种方法大有可为。一方面,在党史数据库建库和实行库关联时,有许多关联度强的选项适合开展量化研究。另一方面,通过计算机软件和网络平台,关联分析法还可以提高党史研究者搜寻、筛选和处理资料的智能化程度。当前应用关联分析最典型的例子,就是电子商务中的“购物车”推送。党史研究可以利用这一方法和技术,在党史信息大数据平台(以大规模关联数据库为基础的网络平台)建立的基础上,引导研究者注册获得“购物车”。“购物车”根据自动记录和存储研究者的上网痕迹和检索数据进行关联分析并汇总,从而为研究者提供准确、及时的数据和资料。“购物车”还可以通过关联分析实时跟踪和“顺藤摸瓜”,为研究者推送意想不到的资料和信息,找出正在对相同选题感兴趣的其他同行,为研究团队的组建和实现科研协同创新提供技术支持。

综上所述,在大数据的洪流中,党史研究要真正做到科学化和现代化,必须学会科学运用和处理数据。早在一个多世纪之前,马克思便体悟到:“一种科学只有在成功地运用数学时,才算达到了真正完善的地步。”党史学科的自我发展和完善,不能胸中无“数”。

(作者单位:首都师范大学政法学院。《中国社会科学评价》2016年第3期,中国社会科学网禹瑞丽/摘)