社会仿真与大数据挖掘融合的可能与可行 - 行业新闻

计算社会科学被认为沿着两条平行的方法路径发展。一条是以基于行动者建模（agent based modeling，ABM）为主的社会仿真路径，主要探讨宏观的复杂社会现象的涌现（emerge）机制及其非预期演变；另一条是以机器学习、复杂网络分析、文本分析为主的大数据分析路径，主要以近20年来日益增多的电子痕迹大数据为分析资料，通过开发新方法来分析社会现象背后的关联和规律。尽管近年来两条路径在研究工具的开发、人才培养、知识生产等方面均取得了迅猛发展，但也遇到了各自的发展瓶颈。前者因缺乏足够的数据对模型校准与验证而被讥讽为“玩具模型”；后者因对宏观社会模式及预测更为重视，忽视对现象的理论解释而被批评为“精致的平庸”。前者因外部数据的缺乏而限制了研究议题的拓展，后者则因社会理论解释的不充分而制约其研究的深度。面对数字化转型带来的日益复杂的社会现象，两种方法路径的融合势在必行，既存在多种可能，也存在若干挑战。

历史沿革与当下困境

有关计算社会科学发展路径的分离主要有两种解释。一个解释是两者出现的时间不同。社会仿真经历了从系统动力学、元胞自动机到基于行动者建模（ABM）等三个主要发展阶段，最早可以追溯到20世纪40年代；而大数据分析则主要出现于最近20年，特别是拉泽尔等人在《自然》上发表《计算社会科学宣言》后快速发展。另一个解释则是使用两种方法的研究群体及其关注的议题存在较大差异。社会仿真关注宏观现象的涌现机制，专注于“微观—宏观”联结带来的复杂性问题，很早就吸引了大批社会学家的关注。而大数据挖掘更加关注利用新出现的海量痕迹数据、行政大数据等资源对人类行为展开研究，以发现宏观社会现象的运行模式及对其精准预测为主要目标。由于大数据资源的可得性、方法储备和场景应用等多种原因，该领域长期被大量计算科学家和物理学家主导，当然随着计算社会科学在经济学、社会学、心理学等传统社会科学领域的兴起而得到一定改观。

以ABM为主的社会仿真关注个体及环境的长期互动涌现的宏观现象及其非预期后果，通过建立一个能够表征现实社会的“人工世界”，设置个体的互动规则，模拟基于该规则长期互动涌现出的宏观社会现象，如社会隔离、文化分化、群体智能等。该方法路径面临的最大挑战在于如何确认该互动规则就是涌现出宏观现象的唯一规则。而与自然界不同，社会现象往往存在多种机制和多重原因，因此，针对社会现象的模拟增加了这一挑战的难度。研究者需要在理论与逻辑上找到最关键和最具解释力的机制展开分析。同时，需要对“人工世界”的设置进行经验校验，通过数据说明属性及互动规则的合理性，并且还需要将模拟结果与真实世界发展结果对比来说明模型的合理性。因此，该领域对经验校验的“高维度现实”模型的需求越来越高，而数据获得的高成本及研究设计的复杂性则限制了此类模型的扩展，目前除了在城市规划、传染病传播等领域发展较快之外，其他领域仍然没有大规模应用。

与此同时，大数据分析路径尽管在当下如火如荼，同样面临可解释性不足的困境。一方面，该路径较早就打上了商业应用的烙印，研究者对预测性极为重视，甚至现在仍有人认为“相关已经足够，无需因果解释”。另一方面，在于痕迹大数据并非规则数据，所包含的有价信息更为稀疏，采用传统假设检验的方法开展解释性研究困难重重。随着大数据分析对传统社会科学问题研究的深入，该路径对可解释性也日益重视。譬如，陆续提出“大数据与小数据结合”“探索性与验证性综合研究”“基于互联网的大规模实验”等多种方式。然而，大数据的出现不仅预示着方法的革新，同时也意味着人类社会的转型，人与人的连接方式、连接规模及社会分化方式均在发生显著的变化。我们的未来将是一个复杂性更为凸显的数字社会，社会现象复杂和非连续性演化与日俱增。而对这些社会现象的理解，越来越需要专门针对复杂性的“纵向因果”解释。

融合路径及其挑战

面对日益复杂的社会现象，两种方法的融合势在必行。缺乏外部数据校准的社会仿真和缺乏“纵向因果”解释的大数据分析在相互融合中，能够弥补各自的弱点。经过严谨的大数据分析发现的宏观社会模式及其关联能够为ABM的模型建构提供数据支撑，同时也为发现新的研究问题指明方向。而ABM则为大数据分析发现的社会模式及其关联提供可能的解释，发现其背后的涌现机制，甚至为可能采取的干预手段开展实验研究。实际上，在2022年出版的《社会学科学手册》（Handbook of Sociological Science）中，几位分析社会学家已经对该领域的融合案例做了精彩的总结。总体而言，两者融合的方式主要包括以下三种。

首先，大数据分析结果作为单一指标成为ABM建模参数校验的依据。ABM的模型设定比较灵活，不同参数设定的数据依据可多样化，因此大数据分析结果能以不同的方式进入ABM模型。例如，人口登记大数据的分析结果可以作为ABM中行动者基本属性设定的依据，社交网络大数据的分析结果可以作为ABM中行动者之间关系网络参数设定的依据等。这是一种较为浅层次的方法融合，大数据分析承担了完全辅助的角色，其挑战在于大数据分析能否提供无偏的、精准的、其他调查数据无法提供的新指标。

其次，大数据分析与社会仿真起到承接作用，以共同加深对问题的理解。一个典型案例来自凯泽（Marijn A.Keijzer）和马斯（Michael Mas）等人开展的社交机器人研究。既有大数据分析结果显示，社交机器人对信息传播发挥了矛盾的作用：社交机器人传播的信息非常广，但同时却只能影响少数人。为什么只能影响少数人的社交机器人，其传播的信息可以扩散得非常广呢？针对这个悖论，作者基于经典的传播模型建立ABM模型分析发现，那些迅速吸引和改变大量周边人观点的机器人，实际上在其周围建立了同质性观点的交往圈，也扩大了该圈子与周围的距离，从而阻止了信息的长距离传播。在此案例中，两种方法的融合程度显然更深，大数据分析结果为ABM建模提供了研究问题，两者之间是一种承接关系。当然，该研究还能进一步通过大数据分析来验证模拟结果与真实世界的结果是否一致。不过，它的挑战在于大数据分析提出的问题需要一个成熟的、广为接受的ABM模型来模拟。事实上，此类模型并不多见，这无疑对相关议题的拓展产生了阻碍。

第三，以大数据分析为基础建立“高维度现实”的ABM模型。该类研究是我们最期待的，当然挑战也最大。挑战之一在于数据的可得性，我们认为的理想大数据应该是无所不包的全数据，实际上目前即便存在这样的数据，也存在可获得性伦理问题。挑战之二在于大数据是自然数据，可能不适合直接开展研究。由此，一些案例出现在互联网实验研究中。例如，有研究者建立音乐排名网站，在几个实验组中歌曲初始下载量排在不同的名次，而对照组则没有歌曲下载排名。通过以上实验检验了音乐市场的“马太效应”，即受欢迎的歌曲可能不仅跟歌曲质量有关，还跟其起始阶段是否受其他人欢迎有关，即与“马太效应”机制是否被激活有关。在该实验的基础上，范德里特（Arnout van de Rijt）通过实验数据建立经验校验的ABM模型，通过模拟分析进一步发现，从长期来看，社会影响过程具有一种自我纠偏机制，使得音乐的质量与其下载排名相一致。该研究的数据就是完全建立在大数据分析基础之上，两种分析方法达到了完全融合。