大数据拓展社会定量研究方法 - 行业新闻

长期以来，社会学的量化研究依靠调查、普查和实验数据，使用以统计回归分析为主的统计模型对社会现象进行分析和解释。随着大数据及其分析技术的发展，数字化文本、媒体社交网络、时空信息等大数据已被广泛运用于社会学各研究领域，不仅丰富了社会学的研究现象，拓宽了社会学的研究视野，也在方法层面使社会学量化研究方法体系产生了巨大改变。

研究范式转向

理论与数据双驱动

传统社会学量化研究是理论指导下的实证研究。针对特定的研究问题，研究者基于相关理论和过往研究结论进行理论推演，提出研究假设，然后采用科学的统计模型对数据进行实证分析，从而证明或证伪假设。在这一过程中，研究假设的提出、概念测量和变量选择，主要依据过往的理论和结论。对理论的依赖会使研究者往往囿于前人经验，导致大多数的量化研究只能在前人经验上进行加减变量、增加交互项、对样本进行分组等操作，对前人经验进行小修小补，难以实现突破性的理论发现。由于大数据通常维度较高，而人脑的思考维度有限，难以在高维空间中展开想象。因此，大数据分析通常使用数据驱动的方式，将所有可能相关的变量（特征）全部输入机器学习模型，通过对数据中变量之间、个案之间真实且复杂的关系进行计算，找到群体之间、变量之间的结构关系，帮助研究者从海量、高维的真实数据中发现知识和规律。目前，不仅大数据被运用于社会学研究中，其数据驱动的思想也已被融入当前社会学量化研究的变量选择、结构分析、异质性群体识别和因果推断等各个环节，形成了数据与理论双驱动的新量化研究范式。

其理论驱动在于，研究者需要根据相关领域的专业知识来指导变量选择范围、制定分析策略、分析模型结果，并进行理论建构，从对经验现象的研究中提出新的社会理论。其数据驱动则主要体现在具体的研究方法上：（1）在变量选择上，使用LASSO回归、岭回归等有监督机器学习模型，从所有可能与因变量相关的自变量中，筛选出对因变量重要的影响变量，“广泛撒网、重点捕捞”，从而避免遗漏变量，也可能从过往理论未曾触及的角度得到意外发现，从而促进理论创新；（2）在变量结构分析上，使用主成分分析、t分布—随机邻近嵌入（t-SNE）等机器学习嵌入技术，将数据从高维空间映射到低维空间来对数据进行“浓缩”，既可以将原本稀疏的、离散的高维数据转化为连续变量纳入统计模型，也能够帮助研究者发现变量之间的隐藏结构；（3）在异质性群体识别方面，使用无监督聚类模型，完全基于样本的特征差异对群体进行分组，可以同时考虑高维特征，得到组内同质性、组间异质性的群体，有助于研究者进一步探究不同群体中的异质性规律；（4）在因果推断上，使用因果树、因果森林等分析异质性处理效应的机器学习模型，可以自动估计处理变量对不同群体的异质性处理效应；使用基于因果发现算法的贝叶斯因果图（Causal Bayesian Network）进行因果推断，不仅能够对自变量和因变量之间的关系进行反事实的因果推断，对因果效应进行无偏估计，也能够学习出自变量之间的因果关系。

方法论转向个体与整体主义并存

传统社会学定量研究的数据来源多为个体层次的微观调查数据，且多使用线性回归等方法，旨在发现变量之间的关系。因此，大多数定量研究所讨论的理论问题主要在个体层面，如教育、关系网络等如何影响个体的地位获得，社会资本如何影响个体的健康状况等。尽管一些研究使用了社区、地区、城市等宏观层面的指标，但其讨论的落脚点仍在于这些宏观层面因素如何影响微观个体，例如所在地区的市场化水平如何影响个体的教育回报等。尽管经过科学的抽样调查设计和普查所得到的数据具有总体代表性，其变量之间的关系能够推广到总体，但以微观个体为对象的社会学定量研究所提出的社会理论主要集中于微观和中观层面，难以建构宏观社会理论。

大数据的产生及其分析方法的发展，则为基于整体主义的宏观定量社会学研究发展孕育了土壤，使社会学量化研究从个体主义主导向个体与整体主义并存转变。一方面，大数据能够提供不同层次的汇总数据，链接多个数据源，能够填补宏观层次的数据空白，为宏观层面的研究提供数据支持，例如使用注册大数据可以研究社会变迁、了解人口变化趋势、分析经济发展规律，探究政策实施影响等。另一方面，大数据分析方法，尤其是复杂网络分析技术的发展，也为研究者从大量微观数据中发现宏观层次的特征和规律提供了可能。复杂网络虽是基于个体之间的关系而建构，但其分析的重点在于网络整体结构的特征、变化及其生成机制。因此，复杂网络分析主要关注整体的、宏观层面的规律，例如从动态社交网络的结构变化中探索社会群体如何形成和分化；从职业流动网络中探究劳动力市场结构的变化及其原因；从人口迁移网中发现人口流动的模式及其规律；从论文主题、引用、合作网络中探索科学的发展趋势等。

分析方法转向多元化方法体系

受理论驱动范式、个体主义方法论和数据局限性的制约，过往的社会学量化研究通常以变量为中心，使用回归模型对变量进行相关性分析。面对体量大、维度高、形式多样化、增长速度快、价值密度低的大数据，研究者需要使用不同的方法组合来挖掘出符合研究需求的信息，从而进行知识生产和科学发现。首先，由于大数据包含大量非结构化数据，研究者要格外重视描述性分析，通过数据清理、设计恰当的统计指标提取出关键信息，再巧妙地使用可视化技术以最简洁、直观且符合美学的方式，最大限度地展现数据所包含的信息。其次，大数据形式多样，例如文本数据、音视频数据、图像数据、网络数据等，研究者需要掌握相应的文本分析技术，应对多样化的数据形式。最后，大数据并不等于全样本数据，与之相反，研究者能够获取的大数据大多数是从特定群体中获取的、存在选择性的样本。因此，与随机抽样的调查数据相比，基于大数据的因果推断给研究者带来了更大的挑战。研究者不仅需要掌握更加科学的因果推断工具，还需要更加周密的研究设计，才能避免大数据带来的大错误，从复杂的表象中识别真正的因果关系。

大数据时代，数据的膨胀为社会学研究注入了新的活力，大数据分析技术的发展也为社会学定量研究范式及其方法论的革新提供了可能，但新契机同时也意味着新挑战。海量复杂的大数据，对计算机和研究者的“算力”都提出了更高的要求，且在大数据获取和使用机制尚不完善的今天，获取符合研究需求的大数据也成为社会科学研究的一大挑战。因此，推进大数据平台建设，完善大数据数据生产和开放机制与研究方法的革新，成为定量社会学研究者亟待推进的重要议题。

作者单位：中山大学社会学与社会工作系梁玉成贾小双