使用人工智能发现和保护敏感数据 - 行业新闻

数据是现代企业的新石油：正确使用它可以促进公司的发展并帮助企业在竞争中领先。就像石油一样，原始数据和未被发现的数据是毫无用处的，企业将无法从中受益；在最坏的情况下，它可能会导致安全事件。这也是企业投资敏感数据发现和保护解决方案的原因。

传统的数据发现工具由数据扫描仪和基于规则的算法提供支持，这些工具通常不足以掌握不断增长的新数据流。因此，许多企业利用人工智能(AI)增强其数据发现和保护解决方案。

在本文中，我们将讨论基于规则系统的主要缺点以及使用人工智能发现和保护敏感数据的好处、典型的数据发现和保护解决方案的工作原理，还分享有Apriorit经验中的开发技巧。

敏感数据发现如何影响企业安全

将敏感数据保存在一个安全的存储位置似乎是一项容易的任务，但实际上对于许多企业来说几乎是不可能的。在COVID-19大流行期间过渡到远程或混合工作、将本地环境迁移到云或经历合并和收购过程，可能会导致敏感数据存储在最不明显的地方。此类数据会受到网络安全解决方案的关注，并增加数据泄露或安全事件的风险。

存储在企业控制和安全边界之外的数据会带来数据盗窃或数据泄漏等安全事件的风险。这就是企业投资敏感数据发现软件的原因——用于检测、识别和组织所有组织资源和环境中的记录的工具。

实施这样的解决方案可以让企业：

·确保遵守网络安全法

·防止数据被盗和泄露

·进行数据驱动的网络安全改进

·提高数据管理效率

跨不同环境和基础设施控制敏感数据的需求不断增长，导致数据发现软件越来越受欢迎。事实上，全球敏感数据发现市场预计将从2020年的51亿美元增长到2026年的124亿美元。

敏感数据保护发现和工具对于以下行业中处理敏感信息的企业尤其重要：

·金融科技

·零售与电子商务

·卫生保健

·保险

·运输与物流

·人力资源和客户服务

·软件开发

然而，传统的数据发现解决方案无法始终跟上现代公司生成新记录的速度。接下来，我们来看看这些工具的主要弱点和局限性。

为什么传统的数据发现工具不够用

虽然用于数据发现和保护的专用工具可提供许多业务优势，但管理它们并将其集成到现有的公司系统中可能具有挑战性。

以下是基于规则的数据发现的主要缺点：

1.发现过程缓慢

基于规则的系统通常依赖数据库和存储扫描器来发现新记录。他们花费大量时间来分析集成的存储实例，必须进行一一扫描。如果在扫描期间添加新记录，该工具将不会发现它，直到完成当前扫描并开始新扫描。此外，扫描仪必须在每次扫描期间检查所有记录，包括自上次扫描以来未更改的记录。

2.非结构化记录的发现能力较差

基于规则的工具可以轻松发现数据库、日志和电子表格等结构化数据源中的敏感记录。当涉及非结构化数据源（电子邮件、文本文档、社交媒体）时，发现的准确性会显著下降，因为非结构化记录分散且不一致。使用非AI解决方案扫描此类数据源通常会提供不可靠且不完整的结果，考虑到企业生成的约90%的数据是非结构化的，这一点尤其重要。

3.需要大量的手动输入

为了成功使用基于规则的系统，企业必须执行大量手动活动：设置配置、指定扫描和分类规则以及正则表达式、查看结果等等。大量手动输入会增加引入人为错误的机会。使用基于规则的系统也不能消除手动发现系统无法识别的数据（例如上面讨论的非结构化记录）的需要。

4.分类保护错误

当数据没有被正确、完整地发现时，任何工具都很难对其进行分类：确定敏感记录的类型、计算风险评分并分配所需的网络安全措施。敏感数据分类不正确可能会使记录不受保护，从而导致数据被盗和合规违规。

5.缺乏网络安全背景

基于规则的系统收集有关数据发现的有限数据。通常，它们受到发现的数据类型及其位置的限制。为了检查工具的发现和分类性能，网络安全专家必须手动评估新记录并收集缺失的上下文，然后才能做出最终决定。

这些限制源于基于规则的系统的核心算法，这就是为什么即使是经验丰富的开发人员和系统管理员也难以克服它们。对于存储空间相对较小、每天不会创建大量数据并且拥有可用IT资源来管理发现过程的组织来说，使用此类系统是有益的。

如果有严格的网络安全要求，并且需要更多背景信息来发现和保护数据，请考虑选择基于人工智能的工具。采用强大的基于人工智能的系统可以满足敏感数据保护和网络安全合规性方面的许多业务需求。

为什么使用人工智能进行数据发现和保护

使用人工智能进行数据发现和保护可以显著提高数据发现和保护解决方案的准确性和可靠性。企业可以在数据发现过程中使用各种人工智能模型和技术来获得以下优势：

1.识别非结构化数据

与基于规则的系统不同，基于人工智能的解决方案可以识别结构化和非结构化数据中的敏感记录。借助大型语言模型(LLM)和自然语言处理(NLP)，此类解决方案可以检测信件、聊天日志、文本文件以及其他无法由规则完全定义的来源中的敏感信息。

对非结构化数据的分析使人工智能驱动的敏感数据发现工具变得可靠，并有助于提高组织的整体网络安全态势。

2.实时检测新记录

人工智能算法不需要迭代扫描可用环境来发现新数据。相反，他们可以分析新的和编辑的记录，从而显着加快检测速度并避免瓶颈。一些敏感数据发现工具既使用基于规则的扫描进行常规数据检查，又使用人工智能模型来更准确地分析非结构化记录。

3.增强流程自动化

基于人工智能的工具可以可靠地自动化数据发现、分类和保护期间的大多数活动。初始配置后，他们很少需要手动输入和额外的调整。高水平的自动化可以帮助企业加快数据发现速度，并将网络安全专家从日常任务中解放出来，使他们能够专注于需要其专业知识的挑战。

4.正确分类和保护数据

由于能够理解数据的含义和上下文，人工智能可以准确地对发现的任何存储格式的记录进行分类。正确的分类和敏感度分数允许人工智能选择相关的记录，并采取相应的安全措施，改善组织的安全状况并遵守相关的安全要求。

5.从数据分析中获得见解

由人工智能驱动的数据发现解决方案会生成并收集大量与其工作相关的数据，包括新敏感记录的性质和位置、分类结果以及常见的数据安全策略违规行为。此类软件可以使用这些数据创建仪表板，帮助安全专家快速评估和改进发现和保护流程。

该解决方案还可以创建有关最近事件和数据保护状态的自动报告，这些报告对于深入评估组织的安全性和通过合规性审核非常有用。

使用人工智能进行数据发现可以将数据发现解决方案提升到一个新的水平，并提高组织的网络安全性。然而，以高效且经济高效的方式实施它需要在网络安全领域使用人工智能的经验。

人工智能数据发现和保护工具如何工作

用于数据发现和保护的高级解决方案可以执行从文件扫描到数据分析和风险报告的各种活动。此类工具可能完全基于人工智能算法或具有附加人工智能功能的基于规则的系统。

虽然每个解决方案都有自己的杀手级功能和工作流程，但可以将大多数基于人工智能的工具所经历的数据发现过程概述为以下关键阶段：

1.数据扫描

AI解决方案持续监控它可以访问的环境以获取新数据：云和本地服务器、数据库、设备驱动器等。数据发现和保护解决方案的管理员可以配置它应查找的数据类型并提供对实例的访问它应该监控。

扫描通常包括以下关键步骤：

·监控可访问存储实例的更改和新记录

·识别潜在敏感记录

·准备非结构化数据进行处理

当解决方案发现包含潜在敏感数据的文件时，它会尝试对其进行分类。

2.数据分类和标记

根据其配置，软件可以通过以下方式对发现的记录进行分类：

·敏感数据的类型。该解决方案可以识别个人、财务或制造数据以及知识产权。在这个阶段使用LLM和NLP等人工智能技术有助于对非结构化数据进行高精度分类。

·敏感度得分。该解决方案可以根据数据的性质、位置、所应用的保护措施和其他因素来计算发现的记录的敏感程度。此分数有助于解决方案决定在后续处理阶段如何处理数据以及何时需要通知系统管理员。

分类完成后，解决方案会为发现的记录分配标签。标签通常包括数据类型、与其交互所需的访问级别以及限制级别。解决方案管理员还可以创建自定义标签。

3.保护

数据发现软件为保护其发现的数据而采取的步骤完全取决于组织的网络安全标准和环境、适用的法规等。通常，人工智能驱动的软件可以实施以下数据保护措施：

·加密

·准入政策

·将数据传输到更安全的存储

·去识别化和匿名化

·数据脱敏

4.警报和分析

除了持续的发现和保护过程之外，还可以使用人工智能算法来处理他们收集的数据并编译有用的仪表板：

·当前需要管理员解决的安全威胁

·各种数据记录和存储实例的风险评分

·常见的数据保护违规行为，这可能表明有害的用户行为和安全策略中的漏洞

·应用保护与合规性要求之间的不一致

此类数据分析和可视化能够检测企业保护中的薄弱环节并改进安全策略。

尽管数据发现和保护软件几乎可以完全自动工作，但网络安全专家必须概述其决策，以确保充分的数据保护。当此类软件发现敏感度较高或存在较多安全风险的新记录时，它可以通知管理员。然后，管理员可以查看解决方案分配的保护措施，并根据需要进行更改。

如何应对人工智能驱动的数据发现的关键挑战

构建自定义数据发现和保护工具总是会面临针对客户群体、需求和合规性要求所特有的挑战。

1.相关数据存储集成

为了能够发现所有敏感数据，工具需要访问和读取组织所有环境中的记录。但是，为所有可能的云和本地存储实例添加API需要开发人员花费大量时间，并且可能会引入安全漏洞。在开始开发之前，会采访客户的利益相关者，以了解他们的环境，仅添加他们需要的集成，并保护已实施的API。

2.可靠的开发组件

使用第三方组件可以显著加快开发过程，但也会增加在解决方案中添加后门的风险。为了找到开发时间和安全性之间的平衡，将会测试第三方软件并使用已知漏洞数据库对其进行检查，然后再将其添加到客户的解决方案中。

如果解决方案使用GPT或Claude等商业语言模型，可以创建一个私有数据库来训练它或在本地部署模型，以避免与其他公司共享数据。

3.均衡的资源利用

与任何基于人工智能的解决方案一样，持续的数据发现可能非常消耗资源，特别是当企业不断生成大量数据时，这可能会导致高昂的云使用成本或需要维护强大的本地计算机。为了避免开发和维护成本飙升，采用了敏捷和DevOps实践，优化AI性能以消除不必要的操作，并实施灵活的扩展机制。

4.安全配置

人工智能数据发现和保护工具需要访问和管理其管理环境中的任何记录。这些记录可能会被黑客或内部人员滥用，以寻求访问敏感数据而不被注意到的方法。限制工具的安全权限将阻碍其效率，因此，会寻求性能和安全性之间的平衡：配置对记录的即时访问、发现数据时匿名化、为管理员添加数据操作通知等。

5.人工智能偏见

任何基于人工智能的解决方案都会带有其开发人员和训练数据集的偏见。

对于数据发现和保护解决方案，这种偏差可能会导致数据分类不正确或安全措施执行不足。在产品发布之前检测人工智能偏差的最可靠方法是通过广泛的测试。

培养人工智能、网络安全和数据管理等复杂软件开发领域的专业知识。凭借为来自严格监管行业的客户构建定制解决方案的经验，可以尽早概述关键的开发挑战并提供克服这些挑战的方法。

结论

数据发现和保护工具是任何企业网络安全的重要组成部分，因为它们为可靠的数据安全和管理奠定了基础。此类工具可以跨任何云、本地和混合基础设施发现敏感数据，并根据企业的策略和合规性要求实施网络安全措施。

通过人工智能增强数据发现和保护，将此类解决方案提升到一个新的水平。与基于规则的系统相比，人工智能可以发现非结构化数据并对其进行分类，犯的错误更少，不需要大量的手动输入，并可以收集数据以用于未来的安全改进。

但要构建人工智能驱动的数据发现解决方案并安全地部署它，用户需要聘请网络安全、人工智能开发和数据管理方面的专家。