工业数据脱敏技术研究

【摘要】随着两化融合不断深入和工业互联的加速发展 , 工业领域开放互联程度不断提高 。 工业控制系统、生产信息系统等工业领域重要信息基础设施产生的数据潜藏着大量敏感信息 , 具有巨大价值 , 一旦发生数据安全事件将可能造成难以估量的损失 。 为提高工业数据安全 , 保障敏感信息不被泄露 , 本文分析了当前工业数据脱敏现状 , 研究提出工业数据脱敏方案 , 为企业保障工业数据安全提供借鉴 。
【关键词】工业数据敏感数据数据脱敏
1引言
新一代信息技术与工业领域的融合发展 , 推动了工业数据的流通共享 。 但敏感的工业数据若遭到篡改、窃取等 , 将会威胁工业生产、社会稳定乃至国家安全 。 因此 , 迫切需要针对当前工业数据脱敏现状 , 研究提出工业数据脱敏方案 , 对工业数据进行脱敏、审计和管理 , 支撑构建“可识别、可防护、可处置、可管理”的工业数据安全防护体系 。
2工业数据脱敏难点
2.1工业数据脱敏现状分析
在数据脱敏实践方面 , 目前国内重点行业企业已意识到工业数据安全的重要性 , 但在数据采集、传输、存储、处理、交换共享等环节 , 存在未进行有效的数据脱敏、直接使用原始敏感数据等现象 。
在脱敏技术方面 , 工业企业使用的数据脱敏工具虽然具备一定的数据脱敏功能 , 但在技术细节方面仍有不足 。 一方面 , 内置的数据脱敏算法较为单一 , 支持的数据源类型较少 , 无法满足多种场景下多类型工业数据脱敏后的开发和测试使用;另一方面 , 数据脱敏工具在工业数据分类分级、敏感数据自动识别等方面的应用尚不成熟 , 脱敏算法、脱敏效率、脱敏机制等都有待提高 。 此外 , 部分数据脱敏工具不具备多维可视化功能 , 相关技术人员无法通过任务状态、任务进度条、脱敏报告等自动获取工业数据脱敏的即时情况 。
2.2工业数据脱敏难点分析
工业数据脱敏存在以下难点:一是工业数据种类多、格式多 , 导致工业数据脱敏需针对性解决海量、多源、异构等问题;二是工业数据间逻辑关系强 , 数据从产生到使用与产品生命周期密切相关 , 关联分析准确性要求较高等 , 增加了工业数据脱敏技术难度;三是工业数据实时性、连续性等特点 , 以及工业时序数据的高维度、关系依赖性强特征使得工业数据的动态脱敏难度大 。
3工业数据脱敏方案
3.1数据脱敏业务流程
数据脱敏业务流程主要包括敏感数据梳理、敏感数据识别、脱敏算法选择、脱敏任务执行、脱敏结果输出5个步骤 , 如图1所示 。
工业数据脱敏技术研究
文章图片
3.1.1敏感数据梳理
为使工业数据能够安全共享使用 , 充分发挥其价值 , 首先需要梳理出其中的敏感数据 , 并进行有效脱敏后再流通共享 , 确保敏感数据不被泄露或篡改 。
3.1.2敏感数据识别
敏感数据识别是数据脱敏的前提和关键 。 本文研究提出基于机器学习的工业敏感数据识别框架 , 如图2所示 。 该识别框架通过从已标注的数据集中提取特征属性 , 利用机器学习的方法构建识别模型 , 从而达到识别未知数据集的目的 。 相比传统的数据识别方法而言 , 该识别框架可支持多种机器学习算法 , 具有性能卓越、兼容性强等优势 。
工业数据脱敏技术研究
文章图片
3.1.3脱敏算法选择
依据不同的工业数据的类型、特征及脱敏需求 , 选取不同的数据脱敏算法 , 所采用的数据脱敏算法一般包括泛化、变形、遮蔽、随机、替换、强加密和格式保留加密等 。