工业数据脱敏技术研究( 二 )


3.1.4脱敏任务执行
脱敏任务执行过程应支持任务的启动、暂停、中断、延续、终止等操作 。
3.1.5脱敏结果输出
依据上述脱敏流程 , 输出工业数据脱敏结果 。
3.2数据脱敏步骤
基于工业数据具有实时产生及动态增加等特征 , 相较于传统的数据脱敏技术而言 , 批量数据脱敏技术可支持多种类型数据库 , 且能一次性轻量级处理数据 , 更能满足工业数据脱敏需求 。 因此 , 本文选择Sqoop技术对工业数据进行脱敏处理 。 具体脱敏流程可分为3个步骤 , 如图3所示 。
工业数据脱敏技术研究
文章图片
(1)数据抽取:工业数据可利用Sqoop技术从Oracle、SQLServer、MySQL、Informix、PostgreSQL、DB2、Sybase、EDB等常用数据库 , TimescaleDB、KairosDB等时序数据库 , 以及文件、FTP等接口进行抽取 。 数据抽取过程可保证原始数据的完整性 , 还可保证数据之间的逻辑关系完整 。
(2)数据脱敏:通过数据脱敏算法库中的脱敏算法实现对敏感数据的转换 , 在脱敏过程中要保持数据的关联性和完整性 , 确保数据在同一系统中的一致性 。
(3)数据分发:工业数据脱敏后 , 通过数据库、文件、FTP等接口进行分发 。
3.3数据脱敏规则
数据脱敏规则主要包括可恢复规则和不可恢复规则 。 可恢复规则是指可通过某种方式恢复原始数据的规则 , 如各类加解密规则 。 不可恢复规则是指使用任何方法都无法恢复原始数据的规则 。 对于工业数据而言 , 需要从数据的重要程度、用途、影响范围等多种维度综合确定数据脱敏规则 。
3.4数据脱敏系统
3.4.1数据脱敏系统总体架构
工业数据脱敏系统通过采集SCADA、PLC、DCS、ERP等系统 , 以及工业主机、数据库等软硬件设备的数据 , 经过数据清洗、转换等预处理过程 , 利用敏感数据识别与数据脱敏引擎实现对敏感数据的深度分析和脱敏处理 。 该系统通过设置脱敏算法选择和脱敏任务执行子模块 , 可以实现灵活配置的目的 。 无论是针对已有还是新上的工业数据脱敏业务 , 该系统都能提供一套合适的数据脱敏方案 。
3.4.2数据脱敏系统功能
数据脱敏系统功能包括敏感数据梳理、敏感数据识别、脱敏算法选择、脱敏任务执行及安全管理5个模块功能 , 如图4所示 。
工业数据脱敏技术研究
文章图片
(1)敏感数据梳理
数据脱敏系统应内置完善的敏感数据特征库 , 支持包括
Oracle、SQLServer、MySQL、Informix、PostgreSQL、DB2、Sybase、EDB等主流数据库、TimescaleDB、KairosDB等时序数据库的接入 , 并可支持自定义数据库类型 。
(2)敏感数据识别
数据脱敏系统应支持敏感数据的自动发现和识别 , 并且应配置多种识别策略 。
(3)脱敏算法选择
数据脱敏系统应支持多种脱敏算法并应具备完善的脱敏规则 , 以实现对不同业务系统、不同数据库的脱敏操作 。 数据脱敏系统应设置专门的脱敏算法管理模块 , 内置包括数据替换、泛化、有损、混洗等常用的数据脱敏算法 , 基于机器学习、神经网络等方法的智能化脱敏算法 , 以及自定义脱敏算法 , 便于新业务应用或系统升级 。 此外 , 数据脱敏系统还应具备相对独立的脱敏规则管理模块 , 包括可恢复性规则和不可恢复性规则等 。
(4)脱敏任务执行
数据脱敏系统应具备完善的任务调度功能 , 包括状态监控、调试配置、参数管理、进度执行、时间调用、命令行调用等 。
(5)安全管理
数据脱敏系统应具备完善的安全管理模块 , 包括系统安全管理、用户权限管理和安全审计等 。