(2)数据分类
数据分类服务(Data Classification Classifier Service)根据Netwrix预定义的第三方分类法(Taxonomies)和用户自定义的分类法,对文件内容匹配后分类,最终将分类结果存储于数据分类采集数据库(Data Classification Collector Database)中。
(3)分类结果展示
通过查看管理控制台上的数据源及分类规则详细信息、统计审计报告如文件分布地图等功能,展示数据分类结果。
图1 Netwrix数据分类流程图
2.平台运行环境
根据实际数据分类需求场景,其运行环境基础配置如下:
(1)数据分类服务器
硬件环境:多核CPU,8G以上内存;
软件环境:操作系统Server2012R2以上版本,配置服务器(IIS)角色。此外,需将.CSE格式的索引文件添加至杀毒软件的白名单中,避免被当作恶意文件删除。
(2)数据分类SQL数据库
该数据库主要用于存储元数据的SQL Server数据库。
软件环境:2008SP2以上版本数据库(推荐2016SP2),Visual Studio2015以上版本。如果通过SQL Server管理工具配置该数据库,需将数据库的恢复模式设置为简单模式,并设置主数据库.mdf文件的自动增长值和最大值。
(3)索引库
此索引库是用来存储纯文本索引文件(.CSE格式)的磁盘空间,空间大小为计划索引文件总大小的35%。例如当前有45GB的文件需分类,则索引文件所需磁盘空间应至少为15GB。
(4)数据分类规模
Netwrix对数据规模的定义为:分类文件数量小于50万份,即为小型规模;800万左右为中等规模;3200万左右为大型规模;大于3200万则为超大规模。
(5)数据分类性能
数据分类性能取决于数据规模,当分类数据规模达到大型和超大规模时,建议使用分布式服务器集群部署模式来均衡主服务器的负载。集群中的每个数据分类服务器共享同一个元数据库,各自存储索引文件,彼此之间相互通信。
二.平台主要组件功能解析 1.数据采集
数据源是需采集和分类的数据存储库。通过管理控制台的数据源内容配置功能,实现对需采集数据源的添加和管理,添加后可查看数据采集结果。
Netwrix支持分类的数据源有:Windows文件系统、Windows Server系列服务器、Linux文件系统(SMB/CIFS/NFS)、Office 365、数据库、Outlook(2010以上版本)、DropBox、Exchange服务器/邮箱、Google Drive、SharePoint等。在数据采集阶段,除了选择需采集的数据源类型,还需针对每种数据源配置相应的采集选项,以便于更精细化地定位。此处以常用的两种数据源——数据库和文件系统为例,描述添加数据源功能。
图2 选择需采集的数据源类型
(1)数据库
Netwrix支持对SQL Server(2008以上版本)、Oracle、PostgreSQL、EMC等主流数据库内容的采集及分类。采集前需要先设置数据库访问用户名(如Windows服务或IIS程序池用户)或连接信息。数据库连接创建成功后,数据分类采集服务即可将采集到的内容智能映射为元数据。数据库内容采集的主要配置项如下:
图3 数据库采集配置项
数据库类型。从SQLServer、Oracle、MySQL、PostgreSQL等选项中选取所需采集的数据库类型。
数据库服务器信息。设置采集目标数据库的服务器地址、具体数据库名称、登录用户名和身份认证方式。
OCR处理模式。Netwrix可以通过OCR模式采集数据库文件中的图片内容,可从“禁用/默认路径/标准质量/增强质量”4种模式中选择。
数据库采集范围。设置需采集内容的数据库表、列的范围。
(2)文件系统
Netwrix支持对Windows文件系统和Linux文件系统的内容采集,其主要配置项如下:
文件(夹)路径。设置需采集内容的文件(夹)路径。
文件夹级别。设置采集文件夹深度,可以选择是否包含子文件夹、是否采集所有子文件夹,以及子文件夹深度的范围(2-99级)。
文件夹访问信息。设置访问文件夹所需的系统帐户和密码,以及是否允许匿名访问文件目录;
重新索引周期。当源文件发生变更(增加/修改)后,Netwrix分类会定期更新索引,默认更新周期为7天。
文件类型。设置需采集的文件类型。
是否采集相同内容的副本文件,以及采集文件的优先级。
(3)查看数据源采集结果
数据采集流程自动对数据源进行采集、格式转换和创建索引的处理操作后,即可在管理控制台上查看数据源采集结果,包括:数据源类型、数据源文件位置、数据源采集状态、数据源索引创建状态、数据源采集文件数量及总大小。
图4 数据源采集结果
2.数据分类
Netwrix数据分类工具提供预定义分类法,这些分类法包括数百个现成的分类规则。每种分类法包含一系列术语(term),术语又由一系列配置规则(configuration clue)定义。通过使用规则与文件内容进行匹配,最终定位源文件的所属分类。
(1)分类法
(2)分类规则
分类规则通过复合词精确/模糊匹配、区分大小写、单词发音、正则表达式、语种类型匹配等11种匹配方式,查询文件内容后对其分类。此外,用户也可以添加自定义分类规则,添加时可设置规则的分数,代表其与分类特征的关联度。分数越高,则关联度越高,此项规则可用于对文件进行分类的概率越大。
(3)分类标签
Netwrix支持将分类标签写入被采集数据的属性中。具体操作方式为:在管理控制台上,将分类标签写入到指定数据源的属性中。分类标签可采用[分类名称|分类ID]的格式呈现。
例如:农业分类法中有农场(ID为11)和生产(ID为32)两个子分类。当同时包含农业和生产的文件分类完成后,分类标签即写入该文件的属性中,即文件属性增加项——属性名称农业,属性值[农业|11生产|32]。
3.数据分类结果展示
数据分类结束后,即可在管理控制台通过多种方式查看分类结果。
(1)通过数据源查看
选择某项数据源,即可查看已采集的数据信息,包括:文件名称、路径、分类状态、匹配的分类等内容。
图5 通过数据源查看文件分类结果
图6 查看每个文件对应的分类
(2)通过规则查看
选择分类法及其子节点中的术语,即可查看该术语对应的规则信息,包括:规则类型、规则名称、规则的分数。选择每种规则,即可查看与之匹配的文件数量。
图7 通过规则查看分类结果
(3)文件分析报告(Data Analysis Report)
可在Netwrix管理控制台上查看数据分析报告,对报告中的数据进行筛选和细化,以查询包含文件按照分类结果的分布状态。常用的报告有三种:文件分布地图(按分类和数据源分组统计),以及最近一周分类标签分配情况。
图8 文件分布地图-按分类法分组统计
图9 文件分布地图-按数据源分组统计
图10 最近7天分类标签分配情况
三.小结
收藏
举报返回搜狐,查看更多