国外顶级数据分类分级工具主要功能解析-世界杯几号开始-2018年俄罗斯世界杯_2020世界杯

pos机成本一台多少钱？带你了解真实的pos机价格 2025-07-29 05:06:28
真皮沙发笔记 2025-06-17 06:33:12
对于TIS，TRP的天线有源测试参数分析 2025-07-04 02:43:12
森海塞尔产地是哪里在哪个省份？ 2025-07-11 13:10:48
揭秘Oracle正版授权费用之谜：一文读懂企业级软件许可成本与策略 2025-07-26 17:55:01
gta5警察局在哪侠盗猎车手5警察局位置一览 2025-05-09 16:06:28
寻仙手游筋骨掌电（寻仙掌电攻略） 2025-05-09 05:54:47
华为荣耀畅玩5C EMUI5.0刷回官方原版recovery的教程 2025-06-07 19:55:33
揭秘：印度食俗之谜，为何有的印度人远离鸡肉？ 2025-07-02 03:29:47
瓷婚是什么意思？为什么叫瓷婚,为什么说二十年是瓷婚 2025-07-14 06:04:00

国外顶级数据分类分级工具主要功能解析

{$vo.文章发布时间}

（2）数据分类

数据分类服务（Data Classification Classifier Service）根据Netwrix预定义的第三方分类法（Taxonomies）和用户自定义的分类法，对文件内容匹配后分类，最终将分类结果存储于数据分类采集数据库（Data Classification Collector Database）中。

（3）分类结果展示

通过查看管理控制台上的数据源及分类规则详细信息、统计审计报告如文件分布地图等功能，展示数据分类结果。

图1 Netwrix数据分类流程图

2.平台运行环境

根据实际数据分类需求场景，其运行环境基础配置如下：

（1）数据分类服务器

硬件环境：多核CPU，8G以上内存；

软件环境：操作系统Server2012R2以上版本，配置服务器（IIS）角色。此外，需将.CSE格式的索引文件添加至杀毒软件的白名单中，避免被当作恶意文件删除。

（2）数据分类SQL数据库

该数据库主要用于存储元数据的SQL Server数据库。

软件环境：2008SP2以上版本数据库（推荐2016SP2），Visual Studio2015以上版本。如果通过SQL Server管理工具配置该数据库，需将数据库的恢复模式设置为简单模式，并设置主数据库.mdf文件的自动增长值和最大值。

（3）索引库

此索引库是用来存储纯文本索引文件（.CSE格式）的磁盘空间，空间大小为计划索引文件总大小的35%。例如当前有45GB的文件需分类，则索引文件所需磁盘空间应至少为15GB。

（4）数据分类规模

Netwrix对数据规模的定义为：分类文件数量小于50万份，即为小型规模；800万左右为中等规模；3200万左右为大型规模；大于3200万则为超大规模。

（5）数据分类性能

数据分类性能取决于数据规模，当分类数据规模达到大型和超大规模时，建议使用分布式服务器集群部署模式来均衡主服务器的负载。集群中的每个数据分类服务器共享同一个元数据库，各自存储索引文件，彼此之间相互通信。

二．平台主要组件功能解析 1.数据采集

数据源是需采集和分类的数据存储库。通过管理控制台的数据源内容配置功能，实现对需采集数据源的添加和管理，添加后可查看数据采集结果。

Netwrix支持分类的数据源有：Windows文件系统、Windows Server系列服务器、Linux文件系统（SMB/CIFS/NFS）、Office 365、数据库、Outlook（2010以上版本）、DropBox、Exchange服务器/邮箱、Google Drive、SharePoint等。在数据采集阶段，除了选择需采集的数据源类型，还需针对每种数据源配置相应的采集选项，以便于更精细化地定位。此处以常用的两种数据源——数据库和文件系统为例，描述添加数据源功能。

图2 选择需采集的数据源类型

（1）数据库

Netwrix支持对SQL Server（2008以上版本）、Oracle、PostgreSQL、EMC等主流数据库内容的采集及分类。采集前需要先设置数据库访问用户名（如Windows服务或IIS程序池用户）或连接信息。数据库连接创建成功后，数据分类采集服务即可将采集到的内容智能映射为元数据。数据库内容采集的主要配置项如下：

图3 数据库采集配置项

数据库类型。从SQLServer、Oracle、MySQL、PostgreSQL等选项中选取所需采集的数据库类型。

数据库服务器信息。设置采集目标数据库的服务器地址、具体数据库名称、登录用户名和身份认证方式。

OCR处理模式。Netwrix可以通过OCR模式采集数据库文件中的图片内容，可从“禁用/默认路径/标准质量/增强质量”4种模式中选择。

数据库采集范围。设置需采集内容的数据库表、列的范围。

（2）文件系统

Netwrix支持对Windows文件系统和Linux文件系统的内容采集，其主要配置项如下：

文件（夹）路径。设置需采集内容的文件（夹）路径。

文件夹级别。设置采集文件夹深度，可以选择是否包含子文件夹、是否采集所有子文件夹，以及子文件夹深度的范围（2-99级）。

文件夹访问信息。设置访问文件夹所需的系统帐户和密码，以及是否允许匿名访问文件目录；

重新索引周期。当源文件发生变更（增加/修改）后，Netwrix分类会定期更新索引，默认更新周期为7天。

文件类型。设置需采集的文件类型。

是否采集相同内容的副本文件，以及采集文件的优先级。

（3）查看数据源采集结果

数据采集流程自动对数据源进行采集、格式转换和创建索引的处理操作后，即可在管理控制台上查看数据源采集结果，包括：数据源类型、数据源文件位置、数据源采集状态、数据源索引创建状态、数据源采集文件数量及总大小。

图4 数据源采集结果

2.数据分类

Netwrix数据分类工具提供预定义分类法，这些分类法包括数百个现成的分类规则。每种分类法包含一系列术语（term），术语又由一系列配置规则（configuration clue）定义。通过使用规则与文件内容进行匹配，最终定位源文件的所属分类。

（1）分类法

（2）分类规则

分类规则通过复合词精确/模糊匹配、区分大小写、单词发音、正则表达式、语种类型匹配等11种匹配方式，查询文件内容后对其分类。此外，用户也可以添加自定义分类规则，添加时可设置规则的分数，代表其与分类特征的关联度。分数越高，则关联度越高，此项规则可用于对文件进行分类的概率越大。

（3）分类标签

Netwrix支持将分类标签写入被采集数据的属性中。具体操作方式为：在管理控制台上，将分类标签写入到指定数据源的属性中。分类标签可采用[分类名称|分类ID]的格式呈现。

例如：农业分类法中有农场（ID为11）和生产（ID为32）两个子分类。当同时包含农业和生产的文件分类完成后，分类标签即写入该文件的属性中，即文件属性增加项——属性名称农业，属性值[农业|11生产|32]。

3.数据分类结果展示

数据分类结束后，即可在管理控制台通过多种方式查看分类结果。

（1）通过数据源查看

选择某项数据源，即可查看已采集的数据信息，包括：文件名称、路径、分类状态、匹配的分类等内容。

图5 通过数据源查看文件分类结果

图6 查看每个文件对应的分类

（2）通过规则查看

选择分类法及其子节点中的术语，即可查看该术语对应的规则信息，包括：规则类型、规则名称、规则的分数。选择每种规则，即可查看与之匹配的文件数量。

图7 通过规则查看分类结果

（3）文件分析报告（Data Analysis Report）

可在Netwrix管理控制台上查看数据分析报告，对报告中的数据进行筛选和细化，以查询包含文件按照分类结果的分布状态。常用的报告有三种：文件分布地图（按分类和数据源分组统计），以及最近一周分类标签分配情况。

图8 文件分布地图-按分类法分组统计

图9 文件分布地图-按数据源分组统计

图10 最近7天分类标签分配情况

三．小结

举报返回搜狐，查看更多

国外顶级数据分类分级工具主要功能解析

友情链接