设备巡检

HSM系统可对NGFW设备、NIPS设备、NIDS设备、IFW设备(工业防火墙)和ADC设备进行业务巡检。通过创建巡检任务,并引用巡检规则模板,可以对被管理设备的硬件运行状态、软件运行状态和软件运行安全3个方面进行安全检查并生成巡检报告。

HSM系统支持创建立即巡检任务,对单个或多个设备进行手动巡检;也支持创建周期性巡检任务,定时对单个或多个设备进行自动巡检。同时,还支持手动开启单个或多个巡检任务立即巡检的功能。在创建巡检任务时,用户可以在创建任务流程中新增巡检规则模板后使用,也可以选择提前创建好的巡检规则模板。

在HSM对被管理设备进行巡检的过程中,即使对设备的某项检查失败,HSM仍然继续对该设备的其他项进行检查,并且最终为该设备生成巡检报告,展示检查顺利完成的相关结果,供用户查看。

不同设备的巡检功能,需要先进入对应设备管理器的设备巡检模块,再执行相关操作。

注意:

本节包含以下内容:

新建巡检规则模板

巡检规则模板,即针对被管理设备的硬件运行状态、软件运行状态和软件运行安全3个方面设定的巡检项的集合。每个巡检项检查的内容和要求都不同。用户可以根据需求,自定义创建巡检规则模板。

关于各个巡检项的具体信息,请参阅下表。

巡检项名称 检查内容 巡检结果判定 风险阈值默认值 故障阈值默认值
硬件运行状态
设备电源检查 检查设备电源状态。 检查到设备电源当前的状态异常,或者设备电源当前的状态正常,但一周内出现电源状态异常的情况,系统则会判定该项巡检结果为故障。反之,则判定该项巡检结果为健康。 - -
设备风扇检查 检查设备风扇状态。 检查到设备风扇当前的状态异常,或设备风扇当前的状态异常,但一周内出现风扇状态异常的情况,系统则会判定该项巡检结果为故障。反之,则判定该项巡检结果为健康。 - -
板卡状态检查 检查设备板卡状态。 如果检查到设备板卡的状态包含非在线状态,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
检查设备主板温度。
  • 风险:设备主板的温度超出风险阈值。
  • 故障:设备主板的温度超出故障阈值。
  • 健康:设备主板的温度未超出风险阈值。
50℃ 70℃
CPU温度检查 检查设备CPU温度。
  • 风险:设备CPU的温度超出风险阈值。
  • 故障:设备CPU的温度超出故障阈值。
  • 健康:设备CPU的温度未超出风险阈值。
50℃ 70℃
机箱温度检查 检查设备机箱温度。
  • 风险:设备机箱的温度超出风险阈值。
  • 故障:设备机箱的温度超出故障阈值。
  • 健康:设备机箱的温度未超出风险阈值。
50℃ 70℃
软件运行状态:指被管理设备对应的软件系统的运行状态,以下将被管理设备对应的软件系统称为“设备系统”。
CPU使用率检查 检查控制平面进程的CPU利用率。
  • 风险:控制平面进程的CPU利用率超出风险阈值。
  • 故障:控制平面进程的CPU利用率超出故障阈值。
  • 健康:控制平面进程的CPU利用率未超出风险阈值。
60% 80%
检查CPU整体使用率。
  • 风险:当前CPU整体使用率超出风险阈值。
  • 故障:当前CPU整体使用率超出故障阈值。
  • 健康:当前CPU整体使用率未超出风险阈值。
60% 80%
检查CPU历史使用率。
  • 风险:最近一周设备系统的CPU使用率超出风险阈值。
  • 故障:最近一周设备系统的CPU使用率超出故障阈值。
  • 健康:最近一周设备系统的CPU使用率未超出风险阈值。
60% 80%
内存检查 检查总内存利用率。
  • 风险:设备系统总内存的使用率超出风险阈值。
  • 故障:设备系统总内存的使用率超出故障阈值。
  • 健康:设备系统总内存的使用率未超出风险阈值。
60% 80%
检查控制平面进程的内存利用率。
  • 风险:设备系统控制平面进程的内存利用率超出风险阈值。
  • 故障:设备系统控制平面进程的内存利用率超出故障阈值。
  • 健康:设备系统控制平面进程的内存利用率未超出风险阈值。
60% 80%
检查数据平面进程的内存利用率。
  • 风险:设备系统数据平面进程的内存利用率超出风险阈值。
  • 故障:设备系统数据平面进程的内存利用率超出故障阈值。
  • 健康:设备系统数据平面进程的内存利用率未超出风险阈值。
60% 80%
检查历史内存利用率。
  • 风险:最近一周设备系统的总内存利用率超出风险阈值。
  • 故障:最近一周设备系统的总内存利用率超出故障阈值。
  • 健康:最近一周设备系统的总内存利用率未超出风险阈值。
60% 80%
检查设备系统是否存在内存不足的告警日志。 如果检查到内存不足的告警日志,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
磁盘利用率检查 检查设备系统的磁盘利用率。
  • 风险:设备系统的磁盘利用率超出风险阈值。
  • 故障:设备系统的磁盘利用率超出故障阈值。
  • 健康:设备系统的磁盘利用率未超出风险阈值。
60% 80%
新建会话数检查 检查设备新建会话数的当前占比。
  • 风险:设备系统新建会话数占允许最大会话数的百分比超出风险阈值。
  • 故障:设备系统新建会话数占允许最大会话数的百分比超出故障阈值。
  • 健康:设备系统新建会话数占允许最大会话数的百分比未超出风险阈值。
40% 60%
并发连接数检查 检查设备并发连接数的当前占比。
  • 风险:设备系统并发连接数占允许最大会话数的百分比超出风险阈值。
  • 故障:设备系统并发连接数占允许最大会话数的百分比超出故障阈值。
  • 健康:设备系统并发连接数占允许最大会话数的百分比未超出风险阈值。
85% 95%
设备HA状态检查 检查设备HA的状态。 如果检查到设备HA的状态不正常或存在HA主备切换记录,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
失败会话检查 检查设备系统失败会话数的数量是否大于0。 如果检查到大于0,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
信息包检查 检查数据平面进程的缓存资源使用率。
  • 风险:数据平面进程的缓存资源使用率超出风险阈值。
  • 故障:数据平面进程的缓存资源使用率超出故障阈值。
  • 健康:数据平面进程的缓存资源使用率未超出风险阈值。
67% 90%
检查设备中是否存在由于端口缓冲区不够导致丢包的事件。 如果检查到设备中存在丢包事件,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
检查设备中是否存在由于网线或者接口等模块损坏,导致MAC地址接收数据异常或者接收到数据包不完整的现象。 如果检查到设备中存在MAC地址接收数据异常或者接收到数据包不完整的现象,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
历史会话检查 检查设备历史会话使用率。
  • 风险:最近一周设备系统的最大会话使用率超出风险阈值。
  • 故障:最近一周设备系统的最大会话使用率超出故障阈值。
  • 健康:最近一周设备系统的最大会话使用率未超出风险阈值。
85% 95%
SNAT资源检查 检查设备系统是否存在源地址转换失败的日志记录。

如果检查到源地址转换失败的日志记录,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。

- -
检查源地址转换资源池的占用率。
  • 风险:源地址转换资源池的占用率超出风险阈值。
  • 故障:源地址转换资源池的占用率超出故障阈值。
  • 健康:源地址转换资源池的占用率未超出风险阈值。
70% 90%
检查最近一周设备系统是否存在SNAT资源耗尽的日志。 如果检查到SNAT资源耗尽的日志记录,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
特征库信息检查 检查设备系统是否存在旧版本的特征库。 如果检查到旧版本的特征库,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
许可证信息检查 检查设备系统是否存在已过期或即将在30天内过期的许可证。 如果检查到已过期或即将在30天内过期的许可证,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
时间和NTP状态检查 检查设备系统的时间和时区是否匹配。 如果检查到时间和时区不匹配,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
检查NTP同步状态。 如果检查到NTP的同步状态不正常,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
密码复杂度配置检查 检查是否开启了密码复杂度检测功能。 如果检查到未开启密码复杂度检测功能,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
可信主机配置检查 检查可信主机是否启用全IP配置。 如果检查到已启用全IP配置,系统则会判定该项巡检结果为风险。反之,则判定该项巡检结果为健康。 - -
ARP条目使用率检查 检查ARP条目使用率。
说明:ARP条目的使用率=已创建的ARP条目数/设备可配ARP条目的总数*100%。
  • 风险:ARP条目使用率超出风险阈值。
  • 故障:ARP条目使用率超出故障阈值。
  • 健康:ARP条目使用率未超出风险阈值。
60% 80%
FIB条目使用率检查 检查FIB条目使用率。
说明:FIB条目的使用率=已创建的FIB条目数/设备可配FIB条目的总数*100%。
  • 风险:FIB条目使用率超出风险阈值。
  • 故障:FIB条目使用率超出故障阈值。
  • 健康:FIB条目使用率未超出风险阈值。
60% 80%
MAC条目使用率检查 检查设备MAC地址条目使用率。
说明:MAC地址条目的使用率=已创建的MAC地址条目数/设备可配MAC地址条目的总数*100%。
  • 风险:设备MAC地址条目使用率超出风险阈值。
  • 故障:MAC条目使用率超出故障阈值。
  • 健康:MAC条目使用率未超出风险阈值。
60% 80%
策略条目使用率检查 检查设备安全策略条目的使用率。
说明:安全策略条目的使用率=已创建的安全策略条目数/设备可配安全策略条目的总数*100%。
  • 风险:设备安全策略条目的使用率超出风险阈值。
  • 故障:设备安全策略条目的使用率超出故障阈值。
  • 健康:设备安全策略条目的使用率未超出风险阈值。
60% 80%
地址条目使用率检查 检查设备地址簿条目的使用率。
说明:地址簿条目的使用率=已创建的地址簿条目数/设备可配地址簿条目的总数*100%。
  • 风险:设备地址簿条目的使用率超出风险阈值。
  • 故障:设备地址簿条目的使用率超出故障阈值。
  • 健康:设备地址簿条目的使用率未超出风险阈值。
60% 80%
服务条目使用率检查 检查设备服务条目的使用率。
说明:服务条目的使用率=已创建的服务条目数/设备可配服务条目的总数*100%。
  • 风险:设备服务条目的使用率超出风险阈值。
  • 故障:设备服务条目的使用率超出故障阈值。
  • 健康:设备服务条目的使用率未超出风险阈值。
60% 80%
DNAT条目使用率检查 检查设备DNAT条目的使用率。
说明:DNAT条目的使用率=已创建的DNAT条目数/设备可配DNAT条目的总数*100%。
  • 风险:设备DNAT条目的使用率超出风险阈值。
  • 故障:设备DNAT条目的使用率超出故障阈值。
  • 健康:设备DNAT条目的使用率未超出风险阈值。
60% 80%
SNAT条目使用率检查 检查设备SNAT条目的使用率。
说明:SNAT条目的使用率=已创建的SNAT条目数/设备可配SNAT条目的总数*100%。
  • 风险:设备SNAT条目的使用率超出风险阈值。
  • 故障:设备SNAT条目的使用率超出故障阈值。
  • 健康:设备SNAT条目的使用率未超出风险阈值。
60% 80%
路由条目使用率检查 检查设备路由条目的使用率。
说明:路由条目的使用率=已创建的路由条目数/设备可配路由条目的总数*100%。
  • 风险:设备路由条目的使用率超出风险阈值。
  • 故障:设备路由条目的使用率超出故障阈值。
  • 健康:设备路由条目的使用率未超出风险阈值。
60% 80%
注意: ADC设备不支持策略条目使用率检查、地址条目使用率检查、服务条目使用率检查、DNAT条目使用率检查以及SNAT条目使用率检查。

新建巡检规则模板,请按照以下步骤进行操作:

  1. 点击“巡检规则模板”,进入对应设备管理器的<巡检规则模板>页面。
  2. 点击列表右上方的“新增”按钮,打开<新增巡检规则模板>的基础信息配置页面。
  3. 在<基础信息>页面,配置相关信息。

    选项 说明
    名称 指定巡检规则模板的名称,可输入31个字符。模板名称不可重复。
    巡检项 勾选对应巡检项前的复选框,指定该模板需要检查的巡检项,至少选择一项。系统支持可选择的巡检项,请参阅巡检项描述
    点击“硬件运行状态”、“软件运行状态”和“软件运行安全”下的“全部”按钮,对该项所包含的所有巡检项进行检查。
    描述 添加巡检规则模板的描述信息,可输入200个字符。
  4. 点击“下一步”按钮,进入<巡检参数设置>页面,并在该页面配置上一步所选巡检项的风险阈值范围和故障阈值范围,详细描述请参阅巡检项描述
  5. 注意: 百分比阈值取值范围为“0%-100%”,摄氏度阈值取值范围“0℃-100℃”,风险阈值范围不能大于或等于故障阈值范围。
  6. 点击“确定”按钮,完成配置。

编辑巡检规则模板

编辑巡检规则模板,请按照以下步骤进行操作:

  1. 点击“巡检规则模板”,进入对应设备管理器的<巡检规则模板>页面。
  2. 点击“操作”列中的按钮,打开<编辑巡检规则模板>页面,编辑指定巡检规则模板。
    或者点击“操作”列中的按钮,在打开的<模板详情>页面,再次点击“编辑”按钮,编辑指定巡检规则模板。
  3. 点击“确定”按钮,完成配置。
注意: 当巡检任务的最近一次巡检状态为“巡检中”,支持编辑被该任务引用的巡检规则模板,且不会影响正在巡检的任务。编辑后的模板内容将在下次被任务引用时生效。

删除巡检规则模板

删除巡检规则模板,请按照以下步骤进行操作:

  1. 点击“巡检规则模板”,进入对应设备管理器的<巡检规则模板>页面。
  2. 点击“操作”列的按钮,删除指定巡检规则模板。或者点击列表上方的按钮,批量删除选中的巡检规则模板。
注意: 当巡检任务的最近一次巡检状态为“巡检中”,不支持删除被该任务引用的巡检规则模板,需要等该任务巡检结束后,才能执行删除操作。

查看巡检规则模板详情

查看巡检规则模板详情,请按照以下步骤进行操作:

  1. 点击“巡检规则模板”,进入对应设备管理器的<巡检规则模板>页面。
  2. 点击“操作”列中的按钮,查看指定巡检规则模板的详细信息。

在<巡检规则模板>页面,用户还可以通过输入模板名称,快速查找指定巡检规则模板。

新建巡检任务

用户可以通过配置周期性巡检任务,定时对设备进行自动巡检;也可以配置立即巡检任务,手动对设备进行巡检。

新建巡检任务,请按照以下步骤进行操作:

  1. 点击“巡检任务”,进入对应设备管理器的<巡检任务>页面。
  2. 点击列表右上方的“新增”按钮,打开<新增巡检任务>的基础信息配置页面。
  3. 在<基础信息>页面,配置相关信息。

    选项 说明
    名称 指定巡检任务的名称,可输入31个字符。巡检任务名称不可重复。
    描述 添加巡检任务的描述信息,可输入200个字符。
  4. 点击“下一步”按钮,进入<巡检规则>页面。
  5. 在<巡检规则>页面,配置相关信息。

    选项 说明
    巡检规则模板 指定该任务需要检查的巡检项。用户可以从下拉菜单中选择已有的巡检规则模板,也可以点击“新增”按钮,新增巡检规则模板后,选择新创建的模板。
    在下拉菜单中,用户可以将鼠标移至指定巡检规则模板,然后点击按钮,快速查看巡检规则模板的详细信息。
    任务类型 指定巡检任务类型,可以为立即巡检任务和周期性巡检任务。
    • 立即巡检任务:是一个一次性手动巡检任务,不会再次自动发生。点击“立即巡检”按钮,指定任务类型为立即巡检任务。
    • 周期性巡检任务:是按每日、每周或者每月的固定时间,定期进行自动巡检的任务。
      • 每日:每天的指定时间。点击“每日”按钮,然后从“每日”的“请选择时间”下拉菜单中,选择具体的时间点,取值范围为00:00:00~23:59:59。例如:每天的9:00:00。
      • 每周:一周中指定天的指定时间。点击“每周”按钮,然后从“每周”的第一个“请选择时间”下拉菜单中,选择一周中具体的某一天,取值范围为星期一至星期天;再从第二个“请选择时间”下拉菜单中,选择具体的时间点,取值范围为00:00:00~23:59:59。例如:每周一的9:00:00。
      • 每月:一月中指定一天的指定时间。点击“每月”按钮,然后从“每月”的第一个“请选择时间”下拉菜单中,选择一月中具体的某一天,取值范围为第1天至第31天;再从第二个“请选择时间”下拉菜单中,选择具体的时间点,取值范围为00:00:00~23:59:59。例如:每个月第1天的9:00:00,即每月1日的9:00:00。
  6. 点击“下一步”按钮,进入<关联设备>页面,指定该任务需要进行巡检的设备。
  7. 在<关联设备>页面,配置相关信息。

    选项 说明
    选择设备 点击“选择设备”按钮,打开<选择设备>页面,指定需要进行巡检的设备。
    • 指定安全设备:从“安全设备管理器”创建巡检任务时,在<选择设备>页面,从右侧设备列表勾选指定安全设备复选框,点击“确定”按钮,保存配置。用户还可以通过输入设备名称或设备组名称,查找指定安全设备;也可以通过设备类型,查找指定设备。
    • 指定ADC设备:从“ADC管理器”创建巡检任务时,在<选择设备>页面,从右侧设备列表勾选指定ADC设备复选框,点击“确定”按钮,保存配置。用户还可以通过输入设备名称或设备组名称,查找指定ADC设备。
  8. 指定该任务需要进行巡检的设备后,若出现“检测到已选关联设备中有x台未配置访问用户,可能会导致下发失败,建议您完善配置”的提示,请点击“快速配置访问用户”按钮,打开新的网页至<批量设置远程访问>页面,为未配置访问用户的关联设备配置访问用户和密码,详情参见设备远程访问管理
  9. 点击“确定”按钮,完成配置。
    若未执行步骤5,点击“确定”按钮后,系统会弹出完善设备访问配置提示框,用户需点击“返回完善配置”按钮,并按照步骤5,为未配置访问用户的关联设备配置访问用户和密码。当用户未完善设备访问配置,直接点击“继续下发”按钮时,未配置访问用户的设备会巡检失败,因此,请在出现完善设备访问配置提示时,及时完善相关配置。

编辑巡检任务

编辑巡检任务,请按照以下步骤进行操作:

  1. 点击“巡检任务”,进入对应设备管理器的<巡检任务>页面。
  2. 点击“操作”列中的按钮,打开<编辑巡检任务>页面,编辑指定巡检任务。
  3. 点击“确定”按钮,系统立即进行一次设备巡检。
注意: 不支持编辑“最近一次巡检状态”为“巡检中”的巡检任务。

删除巡检任务

删除巡检任务,请按照以下步骤进行操作:

  1. 点击“巡检任务”,进入对应设备管理器的<巡检任务>页面。
  2. 点击“操作”列的按钮,在下拉菜单中选择“删除”,删除指定巡检任务。或者点击列表上方的按钮,批量删除选中的巡检任务。
注意: 不支持删除“最近一次巡检状态”为“巡检中”的巡检任务。

立即巡检

对于巡检成功和巡检失败的任务,系统支持手动开启单个或多个巡检任务立即巡检的功能。开启立即巡检功能后,巡检任务的最近一次巡检状态变更为“巡检中”。巡检结束后,巡检成功的任务产生巡检报告,巡检失败的任务则不产生巡检报告。

开启立即巡检功能,请按照以下步骤进行操作:

  1. 点击“巡检任务”,进入对应设备管理器的<巡检任务>页面。
  2. 点击“操作”列的按钮,在下拉菜单中选择“立即巡检”,系统立即对指定巡检任务中关联的设备进行巡检。
    或者点击列表上方的“立即巡检”按钮,系统立即对已选任务中关联的设备进行巡检。

取消巡检

对于正在巡检中的任务,系统支持手动取消巡检。取消巡检完成后,巡检任务的最近一次巡检状态变更为“失败”,并且不会产生巡检报告。

取消巡检,请按照以下步骤进行操作:

  1. 点击“巡检任务”,进入对应设备管理器的<巡检任务>页面。
  2. 点击“操作”列的按钮,在下拉菜单中选择“取消巡检”,系统立即终止正在巡检的任务。
    或者点击列表上方的“取消巡检”按钮,批量终止正在巡检的巡检任务。

查看巡检任务详情

查看巡检任务详情,请按照以下步骤进行操作:

  1. 点击“巡检任务”,进入对应设备管理器的<巡检任务>页面。
  2. 点击“操作”列按钮,查看指定巡检任务的详细信息,包括巡检任务名称、描述、该任务引用的巡检规则模板名称、任务类型以及关联的设备详情。

用户在该页面还可以执行以下操作:

查看巡检记录

用户可以在<巡检记录>页面查看设备巡检结果、删除巡检记录和下载设备巡检报告。

点击“巡检记录”,进入对应设备管理器的<巡检记录>页面。

注意: 当巡检记录对应的巡检任务处于“巡检中”状态时,不支持删除该巡检记录,也不支持下载该巡检任务关联的所有设备的巡检报告。如需执行对应操作,可以等该任务巡检结束后再进行操作。

查看设备巡检报告

查看设备巡检报告,请按照以下步骤进行操作:

  1. 点击“巡检记录”,进入对应设备管理器的<巡检记录>页面。
  2. 点击“操作”列按钮,打开<设备巡检结果>页面。
  3. 点击“操作”列按钮,查看设备巡检报告,包括巡检任务详情、设备基础信息、巡检项结果分布、巡检项结果一览表以及巡检项结果详情。
  4. 设备巡检报告详情。

    选项 说明
    巡检任务详情 展示巡检任务详情,包括巡检任务名称、巡检规则模板名称、设备名称以及开始巡检的时间。
    设备基础信息 展示指定巡检设备的基础信息,包括设备名称、设备序列号、设备平台、软件版本以及设备IP。
    巡检项结果分布 展示该设备所有巡检项的巡检结果分布图。
    巡检项结果一览表 展示该设备所有巡检项的巡检结果。
    巡检项结果详情 展示该设备所有巡检项的巡检结果详情,包括巡检项名称、巡检要求、巡检结果等。

下载设备巡检报告

用户可以在<巡检记录>页面,一次性下载巡检任务关联的所有设备的巡检报告,具体操作请参阅“查看巡检记录”;也可以在<设备巡检结果>页面,下载巡检任务关联设备中的某个设备、多个设备和所有设备的巡检报告。

下载设备巡检报告,请按照以下步骤进行操作:

  1. 点击“巡检记录”,进入对应设备管理器的<巡检记录>页面。
  2. 点击“操作”列按钮,打开<设备巡检结果>页面。
  3. 选择以下任一方式,下载设备巡检报告。
注意: 不支持查看和下载正在巡检的设备的巡检报告。