Way to the science

集群健康监测专贴

注:缓存磁盘使用情况查看程序下载:Nabula Node Disk Usage Collecter
注:集群健康监测任务执行指南:集群健康监测任务执行指南.docx
注:上传集群文件示例:

轮值集群健康监察员排班表

注:轮值工作周五周六进行即可
请大家以蒙蒙师姐为标准准备附件

轮值监察员 轮值日期
李蒙蒙 2025/02/10-2025/02/16、2025/03/31-2025/04/06、2025/05/19-2025/05/25
王奉鲁 2024/12/30-2025/01/05、2025/02/17-2025/02/23、2025/04/07-2025/04/13、2025/05/26-2025/06/01
张枝瑶 2025/01/06-2025/01/12、2025/02/24-2025/03/02、2025/04/14-2025/04/20、2025/06/02-2025/06/08
陈英杰 2025/01/13-2025/01/19、2025/03/03-2025/03/09、2025/04/21-2025/04/27、2025/06/09-2025/06/15
杨婷 2025/01/20-2025/01/26、2025/03/10-2025/03/16、2025/04/28-2025/05/04、2025/06/16-2025/06/22
刘芸菲 2025/01/27-2025/02/02、2025/03/17-2025/03/23、2025/05/05-2025/05/11、2025/06/23-2025/06/29
许凯 2025/02/03-2025/02/09、2025/03/24-2025/03/30、2025/05/12-2025/05/18

2024/05/12

汇报人员 李蒙蒙

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

①系统日志监控和报告中节点log文件出现error和fail信息,相应信息已上传;
②机房温度在空调工作时段高达40℃,相应信息已上传。以上情况均已报告管理员。

2024/05/19

汇报人员 张枝瑶

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传
(2)Dash导航页部分出现无法打开情况,无法打开页面为"Netdata" "OpenWebUI" "Openwrt"
(3)5月16日晚9点至17日零点,机房温度持续高于40℃,峰值温度可达45℃,相关信息已记录上传
上述情况均已报告管理员。

2024/05/25

汇报人员 许凯

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传
(2)Dash导航页部分出现无法打开情况,无法打开页面为"Netdata"
(3)2、4、8号节点出现意外宕机
上述情况均已报告管理员。

2024/06/02

汇报人员 陈英杰

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传
(2)Dash导航页部分出现无法打开情况,无法打开页面为"Openwrt" "Proxmox" "Truenas"
(3)6号节点由于电源问题暂时下线,健康监测内容未包含6号节点
上述情况均已报告管理员。

2024/06/07

汇报人员 杨婷

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相应信息已上传;
(2)node6因电池问题下线,故缓存磁盘使用情况检查有问题,相应信息已上传;
(3)node2存在上线时间小于7天的情况,显示上线时间为两天。
(4)node6因电池故障已送厂家返修,故node6下线。以上情况均已报告管理员。

2024/06/15

汇报人员 刘芸菲

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相应信息已上传;
(2)node6因电池问题下线,故缓存磁盘使用情况检查有问题,相应信息已上传;
(3)node3,5,7,9存在上线时间小于7天的情况,显示上线时间分别为4,5,5,4天。
(4)node6因电池故障已送厂家返修,故node6下线。以上情况均已报告管理员。

2024/06/21

汇报人员 李蒙蒙

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相应信息已上传;
(2)机房温度在空调工作时段高达40℃,相应信息已上传。
(3)所有节点上线时间均小于7天。
 以上情况均已报告管理员。

2024/06/29

汇报人员 张枝瑶

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传
(2)Dash导航页部分出现无法打开情况,无法打开页面为 "OpenWebUI" "Yatcht"
(3)5月16日晚9点至17日零点,机房温度持续高于40℃,峰值温度可达45℃,相关信息已记录上传
(4)所有节点上线时间均小于7天,其中node6为down状态,因而上述监测中不包括node6。
上述情况均已报告管理员。

2024/07/06

汇报人员 许凯

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传
(2)所有节点上线时间均小于7天。
上述情况均已报告管理员。

2024/07/13

汇报人员 陈英杰

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传
(2)Dash导航页部分出现无法打开情况,无法打开页面为 "Openwrt" "Yacht"
(3)7月10日凌晨4点,机房温度达到峰值40.5℃,相关信息已记录上传
(4)node2,3,8,9存在上线时间小于7天的情况,显示上线时间分别为2,2,1,5天。
上述情况均已报告管理员。

2024/07/20

汇报人员 杨婷

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传
(2)node5,7,9存在上线时间小于7天的情况,显示上线时间分别为3,3,5天。
上述情况均已报告管理员。

2024/07/27

汇报人员 刘芸菲

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
上述情况均已报告管理员。

2024/08/04

汇报人员 李蒙蒙

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

①系统日志监控和报告中节点log文件出现error和fail信息,相应信息已上传;
②计算节点上线时间小于7天。以上情况均已报告管理员。

2024/08/11

汇报人员 张枝瑶

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传
(2)所有节点上线时间小于7天
上述情况均已报告管理员。

2024/08/25

汇报人员 陈英杰

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传
(2)node9存在上线时间小于7天的情况,显示上线时间为4天。
上述情况均已报告管理员。

2024/09/16

汇报人员 李蒙蒙

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传
(2)node4、node7存在上线时间小于7天的情况,node4显示上线时间为1天,node7显示上线时间为7天。
上述情况均已报告管理员。

2024/09/30

汇报人员 张枝瑶

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传
(2)目前集群所有节点均已上线,上线天数均小于7天。
上述情况均已报告管理员。

2024/10/13

汇报人员 陈英杰

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
(2)仅node2和node8上线时间大于7天,其余节点显示上线时间为3天。
(3)集群散热监控系统未开启
上述情况均已报告管理员。

2024/10/20

汇报人员 杨婷

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
(2)仅node2上线时间大于7天,node5-node7节点显示上线时间为5天,node3、node4、node9节点显示上线时间为4天,node8节点上线时间显示为3天。
(3)集群散热监控系统未开启
上述情况均已报告管理员。

2024/10/26

汇报人员 刘芸菲

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
(2)node4节点显示上线时间为4天。
(3)集群散热监控系统未开启
上述情况均已报告管理员。

2024/11/09

汇报人员 李蒙蒙

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
(2)node2-9均显示上线时间小于7天。
(3)集群散热监控系统未开启
上述情况均已报告管理员。

2024/11/23

汇报人员 张枝瑶

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
(2)因停电所有节点上线时间均小于7天。
(3)导航页'Openwrt'和'Prometheus'两个链接无法打开。
上述情况均已报告管理员。

2024/12/01

汇报人员 陈英杰

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
(2)因路由器网络中断导致集群下线,所有节点上线时间均小于7天。目前已恢复运行,所有节点正常。
(3)导航页'Prometheus'两个链接无法打开。
(4)11月29日上午8点40,集群温度达到峰值40.6℃。
上述情况均已报告管理员。

2024/12/8

汇报人员 许凯

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
(2)集群温度达到峰值异常,最高可达45℃。
上述情况均已报告管理员。

2024/12/15

汇报人员 杨婷

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
上述情况均已报告管理员。

2024/12/21

汇报人员 许凯

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
(2)5、7、9号节点上线时间均小于7天。目前已恢复运行,所有节点正常。
上述情况均已报告管理员。

2024/12/28

汇报人员 刘芸菲

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中除了2号节点外log文件均出现error和fail信息,相关信息已记录上传。
(2)2、3、4、5、6、7、8号节点上线时间均小于7天。目前已恢复运行,所有节点正常。
(3)12月25日晚上21点至26日三点、26日九点至15点出现温度高于30℃
上述情况均已报告管理员。

2025/01/10

汇报人员 张枝瑶

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
(2)node9掉线,node3 4 5 7登录存在无法登录/登录加载缓慢等问题,node6在线时间2天,node2 8在线时间超过7天。
(3)node8缓存占用超过75%。
(4)课题组网站部分网页无法加载。
上述情况均已报告管理员。

2025/01/18

汇报人员 陈英杰

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
(2)node5在线时间5天。
(3)node7和node8缓存占用超过75%。
(4)课题组网站部分网页无法加载。
上述情况均已报告管理员。

2025/02/02

汇报人员 刘芸菲

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中部分节点log文件出现error和fail信息,相关信息已记录上传。
(2)九号节点下线。
(3)node8缓存占用超过75%。
(4)课题组网站第四个网页无法加载。
(5)一周中大部分时间下温度超过30度。
上述情况均已报告管理员。

2025/02/09

汇报人员 王奉鲁

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中部分节点log文件出现error和fail信息,相关信息已记录上传。
(2)九号节点异常下线。
(3)node5和node8缓存占用超过75%。
(4)课题组网站部分网页无法加载。
(5)一周中2月3号部分时间温度超过30度。
上述情况均已报告管理员。

## 2025/02/16
### 汇报人员 李蒙蒙
| 项目                                  | 是否正常     |  备注  |
|:--------------------------------------|:---------------:|:-----:|
| 系统日志监控和报告                      | 否             |6号节点无法登录      |
| 缓存磁盘使用情况                        | 否             |3、5号节点较满       |
| 课题组关键基础设施服务                   | 是             |-       |
| 计算节点意外宕机事故                     | 否             |8、9上线小于7天       |
| 集群散热情况                            | 否            |-       |

### 总结报告
```bash
(1)系统日志监控和报告中部分节点log文件出现error和fail信息,相关信息已记录上传。
(2)6号节点无法登录。
(3)node3缓存占用91%,node5缓存占用71%。
(5)2月12号部分时间温度超过30度。
上述情况均已报告管理员。

2025/03/01

汇报人员 张枝瑶

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
(2)node2 node3缓存磁盘占用过多。
上述情况均已报告管理员。

2025/03/09

汇报人员 陈英杰

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)系统日志监控和报告中节点log文件出现error和fail信息,相关信息已记录上传。
(2)node3、node7和node10缓存磁盘占用过多,超过75%;node3节点占用甚至达到100%。
上述情况均已报告管理员。

2025/03/15

汇报人员 杨婷

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)除了2号节点外,系统日志监控和报告log文件均出现error和fail信息,相关信息已记录上传。
(2)3号节点和8号节点存在上线时间小于7天的情况,分别为1天和5天。
(3)导航页面部分链接无法正常打开。
上述情况均已报告管理员。

2025/03/22

汇报人员 刘芸菲

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)除了2号节点外,系统日志监控和报告log文件均出现error和fail信息,相关信息已记录上传。
(2)温度在17日和19日凌晨出现短时间超过30度情况。
(3)7号节点缓存已达74%。
上述情况均已报告管理员。

2025/04/06

汇报人员 李蒙蒙

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)9号节点查询时无法登录,其余节点系统日志监控和报告log文件均出现error和fail信息,相关信息已记录上传。
(2)所有节点上线时间小于7天。
上述情况均已报告管理员。

2025/04/19

汇报人员 张枝瑶

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)部分节点系统日志监控和报告log文件均出现error和fail信息,相关信息已记录上传。
(2)其余情况正常
上述情况均已报告管理员。

2025/05/04

汇报人员 杨婷

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)所有节点系统日志监控和报告log文件均出现error和fail信息,相关信息已记录上传。
(2)其余情况正常
上述情况均已报告管理员。

2025/06/21

汇报人员 杨婷

项目 是否正常 备注
系统日志监控和报告
缓存磁盘使用情况
课题组关键基础设施服务
计算节点意外宕机事故
集群散热情况

总结报告

(1)除2号节点外,所有节点系统日志监控和报告log文件均出现error和fail信息,相关信息已记录上传。
(2)温度在21日中午短时间内超过32度。
上述情况均已报告管理员。

Leave a comment

Your email address will not be published. Required fields are marked *