1、AIOps:有大量服务器监控指标的情况下如何做异常检测?
在搭建服务器时,除了部署webapp之外,还需要服务的异常信息与服务器性能指标进行监控内,一旦容有异常则通知管理员。
服务器使用Linux+Nginx-1.9.15+Tomcat7+Java搭建的。
编写脚本检测错误日志和服务器性能指标,一旦新生错误日志或者性能降低到设定的阈值时,则使用云监控将报警上传到云账号。
服务运行监控
错误日志包含以下三个方面:
nginx 错误信息监控(nginx.conf配置)
${NGINX_HOME}/logs/error.log
tomcat 错误信息监控(server.xml配置)
${TOMCAT_HOME}/logs/catalina.out
webapp错误信息监控(log4j)
${WEBAPP_HOME}/log/error
2、在监控上什么叫服务器
监控系统里面有很多不同的服务,有存储服务器,流媒体服务器,视频编码服务器,视频管理服务器,他们各司其职,存储服务器是一台具有多个硬盘接口的,硬盘接口支持热插拔。流媒体服务器只要做流媒体转发,视频编码服务器主要用来做视频的编码。存储服务器,流媒体服务器等具体如下图:
存储服务器
流媒体服务器
3、服务器监控硬盘状态
服务器使用的硬盘转速快,可以达到每分钟7200或10000转,甚至更高;它还配置了较大(一般为2MB或4MB)的回写式缓存(已经过时,目前台式机硬盘缓存可达64MB!);平均访问时间比较短;外部传输率和内部传输率更高,采用Ultra Wide SCSI、Ultra2 Wide SCSI、Ultra160 SCSI、Ultra320 SCSI等标准的SCSI硬盘,每秒的数据传输率分别可以达到40MB、80MB、160MB、320MB。
因为服务器硬盘几乎是24小时不停地运转,承受着巨大的工作量。可以说,各硬盘厂商均采用了各自独有的先进技术来保证数据的安全。为了避免意外的损失,服务器硬盘一般都能承受300G到1000G的冲击力。
普通硬盘在上电启动的时候会全速启动,瞬间电流可能达到2安,甚至更高。 而监控硬盘启动的时候会缓慢加速,启动电流会控制在2安以下。因为监控系统中通常会安装多个硬盘,这样在启动的瞬间会产生很大的启动电流,如果是普通硬盘的话,电源会难以承受,甚至烧毁。 另外,监控系统对硬盘的传输速度要求一般不高,但是会频繁的小数据量的读写。 所以需要在磁头读写机构上针对监控系统的读写特点做结构优化设计,以延长磁头寿命。 监控硬盘的理论平均无故障运行时间比普通硬盘要长的多,稳定性、可靠性要更高。