当前位置:首页 > 服务器 > 正文

服务器巡检模版(主机巡检报告)

本篇文章给大家谈谈服务器巡检模版,以及主机巡检报告对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

AIX小型机服务器巡检操作

1、机器型号

# uname -uM

IBM,7029-6E3 IBM,01100550A

2、检查系统硬件设备故障灯是否有亮

3、系统错误报告

# errpt -d H -T PERM //硬件的错误报告

IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION

BFE4C025 0530085308 P H sysplanar0 UNDETERMINED ERROR

BFE4C025 0529091308 P H sysplanar0 UNDETERMINED ERROR

# errpt -d S -T PERM //软件的错误报告

# errpt -aj *******|more //具体的错误信息

# errpt -d H -T PERM/tmp/hwerror.log //可以把错误的报告存成一个文件

4、有否给 root 用户的错误报告

# mail

Mail [5.2 UCB] [AIX 5.X] Type ? for help.

"/var/spool/mail/root": 5 messages 3 new 5 unread

U 1 root Thu May 15 09:53 24/884 "diagela message from p615"

U 2 root Fri May 16 04:07 24/884 "diagela message from p615"

N 3 root Sat May 24 13:08 23/874 "diagela message from p615"

5、检查 hacmp.out, smit.log, bootlog 等

# lssrc -g cluster/#lssrc -g cluster

Subsystem Group PID Status

clstrmgrES cluster 16334 active

一般上 hacmp.out 的位置: /usr/sbin/cluster/ 或者 /tmp/

然后找到最近的 hacmp.out 文件,察看有没有错误信息

6、文件系统检查

# df -k

Filesystem 1024-blocks Free %Used Iused %Iused Mounted on

/dev/hd4 131072 101568 23% 2268 4% /

/dev/hd2 1441792 31256 98% 36056 11% /usr

/dev/hd9var 131072 117048 11% 418 2% /var

看看有没有超过 90% 使用率的,建议用户改善

7、逻辑卷有否 "stale" 的状态

# lsvg -l rootvg

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd5 boot 1 1 1 closed/syncd N/A

hd6 paging 4 4 1 open/syncd N/A

hd8 jfslog 1 1 1 open/syncd N/A

hd4 jfs 1 1 1 open/syncd /

hd2 jfs 11 11 1 open/syncd /usr

hd9var jfs 1 1 1 open/syncd /var

如果系统还有其他卷组,也需要察看

8、内存交换区的使用率是否超过 70%

# lsps -a

Page Space Physical Volume Volume Group Size %Used Active Auto Type

hd6 hdisk0 rootvg 512MB 1 yes yes lv

9、系统性能是否有瓶颈

# topas

# vmstat 1 10

kthr memory page faults cpu

----- ----------- ------------------------ ------------ -----------

r b avm fre re pi po fr sr cy in sy cs us sy id wa

0 0 110029 408618 0 0 0 0 0 0 4 602 75 0 1 99 0

0 0 110031 408616 0 0 0 0 0 0 1 562 54 1 0 99 0

0 0 110031 408616 0 0 0 0 0 0 3 628 84 0 0 99 0

# iostat 1 10

tty: tin tout avg-cpu: % user % sys % idle % iowait

0.0 394.0 0.0 0.0 100.0 0.0

Disks: % tm_act Kbps tps Kb_read Kb_wrtn

hdisk0 0.0 0.0 0.0 0 0

hdisk1 0.0 0.0 0.0 0 0

cd0 0.0 0.0 0.0 0 0

10、网络与通讯检查

# ifconfig -a

# netstat -in

Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll

en0 1500 link#2 0.9.6b.3e.6.ac 1964 0 534 0 0

en0 1500 192.168.0 192.168.0.11 1964 0 534 0 0

lo0 16896 link#1 267 0 413 0 0

lo0 16896 127 127.0.0.1 267 0 413 0 0

# netstat -rn //察看路由情况

Routing tables

Destination Gateway Flags Refs Use If Exp Groups

Route Tree for Protocol Family 2 (Internet):

127/8 127.0.0.1 U 7 142 lo0 - -

192.168.0.0 192.168.0.11 UHSb 0 0 en0 - - =

# vi /etc/hosts //察看 hosts 文件有否特殊的定义

# ping ****

#lsattr -El inet0 //路由的检测

authm 65536 Authentication Methods True

hostname h24 Host Name True

gateway Gateway True

route net,,0,172.16.23.81 Route True

bootup_option no Serial Optical Network Interface True

rout6 FDDI Network Interface True

11、有否符合要求的系统备份

第一次去可以先询问客户关于备份的策略

# ls -l /image.data //看看系统有没有备份的 image 文件,记录最后备份日期

-rw-r--r-- 1 root system 9600 May 19 17:31 /image.data

# lsvg -l rootvg //察看有否符合要求的数据备份和保护

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd4 jfs 1 1 1 open/syncd /

hd2 jfs 11 11 1 open/syncd /usr

hd10opt jfs 1 1 1 open/syncd /opt

oraclelv jfs2 80 160 1 open/syncd /oracle

loglv00 jfs2log 1 1 1 open/syncd N/A

testlv jfs 10 20 1 closed/syncd /tmp/test

如何察看数据保护方式 RAID10/RAID5,RAID 的Hotspare 属性是否打开

#smitty ssaraid? Change/Show Attributes of an SSA RAID Array

检查Enable Use of Hot Spares属性是否为YES

12、系统 Dump 设置是否正确

# sysdumpdev -l

primary /dev/hd6

secondary /dev/sysdumpnull

copy directory /var/adm/ras

forced copy flag TRUE

always allow dump FALSE

dump compression OFF

# sysdumpdev P p /dev/hd6 s /dev/sysdumpnull

# sysdumpdev -P -c

13、HACMP 测试

# /usr/sbin/cluster/diag/clconfig -v '-tr' // Cluster Verification 输出结果无Fail

# /lssrc -g cluster

14、maxpout, minpout 系统参数

如果系统中运行了HACMP

smitty chgsysy,将High/Low water mark从0/0修改为33/24

# lsattr -El sys0|grep maxpout

//maxpout 用途: 对文件指定未决 I/O 的最大数目

值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数加 1)

# lsattr -El sys0|grep minpout

//指定一个基点,在该基点处,已达到 maxpout 的程序可以继续写入文件

值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数,且大于或等于 4 小于 maxpout)

15、syncd 参数

# grep syncd /sbin/rc.boot //sync() 被 syncd 调用的间隔时间

nohup /usr/sbin/syncd 10 /dev/null 21

值: 缺省值:60;范围:1 到任何正整数

显示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot

更改: 更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill 来终止守护程序

syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。

诊断: 当 syncd 正在运行时,文件的 I/O 被阻塞了。

调整: 在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整

性对于 HACMP而使 syncd interval 明显缩小,会导致性能下降。

更改命令为:

#vi /sbin/rc.boot

16、aio 参数 //异步 I/O 可调参数

# lsdev -C|grep aio

察看状态是否是 available

# lsattr -El aio0

minservers 1 MINIMUM number of servers True

maxservers 10 MAXIMUM number of servers True

maxreqs 4096 Maximum number of REQUESTS True

kprocprio 39 Server PRIORITY True

autoconfig available STATE to be configured at system restart True

fastpath enable State of fast path True

# smit aio //可以更改参数

17、检查 errdaemon, srcmstr 是否正常运行

# ps -ef|grep err

# ps -ef|grep src

18、 系统硬件诊断

# diag

- Diagnostic Routines

- System Verification

- All Resources

- F7 或者 Esc+7

19、补丁程序 PTF 是否满足要求,当前系统补丁版本

#oslevel -r

5300-04

#instfix -i|grep

All filesets for 5.3.0.0_AIX_ML were found.

All filesets for 5300-01_AIX_ML were found.

All filesets for 5300-02_AIX_ML were found.

All filesets for 5300-03_AIX_ML were found.

All filesets for 5300-04_AIX_ML were found.

All filesets for 5300-05_AIX_ML were found.

# lscfg -vp //检查所有设备的微码

20、收集系统信息放到/tmp/ibmsupt

# snap -ac //运行#snap -ac,生成文件snap+s/n.pax.Z

服务器机房巡查内容

机房的温度湿度,系统日志也要经常看

你是新人吗?那应该有人带你的。工作时留心点,看人家是怎么做的。。

主要是系统运行正常,各种网络设备运行正常,机房通风良好

========================

没经验没关系,谁不是从新人过来的。你问我怎么写我是不会的。不过你老大再忙也有闲的时候啊,你可以没事的时候让他教你,平时给老大买点水,买点烟,请吃个饭什么的,他会帮你的。。

VMware虚拟化平台季度巡检报告怎么写

先把esxi装到服务器上,再装个server 2008的虚拟机,做成OVA模板,部署几台虚拟机出来,部署DC、SQL server服务器,再安装Vcenter server(也可以直接使用linux版本的vcsa)。

服务器巡检目的

检查服务器各模块是否正常

检查服务器是否存在安全威胁

检查服务器是否按计划备份数据

求一个linux服务器巡检脚本,50多台服务器,结果要做成一个excel表格,每天手动开始执行即可!

你可以在每台服务器上面放同一个脚本。

这个linux脚本加入cron,这个脚本每天定时把df -k   free -m   uptime   这三项的结果保存到文本文件里面,比如uptime可以保存到uptime_20140112.txt,以此类推。

然后脚本把这些文件ftp到一个单独的服务器上面,比如192.168.1.100,这个服务器可以是windows。

然后写个程序读当天或者几天的txt文件,然后输出到excel。可以用你熟悉的语言来写,应该不难。

关于Windows server 2008信息收集的批处理脚本

第6个还没出来,正在研究。

代码如下:

@echo off

setlocal ENABLEDELAYEDEXPANSION

set "infoName=INFO_%computername%_%date:~0,4%%date:~5,2%%date:~8,2%"

set "infoName=%infoName%.txt"

::

%infoName%  echo 1.当前登录服务器账号:

%infoName% echo =====

%infoName% whoami

%infoName% echo.

%infoName% echo.

::

%infoName% echo 2.当前服务器与时间服务器的时间误差:

%infoName% echo =====

for /f "tokens=1,2* delims=:" %%i in ('ipconfig ^| find "IPv4"') do (

set ip=%%j

set ip=!ip: =!

%infoName% W32TM.EXE /STRIPCHART /COMPUTER:!ip! /SAMPLES:1

)

%infoName% echo.

%infoName% echo.

::

%infoName% echo 3.系统启动时间:

%infoName% echo =====

set /a n=0

for /f %%i in ('WMIC PATH Win32_PerfFormattedData_PerfOS_System GET SystemUpTime') do (

set /a n+=1

if !n! equ 2 (set /a d=%%i)

)

set /a d=%d%/8640

if %d% GEQ 10 (

set d=%d:~0,-1%.%d:~-1%

) else (

set d=0.%d%

)

%infoName% echo %d%D

%infoName% echo.

%infoName% echo.

::

%infoName% echo 4.系统打的补丁数量:

%infoName% echo =====

WMIC PATH Win32_QuickFixEngineering GET HotFixID | FIND /C /I "KB" %infoName% 

%infoName% echo.

%infoName% echo.

::

%infoName% echo 5.系统未正常启动的自启动服务:

%infoName% echo =====

setlocal DISABLEDELAYEDEXPANSION

for /f %%i in ('WMIC PATH Win32_Service WHERE ^(StartMode^=^'Auto^' AND State!^=^'Running^' AND Name!^=^'SysmonLog^'^) GET Name') do (

if "%%i" neq "" (%infoName% echo %%i)

)

setlocal ENABLEDELAYEDEXPANSION

%infoName% echo.

%infoName% echo.

::

%infoName% echo 6.error event log(24小时内)

%infoName% echo =====

%infoName% echo.

%infoName% echo.

::

%infoName% echo 7.所有磁盘的空余空间百分比

%infoName% echo =====

for %%i in (c d e f g h i j k l m n o p q r s t u v w x y z) do (

if exist %%i: (

set /a n=0

for /f "tokens=1,2" %%x in ('wmic LogicalDisk where ^"Caption^=^'%%i^:^'^" get FreeSpace^,Size') do (

set /a n+=1

if !n! equ 2 (

if %%x neq 0 (

set  a=%%x

set  b=%%y

set /a per=!a:~0,-4!/!b:~0,-6!

%infoName% echo %%i: !per:~0,2!%%

)

)

)

)

)

%infoName% echo.

%infoName% echo.

由于没有服务器,用的是本机测试,结果如下:

1.当前登录服务器账号:

=====

en9\end1n9

2.当前服务器与时间服务器的时间误差:

=====

正在跟踪 172.21.10.57 [172.21.10.57:123]。

正在收集 1 示例。

当前时间是 2014/5/26 19:33:59。

19:33:59 错误: 0x800705B4

正在跟踪 192.168.137.1 [192.168.137.1:123]。

正在收集 1 示例。

当前时间是 2014/5/26 19:34:00。

19:34:00 错误: 0x800705B4

正在跟踪 169.254.86.200 [169.254.86.200:123]。

正在收集 1 示例。

当前时间是 2014/5/26 19:34:01。

19:34:01 错误: 0x800705B4

3.系统启动时间:

=====

0.3D

4.系统打的补丁数量:

=====

5.系统未正常启动的自启动服务:

=====

Name

DeviceInstall

gpsvc

gupdate

SCardSvr

sppsvc

OmniAddrService

ECHO 处于打开状态。

6.error event log(24小时内)

=====

7.所有磁盘的空余空间百分比

=====

c: 21%

d: 16%

服务器巡检模版的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于主机巡检报告、服务器巡检模版的信息别忘了在本站进行查找喔。

取消
扫码支持 支付码