当前位置:首页 > 服务器 > 正文

服务器故障分析(服务器故障案例)

今天给各位分享服务器故障分析的知识,其中也会对服务器故障案例进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

服务器常见故障是什么,怎么排除

1、服务器常见的故障及其排除方法

服务器中的某项服务被停止 •系统资源不足  •服务器软件故障

服务器软件故障是在服务器故障中占有比例最高的部份,约占70%。导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。服务器软件设置不当也会可能造成网络故障。

管理方面的问题 

如用户的帐户和安全设置方面的潜在问题,服务权限没有给用户、配置不当或限制某些服务等问题 

2  服务器故障排除的基本原则

服务器故障排除的基本原则如下:

(1) 尽量恢复系统缺省配置

(2) 从基本到复杂

首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理;然后从可以运行的硬件开始逐步到现实系统为止;最后从基本操作系统开始逐步到现实系统为止。

(3)交换对比

首先在最大可能相同的条件下,交换操作简单效果明显的部件;其次是交换软件环境;再者是交换硬件,既交换硬件环境;最后是交换整机,既交换整体环境。

在服务器故障排除时,需要收集如下一些信息:

服务器信息:机器型号(P/N:)、机器序列号(S/N:)、Bios 版本、是否增加其它设备(如网卡,SCSI 卡,内存,CPU等)、硬盘如何配置和安装什么操作系统及版本。

故障信息:在POST(加电自检)时,屏幕显示的异常信息、服务器本身指示灯的状态和报警声,以及操作系统的事件记录文件等信息。

确定故障类型和故障现象:开机无显示;上电自检阶段故障;安装阶段故障和现象;操作系统加载失败和系统运行阶段故障。

服务器异常怎么办

造成服务器异常的原因

有好多种

1、服务器所在的机房设备出现故障

2、用户操作不当

3、病毒侵害

4、服务器故障

5、网络故障

二、服务器常见的异常问题及解决办法

1、机房设备故障引发的服务器不能正常运行

在机房配备专业人员做好日常管理和维护,及时检查和购买新的设备或者服务器。

2、用户操作不当引发的异常

公司要雇用专业人员管理和维护好服务器,降低出现故障的几率,以便第一时间能够及时处理问题,降低风险,减少损失。

3、网站打不开、被跳转、网站显示错误等

这时候可以下载专业的正版查毒软件,对电脑进行定期的全面病毒查杀,以绝后患。

4、用户无法打开网页

出现这种问题,可以耐心等候一段时间再进行再次访问,也可以多刷新几遍网页试试,并赶紧对服务器进行修复。

5、被DNS劫持出现的网络故障

这种情况是电脑上的其他应用都可以正常运行,但是网站却打不开,很有可能就是网站被DNS劫持了,需要重新设置或修改DNS地址。

6、系统蓝屏、频繁死机、重启、反映速度迟钝

服务器的结构与普通电脑的构成是十分相似的,出现这种情况是感染了病毒引起的,也有可能是系统漏洞、软件冲突、硬件故障等原因造成的。遇到这种问题就要及时杀毒,修复系统漏洞和硬件故障,清理缓存垃圾。

7、远程桌面连接超出最大连接数

如果登录后忘记注销服务器默认允许的2个连接,而是直接关闭远程桌面,这种时候可能就要重启服务器,并且是在高峰期的话,就很容易造成损失。这种异常问题,就要利用“mstsc/console”指令进行强行登陆,具体操作就是打开“运行”框,输入“mstsc/v:xxx.xxx.xxx.xxx(服务器IP)/console”,即可强行登陆到远程桌面。

8、出现无法删除的文件

如果这些无法删除的文件还在运行中,可以重启电脑,然后删除。另一种办法是,运行CMD,输入“arrtib-a-s-h-r”和想要删除的文件夹名,最后输入“del”,这样想要删除的文件夹即可删除,但是运行该命令后无法恢复,要谨慎使用。

9、系统端口隐患

对于服务器来说,首先要保证的就是它的稳定性和安全性。因此,我们只要保留的是服务器最基本的功能就可以了,声卡一般都是默认禁止的。我们不会用到很多功能,也不需要很多的端口支持。这时候,我们就关掉一些不必要的、风险大的端口,例如3389、80等端口,用修改注册表的方式将其设置成不特殊的秘密端口,这样可以消除服务器端口的安全隐患。

由于硬件故障造成宕机的原因有哪些?该如何处理?

—、服务器出现宕机的原因

1.运行环境出现问题,机房断电导致的服务器断电(欠压,过载,波动)、机房温度过高,散热不良、资源冲突、DirectX文件的损坏、系统不完善等等原因而造成服务器宕机。

⒉.服务器不堪负重,最常见的如磁盘空间耗尽、访问值过大、程序中毒、遭受攻击等大规模高消耗服务器资源情况。

3.由于主备数据不—致导致的复制问题。

4.性能问题,运维运行糟糕的SQL或Schema和索引设计等。

二、服务器宕机应该从哪些方面检查呢?

①硬件

(1)检查硬件是否有冲突;

(2)对比服务器电源所负载的功率判断电源是否出现故障;

(3)扫描硬盘表面检查是否有坏道;

(4)通过错误报告和操作系统的报错信息来判断;

(5)使用替换法判断主板、CPU、SCSI/RAID卡或其他PCI设备是否出现故障。

②软件

(1)检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因;

(2)在判断硬件没有故障后,考虑系统软件的BUG和漏洞原因;

(3)如果是因为软件使用不当或系统工作压力过大,可以适当降低服务器的工作压力;

(4)电脑病毒。

以上就是有关服务器宕机的原因有哪些,应该从哪些方面检查的知识介绍。

在想解决处理办法之前要知道服务器宕机的两种形态:假死机和死机

假死机(非蓝屏死机)是由于硬件资源暂时性地被消耗殆尽,因而无法对外部指令进行响应的现象, 通常是网站处于访问高峰期,带宽等资源跑满,这时只需要等待一定的时间,待服务器腾出更多的硬件资源即可恢复正常。

而死机,如果通过ping测试服务器,键盘切换数字锁定键(NumLock)或大写锁定键(Caps Lock)功能, 显示器无画面输出,或者鼠标光标没有任何反应则表明服务器硬件故障。

再了解服务器出现宕机的常见原因 :

1.在运行环境的问题中,最普遍的问题时磁盘空间耗尽。

2.在性能问题中,最普通的服务器宕机原因确实是运行很糟糕的SQL, 但也不一定都是这个原因,比如也有很多问题是由于服务器Bug或错误的行为导致的。

3.糟糕的Schema和索引设计是第二大影响性能的问题。

4.复制问题通常由于主备数据不一致导致。

5.数据丢失问题通常由于drop table的错误操作导致,并总是便随着缺少可用备份的问题。

如何查看服务器宕机的原因:

a、是否是应用程序导致内存溢出或者泄露,out of memory导致

b、是否是进程过多或者不断创建,耗尽资源导致

c、是否是数据库程序死锁,连接数过多导致

d、是否是应用程序异常导致

e、是否是流量负载过大导致

f、 是否是遭受黑客入侵攻击导致

g、是否是误操作导致

服务器宕机自行解决办法:

1.要即时发现服务器宕机的问题。时间就是金钱,这是不变的真理。我们要第一时间, 发现宕机的问题,服务器宕机时,为了避免造成不必要的损失,要尽早通知IDC服务商解决相关问题。

2.最好准备2个服务器空间,他们存放的内容相同,而ip不同,并且机房的地理位置不同。这样2个区域的服务器, 能够做到有效异地容灾备份。发现宕机问题后,可以迅速的通过修改中的域名记录,指向目前正常的服务器。Dnspod解析生效的时间是实时的, 而一般的dns服务器,刷新时间较长,对外声称24小时内生效,按照实际经验看来,差不多30分钟内生效,否则就要检查域名绑定是否正确了。

1.什么是服务器宕机

可以简单的理解为死机.服务器是硬件设备.而且是全年二十四小时不间断运行的.通常负载量也较大.所以时间一长就容易出现宕机的情况.只要不是太频繁.就是完全正常的.一般常用服务器的人都知道.每隔一段时间定期手动重启下机器.对机器的性能有很大帮助.而且可以避免宕机的情况.毕竟服务器也是硬件.长期运行中间也应该有个喘气的过程.

2.服务器宕机的几种原因及解决办法

(1)客户端发出域名请求,形如xxx.com

这里可能出现的错误是,手工输入的域名网址错误。自然不能访问正确的网站了。这是最初级的错误,但还是容易发生的。要注意网址中,一些相近,或形似的字符,比如网址中 “1”与”l”,”0”与”o”,这些都是很容易混淆的字符。解决办法:认真审核一下网址,再次输入。或者百度一下,网址的核心关键字,或者品牌字,试一试。百度的结果,一般说来,还是比较准确的。

(2)通过dns服务器,将域名解析成对应的ip

这个步骤很关键,也是问题的高发期,40%的宕机,都是因为dns服务器不稳定造成的。Dns服务器,就像联系着姓名与电话号码的查询簿。这里如果出现问题,其后果是不堪设想的。因为一般的企业,和个人,多是选用网站空间建设网站,条件好一点的,也不过是租用或托管服务器。但是很少有人,拥有独立的dns服务器。80%的站长,都没有自已的dns服务器。大家的域名解析请求,一般通过域名商,提供的dns服务器完成。多对一,而这个服务的基数又是相当巨大的。当信息的洪流,集中到1-6台dns服务器上的时候,那么这几台dns服务器,就变的极不稳定了。

快速判定dns服务器故障的办法:

目前有一些网站,提供”IP反查”的功能。你需要找到一些,和你同ip的网站。可能因为更新有延时,有些域名的ip已经改变了。你需要再次ping一下选定的网址,确定该网站,和你的网站同属一个ip。把他们的网址记录下来。当你的网站不能打开的第一时间,你要登录同ip的网站看一看。如果,同ip下的其它网站,能打开,而唯独你的网站打不开。那就可以确定,是你网站的dns服务器,出现问题了。否则的话,那就要再进行下一步的故障排除。你也可以把,你的网站,和你同ip的网站,是否dns服务器故障,或是网站空间宕机故障了。

解决dns服务器不稳定的方法:

你可以选择一些专业的dns解析服务商,来解析你的域名。这些解析商,不但专业,而且也提供稳定而且免费的dns解析服务。在国内比较出名的dns解析商有:dnspod.com,dns.la,iidns.com等等…国外也有一些,不过推荐国内的服务。如果你的网站业务在国内,那么无论你的主机,还是dns服务器,都应该首选国内的机器。海外跨洋的线路,因为路途遥远,还有国家防火墙,等不可预知的因素较多,推荐国内的服务相对较稳定。在填写dns服务器列表的时候,也尽量将6个dns服务器,全部写上,比较稳妥。

(3)与ip对应的网站空间,或服务器做出响应

这个步骤,引起服务器宕机的概率在40%左右。这里故障的原因,就是服务器宕机了。一般站长,所指的宕机,也主要在这里。服务器当机的原因很多,流量过大,DDOS攻击,内部不稳定的程序,等等…

服务器宕机的判断方法:

同上一个步骤,如果同ip下的网站,都不能打开,那么基本上可以确定,是服务器宕机所致。

解决服务器宕机的方法:

a.要即时发现服务器宕机的问题。时间就是金钱,这是不变的真理。我们要第一时间,发现宕机的问题。如果他第一时间发现你的网站无法访问,他将立即发送Email通知站长。

b.最好准备2个网站空间,他们存放的内容相同,而ip不同,并且机房的地理位置不同。这样2个主机,同时宕机的可能性就大大降低了。第一时间发现宕机问题后,可以迅速的通过修改dnspod.com中的域名记录,指向目前正常的网站空间。Dnspod解析生效的时间是实时的,而一般的dns服务器,刷新时间较长,对外声称24小时内生效,按照实际经验看来,差不多30分钟内生效,否则就要检查域名绑定是否正确了。

c.可能仍有一些站长朋友,觉得域名解析有点复杂。想通了,其实很简单。别看他们的教程可能有一大段文字,其实就2个步骤:aa.在dns服务器上,将域名指向ip.bb.在网站空间上,将主机绑定域名(也是在这里,申请网站备案的!)。一个是,发送给谁?另一个是,接受谁的请求?是不是很简单呢?

(4)数据下载至本地网络,完成一次请求

这里出现问题的机率较小,不过也有可能。其表现的症状就是,在你的机器上不能访问你的网站。而在别人的电脑上,却是可以打开的。如果发生了这样的情况,那就可能是因为你所在地的网络不稳定,而造成的访问中断。这个故障,通常影响的区域较小。如果要确定,本地网络是否畅通,在打不开你的网站的时候,通过”在线代理”打开你的网站试一试。百度一下”在线代理”,有一些网站能提供,用其它的ip,或国外ip代理访问某个网站的服务。如果在线代理,能够打开你的网站,基本上可以确定,你所在的本地网络,出现了暂时的不稳定情况。

看了以上的介绍,大家也有了一定的了解了。电脑本身就是个负荷量大的东西,尤其是在使用较长一段时间之后,很容易出现各种各样的问题。但有些问题我们是可以从中找到原因的,并自己解决。相信服务器宕机的情况的很多人都经历过,稍微了解电脑的人看看以上的原因,就可以自己动手解决了,也不用再拿出去维修。

服务器常见故障处理

服务器常见故障处理

网络管理员90%的工作往往是诊断和解决各种各样的故障。为了说明诊断网络故障的一般过程,本文例举了几种故障情形,有的是常见的小问题,有的是比较艰巨的挑战。当你遇到类似的问题时,就可以按照本文例子的介绍,先问自己几个简单的问题,逐步隔离问题所在,最后找到真正的问题根源。

故障一、找不到验证密码的域服务器

毫无疑问,你也一定遇到过这样的情形:当你坐在一台工作站之前准备登录网络,Windows却报告说找不到用来验证密码的域服务器。要解决这个故障,首先要确定问题到底出在网络、工作站还是服务器上。从下面几个问题开始:

→哪些地方改变了?最近是否改动过网络,而这些改动可能导致当前的.问题?有没有添加新的服务器、拆除原有的服务器、改动过交换机或HUB?有没有添加或减少域控制器、将成员服务器提升为DC(域控制器)或者相反?

→其他工作站也存在类似的问题吗?

→服务器正在运行吗?

经过检查,你发现此前工作站一直顺利地运行,其他工作站没有遇到类似的问题,服务器也正常。根据故障现象,基本上可以确定故障出在工作站本身。接下来要确定工作站的那个地方出了故障,试试下面几个问题:

→工作站能够Ping到服务器吗?

→工作站获得了一个IP地址吗?

检测表明,工作站能够Ping到服务器,但Ping操作有时超时,这表明工作站和服务器之间只有断断续续的通信。在命令行上执行ipconfig/renew命令,多执行几次,工作站有时会更新IP地址,有时不会。这是工作站和服务器之间断续通信的症状。

现在将问题工作站的网络连接和另一台工作站的对换一下,新工作站在问题工作站的位置上也不能连接网络,而问题工作站却能从另一个网络位置顺利地连接网络。现在已经很清楚:问题工作站所在位置的电缆或Hub出了问题。

拆下故障位置上网络电缆连接Hub的那一端,将它接到另一个Hub上,故障依旧。现在可以肯定电缆就是引起故障的罪魁祸首了。

故障二、Windows服务不能启动

在一台Windows2000服务器上,部分服务设置成不用本地的系统帐户启动。一次重新启动Windows2000服务器之后,发现这些服务没有启动,必须手工打开服务,重新输入密码,然后启动服务。每次重新输入密码,都收到消息说:用户名字已被授予作为服务登录的权限。

要解决该故障,首先回答下面几个问题:

→哪些地方改变了?是否有人修改了服务器?

→这个服务以前能够启动吗?

→用户名称和密码正确吗?

查询修改记录发现,该服务器是一个DC,不久之前还是域控制器组织单元(OU,OrganizationalUnit)的成员。在移出该OU之前,这些服务一直能够顺利启动。另外,用来启动这些服务的用户名称和密码都是合法的。进一步研究发现,域控制器OU的成员有一些特殊的权限,其中包括作为服务登录的权限。当出现问题的服务器移出该OU时,服务器失去了那些权限。现在要做的是恢复服务器的权限。

要将权限授予服务器,请按照如下步骤操作:

→在管理控制台(MMC)中打开活动目录用户和计算机管理单元,再打开域控制器OU的“属性”对话框。

→在组策略页中,点击“默认域控制器策略”,然后点击“编辑”,打开组策略管理器。

→依次扩展计算机配置/Windows设置/安全设置,再扩展“本地策略”,然后点击“用户权利指派”。

→在右边的窗格中,右击“作为服务登录”,选择菜单“安全”。

→把用来启动服务的用户帐户加入到策略(图一),完成后点击“确定”。

;

服务器硬盘故障前的表现

硬盘,这是服务器内最重要的东西,它也可能会出现故障,那么硬盘故障前的表现是怎么样的呢

1、故障提示。也就是我们常说的,硬盘自我监测、分析错误报告。在其控制的磁头、磁盘、电路等部件发生与预存的安全值发生冲突的时候,就会自动发生警告信息。而当出现这个故障提示的时候,我们就改引以为戒,尽快分析和处理。

2、硬盘无法识别。启动时,时不时的显示硬盘无法识别,或者即便能识别,但是系统显示无法显示硬盘,这就是物理故障的前兆。这个时候,我们就需要对重要数据进行转移,而后进行检测维修。

3、系统运行出错。服务器运行过程中,不断出现程序错误的状况,而且磁盘扫描问题,停滞、甚至死机。这个时候,就代表硬盘发生故障了,当然了,也可能是因为安装系统故障的原因,在我们排除软件问题后,就能确定是硬盘故障,需要进行检修。

4、运行报错。扫描磁盘,发现错误,甚至显示出现坏道。这个时候则表示硬盘部件问题,出现了坏道,我们需要将其进行隔离,保证正常使用。

5、初始化死机。初始化即死机,虽然不排除其他部件发生问题的可能性,比如内存问题、风扇问题、系统中毒等等,但是,最可能还是因为硬盘故障的问题,需要进行相关分析

服务器故障分析的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于服务器故障案例、服务器故障分析的信息别忘了在本站进行查找喔。

取消
扫码支持 支付码