谷歌和甲骨文的服务器宕机,如何解决

发布于:2023-01-22 ⋅ 阅读:(8) ⋅ 点赞:(0) ⋅ 评论:(0)

由于创纪录的高温继续使欧洲升温,谷歌和甲骨文在英国的数据中被“热”崩了,由于数据中心无法承受热量,选择的机器被关闭以防止长期损坏,导致一些资源、服务和虚拟机变得不可用,不幸的网站被关闭等等。

目前还不清楚谷歌和甲骨文的服务器宕机会影响到多少用户,但宕机肯定会给使用甲骨文和谷歌云服务托管网站的用户带来问题。下面,小编就给大家分析一下服务器宕机怎么处理?

一、监控和警报系统

防止服务器宕机的最重要步骤之一是始终了解基础架构的情况。能够在问题发生之前发现和识别问题或可能会中断您的网站的访问能力是至关重要的。为此,您需要监控基础架构的性能和威胁检测。

存在大量软件包和服务(例如Grafana、Munin 或 Pingdom),可让您深入了解基础架构和站点的运行情况。这些服务将帮助您监控服务器运行状况,例如:

服务器负载。

磁盘空间。

硬件健康。

页面加载时间。

软件状态。

二、高可用性

防止服务器宕机,需要确保您使用高可用性设置。高可用性可以通过使用一台服务器(我们可以称之为主服务器)来处理所有
流量,但另外一台服务器(称为辅助服务器)等待事件发生,例如流量高峰。此附加服务器不断与主服务器同步数据和文件。

当主服务器遇到问题时,辅助服务器几乎会立即接管并继续为您的站点提供服务。这种特定类型的关系可以称为自动故障转移或主动/被动,并且非常常见,尤其是对于数据库服务器。

三、 地理冗余

防止服务器宕机,需要拥有的基础设施将相隔足够大的距离,不会影响两个位置。

当位置 A 发生中断时,位置 B 的服务器会检测到问题并准备好接收流量。虽然贵了一倍,但这是确保您的网站保持在线的最有效方法之一。

地理冗余解决方案非常复杂,通常需要大量服务和监控解决方案才能有效地执行从位置 A 到 B 的切换。数据同步(以确保访问者访问的任何位置都是另一个位置的镜像)、DNS 更改(需要当站点脱机时将客户端浏览器定向到适当的位置)和多项健康检查(以确保简单的失败 ping 不会对整个站点进行故障转移)只是有效和安全地运行基础架构所需的部分内容以地理冗余的方式。

四、代码版本控制和恢复

虽然不可能 100% 防止服务器宕机问题,但我们能够采取预防措施将影响和风险降至最低。 确保员工(甚至您自己)所做的

任何更改都得到另一个人的审查,这是验证代码或更改是否安全、健全且不会引入重大更改的绝佳步骤。此代码审查或同行审

查是大型组织为确保不会遗漏意外拼写错误或冲突而采取的关键步骤。

目前,谷歌和甲骨文正在努力将受影响的基础设施恢复到健康状态。希望以上四点能帮助到大家预防服务器宕机的措施,以防止进一步的硬件故障。