“云”若想具有令用户放心的权威技术优势,必须要具备以下基本条件:超大规模的IDC机房、数据多副本容错的高可靠性、自服务随需分配、快捷的网络访问和资源池,能满足云上软件应用和用户规模增长的高可扩展性。
风云在线(www.cnsaas.com)平台针对软件应用、负载均衡设备、平台门户网站等运营中所有过程都有详细应急预案,包括平台工程师、系统工程师、产品工程师在内的应急团队实行24小时值班制,以保证用户能够不间断的获得优质的SaaS服务。
以负载均衡设备故障为例,可见风云在线(www.cnsaas.com)平台的紧急处理能力:
预案事件描述
负载均衡设备宕机,没有DNS解析。
预案启动条件
负载均衡设备硬件故障,无法启动。
应急处置过程及需要时间
1. 从应用系统无法正常使用到判定符合预案启动条件为3分钟;
2. 检查网络与互联网连接,检查防火墙外部各接口地址,1分钟;
3. 检查防火墙会话、资源、策略是否正常,3分钟;
4. 检查Name Server健康状态和监控的报告,3分钟;
5. 检查NameServer记录解析能力,1分钟;
6. 确诊为负载均衡设备不可用,2分钟;
7. 删除NameServer上对于www的委派记录,1分钟
8. 添加www的A记录,对应地址为222.92.116.101 ,2分钟
恢复系统需要16分钟,总处理时间为16分钟-21分钟。
应急处置结果
1. 负载均衡设备Radware发生硬件故障,用户无法通过DNS解析门户
2. 直接使用DNS服务器解析,暂时取消链路负载均衡功能。
预案处理要求
准确判断预案启动条件后,及时通知相关人员到场,使应用系统在最短时间内恢复正常使用。保留现场。
恢复方法见预案流程说明中的操作方法。
演练要求
1. 建立模拟环境和选择访问最少的时段进行演练;2. 在主要系统管理员人员发生变更和承载服务器、数据库及阵列、软件发生变更时要进行演练;3. 在演练前通知所有相关接口部门,评估可能的风险和规避措施;4. 演练前应填写工作单,并对系统做全备份;5. 演练结束形成演练总结报告。
预案流程说明
1、 演练发起
2、 启动预案流程
3、 结束预案流程并生成此次预案报告

没有评论:
发表评论