设为首页
收藏本站
用户名
Email
自动登录
找回密码
密码
登录
立即注册
只需一步,快速开始
快捷导航
登录
注册
论坛首页
BBS
建站模版
微站设计
虚拟主机
企业邮箱
博客日志
Blog
搜索
搜索
搜索
热搜
长春
优惠
活动
做网站
本版
帖子
用户
本版
帖子
用户
请
登录
后使用快捷导航
没有帐号?
立即注册
道具
勋章
任务
留言板
设置
我的收藏
退出
时时商务社区
»
论坛首页
›
资讯分享
›
今日头条
›
阿里千亿交易背后,运维如何做到“0”故障发布? ...
返回列表
查看:
2628
|
回复:
0
阿里千亿交易背后,运维如何做到“0”故障发布?
[复制链接]
阿情
当前离线
积分
7622
2560
主题
2560
帖子
7622
积分
论坛元老
论坛元老, 积分 7622, 距离下一级还需 9992377 积分
论坛元老, 积分 7622, 距离下一级还需 9992377 积分
积分
7622
发消息
电梯直达
楼主
发表于 2018-4-28 15:09:35
|
只看该作者
|
倒序浏览
|
阅读模式
阿里巴巴千亿交易背后,如何尽量避免发布故障?面对实际运维过程中遇到的问题该如何解决?近日,阿里巴巴运维技术专家少荃,给我们带来了解决方案和思路。
近几年,我们在发布效率和稳定性方面做了不少工作,其中效率简单的说就是发布耗时。
一个是发布的速度,
比如一个应用是 1 个小时发布完成,还是 5 分钟发布完成?
另一个是人员介入,
开发在发布过程中是否需要介入处理各种发布过程中出现的问题?这两者都做好了,才能说是发布效率提升了。
稳定性最基础的是系统的稳定性,保障系统的可用,而最关键的是要保障通过系统来进行发布的应用的稳定性,不会因为发布而导致服务不可用等故障出现。
效率这块我们在集团内比较受好评的产品是 SP2P 的文件分发系统,叫做蜻蜓。
根据阿里自身的一些特点,我们实现了一套安全高效的 P2P 分发,同时在 P2P 的协议上引入了超级节点,就是 S,提升了 P2P 网络的启动速度,目前已经开源。
稳定性这块我们去年做了一个产品,叫做无人值守发布,
对发布进行检测,看看发布是否会引起问题,来提升发布的可靠性,今天就和大家一起交流这方面的心得。
线上发布之痛
我们为什么要在稳定性方面投入大量精力呢?先看一个笑话。
变更故障
这个笑话可能没那么好笑,但是它真真切切的说明了一个问题:理想和现实的差异,你以为是有四个单身狗陪你,但是实际却是另外两对情侣。
这个和我们做生产环境的发布是一样的,我们以为凭借我们出色的逻辑思维能力,已经把所有场景都想到了,测试也做的很充分了,但是,发布上线后,经常会遇到实际结果和预期不一致,故障发生了。
我们针对阿里的故障产生原因做了统计,其中很大一部分都是线上变更引起的,相信在座各位也会遇到或者制造过故障,开发和运维的同学对故障都是很敬畏的。
故障大家都遇到过,但是故障的影响差异会比较大。有些故障可能是故障发现后处理了一会就恢复了,有些故障则可能会导致严重的后果。所以我们需要尽量避免变更带来的故障。
业务挑战:阿里的特殊业务场景
回到阿里,我们都知道,去年双 11 的成交额已经达到了 1682 亿,想象下,这么大的交易额下,如果出现了故障,那会怎么样?
阿里现在的业务多样化发展,新零售、线下支付等一些新的业务场景,要求我们对故障更加敏感,要能够更好地避免故障,更快地发现和处理故障。
还有,如果是线下场景,比如用支付宝坐地铁,如果出现几分钟的服务不可用,那会怎么样?
如何才能有效的避免故障发生呢?
那么,如何才能在发布的时候有效的避免故障发生呢?
靠“蒙”?大家知道肯定不行。可是细想一下,很多时候确实或多或少在“蒙”。我个人是有过类似感受的。
我们虽然不会随便到不经过测试就进行线上发布,但是虽然已经经过了多轮测试,肯定还是没有办法覆盖线上各种复杂多样的场景的。
而这些没有办法覆盖的场景,就只能靠运气去"蒙"了,运气好的,这些场景没有问题;运气不好,刚好就其中一个场景出问题,出现故障了。
通常来讲,为了尽可能不要去“蒙”,我们会对上线流程加入各种验证环节,来保证发布尽可能可靠。
例如
发布前,
我们会通过各种测试来验证功能是否 ok,包括单元测试、集成测试等。
发布过程中,
我们会通过一些发布策略,例如先预发(预发布是一种特殊的线上环境,和线上使用同样的资源,比如数据库等,但是不会有用户流量进来)、然后灰度、然后分批滚动发布等方式,逐步将变更更新到线上。
发布完成后,又会借助一些故障预警系统,例如像阿里有 GOC 来尽早的发现故障,进行处理,这些环节的这些手段都已经有成熟的系统来进行支持,但是发布的时候,我们常常还是心里没有底。
分享到:
QQ好友和群
QQ空间
腾讯微博
腾讯朋友
收藏
0
回复
使用道具
举报
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
用户反馈
客户端