摘要:本文介绍了华为云对冷启动优化这一业界难题的探索之路,创新提出了基于进程级快照的优化方案。
作者信息——
子游:华为元戎高级工程师
平山:华为云中间件 Serverless 负责人
琪君:华为元戎负责人
Serverless应用启动时,都需要先进行初始化。其初始化时长一般取决于应用本身的属性,如业务逻辑、编程语言等,其中Java应用的初始化过程通常是最慢的。以下基于一个典型的Java应用,对其启动时延进行拆解,各阶段耗时分布如图1所示:
图1:Java应用启动耗时分解
其中,端到端冷启动耗时可分为2大部分:
主要包含执行环境创建(如容器启动)、执行环境初始化(如代码包下载、部署)等准备工作,此阶段最多是秒级响应,在冷启动整体耗时中占比很低,通常不到5%,平台侧也支持一些优化方式,将耗时进一步压缩至毫秒级;
主要包含应用框架启动(如构建Spring ApplicationContext)、业务初始化(如业务数据初始化)等动作,此阶段耗时一般较长。在本例中,应用框架启动耗时占比约30%,业务初始化占比约65%。由此推断,该阶段执行的动作是Java应用启动慢的核心所在。
Java应用启动慢的根因其实也不难理解,主要有:
图2: hello world依赖的class个数
因此,对于时延敏感型的Java应用程序,在突发流量下发生冷启动时,可能会导致用户体验下降。为了应对这一挑战,用户可以提前预留资源来减少冷启动发生的频率,或者对自己的应用进行性能调优,但是第一类方案无形中增加了用户的keep-alive成本,第二类方案也有着较高的技术门槛且往往效果比较有限。
业界针对Java应用的启动速度优化已有一些优秀的实践,可分为以下几类:
如Lazy Initialization[3]、Scanning-index[4]等,前者通过懒加载的方式来减少启动时加载类的数量,一定程度上提升启动速度;后者通过在编译阶段创建索引,避免启动时扫描所有路径来进行加速。但是该类方案在Serverless场景缺乏一定的普适性。
华为云FunctionGraph创新提出的基于进程级快照的冷启动加速解决方案,致力于在用户无感知(无需/少量进行代码适配)的前提下,帮助用户突破冷启动的性能瓶颈。本优化方案直接从应用初始化后的快照进行运行环境恢复,跳过复杂的框架、业务初始化阶段,从而显著降低Java应用的启动时延,实测性能提升达90%+。
当用户Java函数打开冷启动加速的配置开关后,华为云FunctionGraph会预先执行函数对应的初始化代码,获取其初始化执行上下文环境的快照,并进行加密缓存。后续调用该函数并触发冷启动扩容时,会直接从提前初始化后的应用快照来恢复执行环境,而非重新走一遍初始化流程,以此达到极大提升启动性能的效果。
先结合图3直观对比一下优化前、后的冷启动流程差异:
图3:基于快照加速的冷启动流程
基于快照的冷启动流程,主要包含以下几个关键步骤:
Step 1:平台侧提前准备执行环境,并预执行初始化代码、保存应用快照,此动作后续统称为Checkpoint
Step 2:在请求到达,触发函数新实例扩容时,直接从应用快照来恢复新的执行环境,此动作后续统称为Restore
Step 3:(可选)应用进程从快照恢复后,执行Restore Hook完成业务状态的刷新
Step 4:应用Ready,具备接着往下执行业务逻辑的能力
特别的,容器本身也是主机上的进程,故本优化方案也支持容器粒度的Checkpoint,即对容器内指定进程进行CR,与传统的轻量化虚机快照相比,其精细化程度更高、也更灵活。其原理详见图4:
图4:基于容器的CR流程
华为云提出的基于进程级快照的冷启动加速方案,其核心技术依托于CRIU[5],它支持对用户空间指定的进程进行“冻结”(即停止进程,并将该进程运行的所有上下文持久化为镜像文件),并在必要时对其进行“解冻”(即通过保存的镜像文件来正确恢复进程运行的上下文),其核心工作流程如图5-6所示[6]:
图5:CRIU如何工作——Checkpoint
图6:CRIU如何工作——Restore
Checkpoint
Restore
如Part II所述,虽然本优化方案能极大提升Java应用的冷启动速度,但是快照技术在某些场景也存在一定的局限性,较难做到对现有应用的全透明化。通过快照恢复后,应用的网络连接状态会受到影响,涉及到TCP Socket重连等场景,如服务注册、DB连接,分布式通信,消息队列等。
这部分场景依赖应用本身的网络重连机制来更新正确,因此,本优化方案中也引入了Restore Hook的概念,提供手段让业务对这些状态进行刷新。
Restore Hook当前已支持大部分主流第三方组件的重连,详见图7:
图7:Restore Hook支持的第三方组件
不难发现,Restore Hook需要应用本身进行少量的代码适配。为了进一步简化应用的改造负担,我们也进行了一种新的技术尝试,可以理解其充当了用户应用与BaaS之间的纽带,通过状态卸载等手段,对开发者透明,帮助应用完成状态的自动化刷新。这部分探索会在后续的技术博文中跟大家分享,敬请期待。
我们选取了公司内部典型的Java应用,对其原始初始化流程、Restore流程进行了对比测试,如图8所示。测试结果表明,本优化方案将应用的启动速度平均提升了95%+,即使快照包的增大一定程度上增加了包下载、解压的耗时,但最终端到端的冷启动时延也降低了90%+。
图8:冷启加速前后的数据对比
华为云发布的基于进程级快照的冷启动加速方案,是一种性能优化服务,用户无需额外付费,只需进行简单的配置、少量的代码修改,即可享受到该创新方案带来的冷启动性能提升。
下文基于华为云FunctionGraph,为大家带来特性Quick Start:
1、登录FunctionGraph控制台,创建Java函数,并打开“快照式冷启动”开关
2、(可选)配置Restore Hook,并在函数代码中实现对应的Hook逻辑
3、函数发布新版本后,触发快照的自动化制作
4、请耐心等待快照制作完成(5min超时时间)
5、调用Java函数,体验快照优化后的性能提升
本文介绍了华为云对冷启动优化这一业界难题的探索之路,创新提出了基于进程级快照的优化方案。当然,本方案也并非十全十美,它依然面临着一系列挑战,如文中提到的应用状态刷新、进程级CR的精细化控制、多平台的兼容性等,我们也在持续探索、优化中。
同时,FunctionGraph 作为华为元戎内核加持的下一代 Serverless 函数计算与编排服务,致力于持续为用户提供方便、迅捷的Serverless 服务体验。您可以登录华为云FunctionGraph控制台来深入体验,更多信息请参阅FunctionGraph官方文档[7]。后续我们将分享更多围绕通用全场景 Serverless的前沿理论及其案例实践,回馈社区。
[1]https://www.graalvm.org/22.3/reference-manual/java/compiler/
[2]https://wiki.openjdk.org/display/HotSpot/Application+Class+Data+Sharing+-+AppCDS
[3]https://spring.io/blog/2019/03/14/lazy-initialization-in-spring-boot-2-2
[4]https://docs.spring.io/spring-framework/docs/current/reference/html/core.html#beans-scanning-index
[5]https://github.com/checkpoint-restore/criu
[6]https://speakerdeck.com/udzura/introduction-to-criu?slide=32
[7]https://support.huaweicloud.com/functiongraph/index.html