有赞云应用远程调试工具

一、背景和简介

1.1 背景

电商云有容器应用场景下,第三方外部开发者的应用是托管在我们有赞云平台的容器中的,出于安全以及整个平台稳定性的要求,应用容器执行环境对外部开发者用户都应该是透明黑盒的。而电商云环境下容器应用的运行会直接依赖于电商云平台所提供Apollo、rds、kvds等各种底层中间件能力,这就导致外部开发者想要实现应用代码的本地调试几乎是不现实的。同时考虑到复杂的网络环境和安全稳定性的要求,平台也不可能开放用户直接连到线上容器应用中利用JVM提供的基于JDWP的远程调试功能。外部开发者强烈的调试需求要求我们平台给外部开发者提供一种在电商云环境下的应用的调试能力。

1.2 简介

有赞云应用远程调试工具是一种不侵入应用代码、不打断应用代码执行、尽可能少的影响代码执行效率的前提下,实现线上应用近似本地调试的体验的调试工具。

总体实现思路是通过java字节码增强技术对开发者指定的代码类包进行精准增强,在满足设定的命中条件时对应用程序执行过程进行录制生成快照,然后用户使用平台提供的IDE回放插件就登录下载快照文件进行本地回放,达到近似本地调试的体验。

二、整体架构

2.1 架构图

部署图(外部)(详细) 上图简要描述了工具的整体架构:

  • IDE插件主要有状态管理,录制文件管理等模块,通过轮训状态来执行下载文件和回放操作;
  • record-server是的作用是中枢调度,主要包含三大块:录制管理,沙箱调度,数据管理。
    • 录制管理:管理有赞云应用容器中的沙箱和录制状态;以及拆分IDE插件的指令分发给沙箱调度器和数据管理器
    • 沙箱调度:提供有赞云应用容器中可执行的沙箱指令;
    • 数据管理:管理请求录制快照数据;
  • 有赞云环境和有赞云应用容器之间有安全策略,限制请求只能有赞云调用有赞云应用容器的服务;
  • 在有赞云应用容器环境中的数据和状态流转使用的是kafka和flink

2.2 设计上的考量

为了达到项目的总体目标(不侵入应用代码、不打断应用执行、尽可能少的性能损耗、合理的录制数据量),我们项目一期设计上做了一些权衡:

  1. 录制结束后恢复:录制时按需对应用代码字节码增强,录制结束后进行恢复;
  2. 录制范围:应用代码字节码增强后对代码执行效率影响是很大的,考虑到大部分用户只关注自己实现部分的业务代码逻辑的调试,对一些java标准类库、第三方包等的深入调试需求很低,所以我们仅对指定包路径下的类代码进行增强录制快照;
  3. 录制场景:完整录制整个应用的执行快照的话,录制性能损耗高、录制数据量大,应对多线程录制并发问题,复杂度高等问题,但大部分应用场景更多的是关心单个线程执行链路的正确性调试,所以我们简化设计——对单线程中某个方法运行情况进行录制;
  4. 录制命中条件:一期尽量简化录制条件避免无冗余重复录制,具体设计为:设置录制命中入口函数,启动录制后,代码执行第一次到达入口函数即为命中,当前线程即进入录制状态,录制并保存该线程的运行时快照信息,当前线程从入口函数返回即为录制结束;
  5. 行录制优化:尽量减少无效的行录制(仅对发生赋值操作或发生函数调用后的行进行录制);
  6. 快照数据优化: 仅对类对象中get方法和public 属性序列化生成快照;
  7. 录制过程异步化: 录制过程中代码增强与反增强过程、快照数据持久化、录制组件初始化与清理等都采用异步化实现。

三、IDEA插件介绍

3.1 插件界面展示及功能介绍

image-20200217140102129 插件目前支持的功能包括:

  • 权限管理:通过手机号和token进行验权;
  • 有赞云远程调试启动器:打开有赞云应用代码,配置入口类和入口方法,开始调试,然后出发接口调用,录制结束后自动跳到入口类和方法的第一行,然后就可以进行无阻塞的快照形式的调试,一次录制多次调试;

3.2 插件运行流程

插件运行流程图

3.3 构建文件索引

image-20200218162742183

目前索引内容是用内存实现的,未来会支持本地文件检索。下面简单介绍下这样设计的原因:

  • 调试步骤包括resume、stepOver、stepInto、stepOut、点击调用栈跳转,需要根据每种步骤计算出对应的行快照信息并展示;
  • 方法信息:计算出对应行快照信息之后获取方法的相关信息展示到调试栏;
  • 类对应的行快照:用来在点击调用栈跳转时根据类名和行号定位行快照的;
  • 方法调用对应行快照:用来stepOver时快速找到下一行使用;
  • 所有行快照:用来stepInto快速定位下一个录制行快照使用;
  • pos:记录当前正在调试的位置;

四、应用方法执行录制

应用方法执行录制是基于阿里开源的jvm-sandbox进行定制后实现的,主要做的事情包括:

  • 增强了jvm-sandbox的内核,支持行调用通知获取局部变量;
  • 增加了sandbox录制的插件,用来监听事件来进行数据处理和持久化;

4.1 Jvm-sandbox内核增强

EnhanceBySandbox

上面是代码增强逻辑的伪代码呈现,上面例子中真实增强的代码实际反汇编后如下:

image2019-8-13_14-42-22

与开源版本的区别

扩展内容:

  1. Spy.spyMethodOnCallBeforeExt,Spy.spyMethodOnCallReturnExt,Spy.spyMethodOnCallThrowsExt扩展了参数列表,用来未来扩展
  2. Spy.spyMethodOnLineExt:行调用前通知,用来录制当前对象和方法参数和本地变量(本次主要使用的扩展)

4.2 沙箱录制模块加载过程

沙箱启动加载模块过程

4.3 局部变量表分析

在进行字节码增强之前会通过ClassMetaVisitor先进行一次字节码分析拿到局部变量表。流程如下:

局部变量表分析过程

  • appendLabel:记录label信息;
  • appendLineNumber:记录行号信息,并记录行号和label对应关系;
  • appendLocalVariable:记录局部变量信息和对应的开始和结束的label
  • updateLocalVariableLine:根据开始结束的label计算本地变量的作用的行号范围,一般情况下查找行号的规则是计算当前label的行号信息,当前label没有行号信息时开始label向后找,结束label向前找
  • updateLocalVariableScope:优化局部变量表的有效范围,防止局部变量表有复用的情况时存在两个复用的局部变量存在有效行区间存在覆盖的情况
  • registerMethodMeta:存储分析好的局部变量表

4.4 录制过程解析(以行录制为例)

Java-debug-recorder

  • beforeLineExt:获取到计算后的局部变量表,然后获取对应变量值并持久化

4.5 录制数据模型

录制数据模型

五、沙箱环境管理

沙箱环境管理

上图简述了沙箱的安装和卸载的管理过程;其中record-server不能直接和有赞云应用容器交互,必须通过ops中转;

六、未来规划

  1. 丰富各种录制场景应对复杂问题调试;
  2. 提高录制性能;目前在开启录制之后代码运行速度很慢,可能会造成接口调用超时
  3. 远程调试+热部署,边开发边调试更加极致的开发体验(DCEVM + HotSwapAgent );
欢迎关注我们的公众号