问题分析一台aws云主机先后crash了几次,查看系统dmes日志,排查crash原因[789106.990754] Uhhuh. NMI received for unknown reason 21 on CPU 6.[789106.
因为存在 Span 重叠的情况,为了能更直观的看到每个 Span 及子 Span的执行情况,我们前端在绘制火焰图的时候做了一些显示处理,即根据 时间 + 空间维度计算 Span 及子 Span 在完全不遮挡情况下显示的位置。
携程很久以前就已经开始进行DevOps的建设,通过Gitlab CI/CD在开发提交代码触发的流水线pipeline中引入静态扫描、单元测试、集成测试等流程,在开发过程中打造了一套闭环的代码质量保障体系。
最近整理笔记发现2017年的一个内核bug debug过程整理,觉得有一些值得分享和借鉴的地方,专门整理出来。问题简要现象:线上接口docker容器化的服务器不定时重启内核crash日志:[10505290.
dmesg 初步分析[ 423.400073] Unable to handle kernel NULL pointer dereference at virtual address 00000008[ 423.