陈睿
教育经历
乔治城大学, 美国 硕士–计算机科学 GPA: 3.90/4.0 2021.08 – 2023.05
武汉理工大学, 中国 本科–计算机科学与技术 GPA: 3.74/4.0 2015.09 – 2019.06
- 2018.08 获中国大学生计算机设计大赛全国一等奖、全国高校大数据应用创新大赛华中赛区二等奖
专业能力
- 分布式集群构建与运维:全链路负责相关业务的k8s集群构建、业务部署与稳定性保障,具备生产集群的运维经验,深入理解k8s controller/scheduler工作机制;熟悉Karpenter与terraform等云原生组件
- Linux 内核与网络:扎实的 Linux 环境的运维能力,具备生产环境业务问题的定位能力
- 可观测性与稳定性: 熟练运用基于 Prometheus/Loki等 Grafana 的监控体系,对ElasticSearch为核心的ELK体系也能快速上手。具备 On-Call 实战经验,擅长快速响应并在infra层及时止血并定位根因
- 开发语言:Python (熟练掌握,熟悉部分标准库源码和大量第三方库,实战开发经验丰富),Golang (基础阅读/修改能力,主要用于理解k8s)
- 拥抱开源,热爱折腾,永远好奇,空闲时间常参与开源项目的开发与贡献
工作经历
- DevOps 工程师
- Mobileye REM China
- 北京
- 负责中国区核心业务的k8s集群构建与运维,集群规模50+节点,开发部署配套设施与工具
- 参与部分核心业务的开发工作
- 负责核心业务的架构迁移,针对不同的业务需求,推进现代化框架的迁移
工作相关项目
Route Matcher 2023.11 – 2026.03
- 业务 infra 负责人
- C端业务
- 车端智驾平台领航服务
- 负责k8s集群的构建与运维,主导负责了该业务从docker swarm+nomad到k8s的迁移部署及维护
- 根据服务的负载曲线,基于HPA (QPS/cpu) 重构了业务的弹性策略,在保障P99延迟 <100ms 的原有前提下,将月度计算资源开销降低了60%的开销
- 作为on-call第一响应人,有充分的线上应急/debug经验,配合解决过线上新版本OOM、长时无响应、crashloop等问题,帮助稳住服务并快速上线hotfix恢复
- 解析业务产生的ADCU数据,配套开发基于MVT的可视化图层工具并集成到内部地图系统,并基于fastAPI+react配套开发了web service,提升了global Team的开发效率
RSD Ingestion 2024.11 – 至今
- cloud infra负责人
- C端业务
- 地图数据采集/处理
- 原始架构基于 docker swarm + nomad,通过监控EC2的CPU负载配合SQS消费任务,控制粒度太粗,资源碎片化严重,任务长尾延迟;原先负责业务老架构下的运维,目前主导该业务的k8s集群迁移
- 现代化改造(进行中):设计和实现原有worker任务的解耦;主导设计基于k8s job模式的迁移方案,引入KEDA实现 0 pod的弹性,基于SQS队列深度来动态扩缩容worker
- 调度优化:针对离线任务 CPU 密集且无状态的特性,设计pod反亲和调度与 QoS Guaranteed配置,确保逻辑上的单 Pod 独占 CPU 核心。
技术探索与社区贡献
ME-llm 2024.06 – 2025.03
- 基于Docker单机部署 vllm+open-webui部署量化的LLM(Qwen3-32B-AWQ),为团队引入合规室离线环境 LLM 辅助编程/文档处理能力,在离线受限环境完成PoC。通过该预研,深入了解了GPU 容器化 关于 显存隔离、模型预热等痛点,并接触了 Volcano (Gang Scheduling) 等调度方案,积累了选型经验。
- 代码贡献者
- 开源项目
- LLM agent(codeact)
- 修复了基于openrouter/claude的模型无法正确使用cache_control的问题.PR:!8692
- 修复了browser tool引入后导致fn_call调用失败的问题。PR: !8695
Mareo 2025.06 – 2025.08
- infra架构设计与开发
- 创业项目
- 基于adk的LLM agent
- 从零开始基于adk+fastAPI开发,使用k8s部署在阿里云;基于github action 流水线,实现了自动化单元/集成测试、多环境的自动化构建及多开发分支的自动化独立部署