技术沙龙报名 | 大规模混合部署项目在字节跳动的落地实践

avatar
@字节跳动

字节跳动技术沙龙是由字节跳动技术学院发起,字节跳动技术学院、掘金技术社区联合主办的技术交流活动。

字节跳动技术沙龙邀请来自字节跳动及业内互联网公司的技术专家,分享热门技术话题与一线实践经验,内容覆盖架构、大数据、前端、测试、运维、算法、系统等技术领域。

字节跳动技术沙龙旨在为技术领域人才提供一个开放、自由的交流学习平台,帮助技术人学习成长,不断进阶。

出品机构:字节跳动基础架构团队

  • 本期沙龙由字节跳动基础架构部门技术专家倾力打造,旨在分享在基础架构发展和演进过程中的实践经验与教训,与各位技术同学一起交流成长。
  • 字节跳动基础架构团队主要负责字节跳动私有云建设,支撑着字节跳动旗下多款明星产品,包括今日头条、抖音、西瓜视频、懂车帝、皮皮虾、多闪等。团队管理着数以万计服务器规模的集群,若干EB的海量数据的存储,服务数万台计算/存储混合部署和在线/离线混合部署规模,我们积极拥抱开源和创新的软硬件架构,为整个公司的发展保驾护航。

嘉宾及议题

- 邵伟 字节跳动资深研发工程师

2018 年加入字节跳动基础架构编排调度团队,主要从事 K8S 控制层和资源管理及调度相关的工作,目前负责推动服务动态伸缩和资源分级在字节场景下的落地。

《自动化弹性伸缩如何支撑百万级核心错峰混合部署》

TCE 作为字节内部的 PaaS 平台,承接了公司几乎所有在线服务的编排和调度工作,在底层对接了上万台规模的服务器资源;为充分利用在线服务流量的潮汐特性,TCE 大规模开启了基于细粒度时间段划分的服务自动化弹性伸缩,并在此基础上通过错峰的方式,实现了视频转码、模型训练和搜索抓取等近离线服务和在线服务之间资源的互通和拆解。

本次分享将主要侧重介绍 TCE 弹性伸缩和错峰控制管理的具体实践。

- 江帆 字节跳动资深研发工程师

2017 年加入字节跳动基础架构团队,拥有大规模 Kubernetes 集群的开发和维护经验,熟悉从 Kubernetes 到 Docker 再到 Cgroups 的整个核心链路。目前负责大规模在线离线混合部署、轻量级虚拟化等项目在字节跳动的落地。

《在高服务器利用率和毫秒级 QoS 之间需求折中》

随着字节跳动业务的高速发展,基于 Kubernetes 托管的机器数量越来越多。由于在线服务负载的潮汐现象导致机器利用率低下,空闲资源可用于运行离线任务来节约成本,但是受限于在线服务严格的 p99 延迟要求,将两种服务运行在相同机器上会严重影响在线服务的稳定性。

本次分享将从混部场景下的在线调度机制、离线调度机制和隔离策略三个方面,介绍如何实现在有效保证在线服务 SLO 的前提下,尽可能高地提升资源利用率。

议程安排:

  • 19:30-19:35 沙龙开场
  • 19:35-20:15 《自动化弹性伸缩如何支撑百万级核心错峰混合部署》 邵伟 字节跳动资深研发工程师
  • 20:15-20:35 互动抽奖
  • 20:35-21:15 《在高服务器利用率和毫秒级 QoS 之间需求折中》 江帆 字节跳动资深研发工程师
  • 21:15-21:35 互动抽奖
  • 21:35 活动结束

参与方式:

添加活动机器人「赵小饼」,回复“架构”入群。

5月30日直播开始时,我们会在群内提供直播链接,方便大家及时收到通知。

直播过程中,我们会在群内收集互动问题、进行抽奖等活动。

直播结束后,我们也会在群内分享嘉宾演讲视频、文字精华内容。

直播链接:

live.bytedance.com/8889/300251…

更多精彩分享

上海沙龙回顾 | 字节跳动如何优化万级节点HDFS平台

上海沙龙回顾 | ​字节跳动在Spark SQL上的核心优化

上海沙龙回顾 | Redis 高速缓存在大数据场景中的应用

上海沙龙回顾 | Apache Kylin 原理介绍与新架构分享(Kylin On Parquet)