技术集锦 | 云原生 AI 技术原理及最佳实践系列
关于我们
更多关于云原生的案例和知识,可关注同名【腾讯云原生】公众号~
福利:
①公众号后台回复【手册】,可获得《腾讯云原生路线图手册》&《腾讯云原生最佳实践》~
②公众号后台回复【系列】,可获得《15个系列100+篇超实用云原生原创干货合集》,包含Kubernetes 降本增效、K8s 性能优化实践、最佳实践等系列。
③公众号后台回复【白皮书】,可获得《腾讯云容器安全白皮书》&《降本之源-云原生成本管理白皮书v1.0》
④公众号后台回复【光速入门】,可获得腾讯云专家5万字精华教程,光速入门Prometheus和Grafana。
摘要
云原生已成为了云计算行业下一代的标准。目前,除了传统应用与基础架构的云原生化,AI 与大数据也开始拥抱云原生的架构。
腾讯云容器服务基于在云原生领域的技术沉淀,推出模块化,低耦合、高扩展性的云原生 AI 服务,旨在利用云原生的思想和技术,为 AI 场景的数据处理、模型训练、模型上线推理等需求构建弹性可扩展的系统架构的技术,在支持更广泛、多样的用户需求的同时,提高开发、运维和设备的效率。
【腾讯云原生】收集了关于云原生 AI 系列干货文8篇,帮助你更好了解“云原生 AI”,一定要收藏哦!
技术原理 & 实践
云原生的弹性 AI 训练系列之一:基于 AllReduce 的弹性分布式训练实践
- 本文主要介绍了数据并行的分布式训练任务的弹性能力在 Kubernetes 上的设计与实现。并且通过实验的方式验证了特定的场景下,在保证训练精度的同时,这一特性能够使成本降低 70%。
云原生的弹性 AI 训练系列之二:PyTorch 1.9.0 弹性分布式训练的设计与实现
- 本文介绍了 PyTorch 1.9.0 版本中弹性训练的设计与实现。然后分析总结了实现弹性训练的方式和不同框架之间的设计差异。
云原生的弹性 AI 训练系列之三:借助弹性伸缩的 Jupyter Notebook,大幅提高 GPU 利用率
- 这篇文章介绍了 elastic-jupyter-operator 这一开源项目的使用方式以及工作原理。
- 本文介绍了 AI 类业务在公有云上的现状以及相应的技术选型和面临的问题,同时分享了对于未来全弹性的 AI 基础设施的展望。
Fluid + GooseFS 助力云原生数据编排与加速快速落地
- 本文介绍了 Fluid 技术的背景以及与 GooseFS 的关系,通过在 TKE 集群上的实际操练让大家体验 Fluid v0.6.0 的两大特性,让大家进一步了解云原生应用场景下的数据编排能力。
云原生 AI 前沿:Kubeflow Training Operator 统一云上 AI 训练
- 本文介绍了 kubeflow 社区面对多个 训练 operator 遇到的维护、性能上的问题,通过融合的方式构建统一的 training-operator。
Aggregated APIServer 构建云原生应用最佳实践
- 本文从实战角度出发介绍我们开发 SKAI 平台过程中选择 Aggregated API 的原因,以及 kube-apisever 的扩展原理,演示如何构建起自己的 Aggregated API,并将它部署到 EKS 集群中。
GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发!
本文介绍了 TKE 提供的云原生 AI 能力和腾讯云自研网络协议栈 HARP,并指导用户如何在 TKE 上部署实践 TACO-Training 分布式训练方案。
【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯,扫码关注同名公众号,及时获取更多干货!!
![]()
- 技术集锦 | 大数据云原生技术实战及最佳实践系列
- 【华为云技术分享】基于华为云IOT及无线RFID技术的智慧仓储解决方案最佳实践系列一
- 新手入门:零基础理解大型分布式架构的演进历史、技术原理、最佳实践
- VR系列——Oculus最佳实践:四、渲染技术
- Redis,从技术原理到最佳实践
- EduAI 系列:深入解析数学高考机器人的技术原理
- 零基础理解大型分布式架构的演进历史、技术原理、最佳实践
- 【最佳实践系列】基于序列化技术的XML数据源操作模式
- 《深入解析Android:Telephony原理剖析及最佳实践》一书即将发行,欢迎各位Android开发、爱好者订阅
- 《java7核心技术与最佳实践》读书笔记之 multi-thread (3)
- 微软WPF技术应用与实践系列(窗体与导航+容器+模型+数据绑定配多个应用案例)
- NLP汉语自然语言处理原理与实践 3 词汇与分词技术
- 第四讲 构建安全的Microsoft ASP.NET 应用的最佳实践和技术
- JNI技术实践小结--原理分析和详细步骤截图说明
- Azure Stack技术深入浅出系列5:在Azure Stack上使用Web App PaaS服务及其背后原理窥探(开发案例)
- 21天实战人工智能系列:人工智能产品经理最佳实践(2)
- 【SpringCloud技术专题】「Gateway网关系列」(3)微服务网关服务的Gateway全流程开发实践指南(2.2.X)
- 【自动化测试技术QTP基础系列三】--深入探讨录制回放原理
- 大数据管理:数据集成的技术、方法与最佳实践 读书笔记四
- php核心技术与最佳实践知识点(下)