实践:使用SR-IOV在k8s集群中提供rdma网卡
生产环境中,遇到节点上8张GPU、2张RDMA网卡的情况,RDMA网卡使用RoCE V2,需要对RDMA网卡做SR-IOV,以做到GPU与RDMA网卡数量1:1。记录下操作过程与其中遇到的坑。
使用Loki监控Kubernetes中的AI训练任务
Loki是一个由Grafana Labs开发的开源日志聚合系统,旨在为云原生架构提供高效的日志处理解决方案。本文将介绍Loki的工作原理、部署方法以及如何在AI训练场景下利用它来监控训练日志。
eBPF在CPU调度上的应用
目前的开源项目中,主要是将eBPF应用在网络、安全、系统观测方面。近些年eBPF技术也开始应用在调度器上,实现调度器的可观察、可编程。本文主要介绍一些eBPF技术在调度器上的应用尝试。