九游会·(j9)官方网站

发布日期:2024-07-31 17:49    点击次数:69

Kubernetes 的要害特点奈何天然地称心 AI 推理的需求九玩游戏中心官网,以及它们奈何使推理职责负载受益。

译自5 Reasons To Use Kubernetes for AI Inference,作家 Zulyar Ilakhunov。

Kubernetes的好多要害特点天然顺应 AI 推理的需求,不管是 AI 驱动的微业绩仍是 ML 模子,简直像是有意为这个主义而联想的。让咱们来望望这些特点以及它们奈何使推理职责负载受益。

1. 可彭胀性

AI 驱动的应用要领和 ML 模子的可彭胀性确保它们简略贬责所需的负载,举例并发用户苦求的数目。Kubernetes 有三种原生自动彭胀机制,每种机制都对可彭胀性有意:水平 Pod 自动彭胀器 (HPA)、垂直 Pod 自动彭胀器 (VPA) 和集群自动彭胀器 (CA)。

水平 Pod Autoscaler字据多样蓄意(举例 CPU、GPU 和内存诈欺率)彭胀运转应用要领或 ML 模子的 Pod 数目。当需求增多时,举例用户苦求激增,HPA 会朝上彭胀资源。当负载减少时,HPA 会向下彭胀资源。垂直 Pod Autoscaler字据 Pod 的骨子使用情况调整 Pod 中容器的 CPU、GPU 和内存需乞降为止。通过改变 Pod 圭表中的limits,您不错戒指 Pod 不错接管的特定资源量。它对于最大化节点上每个可用资源的诈欺率很灵验。集群 Autoscaler调整通盘集群中可用的操办资源池,以称心职责负载需求。它字据 Pod 的资源需求动态地向集群添加或删除职责节点。这即是为什么 CA 对推理具有强劲用户群的大型 ML 模子至关遑急。

以下是 K8s 可彭胀性对 AI 推理的主要益处:

通过字据需要自动朝上和向下彭胀 Pod 副本数目,确保 AI 职责负载的高可用性通过字据需要自动调整集群大小来辅助产物增长字据应用要领的骨子需求优化资源诈欺率,从而确保您只为 Pod 使用的资源付费

2. 资源优化

通过透顶优化推理职责负载的资源诈欺率,您不错为它们提供符合数目的资源。这不错为您省俭资金,这在租用相通精粹的 GPU 时尤其遑急。允许您优化推理职责负载的资源使用的要害 Kubernetes 特点是高效的资源分拨、对limits和requests的介怀戒指以及自动彭胀。

高效的资源分拨: 您不错通过在 Pod 清单中指定来为 Pod 分拨特定数目的 GPU、CPU 和 RAM。然而,当今独一 NVIDIA 加快器辅助 GPU 的时刻切片和多实例分区。淌若您使用 Intel 或 AMD 加快器,Pod 只可苦求通盘 GPU。对资源“limits”和“requests”的介怀戒指:requests界说容器所需的最小资源,而limits拦阻容器使用起初指定资源的资源。这提供了对操办资源的细粒度戒指。自动彭胀: HPA、VPA 和 CA 不错提神铺张闲置资源。淌若您正确成立这些功能,您将不会有任何闲置资源。

借助这些 Kubernetes 功能,您的职责负载将得回所需的操办才略,不丰不杀。由于在云中租用中档 GPU 的本钱可能在每小时 1 好意思元到 2 好意思元之间,因此从永久来看,您不错省俭多半资金。

3. 性能优化

天然 AI 推理相通比锤真金不怕火资源密集度低,但它仍然需要 GPU 和其他操办资源才智高效运转。HPA、VPA 和 CA 是 Kubernetes 简略进步推感性能的要害孝顺者。它们确保即使负载发生变化,也能为 AI 驱动的应用要领分拨最好资源。然而,您不错使用其他器具来匡助您戒指和瞻望 AI 职责负载的性能,举例StormForge或Magalix Agent。

总的来说,Kubernetes 的弹性和微调资源使用才略使您简略为 AI 应用要领已毕最好性能,不管其大小和负载奈何。

4. 可移植性

对于 AI 职责负载(举例 ML 模子)来说,可移植性至关遑急。这使您简略在不同环境中一致地运转它们,而无需驰念基础设施互异,从而省俭时刻和资金。Kubernetes 主要通过两个内置功能已毕可移植性:容器化和与任何环境的兼容性。

容器化: Kubernetes 使用容器化时刻(如 containerd 和 Docker)将 ML 模子和 AI 驱动的应用要领与其依赖项一都打包到可移植容器中。然后,您不错在职何集群、任何环境中以至使用其他容器编排器具使用这些容器。辅助多云和搀杂环境: Kubernetes 集群不错诀别在多个环境中,包括公有云、独有云和土产货基础设施。这为您提供了纯真性并减少了供应商锁定。

以下是 K8s 可移植性的主要上风:

在不同环境中一致的 ML 模子部署更松驰地迁徙和更新 AI 职责负载选定云提供商或土产货基础设施的纯真性

在运转 AI 推理时,基础设施故障和停机可能会导致昭着的精度下落、不成瞻望的模子行径或只是是业绩中断。对于好多 AI 驱动的应用要领来说,这是不成选定的,包括安全要害型应用要领,举例机器东谈主、自动驾驶和医疗分析。Kubernetes 的自我诞生和容错功能有助于提神这些问题。

Pod 级和节点级容错: 淌若 Pod 出现故障或莫得反应,Kubernetes 会自动检测问题并重新启动 Pod。这确保了应用要领保握可用和反应。淌若运转 Pod 的节点出现故障,Kubernetes 会自动将 Pod 转换到健康的节点。转动更新: Kubernetes 辅助转动更新,因此您不错以最小的停机时刻更新容器镜像。这使您简略快速部署无理诞生或模子更新,而不会中断正在运转的推理业绩。就绪性和存活性探伤: 这些探伤是健康搜检,用于检测容器何时无法接管流量或变得不健康,并在必要时触发重新启动或替换。集群自我诞生: K8s 不错自动诞生戒指平面和职责节点问题,举例替换故障节点或重新启动不健康的组件。这有助于诊疗运转 AI 推理的集群的举座健康气象和可用性。

以下是 K8s 容错的主要上风:

通过保握 AI 驱动的应用要领高度可用和反应,进步了应用要领的弹性出现问题时停机时刻和中断最小通过使应用要领和模子高度可用并更能造反有时的基础设施故障,进步了用户空隙度

据招股说明书,云光科技成立于2013年8月29日,系电商SaaS企业,核心业务是基于电子商务平台为电商商家提供SaaS产品,在此基础上提供配套硬件、运营服务及CRM短信等增值产品及服务。

论断

跟着组织持续将 AI 整合到其应用要领中,使用大型 ML 模子并濒临动态负载,领受 Kubernetes 当作基础时刻至关遑急。当作托管 Kubernetes 提供商,咱们看到了对可彭胀、容错且经济高效的基础设施的需求不停增长,这种基础设施不错贬责AI 推理范围。Kubernetes 是一个原生提供扫数这些功能的器具。

念念要了解更多对于使用 Kubernetes 加快 AI 的信息?探索这本 Gcore 电子书九玩游戏中心官网。