NVIDIA NIM 简介

NVIDIA NIM 是一组易于使用的微服务，旨在加速在云、数据中心和工作站中部署生成式 AI 模型。NIM 按模型系列和每个模型分类。例如，用于大型语言模型 (LLM) 的 NVIDIA NIM 将最先进的 LLM 的强大功能带入企业应用程序，提供无与伦比的自然语言处理和理解能力。

NIM 使 IT 和 DevOps 团队能够轻松地在自己的托管环境中自行托管大型语言模型 (LLM)，同时仍为开发人员提供行业标准 API，使他们能够构建强大的副驾驶、聊天机器人和 AI 助手，从而改变他们的业务。利用 NVIDIA 的尖端 GPU 加速和可扩展部署，NIM 以无与伦比的性能提供了最快的推理路径。

高性能功能

NIM 抽象了模型推理内部结构，例如执行引擎和运行时操作。无论是使用 TRT-LLM、vLLM 还是其他，它们也是性能最高的选项。 NIM 提供以下高性能功能：

可扩展部署，性能卓越，可以轻松无缝地从几个用户扩展到数百万。

高级语言模型支持，具有预生成的优化引擎，适用于各种尖端 LLM 架构。

灵活集成，可轻松将微服务纳入现有工作流程和应用程序中。为开发人员提供 OpenAI API 兼容的编程模型和自定义 NVIDIA 扩展，以获得更多功能。

企业级安全通过使用安全张量、不断监控和修补堆栈中的 CVE 以及进行内部渗透测试来强调安全性。

应用程序

聊天机器人和虚拟助手：赋予机器人类似人类的语言理解和响应能力。

内容生成和摘要：轻松生成高质量内容或将冗长的文章提炼为简洁的摘要。

情绪分析：实时了解用户情绪，推动更好的业务决策。

语言翻译：通过高效准确的翻译服务打破语言障碍。

还有更多……NIM 的潜在应用非常广泛，涵盖各种行业和用例。

架构

NIM 以每个模型/模型系列为基础打包为容器映像。每个 NIM 都是一个带有模型的 Docker 容器，例如 meta/llama3-8b-instruct。这些容器包括一个运行时，可在任何具有足够 GPU 内存的 NVIDIA GPU 上运行，但某些模型/GPU 组合经过了优化。NIM 会自动从 NGC 下载模型，并利用本地文件系统缓存（如果可用）。每个 NIM 都是基于一个通用基础构建的，因此一旦下载了 NIM，下载其他 NIM 的速度就会非常快。

在这里插入图片描述

首次部署 NIM 时，NIM 会检查本地硬件配置和模型注册表中可用的优化模型，然后自动为可用硬件选择最佳版本的模型。对于 NVIDIA GPU 的子集（参见支持矩阵），NIM 会下载优化的 TRT 引擎并使用 TRT-LLM 库运行推理。对于所有其他 NVIDIA GPU，NIM 会下载未优化的模型并使用 vLLM 库运行它。

NIM 通过 NVIDIA NGC 目录作为 NGC 容器映像分发。NGC 目录中的每个容器都有一份安全扫描报告，该报告提供该映像的安全评级、按软件包细分的 CVE 严重性以及有关 CVE 的详细信息的链接。