英伟达推出NVIDIA TensorRT-LLM

9月9日，全球人工智能领导者英伟达(NVIDIA)宣布推出NVIDIA TensorRT-LLM，用于提升大语言模型的推理能力。

根据英伟达官方介绍，TensorRT-LLM由TensorRT深度学习编译器组成，包括优化的内核、预处理和后处理，以及用于在NVIDIA GPU上实现突破性的多GPU/多节点通信，这使开发人员能以最高性能和快速自定义功能，而无需深入了解C++或NVIDIA CUDA快速尝试不同的大语言模型。

目前，TensorRT-LLM处于测试阶段，未来几周内会正式发布并开源。

TensorRT-LLM性能评测：

自动生成摘要是大语言模型常用功能之一，在此测试中，TensorRT-LLM 在最新NVIDIA Hopper架构上实现了性能突破。例如，H100在TensorRT-LLM的加持下，将GPT-J 6B大模型的推理能力提升了8倍。

NVIDIA TensorRT-LLM

在Meta发布的Llama 2700亿参数大预言模型上，TensorRT-LLM可以将推理性能比 A100 GPU提高 4.6倍。

NVIDIA TensorRT-LLM

目前，大语言模型正处于高速发展阶段，一些最大、最先进的语言模型，比如Meta的700亿参数的Llama 2，需要多个GPU配合工作才能达到最佳效果。因此，开发者必须重写并手动将AI模型分割成片段，并在GPU之间协调工作。

TensorRT-LLM采用了张量并行性的方法，其中单个权重矩阵在设备之间分割。这使得可以在大规模上实现高效推理，模型可在通过NVLink连接的多个GPU以及多个服务器之间并行运行，而无需开发者干预或更改模型。

目前，TensorRT-LLM已完全优化好，无需任何修改即可投入使用的模型包括Meta的Llama 2，OpenAI的GPT-2和GPT-3、Falcon、Mosaic MPT、BLOOM等十多种主流大语言模型。

未来，TensorRT-LLM还会持续扩大对大语言模型的支持范围，使得开发人员能以低能效、高效率快速开发属于自己的产品以满足业务需求。

阿里云重磅推出全新升级的轻量应用服务器