微调大型语言模型(LLMs)与LoRA:实现高效且可扩展的人工智慧解决方案
介绍
生成式人工智慧应用的激增已经彻底改变了从内容创建到高级分析的行业。在这些创新背后,核心是大型语言模型(LLMs),它们为聊天机器人、推荐系统和实时翻译等应用提供动力。然而,将这些模型部署到特定案例中,通常需要进行微调,以使预训练的LLMs适应特定领域的需求。微调这些庞大的模型可能会消耗大量资源,这使得研究人员和开发者探索像低秩适应(LoRA)这样的高效方法。
理解微调LLMs和LoRA
微调是将预训练的 LLM 调整为在特定任务或数据集上表现良好的过程。然而,这一过程计算成本高且资源密集。LoRA 通过冻结模型大部分的预训练权重并将低秩分解矩阵引入特定层来解决这些挑战。这种方法大幅减少了可训练参数的数量和计算开销,同时保持高性能。
硬体需求:来自AMD实验的见解
最近,AMD 使用 TorchTune 库和 ROCm 进行的实验展示了 Llama-3.1-8B 模型的微调。通过整合 LoRA 以实现高效微调,对两个及以上 MI210 GPU 的测试展示了微调中型 LLM 的能力,显着减少了内存使用和计算成本。与需要大量小时或几天的微调相比,使用 LoRA 的过程仅需 1.5 小时即可在包含 2000 个训练实例的数据集上完成,每个实例的最大序列长度为 2048 个标记。GPU 资源效率的改善在图 1 中显示,以便对耗时比进行粗略比较。

图1 LLM微调与LLM训练的时间消耗比例
结果还突显了TorchTune如何实现从2到8个GPU的扩展,并展示了运行时的改进。

图2 为了实验目的,AMD 对 Llama3.1-8b 进行了仅一个时期的微调。
AEWIN 已经验证其配备 MI210 GPU 的边缘伺服器,详细资讯已包含在之前发表的白皮书中。通过整合 AMD 的 MI210 GPU,AEWIN 的解决方案使组织能够利用 LoRA 启用的微调能力,应用于特定领域的生成 AI 应用。
可扩展且可靠的 AEWIN 边缘伺服器平台
为了满足对边缘计算中微调LLM日益增长的需求,AEWIN的边缘计算伺服器支持最新技术并具成本效益,已准备好进入市场。AEWIN平台的一些主要优势包括:
- 可扩展性模组化设计支援灵活的 GPU 配置,以应对不断变化的工作负载。除了加速卡外,还提供多种功能卡,包括网路介面卡(NIC)、快速加速技术(QAT)、E1.S 储存适配器卡等,以实现高吞吐量、增强安全性和高速工作负载。
- 可靠性严谨的验证有助于在多样的部署场景中保持一致的性能。AEWIN 进行信号模拟、预模拟、后模拟和信号验证,以支持 PCIe Gen5,详细信息已包含在我们之前的技术博客/白皮书中。
- 边缘优化针对边缘计算而设计,该系统具有紧凑的外形和先进的热管理解决方案。在设计阶段,AEWIN边缘伺服器採用了短深度和前方接入的特性,以便于轻松部署和方便维护。
摘要
微调 LLM 对于释放其在特定领域应用中的全部潜力至关重要。像 LoRA 这样的技术优化效率,使其更易于获得且具成本效益。AEWIN 的可扩展边缘伺服器支持 MI210 等 GPU,为希望在各种 AI 驱动解决方案中部署微调 LLM 的组织提供了稳健的基础。

