在Synaptics Astra™平台上,通过极低比特量化优化AI性能
随着人工智能从云端逐渐走向日常设备,如何在边缘高效运行模型变得愈发重要。无论是语音交互还是实时数据处理,边缘AI都展现出广泛的应用潜力。但要在嵌入式系统的限制条件下实现这些功能,仍然面临不少挑战。
Synaptics携手ENERZAi共同破解边缘AI的挑战。Synaptics以其先进的边缘处理平台而闻名,为优化后的AI模型部署提供了坚实基础。双方携手,致力于让高性能AI在实际的边缘应用中更具可行性。
让AI推理更轻量、更高效
ENERZAi致力于通过模型压缩与优化,全面提升AI推理性能。其推出的软件引擎Optimium,专为算力、内存和功耗受限的设备打造,使复杂模型也能在边缘端高效运行。其中的核心技术之一就是极低比特量化,与主流的8位或4位量化相比,ENERZAi的创新方法将模型进一步压缩至1.58位。这不仅显著降低了模型体积和内存需求,还能大幅加快推理速度,在保持精度接近全精度模型的同时,释放出更强的边缘AI能效表现。
Whisper模型在Synaptics Astra™ SL1680平台的部署
在与Synaptics的合作中,ENERZAi将1.58位量化应用到OpenAI的Whisper小型模型,并部署在Astra™ SL1680处理器上。凭借四核2.1GHz的Arm® Cortex®-A73,Astra™在边缘AI应用中实现了计算能力与能效的最佳平衡。
结果显示,优化推理与先进量化技术的结合带来了显著的效果:
- 量化后的模型实现了6.38%的词错误率(WER),接近FP16基线的5.99%
- 与FP16相比,峰值内存使用量减少4倍
针对9秒音频输入,相比全精度版本,推理延迟减少2倍
这些性能提升对于实际边缘应用非常重要,能够提升系统稳定性和用户体验,尤其是在需要并行运行多个AI工作负载的环境中。
推动边缘AI的协同创新
Synaptics与ENERZAi的合作推动了边缘AI的发展,将模型压缩技术与强大的Optimium引擎相结合。Astra™ SL1680内置的灵活CPU、GPU和NPU子系统让边缘AI更加高效、响应迅速,并可广泛应用于各类场景。
欲了解更多详情,请参阅完整方案文档:Running_Extreme_Low-Bit_Models_on_IoT_Edge_Devices_4.pdf