百度资深研发工程师王豪爽：NAS在模型小型化方向的应用

来源::网络整理 | 作者:管理员 | 本文已影响人

　　2022年5月27日下午，由中国信息通信研究院云计算与大数据研究所（以下简称“中国信通院云大所”）和AI工程化推进委员会主办，高效运维社区协办的“AI工程化论坛：自动机器学习（AutoML）专题沙龙”成功召开。来自互联网、金融、电信、制造等多个行业的近千位专家参与了本次沙龙。沙龙邀请了来自百度深度学习技术平台部的资深研发工程师王豪爽围绕AutoML技术应用进行了分享。

　　以下为演讲实录

　　模型小型化是指通过调整模型结构或是采用模型压缩技术缩小模型体积，从而达到提升模型推理速度、降低所需存储资源以及减轻模型所需能耗的目标。模型小型化在与端侧设备相关场景和大模型落地应用场景上均发挥着重要的作用。对于端侧设备场景，通过模型小型化处理后，能够有效解决该类场景下响应速度慢、内存小和能耗大的应用痛点；对于大模型落地应用场景而言，模型小型化有助于在大模型的部署环节实现降本增效，进而更好的满足碳中和等相关政策要求。

　　模型小型化主要通过两种技术手段实现：模型结构设计和模型压缩。模型结构设计是指根据业务需求，从零设计模型或是在经典模型结构的基础上人工调整模型结构；模型压缩是指在已有业务模型上对模型的参数量和计算量进行压缩。

　　模型结构设计方面，学术界和产业界主要通过设计并采用更高效的网络结构来实现，常见的轻量级网络结构有：MobileNet、ShuffleNet和GhostNet。其中MobileNet、ShuffleNet主要通过引入深度可分离卷积来降低计算量，GhostNet则是通过以低成本生成与普通卷积层相同数量的特征图来降低计算成本。百度飞桨团队针对英特尔CPU部署环境设计实现了PP-LCNet网络，该网络结构在提升推理速度的同时，有效保证了模型精度。

百度资深研发工程师王豪爽：NAS在模型小型化方向的应用

　　第二种模型小型化方法是模型压缩，经典的模型压缩策略包括模型的剪裁、量化和蒸馏。其中，模型剪裁常用于计算机视觉场景，原理是对卷积网络中的通道数进行剪裁，以降低模型计算量和模型体积；模型量化是通过将模型中float32数值转换成int8数值进行存储计算；蒸馏指将大模型的知识迁移至小模型上，从而间接实现模型体积的缩小。

百度资深研发工程师王豪爽：NAS在模型小型化方向的应用

　　在当前芯片类型日益丰富、推理框架种类多样、应用场景快速发展的情况下，仅考虑模型业务效果，往往会在模型部署环节遇到芯片的推理适配问题。因此，在模型设计环节，模型设计者除了模型业务指标效果外，还需要将在不同环境下的推理性能也纳入评估范围。然而，评估推理性能往往面临两个难点，分别是模型训练的成本以及模型性能预估的准确度。

百度资深研发工程师王豪爽：NAS在模型小型化方向的应用

　　难点一：同时考量模型效果和模型性能势必会增大模型的搜索空间。如果在迭代过程中每次都重新对候选模型进行训练，将会产生高昂的计算成本和时间成本。为了解决这一问题，业界常采用不完全训练的方式实现成本控制，典型方法如One-Shot NAS。One-Shot NAS的理念是权重共享，同时并行训练搜索空间中的全部候选模型，通过搜索策略选出符合条件的目标模型，从本质上降低了训练成本，进而减少了模型效果评估的代价。在此基础上，业界衍生出了针对One-Shot NAS的优化工作，如通过采样方法增加模型平等性、通过先验知识提高模型公平性等。

百度资深研发工程师王豪爽：NAS在模型小型化方向的应用

　　难点二：如何在模型设计环节预估模型推理性能。业界常用的方法包括理论值计算以及实际部署至目标环境。然而，理论值计算在特定场景下不能代表真实的推理速度，实际部署至目标环境则会对搜索效率产生较大影响。为此，百度飞桨团队开发了一套推理延时预估工具，包含硬件延时预估表和预估器两部分。硬件延时预估表中，会对每种部署环境在参数不同的情况下的性能效果进行测试，并将数据记录至数据库表中，用户设计模型结构时通过查询库表即可得到该模型的推理性能数据。当模型参数无法命中预估表时，预估器作为一个预训练模型，会通过推理演算出预估表中遗漏参数所对应的性能指标结果。

百度资深研发工程师王豪爽：NAS在模型小型化方向的应用