当天咱们周围的一切都在变得愈加 智能 。 人工智能 ()不只仅是一种数据 中心 运行,在咱们日常与之交互的各种 嵌入式系统 中也能够发现AI。咱们宿愿与这些系统启动对话和手势交流,等候它们能够识别和了解咱们,这种智能不只使这些系统的配置愈加完善、经常使用更为方便,同时愈加安保和牢靠。 一切这些智能都来源于深度 神经网络 的提高。神经 网络 的关键应战之一是计算复杂度。小型神经网络或许要求数百万次的乘积攒加运算(MAC)才干发生结果,而大型神经网络则或许要求数十亿次,像大言语模型等复杂网络或许要求到达万亿级的计算量。这种级别的计算需求超出了 嵌入式 处置器 的承载才干。在某些状况下,这些推理计算可以经过网络被转移到数据中心。越来越多的设施领有极速且牢靠的网络衔接,使得这种形式成为许多系统的可行之选。但是,也有很多系统具有严厉的实时要求,即使是最快最牢靠的网络也不可满足。例如,任何有智能化才干的系统(如 智能驾驶 汽车或 无人机 )都要求比离线数据中心更快地做出决策。还有一些系统处置了不应该经过网络传输的敏感数据,而且传输内容会参与黑客攻打的危险。由于性能、隐衷和安保等要素,某些推理操作要求在嵌入式系统上成功。关于方便的网络来说,嵌入式就可以处置这些义务,例如,一个 树莓派 就能部署一个方便的物体识别 算法 。而关于更复杂的义务,嵌入式以及针对嵌入式系统的神经处置单元(NPU)可以提供更强的计算才干。但是,要想取得更高水平的性能和效率,要求构建一个定制化的 AI 减速器。无论是针对还是,设计新的 配件 都是一项艰难的义务,但它能使 开发者 能够取得现成组件不可到达的性能和效率水平。和有着多代 产品 设计阅历的设计师相比,普通开发团队如何才干构建一个更好的AI减速器呢?其中一个方法是经过针对正在执行的特定推理来定制实施方案,这样的成果会比通用途理方案更胜一筹。在开发者通用 AI 减速器构建 NPU 时,其指标是支持任何或许的神经网络。他们宿愿取得尽或许多的设计输入,因此必定使设计尽或许通用,不只如此,他们还宿愿在设计中内置必定水平的“future proofing”,以支持几年后或许出现的任何网络。而在技术极速开展的背景下,这并非易事。一个定制化减速器只有支持一个或几个特定的网络。这种自在度准许将在减速器实施环节中的可 编程 元素固定在配件中,使得配件比通用配件更小且更快。在图像和 滤波器 尺寸固定的状况下,一个公用卷积减速器的速度可比设计良好的通用 TPU 快上 10 倍。通用减速器理论经常使用浮点数。这是由于简直一切神经网络都是在经常使用浮点数的通用计算机上用开发的。为了正确支持这些神经网络,减速器必定支持浮点数。但是,大少数神经网络经常使用凑近 0 的数值,并且要求较高的精度,而浮点乘法器体积庞大,假设不要求它们,从设计中去除可以节俭少量面积和功耗。一些 NPU 支持整数示意法,有时还支持多种大小。但是,支持多种数值示意格式会参与电路复杂性,进而消耗电力并加大流传提前。选用一种示意格式并专门经常使用,可以成功更小、更快的成功。在构建定制化减速器时,并不局限于 8 位或 16 位,任何尺寸都可以经常使用。选用正确的数字示意,或对神经网络启动 “量化”,可以优化数据和运算器的大小。量化可以清楚增加要求存储、传输和操作的数据量。增加权重数据库的内存占用和增加乘法器的尺寸可以清楚改善设计的面积和功耗。例如,一个 10 位定点乘法器比一个 32 位的浮点乘法器小约 20 倍,功耗约为后者的 1/20。这象征着设计可以更小巧、更节能。经常使用更小的乘法器,设计人员也可以选用经常使用该区域,部署 20 个可以并行运转的乘法器,从而在经常使用相反资源的状况下发生更高的性能。 在构建定制化 机器学习 减速器时,有一个应战是创立神经网络的数据迷信家理论不了解配件设计,而配件设计师也不了解数据迷信。在传统设计流程中,他们会经过“会议”和“规范”来传递常识和分享想法,但显然,这些方法也并不会经过 信息 交流失掉有效传递。经过高阶综合(High-Level Synthesis, HLS),数据迷信家生成的实施方案不只可以作为可执行参考,还可以作为配件设计流程的机器可读输入。这就防止了在设计流程中手动从新解释算法,从而防止既缓慢又易出错的手动环节。HLS 从算法形容中分解 RTL 成功。普通来说,算法用或 SystemC 形容,但像 HLS4ML 这样的设计流程能使 HLS 工具能够间接从机器学习框架中失掉神经网络形容。HLS 能够以一种在机器学习框架中尚不遍及的形式对量化启动实践探求。为了充沛了解量化的影响,要求对算法启动微准确的成功,包含溢出、饱和和舍入等影响的特征形容。目前,这只适用于配件形容言语(HDL)或 HLS 微准确数据类型。随着机器学习的遍及,更多的嵌入式系统将要求部署推理减速器。HLS 是一种适用且行之有效的构建定制减速器的方法,减速器针对特定运前启动了优化,提供比通用 NPU 更高的性能和效率。了解更多信息:高阶综合推进下一代边缘 AI 减速器的开展
© 版权声明