导读:集微网报道 (文/陈炳欣)ChatGPT一经发布便引起国内外强烈反响,成为史上用户数增长最快的消费者应用,也让人工智能再次回到大众关注的焦点。然而,高昂的部署成本已然是人工智能进入市场的主要障碍:从小模型到大模型,过去10年内AI算法对算力的需求提升了…

集微网报道 (文/陈炳欣)ChatGPT一经发布便引起国内外强烈反响,成为史上用户数增长最快的消费者应用,也让人工智能再次回到大众关注的焦点。然而,高昂的部署成本已然是人工智能进入市场的主要障碍:从小模型到大模型,过去10年内AI算法对算力的需求提升了40万倍;大模型开发和训练一次的成本便需1200万美元。各大公司为筹建数据中心斥巨资抢购GPU的新闻不时见诸报端,越来越多的人希望寻找一种新方案,扭转这种高投入低效率的现状。

存算一体作为新一代计算技术,在数据运算和存储过程中实现了一体化设计,旨在突破“存储墙”实现超低功耗和更强的并行计算能力,被认为是后摩尔时代最重要的发展方向之一。目前,存算一体技术在国内外企业的不懈努力下已经实现初步的商业化应用。或许数年之后,存算一体芯片就将进入千行百业,为人工智能的大规模应用提供不竭的算力支撑。

AI潮开启,算力面临瓶颈

自1956年美国达特茅斯学院首次提出人工智能的概念以来,AI技术不断获得突破和快速发展,对算力的需求也在不断增加。2006年以前,AI算法尚未出现突破性进展,AI的训练数据多以小数据为主,这一阶段AI对算力的需求主要由CPU提供。2006年之后,随着AI算法在深度学习上获得突破,特别是谷歌旗下DeepMind团队开发的AI系统AlphaGo战胜韩国棋手李世石,引发全球AI热潮,AI领域对于算力的需求就在不断增加。研究人员发现,相比于CPU,GPU具备并行计算特性,在深度学习等人工智能先进算法所需的“暴力计算”场景中更为高效,使得研究机构和AI公司开始广泛采用GPU进行人工智能领域的研究和应用。

2022年11月,OpenAI公司推出AI大模型ChatGPT,再次引发全球AI大模型发展浪潮。这一趋势进一步加大了AI领域对算力的需求。目前,英伟达集成H100的计算卡已经达到一卡难求地步,人们预测GPT-4可能在10000到25000张A100上进行训练,Meta、特斯拉、Stability AI等都投入到对高性能GPU的抢购之中。这一形势推动了AI芯片的投资和发展。

不过,当前主流AI芯片在为大模型提供算力支持时的表现并不完美,尚存很多不足之处。记者采访北京大学集成电路学院院长蔡一茂时,他便指出,AIGC等人工智能新兴技术的发展离不开算力,算力的基础是人工智能芯片。当前人工智能技术的快速更新迭代对硬件部署提出了多个挑战。

首先是算力规模与算力密度上的需求。大模型的出现促使AI对大规模芯片算力的需求更加强烈,按照传统技术路线简单堆砌芯片无法实现期待的算力规模增长,需要从提高算力密度和算力集成度等多个角度同时解决问题。其次是芯片能效问题变得更加突出。芯片高功耗导致的散热等问题,不仅是芯片算力提升的主要障碍,也导致了大模型训练与推理的成本巨大。当前AI芯片能效依然低下,大模型每次训练和推断的电费成本昂贵,导致当前大模型的应用经济性较低。

第三是AI芯片在执行计算密集型任务时面临的“内存墙”问题。这导致计算芯片的功耗和性能都受限于处理器和存储器之间的数据搬运,严重限制了AI芯片在计算规模、密度、效率等方面的提升。此外,AI芯片的通用性和可编程性趋势也值得关注。目前大模型技术算法有趋同的发展趋势,以Transformer为代表的网络模型正在成为主流。定制化的AI芯片将难以满足AI产业的发展,芯片的通用性和可编程性十分重要。

性能优势明显,存算一体将成解决方案

其实,GPU并非AI大模型部署的唯一算力担当。广义而言,AI芯片指的是专门用于处理人工智能应用中大量计算任务的模块,也就是说面向人工智能领域的芯片均被称为AI芯片。从技术架构来看,目前用于AI处理的主流芯片主要包括GPU、FPGA、ASIC,以及存算一体芯片等。其中,GPU目前被运用的最为广泛,如图像渲染、特效制作等,在数据中心、超级计算机等大型计算设施中均在采用。FPGA是一种灵活可编程的硬件平台,具备较高的计算性能和可定制性等优点,在AI推理应用中表现较为出色。但这两种芯片也存在上面所述的问题。ASIC是针对用户对特定电子系统的需求而设计的专用集成电路,是固定算法最优化设计的产物。在大模型技术算法趋同的情况下,定制化AI芯片整体市场规模有可能受到限制。

存算一体芯片被认为是下一代芯片,虽然目前还受限于成熟度,应用范围不够广泛,但未来却有着极大的发展空间。对此,蔡一茂便指出,新兴的存算一体和近存计算技术直接在存储器内部或附近进行计算,通过将计算和存储功能融合在一起提高数据处理和计算的效率和成本。在大模型时代,存算一体技术有望大幅度提升AI芯片的计算密度和能效,缓解AI 芯片性能与功耗之间的矛盾,提升大模型部署的经济性。特别是针对大模型的推理,存算一体保持权重的特点与大模型中大规模的参数部署需求相匹配,可能是存算一体技术最先服务大模型应用的场景之一。

知存科技创始人、CEO王绍迪在接受记者采访时也表示,传统芯片是先把数据从存储系统中读取出来,放到乘、加法器当中做计算,然后再把计算结果传回到存储系统当中。这种大规模的数据迁移导致了带宽瓶颈和功耗浪费。存算一体则从计算架框的根本上避免了这种情况发生,同时带来一系列性能优势。

首先是运算的性能更高。存算一体芯片的计算能力取决于存储器的容量规模。所有电子设备当中都会集成存储器,存储与计算相伴而行,有运算的地方就需要对数据进行存储,比如可穿戴手环中可能会集成2M的SD卡,笔记本电脑中会安装1TB的NAND Flash,数据中心的闪存芯片可能会达到256TB。如果采用存算一体芯片,随着存储容量规模的提高,其运算能力也会随之提高。

其次是功耗更低。同样,由于数据传输路径的优化,存算一体技术在提高传输效率的同时,节省了数据传输的损耗,带来更好的能效比、低功耗,在相同算力下,AI部分能效比将有2-3个数量级的提升,更低散热成本,更高可靠性。

第三是成本更低。单位算力成本远低于传统计算芯片。同时,存算一体可以采用更成熟的制造工艺,大算力芯片往往需要采用先进工艺,这使存算一体芯片的晶圆成本低得多。再考虑到配套的外围芯片、元器件等因素,整个系统成本将有5倍左右降低。正是因为这些基于基础架构革新所带来的性能提升,存算一体技术有望在很大程度上解决AI大模型面临的算力挑战。随着存算一体芯片逐渐进入市场,其将为人工智能的大规模应用奠定基矗

从终端到云端,未来发展让人期待

现在的AIGC不仅是云端,在终端侧也有很多企业推动其应用发展。云端方面,越来越多大模型产品问世,仅我国10亿级参数规模以上大模型已超80个,其中不乏科技巨头发布的产品,如百度的“文心一言”、阿里云的“通义千问”、华为的“盘古大模型”等;终端方面,边缘计算实现了计算资源和服务的下沉,能够有效降低交互延迟、缓解数据传输带宽压力,目前高通推出混合式AI的概念、苹果也在开发“AppleGPT”AI模型,未来将呈现AIGC技术从云端向边缘延伸的趋势。

在这样的大背景下,存算一体也将沿着云端与终端双向并行的路径持续发展。王绍迪强调,存算一体芯片的适用领域其实十分宽广。如果按终端和云端两个领域划分的话,从终端侧的可穿戴设备、智能手机、无人机、安防,到规模更大的边缘服务器、自动驾驶,再到云端的AIGC大模型应用,存算一体芯片都可以去做。

2022年,知存科技率先量产全球首颗存算一体SoC芯片WTM2101。一年左右时间,WTM2101已在TWS耳机、助听器、AR眼镜、智能家居控制等终端设备中实现商用,提供语音、轻量级视频等AI处理。

在终端应用中,AI计算需要高算力下的低功耗。WTM-2系列就定位于小功率的电池供电场景,但可以提供一定强度的AI算力。在极低功耗下,传统芯片技术很难满足深度学习模型的运算需求,存算一体却在一定程度上可以提供上算力支持。

今年知存科技将推出具有更高算力的WTM-8系列芯片。该系列芯片将主要面向移动智能终端如手机、XR、无人机等,覆盖2D(1080P-8K)与3D视频处理场景。与WTM2101相比,WTM-8系列芯片采用了第二代3D存内计算架构,能够提供算力至少24Tops,计算精度达12-bit,目前已经完成投片,预计今年下半年或明年年初就可以推向市常

云端市场也是存算一体的发展方向。王绍迪透露,知存科技除上述两个系列的产品之外,还在规划具备更高的性能的芯片系列,可用于AI服务器,应对大模型市场的发展需求。一旦该系列芯片发布,知存科技的产品线布局将变得更加厚实且合理,从低性能到高性能,从终端侧到云端计算,都有着相应的产品覆盖。

目前,全球范围内无论学术界还是工业界均对存算一体投入大量资源进行开发。不过蔡一茂也指出,在大模型到来之前,存算一体研究多数以零散的技术攻关为主,缺乏面向大算力方向的整体布局,也缺乏主导的应用需求牵引,因此距离大规模进入市场还有一定距离。但大模型是值得期待的存算一体应用场景,其对算力能效和密度的强烈需求正是存算一体的优势所在。面向大模型部署,从业者需要对存算一体进行体系化布局,从算法、框架、编译器、工具链、指令集、架构、电路等跨层次协同设计,形成全栈式体系、工具链及生态链。大模型的到来必将极大推动存算一体的技术落地,其未来应用潜力和部署规模都让人期待。

文章来自:人工智能实验室

Loading

作者 yinhua