拿起运行百亿参数模型的手机，0.6秒就进入了ai世界 | 雷峰网-亚博电竞网

2023/11/10 17:41

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

作者｜包永刚

编辑｜王川

年初在手机上用ai生成一张图还需要15秒，半年多后的今天只需要0.6秒，0.6秒大概就是点击一下鼠标点时间，数码发烧友瑞泽被手机ai进化的速度吓到。

让瑞泽同样吃惊的是，10月底发布的ai pc处理器骁龙x elite，能够以30 tokens/s的速度运行70亿参数的生成式ai模型。

这比普通人每分钟阅读200-300个单词，也就是每秒处理5-7个tokens的速度，快了好几倍，就算问ai pc数字助理一个复杂答案，马上就能得到答案。

触手可及的智能手机和ai pc，已经成为了进入ai世界的任意门。

走进终端ai的任意门里，用一张自拍照，无需等待就能生成超乎想象的照片；让手机“看”几秒食物，就能知道是否还能食用；对着贴身数字管家说出旅行的要求，瞬间就能获得专门定制的旅行计划。

“生成式ai在终端上的应用呈几何式增长，一年前我们只能看到一两个用例，现在有数百个，预计到2024年我们将会看到上千个用例，骁龙将会发挥非常核心的作用。”高通公司总裁兼ceo安蒙说，“我们见证了下一个转型的开始，ai将无处不在。”

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

每一次重大技术革命的背后，都需要底层强大的计算和连接力作支撑，高通会成为这场ai变革的主角，让端侧ai像电力一样全面融入普通人的生活。

能跑百亿参数大模型，手机变身进入ai世界的「任意门」

瑞泽最常用的手机ai功能是拍照，他没料到，最新旗舰级第三代骁龙8具备运行100亿参数的生成式ai模型的能力后，不仅能将前后摄像头的画面实时合成在一起，将视频中多余的人或物体去除，大幅增强夜景视频效果，还带来了超越想象的全新功能。

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

“照片扩展”就是一个让人眼前一亮的新功能，用户使用任意照片进行缩放，生成式ai都能让照片看起来具有广角的效果。比如用一朵花的照片，缩放后马上就能会变成一片花海的照片。

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

端侧生成式ai还有更多用法，如果用在工作中，一个电话会议结束之后，马上就能获得通话中聊到的重要事项并添加待办事项；如果想去一个目的地，手机可以基于你所在的位置给出最符合你出行习惯的路线规划；如果你想开始徒步，简单输入个人信息，再扫描一下皮肤状态，就会有私教般的运动训练建议。

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

这些任务都是在手机端完成，完全不用担心隐私问题，也不用付月费，高通和亚博平台app下载的合作伙伴就像是打开了生成式ai世界的任意门。

如此让人眼前一亮的端侧ai应用的实现并非一蹴而就，在ai领域投入超过10年的高通，2015年首次将ai技术集成到商用的产品用，用于增强音频技术，此后逐步将ai应用到了影像和视频技术中。

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

三年前高通启动第三代骁龙8开发时，终端智能就被放在了首位，这也是为什么第三代骁龙8一发布，手机端ai大模型文字生成图片的速度就能从15秒速降到0.6秒。

“0.6秒的运行时间带来一个优势，可以将这一模型嵌入相机应用。”高通技术公司产品管理高级副总裁ziad asghar对雷峰网(公众号：雷峰网)表示，“消费者通常希望拍摄之间最多间隔1-2秒，如果运行一次模型需要15秒，将无法使用。”

第三代骁龙8如何实现数量级的ai性能提升？

强大的硬件是基础，第三代骁龙8的cpu性能相比前代提升高达30%，gpu性能提升25%，hexagon npu性能直接翻倍，第三代骁龙8的ai性能站在了行业之巅。

“通过改进架构，提高向量加速器主频、升级独特的微切片推理技术等方式，来加速transformer网络推理。”高通技术公司产品管理总监lekha motiwala介绍，第三代骁龙8支持业内最新的lpddr5-x内存，频率达到4.8ghz，通过更快的数据速度和更大带宽支持用户运行更大、更复杂的ai模型。

要让第三代骁龙8能够以每秒生成20个token的速度运行大语言模型（如llama2），还需要升级高通ai软件栈工具。

“我们先将庞大的ai模型量化到int4，实现了性能、精度和能效间的绝佳平衡。再充分发挥业界最快ddr内存的优势，凭借77gb/s吞吐量来支持llm，以惊人的速度运行量化模型。”ziad asghar说，“hexagon npu能够以闪电般的速度支持lvm。我们采用了一个100亿参数模型，并使用了蒸馏等先进技术和高效的unet模型，大大加快了扩散过程，达到了0.6秒这个如此惊人的速度。”

ziad asghar透露，snapfusion支持snap以同样快的速度生成图像，而不会牺牲图像质量。snapfusion将在2024年支持snapchat dreams功能，支持用户生成超乎想象的自拍图片。

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

要激发基于第三代骁龙8平台的端侧ai创新，少不了高通ai软件栈的优化。

高通ai软件栈的核心是高通神经网络处理sdk和高通ai引擎direct，连接芯片与所有主流ai框架，高通利用托管模型，开发者可以直接使用tensorflow、onnx、pytorch，轻松访问hexagon npu，这将大幅降低基于第三代骁龙8移动平台进行ai创新的门槛。

除了ai图像生成，聊天机器人也是生成式ai世界的另一类重要应用。

为了让能够实现聊天机器人功能的大模型在终端上流畅运行，高通使用了推测性解码的技术。“我非常兴奋地宣布，这是预测解码首次在边缘终端中使用。”ziad asghar说。

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

如果要为聊天机器人加上一个虚拟形象，可以利用高通ai引擎中adreno gpu强大的渲染能力，渲染出嘴形和声音同步的ai虚拟形象。

出色的ai体验还不能仅靠单一的输入或输出形式，视觉、文本、语音的结合更为直观，这就是多模态ai。

第三代骁龙8支持多模态ai，还能充分利用用户手机上的全部数据，利用lora等端侧学习技术，可以在保障用户数据隐私的同时，让终端侧的ai模型变好的同时更加个性化。

比如，询问ai助理回家的最佳路线或推荐的餐厅时，云端ai方案给出的回复是通用答案。而基于第三代骁龙8的ai终端，发挥高通传感器中枢与终端侧大语言模型持续协作，能够基于用户的年龄、最喜欢的活动、当前位置等个人信息生成定制化回复。

以搭载第三代骁龙8手机为代表的终端侧ai，性能足，节省成本和时间，并且更加隐私和安全、还能提升个性化，是触手可及的ai世界任意门。

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

同样触手可及的pc也会是进入ai世界的任意门吗？

ai性能6年提升100倍，ai pc提高效率又激发创意

ai pc才是进入ai世界的另一个任意门。

“回顾行业历史，仅有两项其他技术像如今的ai一样具有颠覆性。二十世纪六七十年代，命令行的盛行使得个人电脑的广泛使用成为可能。二十世纪九十年代，图形用户界面让普通用户能够轻松、容易地使用pc。”惠普公司高级总监bobby moore 在2023骁龙峰会上说，“ai正推动pc计算变革，使其变得更加个性化、更加自然、更加直观。”

高通技术公司高级副总裁兼手机、计算和xr业务总经理阿力克斯·卡图赞（alex katouzian）也表示，“目前，我们在衡量pc性能方面处于转折点，虽然cpu和gpu依旧至关重要，但同时我们引入了第三个衡量维度：终端侧ai。”

过去很长一段时间，普通消费者选择笔记本电脑的时候很难兼顾轻薄外形和高性能，骁龙x elite的发布，让笔记本电脑实现了轻薄外形下的超高性能和超高能效，特别是强大的ai功能。

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

骁龙x elite搭载的高通自研oryon cpu，相比苹果m2 max，实现相同单线程性能，oryon cpu能耗减少30%。对比专门为高性能游戏终端设计的i9-13980hx cpu，oyron实现相同性能功耗降低70%，成为了pc移动处理器领域性能和能效的新标杆。

gpu性能也艳压群雄，与性能领先的x86集成gpu相比，骁龙x elite的性能领先高达80%，达到竞品的最高性能功耗可以降低80%。

作为专为ai pc而生的处理器，骁龙x elite的ai性能更加惊艳，hexagon npu算力可以达到45 tops，是竞品近期发布npu的4倍。包含cpu、gpu和npu在内的整个高通ai引擎，可以让骁龙x elite的ai性能达到75tops。

骁龙x elite高达75tops的ai性能，是高通骁计算平台6年ai性能提升100倍里程碑。这样强劲的ai性能可以在没有云端资源的情况下运行超过130亿参数的ai生成式模型。

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

与第三代骁龙8一样，骁龙x elite的hexagon npu同样做了大量升级，包括增加全新的供电系统兼顾极致性能和功耗，引入微切片推理，对张量加速器进行升级，增加共享内存规模。

这让骁龙x elite这个性能猛兽应对ai任务游刃有余。

davinci resolve的付费版包含一系列在好莱坞创意界被广泛使用的ai强大功能，比如magicmask支持近乎即时的物体追踪/轮镜、ai赋能的自动字幕生成和剪辑，以及音轨分离和对话平衡器来实现卓越音质。

对于支持ai的计算密集型magic mask，骁龙x elite比采用集成gpu的高端十二核x86处理器快1.7倍。magic mask在骁龙x elite的集成npu上运行，比在同为arm架构的12核处理器上运行快3倍，这是让所有创作者兴奋的效率提升。

将于2024年发布的搭载骁龙x elite的笔记本电脑，可以运行原生arm64的davinci resolve。

ai原生公司uniphore用上为ai而生的骁龙x elite，ai pc作为生产力工具的效率会进一步提升，uniphore将生成式ai模型用于语音到文本转录、情绪分析和通话摘要，帮助企业交付更高质量的服务的同时，降低使用云端ai的成本。

“商业笔记本电脑大约占一半的pc销量。”高通技术公司产品管理高级总监nitin kumar表示，“94%的商界领袖表示，ai已在工作中提高生产力。在it决策者中，ai是影响购买决策的最大因素。新的研究表明，近一半的it决策者准备基于ai性能更换pc品牌。骁龙x elite恰逢其时。”

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

大幅提升效率的同时，骁龙x elite还能激发出更多ai用例，骁龙x elite集成的高通传感器中枢进行了升级，性能提高2倍的同时还保持超低功耗，加上率先引入的始终感知isp，端侧ai节省成本和时间，更加隐私和安全、提升个性化的优势，也能在ai pc上展现的淋漓尽致，让pc游戏更有沉浸感，生产效率更高。

端侧生成式ai的大门全面开启

与ai pc和手机开启ai无处不在时代的，还有各种形态的终端ai设备。

2023骁龙峰会上最新推出的高通s7音频平台的ai性能是前代平台的100倍，强大的ai能力可以提高使用者沉浸式音频应用的精准性。

“我们不仅设计了完全在终端上运行的ai技术，这些功能还将扩展至我们的全部产品线。”ziad asghar说，“我们将从产品形态最小的功能开始，比如智能手表中的活动建议和ar眼镜中的3d lvm，到电动车中的终端侧助手。”

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

为了和生态亚博平台app下载的合作伙伴一起加速ai时代的到来，高通还推出了高通ai软件栈模型，这是一套能够满足开发人员需求的模型，模型经过高通公司的全面优化、测试和验证，可支持第三代骁龙8和骁龙 x elite平台，发布之时有30多个模型，更多模型会持续推出。

拿起运行百亿参数模型的手机，0.6秒就进入了ai世界

谷歌也是推开端侧生成式ai大门的重要力量。过去几个月，谷歌的研发团队致力于对其规模庞大的下一代大语言模型进行精炼，以适应移动终端。

为了让无处不在的ai时代有无缝的体验，高通还准备好了包含硬件和软件框架的亚博电竞网的解决方案snapdragon seamless，让用户能够创建连接智能手机、笔记本电脑、平板电脑、耳塞、智能手表和xr设备的自组织智能网络，终端之间能够共享信息、情境和其他功能，即便在休眠模式下也能如此。

ai时代的革新已经开始，高通也正在从一家通讯企业转变为一家网联计算处理公司，顺应时代的变化才能总是立于时代的潮头。雷峰网