2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告（38页）.pdf

《2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告（38页）.pdf》由会员分享，可在线阅读，更多相关《2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告（38页）.pdf（38页珍藏版）》请在薪酬报告网上搜索。

1、 2024 年深度行业分析研究报告内容目录一、什么是交互型多模态大模型？.4 1.1 交互型多模态大模型应具备什么特点？.4 1.2 交互型多模态大模型成本将降至几何？.8 二、交互型多模态大模型进展如何？.10 2.1 海外：OpenAI 与谷歌双巨头抢滩.10 2.2 国内：大模型多处于语音交互阶段，商汤智谱领衔升级视频交互功能.11 三、为什么交互型多模态大模型有望带来应用的爆发？.14 3.1 视觉是获取外部信息最主要的途径，多模态更符合人类感知的方式.14 3.2 应用发展的核心就是人机交互模式的升级.15 四、交互型多模态大模型会带来怎样的应用？.19 4.1 交互型多模态大模

2、型在“数字智能”中的应用.19 4.1.1 教育.19 4.1.2 编程.22 4.1.3 医疗健康.23 4.1.4 办公.25 4.1.5 游戏.26 4.1.6 情感陪伴.28 4.2 交互型多模态大模型在“具身智能”领域应用.29 4.2.1 人形机器人.29 4.2.2 智能座舱.30 4.2.3 智能家居.32 五、交互型多模态大模型未来形态.35 5.1 交互先行，端侧 AI 发展有望加速.35 5.2 交互型多模态大模型商业模式.36 六、相关标的梳理.38 图表目录图 1：GPT-4o 能听出用户呼吸急促，并将其形象比喻成吸尘器，然后给出建议.4 图 2：用户写字表白，GP

3、T-4o 能快速识别字迹并高兴地感谢用户，输出时语气带着笑意.4 图 3：过去 ChatGPT 实现语音互动的三个步骤.5 图 4：谷歌 Gemini 具有原生多模态特性.5 图 5：Gemini 多模态能力使用案例.5 图 6：Chameleon 的模型结构与训练方法.6 图 7：GPT-4o 响应速度提升.7 图 8：GPT-4o 与人交流时会开一些合理的玩笑，如它会说“我今天要请客了”.7 图 9：Project Astra 记住了曾经“看”到过的眼镜和苹果.8 图 10：OpenAI 大模型的降本历程.9 图 11：GPT-4o mini 在基准测试中表现较好.9 图 12：GPT-4

4、o mini 具有高性价比.9 图 13：GPT-4o 新版本价格相比 3 个月前下降超 40%.10 图 14：GPT-4o 在多语言识别方面与 Whisper-v3 对比.10 8X8XaYcWaVbUdXbZaQcM6MnPoOsQsOjMmMxOfQpPtPaQoOyRNZpNrOMYnMnM 图 15：GPT4o 音频翻译基准测试表现.10 图 16：GPT-4o 发布后 ChatGPT 移动端 APP 的收入高增.11 图 17：谷歌展示 AI 智能体项目 Project Astra.11 图 18：日日新 5.5 核心指标.12 图 19：日日新 5o 识别小狗玩偶.12 图 2

5、0：日日新 5o 分析建筑环境及天气.12 图 21：日日新 5o 识别书籍并提供更多信息.13 图 22：日日新 5o 识别绘制的简笔画表情并分析情绪.13 图 23：用户可以用清言 APP 视频通话功能和 AI 玩“你画我猜”的游戏.13 图 24：清言 APP 视频通话功能可以辅助用户读论文.13 图 25：国内大模型聊天助手语音交互界面.14 图 26：多模态更符合人类与外界交互的方式.15 图 27：人机交互过程.16 图 28：人机交互的变革.17 图 29：人机交互将向最简单的形态发展.18 图 30：现代教育的特征与 AIGC 技术吻合.19 图 31：大模型拓展了 AI 技术

6、在教育领域的应用场景.20 图 32：Duolingo max 功能.20 图 33：GPT-4o 在 Khan Academy 上完成数学题辅导.21 图 34：GPT4o 通过视频完成数学问题辅导.21 图 35：GPT-4o 识别物体并输出西班牙语.21 图 36：GPT4o 模拟面试.21 图 37：AGI 完全体与教育畅想.22 图 38：GPT4o 代码能力演示.23 图 39：远程协作平台 Multi.23 图 40：GPT-4o 与 Be my eyes 结合为盲人提供实时助手.24 图 41：AIGC 贯穿医疗全流程.25 图 42：GPT4o 当会议助手.26 图 43：G

7、PT-4V 可以基于游戏画面生成用户行为预测以及 NPC 行为建议.27 图 44：GPT4o 唱生日快乐歌.28 图 45：Figure 01 背后的大模型技术.30 图 46：智能座舱多种交互方式.31 图 47：智能座舱多维度信息的融合.31 图 48：绝影 FlexInterface 生成个性化交互界面.32 图 49：生成式 AI 赋能智能家居的价值.33 图 50：萤石 AI 技术策略.33 图 51：萤石蓝海大模型.34 图 52：演示元萝卜光翼灯使用方言回答问题.34 图 53：元萝卜光翼灯产品.34 图 54：前 OpenAI 高管 Andrej Karpathy 对 LLM

8、 OS 的构想.35 图 55：Copilot 读取 PC 屏幕内容，辅助用户完成我的世界相关任务.36 图 56：AI Agent 帮用户规划旅行、购票、更新日历等.37 图 57：“PC 互联网时代-移动互联网时代-AI 时代”入口演进.37 表 1：OpenAI 在医疗健康领域的应用实践.24 表 2：部分游戏公司的 AI 布局动作.27 表 3：智能座舱 Agent 场景.31 一、一、什么是交互型多模态大模型什么是交互型多模态大模型？交互型多模态大模型是指跨越单一模态的限制，支持文本、音频、图像、视频等交互型多模态大模型是指跨越单一模态的限制，支持文本、音频、图像、视频等各种模各种模

9、态态任意组合的输入输出，能做出实时的任意组合的输入输出，能做出实时的、“类人”的理解和反馈，可以跟人无缝交流的大“类人”的理解和反馈，可以跟人无缝交流的大模型，模型，目前目前最具代表性的是最具代表性的是 OpenAI 的的 GPT-4o。GPT-4o 里的“o”是 Omni 的缩写，也就是“全能”的意思，接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出。交互型多模态大模型的核心在于其极强的多模态理解与生成能力，即能够融合各种类型交互型多模态大模型的核心在于其极强的多模态理解与生成能力，即能够融合各种类型的信息进行统一的语义、情景的信息进行统一的语义、情景分析分析和上下文关联，

10、从而和上下文关联，从而更好地更好地理解理解用户意图、用户意图、实现接近实现接近人类的复杂情境理解和反应人类的复杂情境理解和反应，然后生成自然流畅、富有情感的语音输出，使机器的反馈，然后生成自然流畅、富有情感的语音输出，使机器的反馈听起来像人类，增强交互的真实感听起来像人类，增强交互的真实感。这类模型可以同时分析处理语音、手势、面部表情等多种输入方式，甚至它能感受到用户的呼吸节奏；而输出时，它能模仿人类的情感状态如喜悦、悲伤或愤怒等，然后通过调整语调、节奏和音量来表达相应的情绪，使交互过程更加人性化，且可以做到随时打断。图 1：GPT-4o 能听出用户呼吸急促，并将其形象比喻成吸尘器，然后给出建

11、议资料来源：OpenAI 2024 春季发布会、西部证券研发中心图 2：用户写字表白，GPT-4o 能快速识别字迹并高兴地感谢用户，输出时语气带着笑意资料来源：OpenAI 2024 春季发布会、西部证券研发中心 1.1 交互型多模态大模型交互型多模态大模型应具备什么特点？应具备什么特点？我们总结我们总结交互型多模态大模型特点交互型多模态大模型特点如下如下：原生多模态：原生多模态、快速响应快速响应、情感表达情感表达、记忆、记忆。1）原生多模态：原生多模态：跨文本、跨文本、视频视频和音频等模态端到端训练的大模型，所有输入和输出都和音频等模态端到端训练的大模型，所有输入和输出都由同一神经网络

12、处理由同一神经网络处理。在 GPT-4o 之前，ChatGPT 会将其它模态转为单一模态处理，例如要实现语音对话功能，需三个独立模型来完成三个步骤：语音转文本 GPT3.5/GPT-4 文本转语音，即首先一个简单模型将音频转录为文本，然后大模型 GPT-3.5 或 GPT-4 接收文本并输出文本，最后再由另一个简单模型将该文本转换回音频。但这种方法意味着信息顺势，即这三个模型中最关键的大模型在处理时会丢失大量信息，大模型无法直接观察用户的语气、停顿、音调、背景音等等，而这些在纯文本环境中难以被准确捕捉和表达的信息对理解对话意图和情绪状态至关重要，尤其是在需要高度情境感知和互动的场景中。原生多模

13、态的 GPT-4o 则将图像、文字、语音甚至视频等多种编码集成到一个模型中。在训练过程中，这些不同模态的数据被统一输入给模型内部学习。当不同模态的信息相关且指向同一类事物时，它们的内部表征是非常相似的。在生成阶段，模型可以更加灵活地利用统一的表征进行不同模态的生成。图 3：过去 ChatGPT 实现语音互动的三个步骤资料来源：X（DrJimFan）、腾讯科技微信公众号、西部证券研发中心谷歌的 Gemini 也是原生多模态模型。根据 Gemini 论文，Gemini 一开始就在不同模态上进行预训练，并利用额外的多模态数据进行微调以提升有效性，包括图像、图表、截图、PDF 和视频等，并能产生文

14、本和图像输出，所以 Gemini 可以泛化并无缝理解分析不同模态信息组合起来的输入，并输出多张图像与文本交织的结果。例如，Gemini Ultra 接收到用户输入的示例和问题，示例内容是当给定蓝色和黄色两种颜色毛线团时，可以织成蓝猫和黄耳朵的蓝狗。随后，Gemini 被要求利用两种新颜色的毛线团粉色和绿色，生成富有创意的建议。最后，Gemini 回答可以制作一个果核为粉色的牛油果，或制作一只耳朵为粉色的绿兔子，并附上了非常贴合回答的图片。图 4：谷歌 Gemini 具有原生多模态特性图 5：Gemini 多模态能力使用案例资料来源：Gemini:A Family of Highly Cap

15、able Multimodal Models、西部证券研发中心资料来源：Gemini:A Family of Highly Capable Multimodal Models、西部证券研发中心 Meta 于 2024 年 5 月发布的 Chameleon-34B 也具有原生多模态特性，它将所有模态图像、文本和代码等表示为离散的 token，并采用统一的基于 transformer 的架构针对约 10 万亿个 tokens 对应的混合模态数据从头开始进行端到端训练。因此，Chameleon能够对任意混合模态文档进行推理以及生成。Chameleon 的核心在于其完全 token-based 的架

16、构，图像和文本都被表示为一组离散的 tokens，这种设计允许模型使用统一的 transformer 架构来处理图像和文本序列，而不需要单独的图像或文本编码器。图 6：Chameleon 的模型结构与训练方法资料来源：Chameleon:Mixed-Modal Early-Fusion Foundation Models、西部证券研发中心 2）快速响应：大模型快速响应：大模型能做到能做到极低延迟极低延迟，响应响应速度比肩人类，且可以做到对话随时打断速度比肩人类，且可以做到对话随时打断。GPT-4o 响应速度直升一个数量级，能在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入，与人类

17、在对话中的反应速度一致，且可以随时打断，而过去的 GPT-3.5 平均延时为 2.8 秒、GPT-4 为 5.4 秒。GPT-4o 低延时以及随时打断特性跟端到端训练直接关联。GPT-4 在进行语音识别时，需要等待用户说完一句话才能完成整句识别；识别完成后，将整句话输入到后续的大模型中生成回复；再之后才能调用语音合成模型来转换成语音。而现在 GPT-o 将这些功能集成到一个模型中，各部分之间的依赖性降低，因为模型内部表征已经融合在一起，所以可以更快地开始生成语音输出，而不必等待前面的所有信息都处理完毕。简单来说，端到端大模型一般采用流式输入的方式，即在接收到部分信息时就开始处理；同时，随着对话

18、继续进行，模型将不断地吸收新的信息，对回复进行实时调整。这种设计让大模型具备了边听边说的能力，即在用户讲话的过程中就开始准备回应，一旦用户暂停，模型可以立即给出反馈。这种机制极大地减少了响应延迟，使交互变得更加自然流畅，同时也支持用户在任何时候打断模型，因为模型总是保持着对当前对话状态的最新理解。图 7：GPT-4o 响应速度提升资料来源：新智元微信公众号、OpenAI 2024 春季发布会、西部证券研发中心 3）情感表达情感表达：回复有“人味”，情绪饱满回复有“人味”，情绪饱满，会会带来极强带来极强的交互沉浸感的交互沉浸感，是是增强用户粘性增强用户粘性的关键的关键。GPT-4o 不仅能很好

19、地理解用户情绪，还能反馈以非常饱满的情绪，它会惊讶，会笑，会随着用户的情绪激动起来，语气中充满了细节。在发布会上，当测试者要求 GPT-4o 用“最戏剧性”的方式去讲故事的时候，它表现得很像话剧演员，能给故事各个情节配上合适的情绪；而在用户要求以歌声结束这个故事时，GPT-4o 甚至会叹气。在探讨大模型发展及影响时，我们往往倾向于聚焦技术层面的突破、性能的提升，然而AI 除了提供实用的知识价值之外，还能够为用户带来另一种更为微妙但却至关重要的价值情感价值。用户与技术之间的关系不仅仅只有单纯的信息层面的连接，还有情感层面的连接。对于许多用户来说，他们期望的不仅仅是高效的数据处理和信息检索，更在于

20、技术能够以一种更加人性化的方式与之互动。图 8：GPT-4o 与人交流时会开一些合理的玩笑，如它会说“我今天要请客了”资料来源：OpenAI、腾讯科技公众号、西部证券研发中心 5.40.320123456GPT-4GPT-4o响应速度（秒）延时降低一个数量级延时降低一个数量级交互型多模态大模型在此方面展现出巨大的潜力，它能够通过细微的个性化调整，让用户体验到被理解和关怀的感觉，从而在用户心中建立起更强的情感纽带，我们认为这对增强用户粘性具有不可忽视的作用。用户会开始依赖大模型，因为它不仅能够快速收集整理信息，更重要的是它能够在关键时刻给予用户情感上的支持。这种情感上的联结，会让用户对 AI

21、产品的满意度和忠诚度显著提高，从而促进 AI 技术在各类应用中的渗透率提升、以及持续使用和发展。4）记忆：记忆：能回忆能回忆并并联系此前“看”到的信息做出回答，而不联系此前“看”到的信息做出回答，而不是是仅仅依靠当前仅仅依靠当前输入输入。谷歌的交互型多模态大模型 Project Astra 展示了较为强大的记忆功能。在 I/O 2024 大会的演示视频中，Astra 展示了其对周围环境的快速理解和响应能力，如识别并描述物体、读取和解释代码等，当用户带着 Astra 走了一圈后提问“眼镜在哪”，这个问题之前没有涉及到，但摄像头扫过的时候 Astra 曾“看”到过眼镜，并且以视觉的形式“记”住了，

22、所以可以快速回答出“眼镜在桌上的苹果旁边”，这个画面是大约一分钟前从摄像头中一闪而过的，但 Project Astra 可以通过连续编码视频帧并将视频和语音组合成事件时间线来做到这一点，然后缓存信息以供回忆。图 9：Project Astra 记住了曾经“看”到过的眼镜和苹果资料来源：谷歌 I/O 2024 大会、西部证券研发中心 1.2 交互型多模态交互型多模态大模型大模型成本将降至几何？成本将降至几何？大模型降本趋势显著大模型降本趋势显著。OpenAI 发布发布高性价比模型高性价比模型 GPT-4o mini，在，在 2 年内让大模型成年内让大模型成本下降本下降两两个数量级个数量级。20

23、24 年 7 月 19 日，OpenAI 推出一款新的 AI 大模型 GPT-4o mini来替代 GPT-3.5 Turbo。GPT-4o mini 为 GPT-4o 的更小参数量简化版本，OpenAI 宣布即日起 ChatGPT 的免费用户、Plus 用户和 Team 用户都能够使用 GPT-4o mini；而下周企业版客户也将获得使用 GPT-4o mini 的权限。虽然没有公开参数信息，但 OpenAI 表示 GPT-4o mini 是目前功能最强大、性价比最高的大模型，性能逼近原版 GPT-4，成本相比 GPT-3.5 Turbo 便宜 60%以上，支持 50 种不同语言。目前，GP

24、T-4o mini 现已作为文本和视觉模型在 Assistants API、Chat Completions API 和 Batch API 中提供，每 100 万个输入 tokens 价格为 15 美分，每100 万个输出 tokens 价格为 60 美分（大约相当于标准书籍的 2500 页）。OpenAI CEO Sam Altman 表示，两年前 OpenAI 最好的模型还是 GPT-3 的 text-davinci-003 版本，与 GPT-4o mini 相比性能差得多，但却贵 100 倍也就是说大模型成本在两年内下降了 99%。图 10：OpenAI 大模型的降本历程资料来源：O

25、penAI、钛媒体微信公众号、西部证券研发中心从 OpenAI 分享的基准测试结果来看，GPT-4o mini 在推理基准测试 MMLU、数学推理和编程任务、多模态推理等测试上的表现比较出色，得分优于 Gemini Flash、Claude Haiku。值得注意的是，GPT-3.5 Turbo 在这些基准测试中的得分均不如 GPT-4o mini，即 GPT-4o mini 更具性价比的同时也实现了性能全方位提升。图 11：GPT-4o mini 在基准测试中表现较好图 12：GPT-4o mini 具有高性价比资料来源：OpenAI、APPSO 微信公众号、西部证券研发中心资料来源：

26、ArtificialAnlys、APPSO 微信公众号、西部证券研发中心此外，此外，OpenAI 还发布还发布了了更强、更具性价比的更强、更具性价比的 GPT-4o 新版本新版本。在 2024 年 5 月发布会，OpenAI 曾宣布 GPT-4o 比 GPT-4 Turbo 价格便宜 50%。而仅仅 3 个月后，2024 年 8 月6 日，OpenAI 发布 GPT-4o 新版本，GPT-4o-2024-08-06 在 ZeroEval 基准测试中直接跃居首位。在价格方面，GPT-4o-2024-08-06 的输入和输出价格相比前一个版本分别下降 50%、33%，输入价格为 2.5 美元/1

27、00 万 tokens，输出价格为 10 美元/100 万 tokens。此外，由下图也可以看出，OpenAI 旗舰版大模型的价格在 1 年多的时间内几乎也下降了一个数量级。图 13：GPT-4o 新版本价格相比 3 个月前下降超 40%资料来源：OpenAI、量子位微信公众号、西部证券研发中心按照这个趋势，按照这个趋势，我们我们预计预计以以 GPT-4o 为代表的交互型多模态大模型的为代表的交互型多模态大模型的成本成本将继续快速下将继续快速下降，降，每每百百万万 tokens 的推理成本或将在两年内下降的推理成本或将在两年内下降 2 个数量级至美分量级个数量级至美分量级。二、二、交互型多模

28、态大模型交互型多模态大模型进展如何？进展如何？2.1 海外：海外：OpenAI与谷歌双巨头抢滩与谷歌双巨头抢滩 OpenAI 在 2024 年 5 月 14 日推出 GPT-4o，能够实现跨文本、视觉和音频的多模态交互。如下图所示，GPT-4o 相比 Whisper-v3 显著提高了各种语言的语音识别性能；同时在语音翻译方面取得了新的 SOTA 水平，并且在 MLS 基准测试中优于 Whisper-v3。图 14：GPT-4o 在多语言识别方面与 Whisper-v3 对比图 15：GPT4o 音频翻译基准测试表现资料来源：OpenAI 官网、西部证券研发中心资料来源：OpenAI 官网

29、、西部证券研发中心根据 AIwatch.ai 数据，在 GPT-4o 发布之后，ChatGPT 在 5 月的访问量与 4 月相比提升了 38%。同时，ChatGPT 移动端收入在 GPT-4o 推出后出现了迄今为止最大的飙升。尽管 OpenAI 表示 GPT-4o 将免费提供给用户，但这一承诺尚未扩展到移动版 APP 上（OpenAI 表示稍后将会把 GPT-4o 推广到移动设备上）。所以在第一周，移动端用户如果想尝试，需要订阅 ChatGPT Plus。根据 App figures 数据，ChatGPT 移动应用程序的净收入在 GPT-4o 发布当天首次增长了 22%userid:9311

30、7,docid:173951,date:2024-09-05, 入高达 90 万美元，几乎是该应用此前日均收入 49 万美元的两倍（主要计算谷歌商店、苹果商店)；2024 年 5 月 13 日至 5 月 17 日间，ChatGPT 手机应用的净收入达到了 420万美元，这是自 ChatGPT 发布以来收入增速最快的一周。图 16：GPT-4o 发布后 ChatGPT 移动端 APP 的收入高增资料来源：SensorTower、西部证券研发中心 2024 年 5 月 15 日，谷歌在 I/O 开发者大会上展示了 AI 智能体项目 Project Astra。谷歌在 Gemini 的基础上开发了

31、 Project Astra 原型，它可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中并缓存此信息以进行有效调用，从而更快地处理信息。而谷歌还强化了智能体的发音，为智能体提供了更广泛的语调。图 17：谷歌展示 AI 智能体项目 Project Astra 资料来源：谷歌 I/O 2024、IT 之家、西部证券研发中心 2.2 国内：国内：大模型大模型多处于语音交互阶段，多处于语音交互阶段，商汤商汤智谱领衔升级智谱领衔升级视频视频交互交互功能功能商汤商汤发布国内首个发布国内首个流式交互多模态大流式交互多模态大模型“日日新模型“日日新 5o”，交互效果”，交互效果逼近逼近 GPT-4o

32、。流式交互中数据或信息以连续流动的方式被处理和响应，而不是以离散的、批量的步骤进行，重要特征在于即时性和连续性，需要系统立即处理输入数据并作出响应，而不是等待数据积累到一定量后再处理。0100200300400500600700ChatGPT周度收入（万美元）ChatGPT周度收入（万美元）日日新 5o 在实时交互体验上的优秀表现，建立在日日新 5.5 基础模型能力之上。日日新5.5 采用的是混合端边云协同专家架构，可以最大限度发挥云边端协同，降低推理成本；数据方面，日日新 5.5 在模型训练上基于超过 10TB tokens 高质量训练数据，包括大量合成的思维链数据，语言理解和交互能力全面升

33、级。因此，日日新 5.5 在数学、推理、编程等多个维度较上个版本具有较大的提升，尤其是在数学推理（+31.5%）、英文理解（+53.8%）、指令跟随（+26.8%）等核心指标方面。图 18：日日新 5.5 核心指标资料来源：智东西微信公众号、西部证券研发中心日日新 5o 是国内首个“所见即所得”模型，通过整合声音、文本、图像和视频等跨模态信息，可以实现场景分析、物体信息描述、书籍图文总结等功能。日日新 5o 可以跟人进行流畅的视频交互能听、能说、能看、无延时，能通过摄像头+语音实现和用户的实时交互，并获知用户所在的真实场景下的各种状态信息，打破了与 AI 交互的次元壁。日日新日日新 5o

34、能实现较为自然流畅的交互，但存在一定的延迟；语言风格大方幽默，符合能实现较为自然流畅的交互，但存在一定的延迟；语言风格大方幽默，符合人类的交流习惯。人类的交流习惯。日日新 5o 可以通过手机摄像头与外界交互，实时回答使用者问题。例如，对准桌子上的小狗玩偶时，日日新 5o 可以认出玩偶的形状，并且识别出帽子上的字符，同时分析小狗的表情；在户外，日日新 5o 可以识别建筑和其周边环境并对进行特征描述，它还可以准确地判断天气情况，反馈给使用者。日日新 5o 还可以利用已有的数据信息，对镜头识别的内容进行科普介绍，例如在演示中日日新 5o 识别出演示者给出的书籍名称，且能对其内容做简介。此外，日日新

35、5o 还可以识别演示者绘制的简笔画形状和表情。图 19：日日新 5o 识别小狗玩偶图 20：日日新 5o 分析建筑环境及天气资料来源：商汤科技公众号、西部证券研发中心资料来源：商汤科技公众号、西部证券研发中心图 21：日日新 5o 识别书籍并提供更多信息图 22：日日新 5o 识别绘制的简笔画表情并分析情绪资料来源：商汤科技公众号、西部证券研发中心资料来源：商汤科技公众号、西部证券研发中心智谱宣布清言智谱宣布清言 app 迎来“视频通话”功能，成为国内首个面向迎来“视频通话”功能，成为国内首个面向 C 端开放的视频通话功能。端开放的视频通话功能。智谱宣布于 2024 年 8 月

36、 30 日在清言 APP 中上线视频通话功能，首批面向清言部分用户开放，同时开放外部申请。清言视频通话功能跨越文本、音频和视频等模态，并具备实时推理的能力。用户打开清言的视频通话窗口，即可与它进行流畅通话，即便频繁打断，它也能迅速反应。且打开摄像头，清言也可以“看”到的外界画面，同时可以听懂用户指令并准确执行。图 23：用户可以用清言 APP 视频通话功能和 AI 玩“你画我猜”的游戏资料来源：智谱微信公众号、西部证券研发中心图 24：清言 APP 视频通话功能可以辅助用户读论文资料来源：智谱微信公众号、西部证券研发中心目前豆包、通义千问、文心一言等国内大模型可以做到和 AI“打电话”

37、，但基本是通过语音转文字、大模型生成文字回答、最后文字转语音来实现，所以交互并不流畅，且延时较长；此外，大模型语音回答内容较为机械和模式化，同时无法通过对话打断回答，必须点击按钮，影响互动体验。图 25：国内大模型聊天助手语音交互界面资料来源：豆包 APP、文心一言 APP、通义千问 APP、西部证券研发中心三、三、为什么交互型多模态大模型为什么交互型多模态大模型有望有望带来应用的爆发带来应用的爆发？3.1 视觉视觉是是获取外部信息最获取外部信息最主主要要的途径的途径，多模态更符合人类感知的方式多模态更符合人类感知的方式模态是指承载信息的模式或方式，不同类别的信息来源或形式都可以称为一种

38、模态。模态基于人的感官可分为听觉、视觉、嗅觉、味觉、触觉，基于信息传递的媒介可分为图像、语音、视频、文本等，除此之外还有传感器的模态数据，如雷达、红外、GPS、加速度计等各种模态数据。人类在进化过程中形成了以视觉为主的感知系统人类在进化过程中形成了以视觉为主的感知系统，我们获得的外界信息绝大部分来自视我们获得的外界信息绝大部分来自视觉觉。从感知偏好来看，人类大脑对视觉信息的处理能力尤为强大，能够迅速捕捉并解析复杂的图像和视频中的细节，所以在自然交流和信息传播中，视觉内容是极其高效和直观的载体。从信息传达角度，图片和视频相比纯文本，往往能承载更丰富、更密集的信息，一个画面能够捕捉并传达多层次的细

39、节和情感，远超于文字所能描述的内容，这些都能极大地增强信息的表达力和理解深度。在在这个这个由多种模态信息构成的世界，会同时收到多个互补的、融合的、不同模态的感官由多种模态信息构成的世界，会同时收到多个互补的、融合的、不同模态的感官输入，多模态更符合人类感知周边、探索世界的方式。输入，多模态更符合人类感知周边、探索世界的方式。多模态理解大模型可以让用户使用文本、图像、声音、视频、传感等多种数据类型与终端进行交流，大大拓展了用户同终端的交互形式。多模态生成大模型能够生成各种跨媒体内容，为用户提供更为直观的信息表达，从而实现更加高效丰富的沟通体验，其实这也为更多样性的终端硬件形态如穿戴设备、机器人等

40、提供了更有力的支撑。图 26：多模态更符合人类与外界交互的方式资料来源：华为AI 终端白皮书、西部证券研发中心此外，此外，我们认为我们认为 AI 融入生活的核心之一在于情感上更接近人类，语音融入生活的核心之一在于情感上更接近人类，语音+视频呈现的实时视频呈现的实时多模态交互效果，是迈向这一目标的重要一步多模态交互效果，是迈向这一目标的重要一步。因为从理解用户的角度来看，首先通过结合语音和视频分析，AI 可以更好地理解用户的意图和情绪，例如当用户语调轻快，但其面部表情很凝重时，AI 需要综合判断来确定最合适的回应，而这种复杂情境下的理解能力是 AI 向人性化迈进的重要标志。此外，多模态交互使

41、得 AI 能够根据用户的独特反应和偏好进行个性化调整，例如 AI 可以注意到用户在解释问题时常常伴有特定的手势，它可能会学习到这些手势的含义，并在未来类似的情境中快速做出合适的回应。3.2 应用发展的核心就是人机交互应用发展的核心就是人机交互模式的升级模式的升级应用是连接人类意图与应用是连接人类意图与信息及信息及技术实现的媒介，其本质是交互技术实现的媒介，其本质是交互用户通过应用表达用户通过应用表达需需求求，应用通过应用通过寻找信息和寻找信息和调用相应技术来理解和实现用户的意图调用相应技术来理解和实现用户的意图，形成一个闭环的交互，形成一个闭环的交互过程。过程。应用作为一个中介，不仅仅是一个

42、静态的工具，而是一个动态的、可以交互的系统，它需要接收、处理用户输入，并与后端技术（如数据库等）进行交互，最终给出用户所需的结果或服务。无论是桌面软件、网页服务还是移动 APP，应用通过直观的界面设计、流畅的操作逻辑、及时的反馈机制，搭建了人与数字世界交互的桥梁。我们平时通过点击、说话等方式将大脑中的信息指令通过鼠标、键盘、触摸屏等媒介，传递到硬件系统再到软件系统，然后软件系统进行处理。后续处理结果会通过显示器、音箱等反馈给我们，这就是一个完整的人机交互过程。图 27：人机交互过程资料来源：机器之心、维基百科、西部证券研发中心过往每一次人机交互的重大革新都孕育了行业巨头，并深刻改变了人们的

43、生活方式和商过往每一次人机交互的重大革新都孕育了行业巨头，并深刻改变了人们的生活方式和商业格局。业格局。1940-1960 年代，早期的计算机通过穿孔纸向计算机输入指令，有孔为 1，无孔为 0，经过光电输入机将数据输入计算机。由于需要输入二进制的机器语言，计算机在这个阶段只被少数专家应用于专业领域。20 世纪 60 年代中期，命令行界面(CLI)作为穿孔纸带的友好替代方案出现在计算机上，通过输入被称为命令行的文本行与计算机程序交互。20 世纪 80 年代初，苹果公司推出的 Lisa 和 Macintosh 电脑首次普及了图形用户界面，随后微软在 1985 年发布了第一个版本的 Windows

44、操作系统。图形用户界面的出现极大地简化了用户与计算机之间的交互，不再需要复杂的命令行输入，而是通过直观的图标、菜单和鼠标点击来操作。这一革新不仅让个人电脑变得更加用户友好，也催生了微软这样的科技巨头，Windows 操作系统成为了 PC 时代的标准配置，彻底改变了软件开发和用户界面设计的范式。2007 年，苹果公司推出了第一代 iPhone，凭借其革命性的触摸屏和多点触控技术，重新定义了手机，也开创了移动互联网时代，带动了 App 经济的爆发，使得智能手机成为了 21 世纪最重要的个人计算设备之一。图 28：人机交互的变革资料来源：虎嗅网、网易、西部证券研发中心整理绘制比尔盖茨 2023

45、年曾发表标题为AI 即将彻底改变人们使用计算机的方式并颠覆软件行业的文章，并称“AI Agent 不仅会改变每个人与计算机的交互方式，还将颠覆软件行业，引领我们从键入命令到点击图标以来计算机领域最大的革命”。他认为：AI Agent 将成为下一个平台。未来用户只需用日常语言告诉设备想要做什么，基于获取的信息和对用户生活的丰富了解，软件能够做出个性化的回应。在不久的将来，任何网民都能拥有一个远超今天技术水平的人工智能助手。我们认为我们认为从从 PC 互联网时代，到移动互联网时代，再到现在的互联网时代，到移动互联网时代，再到现在的 AI 时代，应用发展的核心时代，应用发展的核心就是人机交互的不断进

46、化与深化。就是人机交互的不断进化与深化。人机交互的核心点之一为信息传递，从外设主导到触控技术，再到自然语言处理，人机交互的发展一直在努力简化信息传递过程，使其更加直观、自然和无缝。每一次技术迭代都致力于减少用户与技术之间的隔阂，让信息的交换更加高效和人性化。在 PC 互联网时代，主要依赖键盘和鼠标等外设进行操作。图形用户界面（GUI）的出现，简化信息传递过程，用户可以通过点击图标、拖放文件、使用下拉菜单等方式进行操作，无需记住复杂的命令序列。这一转变极大地降低了学习门槛，使得信息传递过程更加直观和用户友好。但用户仍需要学习并遵循特定的应用界面布局、菜单结构和操作规则来实现需求。随着移动互联网时

47、代的到来，多点触控技术成为主流。用户可以直接在屏幕上通过触摸、滑动、捏合等手势来操作，这一方式更接近于人类在现实生活中的交互习惯。触控技术使得信息传递无需通过额外的物理设备，减少了中间环节，用户可以直接与内容互动，信息传递过程变得更加快速、高效和自然。例如，智能手机和平板电脑上的多点触控操作，让用户可以轻松放大图片、翻页阅读、播放音乐等，无需复杂的按键组合，信息传递的效率和设备易用性大大提高。然而，尽管触摸屏简化了一些操作步骤，但用户仍然需要理解和记忆各种应用程序的操作逻辑。AI 时代，时代，交互型多模态大模型的出现交互型多模态大模型的出现有望有望推动人机交互推动人机交互向更为简单的向更为简单

48、的自然语言自然语言交互交互形式发展形式发展，具体为以语音交互为主的包含，具体为以语音交互为主的包含语音语音、手势手势、触感触感和和空间计算空间计算等在内的全等在内的全模态交互模态交互。大模型积累了海量的“陈述性知识”，并且在规模、复杂性处理、上下文理解、多任务学习、生成能力、知识整合和自我监督学习等方面，比早期的 AI 能力有显著提升，从而增强了推理“程序性知识”的能力，让大模型在处理复杂问题、提供智能服务方面具有显著优势。终端本身就融合了多种感知通道，录音机、摄像头等传感器作为重要输入源提供多维数据，且不同于传统的关键词匹配，大模型结合上下文进行分析，这意味着它可以在连续的对话中保持话题连

49、贯、把握整体脉络，这让大模型对用户意图拥有较强的理解能力。同时，大模型在回答时能从知识库中提炼出有价值的信息，并能够根据用户的具体需求和上下文背景，提供定制化的答案或建议；且当大模型与应用深度结合之后，它根据用户的指令或需求，自动调用相应的应用程序、服务或界面等。未来 AI 有望推动人机交互走向更简单的模式，彼时用户不再需要遵循特定的格式或命令，而是直接用自然语言与设备沟通。不再受限于固定的界面规则的交互将变得更加自然和人性化。图 29：人机交互将向最简单的形态发展资料来源：极客公园微信公众号、西部证券研发中心整理绘制所以在大模型迭代过程中，性能所以在大模型迭代过程中，性能提高提高固然重要

50、，但交互的升级也固然重要，但交互的升级也同样同样具有重大价值具有重大价值，商商汤汤 CEO 徐立徐立认为认为“行业要变化，交互模式一定是先行的”，交互的升级是“行业要变化，交互模式一定是先行的”，交互的升级是加速加速大模型超大模型超级时刻级时刻到来到来以及超级应用以及超级应用出现出现的核心。的核心。钉钉总裁叶军认为，在 AI 时代，产品的交互界面正在从 GUI 走向 LUI（Language User Interface，自然语言用户界面），并向多模态交互演进。过往的应用设计理念都是希望人去学习软件或机器设备的交互界面。AI 时代，设计理念走向了一个全新的方向，就是让软件系统或设备来理解人。这

51、个变化意味着用户不应该去参加使用培训，甚至也不需要产品说明书，通过多模态（文字，图片，语音，视频，气味等）的交互方式，产品会主动理解使用者的意图和需求。大模型的终极形态，是让人机交互进化到最原始、最简单的形态，在未来和电脑、手机大模型的终极形态，是让人机交互进化到最原始、最简单的形态，在未来和电脑、手机等等直接说话交流直接说话交流或许或许就是最主要的交互方式。交互模式的简化，会极大降低就是最主要的交互方式。交互模式的简化，会极大降低 AI 的使用门的使用门槛，槛，所以所以交互型多模态大模型带来的交互型多模态大模型带来的这种更加直观、傻瓜的交互，这种更加直观、傻瓜的交互，有望有望带来带来大模型大

52、模型应用应用更大面积的普及。更大面积的普及。四、四、交互型多模态大模型交互型多模态大模型会带来怎样的会带来怎样的应用应用？我们将 AI 的应用分为两大类：数字智能和具身智能。数字智能主要通过处理数据和信息来提供服务，即可简单理解为大模型通过手机、电脑等终端以智能助手形式直接与用户互动，提供软件形式的服务。具身智能则与物理环境交互，需要硬件支持来实现三维空间内的运动行为，其中人形机器人是其代表，在应用领域方面，具身智能已经渗透到机器人、智能座舱、智能家居等多个领域。4.1 交互型多模态大模型交互型多模态大模型在“数字智能”中的应用在“数字智能”中的应用 4.1.1 教育教育规模化和标准化是现代

53、教育的特征基于社会分工的逻辑，旨在为社会各行各业的发展培养可用之才。与此相对应的，便是分专业的学科式架构、分级分班的规模化教学。AIGC 技术应用下，大规模的通用数据与教育各学科的垂类数据并存，通识教育和专业教育所需的内容均可满足。同时，AIGC 资源不像教师资源具有时空上的独占性，有望实现大规模的个性化教学。而在交互方式上，口语面授是主流的、学生习以为常的教学交互方式，而 AIGC 技术的独特之处也在于多轮自然语言交互能力，有来有回的问答式相比于知识的单向灌输，更接近孔子论语的对话体教学，也更接近苏格拉底的启发式对话教学模式。图 30：现代教育的特征与 AIGC 技术吻合资料来源：艾瑞咨询

54、2024 年 AIGC+教育行业报告、西部证券研发中心在判别式 AI 技术下，学生在口语练习时常常存在对话简单、场景受限、难以多轮交互、个性化不足等问题。AIGC 技术应用后，大模型参数的扩大、预训练架构的使用等，使得原本单向播报和简单问答的功能进一步拓展了多轮对话、逻辑推理、上下文理解能力。其次，基于新数据生成而非识别分类的逻辑，AIGC 产品可应对的场景和任务范围更加广泛，可以满足用户对细分场景的需求。而交互能力的升级，会让教学时的对话过程更加流畅，从而提高对话效率和质量。图 31：大模型拓展了 AI 技术在教育领域的应用场景资料来源：艾瑞咨询2024 年 AIGC+教育行业报告、西部

55、证券研发中心 2023 年，OpenAI 的 GPT-4 在 Khan Academy 和 Duolingo 的应用中，推动了教育领域的创新。Khan Academy 推出了 Khanmigo AI 助手，通过解答开放式问题，增强了学生对编程等课程内容的理解，提升了互动性和个性化水平。同时，Duolingo 在 2023 年 3 月推出了“Duolingo Max”，引入了基于 GPT-4 的 Role Play和 Explain My Answer 功能。Role Play 功能通过模拟对话帮助用户练习语言技能，并提供即时反馈。Explain My Answer 功能则在用户语法出错时提供详

56、细的解释和指导，辅助学习。这些功能模仿人类导师，提升了学习体验。随着 GPT-4o 的推出，AI 教师的能力有望大幅提高，我们认为 GPT-4o 的实时互动能力对于教育领域尤其关键，能够适应学生多样化需求，使学习过程更加生动，互动更流畅，教学更具针对性，用户的学习兴趣和学习效率有望提升，对 AI 的付费有意愿有望增强。图 32：Duolingo max 功能资料来源：Duolingo 官网、西部证券研发中心交互型多模态大模型或将交互型多模态大模型或将进一步释放大模型进一步释放大模型在家庭教育中的潜力。在家庭教育中的潜力。OpenAI 官方公布的视频演示中，GPT-4o 通过 iPad 屏幕

57、分享，实时语音指导，帮助一个学生解答数学题。在GPT-4o 的耐心引导下，男孩一步步推导出正确答案，体验堪比一对一的在线辅导。同时，GPT-4o 的图像处理能力也在教育领域得到了有效应用。在 OpenAI 春季发布会演示中，面对实验者提出的线性代数题目3x+1=4，GPT-4o 展现了其引导解题的能力，只提供解题思路而不直接给出答案，帮助测试者独立解决了问题。图 33：GPT-4o 在 Khan Academy 上完成数学题辅导图 34：GPT4o 通过视频完成数学问题辅导资料来源：OpenAI 官网、机器之能公众号、西部证券研发中心资料来源：OpenAI 官网、机器之能公众号、西部证券

58、研发中心交互型多模态大模型交互型多模态大模型还可以还可以作为语言学习与职业技能提升的先进工具，作为语言学习与职业技能提升的先进工具，其其功能涵盖了功能涵盖了多多语言翻译语言翻译、模拟面试等多个方面，模拟面试等多个方面，随时随地为用户提供辅导随时随地为用户提供辅导。凭借图像识别技术与多种语言储备，交互型多模态大模型可以帮助用户在日常生活中学习外语，高效便捷且增强了语言学习的互动性和趣味性。同时，GPT-4o 的同声传译功能打破了语言障碍，促进了全球范围内的沟通与交流。此外，通过模拟面试场景，它帮助用户磨练面试技巧，提高职业竞争力。图 35：GPT-4o 识别物体并输出西班牙语图 36：GPT

59、4o 模拟面试资料来源：OpenAI 官网、open AI 官方 YouTube、西部证券研发中心资料来源：OpenAI 官网、机器之能公众号、西部证券研发中心 2024 年 5 月底，OpenAI 宣布了 ChatGPT Edu 的发布计划，这是一款专为高校设计的ChatGPT 版本，旨在协助学校负责任地部署人工智能技术。该版本包含了最新的 GPT-4o 模型，支持跨文本、音频和视觉的推理，并具备强大的管理控制与数据安全特性。亚利桑那州立大学(ASU)等机构已经在利用 ChatGPT Enterprise 推进教育创新，如开发 AI助教、交通管理系统和新闻制作项目，展现了 AI 在提升教

60、学、研究及业务运作方面的潜力。ChatGPT Edu 的推出将进一步促进教育领域的 AI 应用，如哥伦比亚大学将 AI 融入社区战略减少药物过量致死、沃顿商学院用其加深学生学习反思、ASU 开发语言学习伙伴等。大模型、多模态交互、Agent 规划和具身智能行动的融合，将解决个性化教学、数据分析、课件生成、作业批改等问题，同时，具身智能机器人能够在物理世界中与学生建立情感联结，起到教学陪伴与激励作用。AIGC 技术的外化与硬件化，是技术发展的必经之路。通过软件与硬件的结合，AIGC 技术将更好地发挥其在教育领域的优势，为学生提供更加丰富、个性化的学习体验。图 37：AGI 完全体与教育畅想资

61、料来源：艾瑞咨询2024 年 AIGC+教育行业报告、西部证券研发中心 4.1.2 编程编程 AI 工具正在被软件开发人员广泛采用。2023 年的一项针对软件开发人员使用 AI 工具的调研（2023 Developer Survey）表明，77%的受访者对集成 AI 的开发工具表示支持和非常支持，并且，82.6%的人表示经常使用 AI 来编写代码，48.9%的人用于调试和协助，34.4%的人用于文档编写，23.9%的人使用 AI 进行代码测试。AI 编程助手正迅速成为全球软件开发的关键力量，国内外企业均在这一领域取得了显著进展。国外起步较早，以微软和 OpenAI 合作推出的 GitHub C

62、opilot 为代表，通过深度学习技术，为编程人员提供高效的代码生成与补全服务，确立了其在智能研发工具中的领先地位。国内虽然起步稍晚，但紧随其后，随着 2023 年大模型技术的突破，国内头部 AI 企业如阿里巴巴、科大讯飞和百度，纷纷推出了基于自家大模型的编码助手产品，展现了在 AI 领域的快速创新和应用能力。GPTGPT-4o4o 在代码优化领域的应用表现卓越在代码优化领域的应用表现卓越，它能读懂电脑屏幕，它能读懂电脑屏幕，能够深入分析代码，能够深入分析代码，然后用自然语言实时然后用自然语言实时指导用户进行代码调整，指导用户进行代码调整，大幅帮助用户大幅帮助用户提升开发效率和质量提升开发效率

63、和质量。在科技活动 VivaTech 的现场演示中，OpenAI 的开发者体验负责人 Romain Huet 使用GPT-4o 加持的 ChatGPT Mac 版演示了代码阅读、debug 和优化等过程。Huet 首先让 ChatGPT 描述了一段代码的功能，该代码是用于渲染 Discover 卡片组件的 React 组件，数据来源于 trips.json 文件。随后，Huet 请求 ChatGPT 帮助提高页面的响应性。ChatGPT 建议使用 Tailwind CSS 的响应式设计特性，根据屏幕大小调整网格列数，并提供了具体的设置方法。Huet 询问了具体的属性设置，ChatGPT 给出了

64、详细的指导，包括如何根据不同屏幕尺寸设置列数。最后，GPT-4o 利用其多模态能力，亲自检查并确认了改动的有效性。整个演示展示了 GPT-4o 在编码问题上的强大实时处理能力，以及其生成文本的速度优势，相较于 GPT-4 Turbo 有显著提升。图 38：GPT4o 代码能力演示资料来源：AI 科技大本营公众号、西部证券研发中心 6 月 25 日，OpenAI 宣布收购远程协作平台初创公司 Multi，这次交易属于收购兼招聘，既整合技术也整合员工，被收购初创公司的成员将在交易完成后加入 OpenAI。Multi 成立于 2019 年，公司主要产品是多人协作应用程序，允许团队成员共享光标、绘图

65、和键盘控制等，优势在于代码协作。Multi 支持最多 10 人同时跨屏幕协作，通过独立光标，可以对已打开的应用程序进行绘制和标注，甚至将各自不同的应用程序视图融合成一个共享视图，而 Multi 的技术或许可以帮助 OpenAI 实现未来多 AI Agent 调用并与用户协同工作的效果，比如 AI 与用户一起编程。图 39：远程协作平台 Multi 资料来源：腾讯科技微信公众号、西部证券研发中心 4.1.3 医疗健康医疗健康 OpenAIOpenAI 与与 Be My EyesBe My Eyes 合作，为视障人士提供实时视觉辅助合作，为视障人士提供实时视觉辅助，GPTGPT-4o4o 成为盲人

66、的成为盲人的“眼睛”“眼睛”。在 OpenAI 给出的示例中，GPT-4o 给一位视障人士讲解了建筑物和国旗上的国徽，描述了湖边鸭子的活动，展示了 AI 在辅助视障人士感知世界方面的潜力；最后，GPT-4o 还帮助盲人成功坐上了回家的出租车。图 40：GPT-4o 与 Be my eyes 结合为盲人提供实时助手资料来源：OpenAI 官网、机器之能公众号、西部证券研发中心 OpenAI 关注大模型在医疗领域的应用，一直与不同合作伙伴在不同医疗健康领域进行应用实践。从提高工作效率到改善患者体验，再到提供个性化服务和降低成本等，人工智能正在成为医疗行业的重要推动力。表 1：OpenAI 在医疗

67、健康领域的应用实践应用实践发布时间应用实践发布时间合作公司合作公司/项目项目应用领域应用领域技术应用与效果技术应用与效果 2023 年 3 月 Be My Eyes 视觉支持网络利用 GPT-4，开发了 Virtual Volunteer，提供物品识别和解释服务，帮助视障人群。2023 年 12 月 Summer Health 儿科医疗服务利用 GPT-4 自动生成清晰笔记，医生记录时间大幅减少，家长反馈积极。2024 年 1 月 WHOOP 健康和健身科技利用 GPT-4 提供个性化健康教练服务，显著提升用户体验。2024 年 3 月 Lifespan 医疗系统利用 GPT-

68、4 简化手术同意书，提升病人理解能力，优化医疗体验。2024 年 3 月 Paradigm 医疗技术利用 GPT-4 快速评估病人数据，提高临床试验注册效率。2024 年 3 月 Healthify 健康平台利用 GPT-4 提供健康跟踪和指导服务，提高产品准确性和用户健康成果。2024 年 4 月 Oscar 健康保险利用 GPT-4 降低保险成本并改善病人护理，提供个性化健康建议，提升客户服务效率。2024 年 4 月 Moderna 生物技术利用 GPT-4 分析临床试验数据和生成科学报告，提高了研究的准确性和效率，加速开发拯救生命的治疗方法。2024 年 6 月 10BedIC

69、U 重症护理项目通过 OpenAI API 强化印度重症监护服务。它整合了 Whisper API 和 GPT-4，实现了医患对话的自动转录与电子病历的生成，提升了数据质量和工作效率。同时，利用 GPT-4 Vision 技术，通过摄像头实现了医疗监控数据的实时捕获与上传。此外，GPT-4 还支持自动生成出院报告，减轻了医护人员的文书负担。在疫情期间，这一系统已连接 200 多家医院，持续提供专业医疗服务，增强了医疗服务的可及性。2024 年 6 月 Color Health 癌症护理利用 GPT-4o 的推理能力，通过其新 copilot 应用程序识别缺失诊断并创建定制工作计划，使用 O

70、penAI API 整合患者医疗数据与临床知识，为医疗保健提供者创建定制化、全面的治疗计划。资料来源：OpenAI 官网、西部证券研发中心未来 AIGC 将贯穿医疗服务全流程。AIGC 能够更好地处理包括文本、图像、声音在内的多种数据类型，适用于不同的医疗场景，例如可以快速生成医疗报告、病例摘要等文本内容提高医生的工作效率。并且利用出色的语言能力，整合和分析大量医学文献和临床数据，为医生提供决策支持。生成易懂的医疗健康教育内容，帮助患者更好地理解疾病和治疗方案等。图 41：AIGC 贯穿医疗全流程资料来源：甲子光年2024 年中国 AIGC 行业应用价值研究报告、西部证券研发中心我们认为

71、交互型多模态大模型的集成有望为患者提供更加个性化、高效和针对性的医疗健康相关服务，可能将在这几个方面发挥较大的作用：1）智能导诊助手：通过自然语言交互理解患者的症状描述，推荐合适的科室和医生，并协助完成在线预约；同时，可以分析患者的面部表情和语气，判断情绪状态，提供适当的心理安抚。2）健康顾问：可以给用户提供疾病信息、药物用法、饮食建议等，同时可以通过多模态交互全方位了解用户健康状态，然后提供准确、及时的健康指导。而针对需要物理治疗或康复训练的用户，健康顾问可以利用虚拟现实技术，提供定制化康复计划，监测患者的运动执行情况，及时调整训练强度，确保康复过程的安全和有效。3）情感支持助手：识别普通用

72、户情绪变化，提供适时的情感支持和心理辅导。而面对患者，除了倾听、鼓励和建议，还可以再必要时引导患者联系心理健康专家，帮助其应对精神健康挑战。4）无障碍导航助手：利用语音指令和实时位置数据，为视障用户提供清晰的路线指导，避开障碍物，确保安全地到达目的地。它还可以集成交通信息，提供更全面的出行解决方案。5）远程监护助手：适用于老年人或慢性病患者，可以远程监控状态和生命体征（如心率、血氧水平）等，并在检测到异常时立即通知医生或家属。4.1.4 办公办公 AI 未来将成为关键的生产力工具，有望深度融入办公场景。微软和领英的2024 Work Trend Index Annual Report报告显示，

73、全球员工不仅期望在工作中应用 AI，而且愿意主动采用 AI 来提升个人职业发展。AI 的普及正打破职业发展的限制，同时，高级 AI 用户的出现预示着未来工作的新趋势。交互型多模态大模型能够充当会议助手，记录并总结要点，且可以区分参会人声音。当进行视频会议时，它能够全面记录并整理视频会议内容，自动生成包含重点标记的会议记录，同时记住各个参会人的观点。它还能在讨论中提供即时回顾，帮助参与者迅速找回被打断前的讨论点和重点内容，确保会议的流畅性和信息的准确性。图 42：GPT4o 当会议助手资料来源：OpenAI 官网、机器之能公众号、西部证券研发中心 4.1.5 游戏游戏 2023 年，AI 已成

74、为游戏工作室工作流程中的常规部分，62%的工作室利用 AI 进行原型制作、概念设计和资产创建。在 Unity 的数据中，有 71%工作室表示，AI 改善了他们的交付和运营，37%的受访开发者表示正在通过 AI 加快编码速度，36%的开发者用其生成艺术作品和游戏关卡。在国内，伽马数据发布的中国游戏产业新质生产力发展报告显示，现阶段中国游戏营收 TOP50 企业中，在人工智能、数字孪生、引擎开发、云技术和 XR 等新质生产力关联领域有所布局的企业占近八成。在调研的游戏从业者中，超 97%游戏从业者表示企业技术研究投入有所增加，其中技术投入显著提升（中、大幅）的占比达到七成。当前，当前，AIAI 技

75、术在辅助游戏研发方面扮演着关键角色，它通过生成图像、音乐、配音技术在辅助游戏研发方面扮演着关键角色，它通过生成图像、音乐、配音及剧情和代码，显著降低了开发成本并提高了创意效率。及剧情和代码，显著降低了开发成本并提高了创意效率。游戏研发团队的策划、美术和程序等职能领域都在通过 AI 技术实现自动化和优化，从而减轻工作量并提升产品质量。此外 AI 在用户设备上运行的能力，为开发人员和创意工作者提供了强大的工具和平台。在玩家体验方面，在玩家体验方面，交互型多模态大模型驱动的交互型多模态大模型驱动的 AI NPCAI NPC 或将成为游戏行业一次重大革或将成为游戏行业一次重大革新新。玩家和 NPC 之

76、间的互动是游戏体验的一个关键方面。传统的交互范式基本都是一维的，NPC 以预设的方式对玩家的输入做出反应。这种限制让更有机、更丰富的互动的潜力没有得到释放。在目前的游戏系统中，非玩家角色（NPC）的行为主要由开发人员编写的预定义脚本决定。这些脚本包含基于游戏环境中各种触发器或玩家动作的一系列反应和交互。然而，这种脚本化的性质通常会导致可预测或重复的 NPC 行为，这些行为无法响应玩家的实时行为或游戏的动态环境，很多时候会阻碍用户的沉浸式体验。而大模型有望改变这一范式，AI 可以让 NPC 学习玩家行为，适应更多元的策略，具有自主性和适应性。AI NPC 将变得更加“类人”，更了解玩家，从而输

77、出更符合情境的内容，让玩家与 NPC 的交互更为自然。不仅可以降低用户生成内容(UGC)的成本，还激发了创新，避免了内容同质化，尤其在依赖自然语言对话的游戏中，AI 驱动的玩法具有独特的吸引力。图 43：GPT-4V 可以基于游戏画面生成用户行为预测以及 NPC 行为建议资料来源：AGENT AI:SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION、西部证券研发中心 2024 年，Inworld AI 进行了一项名为AI NPC 在未来游戏开发中的角色的调查，共有来自美国、英国、日本、韩国、香港和新加坡的游戏工作室的 524 位专业人士参与。报告

78、显示，56%的受访者认为 AI NPC 将带来超过 40%的投资回报率，近 3/4 的游戏开发者对 AI NPC 充满热情。Inworld AI 与微软合作，通过结合 GPT 和其他大模型、音频模型及 30 多个机器学习模型，开发了多模态的“角色引擎”。这个引擎旨在模拟人脑，打造复杂的 AI 角色。Inworld Studio 作为一个 AI 虚拟角色生成平台，允许用户和开发者通过自然语言输入，无需编写代码，即可迅速构建并部署 NPC 到游戏或应用中。国内游戏大厂也在AI 领域积极布局。腾讯自 2016 年起便成立了 AI Lab 工作室，开发了决策智能 AI“绝悟”和棋牌类 AI“绝艺”，并

79、在多类型游戏中取得了领先研究成果。网易在 2017 年成立了伏羲工作室与 AI Lab，其逆水寒手游中应用了 AI NPC、AI 捏脸等自研技术，展示了 AI 技术在游戏开发中的多样化应用。表 2：部分游戏公司的 AI 布局动作厂商厂商 AIAI 布局动作布局动作腾讯旗下有混元大模型、自研游戏 AI 引擎 GiiNEX。2016 年设立 AILab，AILab 旗下“绝悟”团队已经将 AI 能力应用于游戏制作、运营及周边生态的全链路。王者荣耀火影忍者元梦之星等游戏中都有 AI 的身影。厂商厂商 AIAI 布局动作布局动作腾讯旗下有混元大模型、自研游戏 AI 引擎 GiiNEX。20

80、16 年设立 AILab，AILab 旗下“绝悟”团队已经将 AI 能力应用于游戏制作、运营及周边生态的全链路。王者荣耀火影忍者元梦之星等游戏中都有 AI 的身影。网易有伏羲、网易互娱两大游戏 AI 实验室，自研数十个超大规模预训练模型。眼下伏羲已被应用到了游戏制作的剧情生产、美术、NPC 等环节。逆水寒游戏已经植入了智能 NPC、AI 招脸、AI 游历故事等多种 AI 应用。三七互娱已有多个数智化产品矩阵。在研发端，有宙斯游戏研发中台、雅典娜数据分析系统、阿瑞斯用户画像系统等；在推广端，有量子智能化投放平台、图灵美术设计中心；在运营端，有易览游戏市场情报系统、天机智能化运营平台。世纪华

81、通 2023 年就将 AI 技术融入游戏研发流程中，并成立专门的技术团队 TA 组。旗下有人工智能客服系统，极测信息 AI 自动云测平台以及NPC 小镇和只能代码助手应用。目前盛趣游戏所运营的传奇龙之谷彩虹岛饥荒等接入 AI 工具巨人网络 2022 年建立 AI 实验室，已完成游戏 AI 大模型 GiantGPT 的备案。还构建了“iMagine AI 绘画云平台”、“CodeBrain 代码生成助手”、“百灵 AI 语音生成”等平台化基础技术能力。计划打造一个 AI 游戏开发平台昆仑万维 2023 年宣布“All in AGI 与 AIGC”。次年推出“天工大模型 3.0”。目前已

82、有 AI 大模型、AI 搜索、AI 游戏、AI 音乐、AI 视频、AI 社交六大 AI 业务矩阵。旗下社交媒体业务 Opera 借助 AI 业务打造元宇宙业务；游戏方面，旗下 PFF 游戏工作室(Play for Fun)自主研发的全球首款 AI 游戏 Club Koala 已亮相科隆展。游族网络 2023 年就建立了 AI 创新院，下设智子实验室和红岸实验室，分别聚焦 AI 赋能“游戏创作”和“游戏发行”领域，提供游戏研运全链路 AI 技术支持。同时，该公司还与云从科技、腾讯云等科技公司开展战路合作。掌趣科技悠米互娱合作构建“AI 游戏创作平台”；协同蓝亚盒子打造“LayaAir3”AI

83、游戏引擎；与行者 AI 展开合作。已逐渐形成了“1 个平台、2 个工具、3 项重点技术、N 个游戏产品”的“AI+UGC”战路布局。完美世界 2023 年成立 AI 中心，并且已将 AI 相关技术应用于游戏中的智能 NPC、场景建模、AI 绘画、AI 剧情、AI 配音等方面。梦幻新诛仙诛仙世界都运用了 AI 技术。汤姆猫正推进 AI 手游Talking Ben AI、汤姆猫 AI 讲故事、AI 语音交互陪伴机器人等产品的研发与测试工作。资料来源：游戏陀螺公众号、西部证券研发中心 4.1.6 情感陪伴情感陪伴随着 AI 技术的发展，情感陪伴产品应运而生，它们通过个性化虚拟人物，满足用户的社交

84、聊天需求，丰富了用户的情感体验。这些产品不仅拓宽了智能助手的应用范围，也为人们提供了一种新的社交和情感交流方式。GPTGPT-4o4o 以其先进的情感交互和场景理解能力，在发布会上展示了其多样化的智能应以其先进的情感交互和场景理解能力，在发布会上展示了其多样化的智能应用。用。OpenAI 研究主管 Barret Zoph 展示了如何在语音模式下实时让 GPT-4o 判断自己的心情；同时，GPT-4o 还能在用户分享宠物时表现出亲切的赞赏，以及通过手机摄像头识别出庆祝生日的场景，并在确认后提供情感丰富的反应和唱出生日快乐歌。GPT-4o 甚至能在用户需要时唱摇篮曲，帮助安抚情绪。图 44：GPT

85、4o 唱生日快乐歌资料来源：OpenAI 官网、机器之能公众号、西部证券研发中心 2024 年年 3 月月，a16z 发布的发布的 TOP 50 AI 网页网页产品中发布产品中发布的的榜单中，榜单中，AI 伴侣赛道呈现出惊伴侣赛道呈现出惊人的增长势头人的增长势头。有 8 家（Candy.ai、Character.ai、Chub.ai、Crushon AI、DreamGF、JanitorAI、Spicychat、Yodayo）进入 TOP 50 AI 网页产品榜单，2 家进（Character.AI、Poly.AI）入新设立的 TOP 50 AI 移动 App 产品榜单。这一趋势表明，AI 情

86、感陪伴产品已经受到全球范围内的广泛关注。从呈现形式来看，国内产品偏向 APP 和小程序，海外产品偏向 APP 和网页。在国内市场，字节跳动通过话炉平台加强了情感陪伴产品的内容和娱乐性。与此同时，其他领先的大模型厂商，如月之暗面、Minimax 和阶跃星辰，也在积极推进自己的 AI 情感陪伴产品，各展所长，进一步拓展市场。这些产品不仅丰富了用户的情感生活，也体现了 AI 技术在模拟人类情感交流方面的潜力和创新。4.2 交互型多模态大模型在“交互型多模态大模型在“具身智能具身智能”领域应用领域应用 4.2.1 人形机器人人形机器人人形机器人，作为 AI 技术与高端制造业的结合体，不仅具有高通用性

87、，能适应人类社会基础设施，还因其性价比和广泛应用前景而备受瞩目。大模型等技术进步正推动人形机器人的泛化能力和自然语言交互能力快速发展。据高工产业研究院（GGII）预测，2026年全球人形机器人在服务机器人中的渗透率有望达到 3.5%，市场规模超 20 亿美元，到2030 年，全球市场规模有望突破 200 亿美元。OpenAI 与 Figure AI 的合作是大模型作为机器人“大脑”的范本。Figure AI 在 2024 年2 月底获得包括亚马逊创始人贝索斯、英伟达、OpenAI 和微软在内的投资者 6.75 亿美元融资后，公司估值达到 26 亿美元。此次合作将使 Figure 利用 Open

88、AI 的 GPT 模型开发专有 AI 系统，提升机器人的交流、观察和任务完成能力，同时借助微软 Azure 云服务构建 AI 基础设施和数据存储。紧接着，在 3 月 13 日，Figure 与 OpenAI 共同推出了集成先进视觉和语言理解技术的 Figure 01 机器人，它能够自主完成递送和清理等任务，标志着人形机器人技术的新里程碑。Figure 01 背后的多模态大模型技术，为机器人与人类的互动提供了更多可能性，标志着人工智能技术在机器人领域的快速发展。如下图所示，Figure AI 用机器人摄像头采集的视频信息，并结合麦克风捕获的语音转录文本，输入到 OpenAI 提供的多模态大模型中

89、，实现对图像和文本的深入理解，进一步丰富了人形机器人的应用场景和功能。图 45：Figure 01 背后的大模型技术资料来源：Figure AI、西部证券研发中心交互型多模态大模型有望给交互型多模态大模型有望给人形机器人人形机器人带来带来交互效率和情感智能方面的重大飞跃。交互效率和情感智能方面的重大飞跃。凭借端到端原生多模态模型以及更强的交互能力，人形机器人可以同时处理语音、面部表情、手势等多种输入信号，迅速识别和理解用户的意图，减少等待时间，提高响应速度，展现出接近人类反应速度的敏捷性，同时，它们的情感识别能力将得到显著提升，能够细致区分和响应不同对话者的情绪状态，提供更加精准和贴心的语

90、言反馈。4.2.2 智能座舱智能座舱智能座舱集成了传感器、控制器、显示和通讯终端，以及云服务和网络技术，实现人车智能交互。它们不仅提供信息娱乐和安全提醒，还通过万物互联技术，为驾乘者打造个性化和舒适的体验。随着技术的进步，智能座舱的交互方式正从传统物理操作演变为语音、手势、面部识别等更自然的交互形式。在 2024 的高工智能汽车开发者大会上，理想汽车的李娟指出，智能座舱技术已迈入 3.0时代。这一时代的座舱特点包括基于先进大模型的智能语音助手、结合语音和视觉的多模态交互方式，以及多屏联动和设备间的互联互通。李娟预测，AI 智能座舱的未来趋势将是硬件发展从同质化走向标准化，用户界面(UI)设计

91、将从预定义转变为生成式，更灵活和个性化，同时 AI 技术将从通用模型发展为更贴合用户需求的专属助手。图 46：智能座舱多种交互方式图 47：智能座舱多维度信息的融合资料来源：ErgoLab 公众号、西部证券研发中心资料来源：Geekcar 公众号、西部证券研发中心随着大模型在多种场景中的适用性日益增强，市场对统一管理座舱功能的智能体需求日益增长。2024 年，蔚来、理想、合众汽车等主机厂相继推出了 Agent 框架，以语音助手为切入点，实现座舱内功能应用的统一管理。Agent 服务框架的推出，不仅统一了座舱功能，还根据客户需求和喜好提供了丰富的场景模式，尤其是支持用户定制化场景，加速了

92、座舱个性化时代的到来。表 3：智能座舱 Agent 场景场景场景 Agent 实现功能实现功能出行场景通过多模态技术提供导航指引、播放音乐、调节车内温度等功能，使驾驶体验更加便捷和个性化。办公场景 AlAgent 可以作为智能助手，帮助驾驶员和乘客处理工作任务，如日程安排、邮件收发、数据分析等。教育场景提供 24 小时在线教育资源，帮助驾驶员和乘客在旅途中学习新知识，并通过数字人播讲，寓教于乐。育儿场景提供适合儿童的教育内容和娱乐活动，如讲故事、播放儿歌等，部分座舱支持声纹复刻，在感受到儿童情绪异带时，用家长的声音进行安抚。观影场景提供个性化的电影推荐，并通过识别语音指令控制调节车

93、内氛围灯和座椅角度，采用 AI 降噪、AI 声场等技术营造最佳的观影环境。音乐座舱提供个性化的音乐推荐，并根据歌词内容提供实时壁纸生成，还可根据音乐进行续写，支持即兴创作。资料来源：佐思汽研、西部证券研发中心在 2024 WAIC 上，商汤绝影在行业率先实现原生多模态大模型的车端部署，并展示了在3 个不同算力平台上运行 2.1B 或 8B 端侧多模态大模型的适配能力。相较于云上部署方案，商汤绝影车载端侧 8B 多模态模型可以实现首包延迟低至 300 毫秒以内，推理速度40Tokens/秒，并且能够覆盖主流算力平台。同时，商汤绝影推出的“随心界面”FlexInterface 和“随意操控”A

94、gentFlow 等车载 AI Agent，进一步改变了用户与车载系统的交互方式。依托于 AI 大模型的即时生成和修改交互界面的能力，FlexInterface 在大模型解析用户需求的基础上，结合设计系统的框架和范式，实现高度动态和个性化的界面生成。在 WAIC 2024 演示现场，演示者通过语音指令要求创建一幅以欧洲杯为主题的壁纸，FlexInterface 成功地执行了这一任务。此外，如果需要对壁纸进行修改，FlexInterface 也能够生成一个更新的版本。AgentFlow 通过大模型的推理能力，模拟人类点击操作，实现对 APP 和网站的直接操作。用户只需使用自然语言，就能让 AI

95、自主选择多个工具完成复杂任务，无需主机厂进行额外的研发适配。例如，用户能让 AgentFlow 自动搜索并预约适合看球的酒吧，提供从搜索到预订的一站式服务。图 48：绝影 FlexInterface 生成个性化交互界面资料来源：WAIC 2024 商汤科技人工智能论坛、西部证券研发中心此外，交互型多模态大模型可以直接将视觉感知结果输入神经网络，提供更丰富的信息细节，从而实现对车辆环境的精准分层和分类。这使自动驾驶系统在处理驾驶动作时进行更好的任务优先级排序，保持最优驾驶决策逻辑，更符合人类驾驶思维。此外，这种模型可能通过推理加速和降低时延，帮助实时感知道路环境，及时分析周围障碍物信息和交通

96、参与者意图，进而可能提高低速自动驾驶的安全性。4.2.3 智能智能家居家居随着 AI 技术的不断进步，家电产业正在经历一场革命性的变革。扫地机器人和智能摄像头等传统决策式 AI 产品已经成熟，但随着生成式 AI 大模型的引入，智能家居产品的用户体验将迎来颠覆性的变化。这种高级别的智能化体验，预计将成为未来智能家居产品的一个必要属性，对消费者的购买决策产生显著影响。智能家居市场的增长速度在整个行业中是少数保持高增速的领域之一。根据 Statista 的数据，预计到 2028 年，国内智能家居市场规模将达到 520 亿美元。这一增长趋势得益于 AI 技术的逐步融合和应用，交互型交互型多模态大模

97、型的嵌入将使多模态大模型的嵌入将使智能家电智能家电具备更高级的语音交互能力。具备更高级的语音交互能力。这能够更准确地识别消费者需求，控制智能家居设备，甚至提供情感陪护和辅导孩子作业的功能。尽管存在方言和口语识别等技术挑战，但 GPT-4o 等新模型的出现预示着技术的进步。未来，全模态 AI 将通过语音、手势和面部表情的自然交互，控制家电，使家庭生活更便捷、更富有互动性。图 49：生成式 AI 赋能智能家居的价值资料来源：月狐数据、西部证券研发中心在这一背景下，国内外的家电企业已经开始积极探索 AI 技术的应用。海信在 AWE 大会上推出了星海中文大模型，TCL 则在其空调产品中集成了超省电

98、 AI 大数据模型算法，而奥克斯则将智能语音大模型技术应用于其空调产品，提升了用户体验。此外，华为在HDC 开发者大会上展示了与盘古大模型合作的成果添可智能料理机。这款料理机采用了基于盘古大模型 5.0 的 AI 数字菜谱技术，能够根据用户的饮食习惯生成个性化的烹饪方案。6 月 27 日，在 2024 ECDC 萤石云开发者大会上，萤石网络正式发布了面向物联场景的具身智能大模型“蓝海大模型”。与互联网大模型相比，蓝海大模型基于“人、物、环境和知识”四个维度衍生，全面覆盖了从设备感知到设备执行的完整链路，具有历史记忆能力，可以接入多种多样的设备，可以同时处理声音、图像、视频、文字等不同模态，可以

99、精确感知、识别与理解世界，并自主规划指导设备做出响应，可以提供从基础事件感知，对话式设备交互，直到具身式交互的能力，实现与物理世界的全方位交互。图 50：萤石 AI 技术策略资料来源：壹观察微信公众号、西部证券研发中心萤石蓝海大模型是跨空间，也跨时间的具身智能。通过端云联动交互，它能够联动分布在物理空间的不同位置的各种设备，来构建完整的具身智能能力；然后基于用户的历史习惯，为用户提供全流程的服务。比如，在用户离开办公室的时候，就已经提前打开家里的空调，让用户一到家就能感受最习惯最舒适的温度。图 51：萤石蓝海大模型资料来源：壹观察微信公众号、西部证券研发中心商汤也宣布旗下元萝卜光翼灯接

100、入商汤商量大模型。在 2024 WAIC 现场演示中，元萝卜分别用陕西话和上海话介绍上海全球人工智能大会。这款灯具通过 AI 内容创作激发用户写作灵感，无论是中文作文还是英语写作，都能提供构思和技巧上的指导。它还具备丰富的百科知识库，满足用户随时的学习和查询需求。作为 AI 学科辅导老师，光翼灯为学习者提供专业的学科支持。此外，它支持多语言对话，包括普通话、粤语、上海话和英文，实现 AI 全程在线陪伴，并通过语言过滤确保交流的纯净性。这些创新使得光翼灯在提升用户体验的同时，成为学习、创作和语言交流的强大辅助工具。图 52：演示元萝卜光翼灯使用方言回答问题图 53：元萝卜光翼灯产品资料来源：

101、WAIC 2024 商汤科技人工智能论坛、西部证券研发中心资料来源：元萝卜光翼灯公众号、西部证券研发中心五、五、交互型多模态大模型交互型多模态大模型未来未来形态形态 5.1 交互先行，端侧交互先行，端侧AI发展有望加速发展有望加速交互型多模态大模型是 AI 发展过程中的又一个重要里程碑，打破了传统模型在单一数据类型上的局限性，开创了一种更智能的交互方式。我们认为我们认为未来未来交互型多模态大模型交互型多模态大模型将深度集成于将深度集成于端侧端侧设备设备，特别是，特别是当下当下作为作为人们人们获取信获取信息息的的主要设备主要设备手机手机上。而上。而手机手机具有海量具有海量用户用户，且用户群

102、体具有，且用户群体具有高粘性高粘性，一旦对，一旦对 AI 产产生依赖，大模型在各类功能、服务中的渗透生依赖，大模型在各类功能、服务中的渗透有望加速有望加速。1）交互型多模态大模型有望和手机上各类 APP 深度集成，在我们前文所述的教育、社交、游戏、医疗健康等各类场景中发挥作用。2）交互型多模态大模型将深度融合在手机 OS 中。交互型多模态大模型能够深度理解用户需求，可以接收用户的自然语言指令或根据用户所处环境调取即时、合适的服务，例如驾车时主动开启免提通话并打开导航。甚至未来，大模型可以作为中心枢纽，连接各种生态服务，如支付、健康监测、交通导航和在线购物，形成一个完整的智能生活圈。图 54：前

103、 OpenAI 高管 Andrej Karpathy 对 LLM OS 的构想资料来源：有新 Newin 公众号、西部证券研发中心同时，交互型多模态大模型与同时，交互型多模态大模型与 PC 结合，有望大幅提升企业的生产力和创造力，甚至可结合，有望大幅提升企业的生产力和创造力，甚至可能创造全新的工作和创作方式能创造全新的工作和创作方式。交互型多模态大模型综合处理视觉、听觉以及文本信息，形成了一个全方位的认知系统，它作为 AI 助手，能够实时观察屏幕上显示的内容，无论是文档、图像还是视频，并且可以迅速捕捉并解析其中的信息。这种能力使得它能够和用户进行更为自然和流畅的沟通，不再局限于简单的问答形

104、式，而是能够参与到更复杂的对话中，理解用户的意图，提供更具针对性的建议，甚至还可以预测下一步的需求。图 55：Copilot 读取 PC 屏幕内容，辅助用户完成我的世界相关任务资料来源：机器之心微信公众号、西部证券研发中心长远来看，随着大模型进一步发展，它将具备与用户协同工作的能力，不仅能理解人类长远来看，随着大模型进一步发展，它将具备与用户协同工作的能力，不仅能理解人类的行为和需求，还能主动参与的行为和需求，还能主动参与工作流程工作流程，协助完成任务。，协助完成任务。例如，在设计领域，AI 可以根据用户提供的草图或概念，自动补充细节，优化布局，甚至提出创新的设计理念；在编程场景下，AI

105、可以识别代码中的错误，主动修复，或是自动生成某些功能模块，大大减轻开发者的负担。5.2 交互型多模态大模型交互型多模态大模型商业模式商业模式 1）作为聊天助手作为聊天助手 APP 以交互型多模态大模型为底座的聊天助手 APP，包含免费的基础功能以及需要订阅的高级功能，类似于现在 ChatGPT。2）作为基础模型接入各类作为基础模型接入各类应用应用交互型多模态大模型作为一种基础服务，通过 API 接口的形式提供给其他应用程序和开发者使用，通常根据 token 数量计费。这种模式下，大模型通常会作为一个后端服务运行，通过接收请求并返回结果的方式与前端应用交互。3）超级入口超级入口 PC 互联网时

106、代，搜索引擎为主要入口，用户主要通过搜索引擎进行信息搜索、缓存等，台、短视频、移动支付、导航等成为“超级 APP”，形成多样化内容分发入口，由此用户内容获取链路变短，诞生 Meta、腾讯、阿里、字节跳动、百度等众多细分头部企业。与搜索引擎不同，在呈现质量上，大模型可更好理解用户意图，为用户提供更具个性化、更有针对性的互联网内容；在供给方式上，传统搜索引擎要求用户自行拆解任务、提炼关键词、筛选并整合信息，而大模型通过多模态交互可代劳上述工作，理解复杂的用户意图，简化用户思考流程，降低用户使用门槛。而移动互联网时代诞生的一系列超级App 间彼此互不相通，如果想要完成一个多场景的连贯式操作会非常困难

107、；而未来大模型赋能的 OS 有望打通各类 APP，具有跨应用调取服务的能力，进一步提高效率。图 56：AI Agent 帮用户规划旅行、购票、更新日历等资料来源：AIOS:LLM Agent Operating System、西部证券研发中心在在 AI 时代，我们认为大模型将与终端时代，我们认为大模型将与终端 OS 深度融合成为“超级入口”深度融合成为“超级入口”，而，而交互型多模态交互型多模态大模型的出现将催化入口的演进。大模型的出现将催化入口的演进。大模型发展的第一阶段是基本的问答，彼时大模型把知识库和联网搜索的信息进行整合，提供回答；第二阶段开始连接一些简单的应用，主要作用信息获取和简单功能的调取；第三阶段大模型将与与 OS 融合超级入口，而交互型多模态大模型凭借更自然交互和更强的性能，能有效地组织应用、服务、知识、内容和数据等，最后以用户需要的方式呈现。图 57：“PC 互联网时代-移动互联网时代-AI 时代”入口演进资料来源：天翼智库公众号、西部证券研发中心六、六、相关标的梳理相关标的梳理 1）交互型多模态大模型：）交互型多模态大模型：商汤-W、云从科技-UW；2）数字智能应用：）数字智能应用：金山办公、科大讯飞、虹软科技、美图公司；3）具身智能应用：）具身智能应用：海康威视、大华股份；4）算力：）算力：寒武纪、软通动力、海光信息、浪潮信息、中科曙光、神州数码。

2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告（38页）.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告（38页）.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

相关推荐