高保真数字真人直播有多强大？

所有版权归中国经济网所有。
中国经济网新媒体矩阵
网络广播视听节目许可证（0107190）（京ICP040090）
即使直播持续了近6个小时，大部分电商主播都出现了疲惫的迹象，百度直播间主播“罗永浩”和搭档“朱小木”仍然能够动情地回答观众的问题，时而讲一些“笑话”来吸引观众点单。这两位主播并非真人，而是百度利用基于脚本的多模型协同数字人技术打造的数字人主播。在2025世界互联网大会乌镇峰会上，百度自主研发的基于脚本的多模态协作高保真数字人技术荣获世界互联网大会新兴技术技术奖。随着人工智能技术的快速发展和大规模模组的加速演进与多模态模型相比，数字人类已成为集成大规模语言模型和多模态技术的创新应用。电商直播是数字人落地的绝佳舞台。数字人技术让会员店无需投入大量人力物力进行直播，大幅降低场地租赁、设备采购、人力资源培训等成本。同时，数字化工作人员可以24小时进行直播，进一步增加产品曝光时间和销售机会，提高财务回报。然而，传统技术的数字人世代往往面临语音、语言和视觉的多模态分离问题，表现为线条僵化、语音语调与线条情感匹配不佳、面部表情和手势独特等。百度首席技术官王海峰表示，为了解决百度的痛点在数字人应用方面，百度创新研发了基于脚本的多模态协作高保真数字人技术。明白了。剧本的基础是对话。台词的生成不仅与内容的结果相匹配，而且与演讲者的个性和语言风格相匹配，保证了语言表达的个性化和连贯性。多个主播场景还需要实现语义逻辑、语调节奏、情感风格的整体协调。同时，为提高台词内容的深度，应引入内容策划、知识丰富和事实核查机制，降低人工智能错觉的风险。基于线路，大模型可以直接生成真人直播数字脚本。脚本带有“视觉标签”和“音频标签”，可以告诉系统角色应该根据对话采取什么行动。强交互性是关键特征电商直播场景的真实情况。在与观众互动过程中，语音合成的自然程度是决定用户沉浸感的重要因素。观众希望听到演讲者情绪化、上下起伏的声音，而不是死板、机械的朗读。王海峰表示，针对这一需求，百度提出了“文本控制语音合成”的解决方案。大规模文本控制语音合成模型不仅具有高弹性的语音合成功能，还可以结合直播台词和主讲人的个人特点，将这些文本内容转换为自然且富有感染力的声音，让数字人员不仅能发出声音，还能准确传达嘲笑、自豪、强调等微妙情绪。数字真人主播在直播过程中除了与用户互动之外，还必须与产品、空间进行物理和逻辑上的互动。我们该怎么做？高度一致，h超逼真的、人体长度的数字视频生成技术，可以驱动历史视频数据、脚本、音频信息和骨架的输入。分析和理解多模态信号，生成极具表现力的片段、完整的交互片段“人、物、场”片段以及具有精彩动作和表情的片段。该系统可以长时间一致地对这些剪辑进行编程，确保声音、嘴型、面部表情和动作始终一致。保证高度同步。目前，数字人正逐步从实验室走向各种应用场景，商业化进程显着加速。深度思考和多模式交互等关键能力的进步预计将使越来越多的数字人类出现在屏幕上并进入人们的生活。同时，业内专家提醒，《直播电子商务监督管理办法》《（征求意见稿）》提出，当人工智能等技术生成的人物图像、视频用于直播营销活动时，直播间经营者必须在直播页面放置明显标识，不断提醒消费者，人物图像、视频是人工智能等技术生成的，并与自然人的姓名、图像明确区分。中科院信息技术研究所高级工程师韩子忠表示，人们在接受数字人技术的同时，也需要划定清晰的界限并避免使用高保真技术来掩盖其真实性以达到欺诈或虚假宣传的目的。技术发展必须与法律和道德约束并行，以保持创新走在正确的道路上。
（编辑：杨淼）

发表评论 取消回复

发表评论取消回复