大会议程 AGENDA

AI+RTE (与信通院云大所联合出品)

10.25 14:00-17:30

出品人:刘硕

14:00-14:35

重塑RTC未来:大模型浪潮下的技术变革与展望

近年来实时通信技术飞速发展,RTC正在深刻改变人们的生活和工作方式。大模型浪潮下,新兴媒体应用展现出新的特点,RTC技术也必将迎来新一轮变革。本次演讲主要以RTC1.0时代的实时通信技术为基本脉络,介绍AI初步赋能后的RTC2.0系统优化技术演进,介绍我们基于强化学习、感知模型、超分模型等提升用户体验的最新进展。进一步地,展望在大模型未来中RTC与新兴技术的融合趋势,提出新容器、新架构、新目标,完善更为丰富、高效、智能的RTC3.0布局。

演讲提纲:
1.实时通信RTC关键技术
2.结合AI技术的RTC进阶
2.1 强化学习赋能
2.2 跨层联合优化
2.3 全链路联合优化
2.4 端云结合的边缘架构
3.RTC3.0技术变革展望
3.1 基于云端代理的新型实时交互
3.2 适配AIGC的控制中心新升级
3.3 面向多模态内容的新一代媒体容器

14:35-15:10

AIGC技术支持人设对话场景

本次分享我们将介绍声网在特定场景下,基于大语言模型实现的AI虚拟人对话场景的相关实践。内容涉及数据集构建、大模型微调技术、提示工程的设计等。

演讲提纲:
1. 大语言模型简介
2. 模型微调技术
3. 数据集制作
4. 提示工程

15:10-15:45

星火大模型技术解析与应用案例

刘坤 科大讯飞AI工程院副院长

ChatGPT表现出的智能涌现,在全球掀起了通用人工智能技术研究、产品应用的热潮,该技术正在引发新一轮的产业变革。本次演讲主要以认知大模型为主,介绍认知大模型的技术原理,以及支撑产品应用需要关注的主要技术方案,最后介绍讯飞在大模型方面的应用案例。

演讲提纲:
1、大模型技术原理解读
2、大模型应用技术方案
3、大模型产品案例实践

15:45-16:20

互动数字人:AIGC技术与直播行业的融合创新

传统直播间在前期准备上的投入成本较高,主播开播前的化妆、背稿,直播过程中的场控,长时间直播的疲劳和口误,高昂的人力成本和不稳定的转化等等,都是阻碍直播难以批量矩阵化运营的因素,数字人直播应运而生,在本地生活、文旅票券、房产销售等场景,一旦技术上实现了数字人从外形、声音、到智能交互的问题,便可以低成本高效率的方式进行数字人直播,为企业提供更多变现和营销方式。

演讲提纲:
1.数字人相比传统直播的优势
2.直播感的数字人取决于TTS生成的音色自然程度
3.数字人直播实现互动的方式
4.大模型赋予数字人比肩真人的应变能力

16:20-16:55

从信号处理的声音变调到神经网络学习的AI变声

凌天格 格子互动创始人

演讲提纲:
1. 你所理解的“变声”可能已经过时了
1.1 基于DSP的传统变声方案的优劣势
1.2 基于ASR+TTS的变声方案的优劣势
2. AIGC时代Streaming Voice Conversion变声方案
2.1 AI 级别的VC变声原理
2.2 VC区别于传统语音发声方案之处
2.3 AI变声带来的新机会和商业模式
3.用户玩的6才是真的6
3.1 看用户和KOL如何玩转AI变声
4. VC不止于变声而已
4.1 口音消除和口音增强的神奇功能
4.2 更小,更轻,更自动化后,世界变大了
4.3 VC与TTS的深度结合
5. 新技术下的新未来
5.1 新数据与新模型为更多客户赋能
5.2 新场景的一些遐想

16:55-17:35

圆桌:智能化RTE发展要素及趋势

主持人:刘硕 中国信息通信研究院云计算与大数据研究所内容科技部副主任
嘉宾:
钟声 声网首席科学家、CTO
呼娜英 中国信息通信研究院云计算与大数据研究所内容科技部高级业务主管
周博立 小红书直播业务移动端技术负责人