您当前的位置:首页 > 国内市场

百度AI开发者大会百度大脑论坛详解多模态深度语义理解

2018-12-11 12:21:36

7月4日召开的百度AI开发者大会(Baidu Create 2018)上,百度高级副总裁、AI技术平台体系(AIG)总负责人王海峰发布百度大脑3.0,并指出,百度大脑3.0的核心是“多模态深度语义理解”,包括数据的语义,知识的语义,以及图像、视频、声音、语音等各方面的理解。

多模态深度语义理解如何在技术上实现?拥有多大的能量?它将如何被应用来改变我们的生活?当天下午的百度大脑论坛中,百度大脑3.0的核心技术一一“亮相”,为开发者们带来一场技术盛宴。

可容纳1000人的会场座无虚席,开发者们甚至席地而坐,或者站在会场最后听完整场分享。

一位开发者表示,“干货太多、时间太少,回去要找回放视频好好消化一下。

”从“看清听清”到“看懂听懂”“多模态深度语义理解能让机器听清、看清,更能深入理解它背后的含义,深度地理解真实世界,进而更好地支撑各种应用。

”王海峰表示。

视觉语义化可以让机器从看清到看懂视频,并提炼出结构化语义知识。

百度视觉技术部、人脸技术部、增强现实技术部总监吴中勤介绍,视觉语义化技术首先识别人、物体和场景,同时捕捉它们之间的行为和关系,通过时序化、数字化、结构化的方式形成语义知识,最终结合领域和场景进行智慧推理,落地行业应用。

比如在零售领域,它可以准确判断每个人的动作、行为,真正实现顾客拿起商品就走。

未来,视觉语义化技术还可进一步延展,它结合新型的传感器和AI芯片,可以在感知层面和计算层面得到大幅提升;结合手机可以带给用户更佳地使用体验。

未来,百度视觉语义化技术将在百度AI开放平台中开放给开发者使用。

语音技术的升级则让机器更好地听懂世界。

百度语音技术部总监高亮表示,百度基于远场的语音语义一体化技术取得重大突破,为业界提供更顶尖的远场语音技术。

语音语义一体化将远场交互中高频Query识别准确率提升10个点,并保持普通Query识别率不降;多语种混合声学建模基于Deep Peak2大幅提升中英文混合Query识别准确率,相对错误率比业界最好竞品降低20%;新升级的TTS技术业界首创传统拼接技术与Wavenet技术融合方案,保证合成质量的同时大大降低成本,让大规模应用落地成为现实。

此外,百度重磅发布远场语音技术低成本解决方案“度小云”,它基于Deep Peak V2语音识别技术、语音语义一体化技术及LSTM-VAD深度学习语音切分技术,实现业界领先的五级唤醒技术,并拥有基于Wa


java循环教程
国家计算机二级
ai教程
推荐阅读
图文聚焦