CCHI2018:王海峰展示百度大脑最新能力“多模态深度语义理解”

8月25日,为期两天的首届中国认知计算和混合智能学术大会(CCHI2018)在西安举办,百度高级副总裁、AI技术平台体系(AIG)总负责人王海峰与中国科学院院士陈霖、蒲慕明等学界知名专家共同研讨与交流认知科学、神经科学与人工智能学科领域交叉融合的最新进展和前沿技术。

中国认知计算和混合智能学术大会(CCHI2018)由国家自然科学基金委员会信息科学部、中国自动化学会与中国认知科学学会联合主办,是国内首个关注认知科学、神经科学与AI交叉融合的高端学术会议。本届大会邀请了认知建模与计算、混合智能、智能机器人、智能驾驶等领域海内外知名专家作学术报告,交流相关研究领域的最新成果和发展趋势。

王海峰是人工智能的领军人物之一,在国内外有广泛的影响力。他是自然语言处理领域最权威的国际学术组织ACL 50多年历史上唯一出任主席(President)的华人,也是ACL亚太分会(AACL)创始主席。同时,王海峰是百度人工智能的奠基者和领导者,为百度创建和发展了自然语言处理、知识图谱、语音、视觉、深度学习等AI核心技术,并成立AI技术平台体系(AIG)担任总负责人,致力于AI相关技术的研究及其应用落地。

CCHI2018:王海峰展示百度大脑最新能力“多模态深度语义理解”

CCHI2018:王海峰展示百度大脑最新能力“多模态深度语义理解”

百度大脑迭代更新 逐步加深对客观世界的认知

在大会报告中,王海峰分享了百度大脑的最新进展。百度大脑是百度AI技术多年积累和业务实践的集大成,包括视觉、语音、自然语言处理、知识图谱、深度学习等AI核心技术和AI开放平台,对内支持百度所有业务,对外全方位开放,助力合作伙伴和开发者,加速AI技术落地应用,赋能各行各业转型升级。

百度大脑的演进,从基础技术积累,到建立完整的技术体系,再到核心技术进入多模态深度语义理解阶段,同时伴随着百度多年的业务实践和AI能力的全面开放。

王海峰指出,AI技术与产业的结合愈发多元化,单一技术已无法满足应用需求,具备“多模态深度语义理解”能力的百度大脑通过多技术融合,能让机器对客观世界有更深层认知,从而更好的支撑应用。

CCHI2018:王海峰展示百度大脑最新能力“多模态深度语义理解”

百度大脑新阶段:多模态深度语义理解

“多模态深度语义理解”是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言理解等多方面的语义理解技术。“多模态深度语义理解不仅能让机器听清、看清,更能深入理解它背后的含义,深度地理解真实世界,进而更好地支撑各种应用。”王海峰解释。

在 AI 领域,数据的重要性不言而喻。无论是物理世界、人类社会还是网络空间,都汇聚了海量的多元、异构、多模态数据。数据语义化技术可以将这些数据形成包含千亿节点、万亿关系的庞大数据语义网络,从中总结规律、提炼知识、发现价值,助力经济和社会发展。王海峰介绍,数据语义化技术已经在生产生活中发挥作用,比如在新能源充电桩运维中,利用百度的数据语义化技术进行设备监测、故障诊断等,可以显著提升效率,节约成本。

除了数据,理解并运用大千世界中的多元知识也是AI技术进一步突破、深层次理解客观世界的重要基础。百度已经构建了包含数亿实体、数千亿事实的庞大知识图谱。除了基础的由实体、属性、关系构成的实体图谱,百度还针对不同的应用场景和知识形态,构建了关注点图谱、事件图谱、多媒体图谱、行业图谱等多种知识图谱。

视觉语义化可以让机器从看清到看懂视频,并提炼出结构化语义知识。王海峰通过体育比赛视频的案例,展示了视觉语义化技术的价值。他介绍,2016年,百度AI实现了奥运会篮球比赛的自动解说,背后是自然语言处理和搜索技术。如今,应用视觉语义化技术对世界杯比赛视频进行解析,AI能够全面识别视频中的球员、裁判、球、以及球门、球场线等人、物和场景,可以捕捉射门、进球、角球、任意球、换人等事件,形成比赛的语义化知识,既可以实现机器人解说比赛,也可以进行精彩片段集锦、以及各种数据统计分析等更深层的应用。

语音语义一体化技术让机器听得更清楚准确,实现更自然的人机对话。王海峰介绍,百度采用多语种声学混合建模,中文的Deep Peak 2模型效果比业界最好竞品错误率相对降低20%; WaveNet+拼接的情感语音合成技术,既可以使机器发声的自然度大幅提升,又避免了计算量过大的问题。

自然语言理解是人工智能最具挑战的技术领域之一,近年来取得的进展已经释放出巨大的应用价值。王海峰介绍,在对话理解上,百度研发的深层注意力匹配模型,比已知的最好结果提升了4.1%,人机对话交互更加流畅自然。而在阅读理解上,百度大脑已经阅读了千亿量级的文章,相当于 6 万个中国国家图书馆的藏书,积累了亿级实体、千亿事实的知识,从而深入地理解内容、获取知识,支持更广泛的应用。

百度大脑的技术能力在不断进步,对外开放也更加全面和丰富。截至目前,百度已对外开放120多项领先的AI场景化能力与解决方案,并通过开源开放深度学习框架PaddlePaddle、定制化平台EasyDL等、实训平台AI Studio、软硬一体的AI能力,持续降低AI应用门槛,帮助开发者和企业应用AI实现业务创新与升级。

CCHI2018:王海峰展示百度大脑最新能力“多模态深度语义理解”

直面人工智能的机遇和挑战 为发展加速

人工智能技术发展迅速,在各行各业的应用落地正在变得更加广泛并开始走向深入。面对全社会掀起的人工智能热潮,我们更要清醒地认识AI发展的机遇和挑战。

在基础理论层面,小样本学习、低能耗的智能机制或许是人工智能面临的最大挑战。目前的深度学习技术都是建立在大规模样本、高能耗计算的基础之上,同时,深度神经网络的结果很难解释。因此,未来的人工智能理论研究,要探索如何让人工智能像人类一样,能够做到小样本学习,能耗低,且真正地被理解。

在应用技术层面,视觉、语音等感知技术在这一轮深度学习的浪潮中得到很大提升,甚至某些方面的能力已经超越人类。但在认知技术方面,无论是对语言的理解,还是对知识的掌握和应用,依然有很大的进步空间。因此,自然语言处理、知识图谱等认知技术,将是未来非常重要的研究方向。

从产业层面,一方面呈现出软硬结合的趋势,另一方面,深度学习框架和AI芯片也将是新的产业机会。“AI芯片能否在产业上成功,取决于围绕AI芯片建立起来的应用生态。其中,深度学习框架起到至关重要的作用,其意义相当于指令集和操作系统。”因此,王海峰认为,类似百度PaddlePaddle这样的深度学习框架,将会成为AI时代的重要基础设施。

在应用系统层面,多技术综合应用、结合场景的系统性创新至关重要。王海峰建议,研究者可以术业有专攻,但产业界,应关注公司的综合技术实力,特别是其工程落地能力。此外,结合特定场景和数据等特性的系统性创新,也是AI技术应用落地的必要条件。

人工智能经过60余年的发展,在互联网、大数据、大计算、脑科学等新理论新技术,以及经济社会发展需求的共同驱使下,正在进入一个崭新的时代。如今,它需要与更多不同领域的知识产生新碰撞,打造竞争新优势、开拓发展新空间。中国的AI之路也将不断注入新活力,走得长且远。

CCHI2018:王海峰展示百度大脑最新能力“多模态深度语义理解”

如需转载,请后台留言,遵守转载规范

相关推荐