免费注册 | 登录 | 2024年3月29日

百度吴恩达:语音识别会推动物联网的革命

 2015-01-31 16:39:44 责任编辑: 来源:凤凰科技

前瞻经济学人

2015年1月30日消息,百度Big Talk2015年第一期在美国硅谷开讲,百度首席科学家吴恩达(Andrew Ng)在会上表示,百度是第一个建立深度学习的网络,而深度学习将改变人工智能,这些机会体现在文本、图像和语音识别。

吴恩达以火箭为例,“建造火箭需要一个很多的燃料(数据)和很大的引擎,深度学习就是让火箭腾飞的引擎。”

目前,百度已经在硅谷或中国建立了巨大的神经网络。他认为,神经元网络的技术很有前景,人脑的工作被激发开来,因此模拟神经元的信号,用算法让他更智能,“建立了有效的深度学习的算法将会改变整个人工智能”。

具体的,深度学习为人工智能带来的新机会体现在三个地方:文本、图像和语音识别。

“电脑视觉是深度学习带来的革命”。据吴恩达介绍,在计算机视觉方面,已经有了一个很好的技术来建立图像,未来几年会改变医学影像、图像搜寻,以及新的产品和技术,比如Baidu Eye。

而在语音识别方面,会对互联网、家用电器带来很大的改革。吴恩达认为,语音会是改革互联网的很大一个因素。语音识别会推动物联网的革命,比如汽车界面、家用设备,以及可穿戴设备。在这方面,特别是在移动互联网方面,中国其实领先于美国和其他国家很多。

不过对于外界表述的恶意机器人带来的负面影响,吴恩达认为这些炒作和担心没有需要,这在今天是没有任何实现的可能性。

他将恶意机器人的炒作归结为劳工话题,是学术界和政客的炒作。“这样的炒作实际上给人类社会提出了不同的挑战,比如就业。在很久时间,技术建立了很多机会。技术取代了农业专业,农民可以训练自己的子女做不同的工作。技术的变革越来越快,因此需要重新训练人。我非常顾虑,没办法及时训练需要的人”。 

以下为吴恩达演讲实录:

非常高兴大家可以在硅谷相聚,在过去几年有一种人工智能已经开始起飞了,对硅谷有很大的冲击,就像Jason所讲,今天你会听到人工智能如何冲击并改变医疗保险、教育和其他领域。

这里面有很多种操作,今天我想和大家分享两件事情,第一件,什么是,和什么不是深度学习,在二十分钟的时间里面我们希望可以让你知道这样的技术是什么。第二点,对于在领先机构里面的你们,你们能够在策略上思考这些机构——公司、学校、企业是否要做深度学习的技术。

多年以来,我们一直有这样的创意,就是人工智能的虚拟圈,比如做一个很好的产品,可以得到很多很好的用户,这些用户可以提供很多的数据。最后,用人工智能就可以让很多的产品越来越好,让你得到越来越多的用户,如此产生人工智能的良性循环。但是这样的理念根本没有成功,在这幅拼图里面所缺失的最大一环,就是人工智能。来看早一代的人工智能算法,即使有很多的数据支持,但是表现功能不会越来越好,在我脑中有一个非常基本的原因。为什么深度学习冲击世界,因为我们都可以测量算法,所以在大数据里面,新的人工智能的算法越来越好,我们可以第一次在整个虚拟圈里完成整个循环。

过去时间,很多沟通都是通过文字,过去十年间网页就是一堆文字。如今在百度,我们看到,特别是在移动互联网领域,沟通已经改变成为了图像和语音。百度已经经历改变十五年了,现在就要跟大家分享在图像语音方面的机会。因为在互联网上的沟通,提供更好的服务,给各国和全世界使用。现在谈谈百度如何理解图像和语音。

七年前,在斯坦福,我让我的学生写程序识别咖啡杯的图像,他们用了当时最好的图像和算法,这就是他们得到的结果。他们发现到处都是咖啡杯,为什么识别咖啡杯这么困难?当我们放大以后继续来看。把他当成红的方块。电脑的问题就是看到这些数据,色素的强度,告诉我们这些数据定义了咖啡杯,所以长久以来这是在电脑图像方面不足的地方。神经元网络的技术很有前景,人脑的工作被激发开来,因此模拟神经元的信号,用算法让他更具有智能。在深度学习,刚才讲的热磁,来模拟人脑,很多研究人员想用这个热磁。可是神经学家知道根本不可能知道人脑如何工作。我的朋友开玩笑说,神经网络好像用卡通画脑子。过度简单的用卡通描述脑子,因此对大脑不是非常了解。这些程序可以了解这些物体,能做的就是说照张相,给神经网络很多数据,很多咖啡杯图像,可以来学习,可以来说这是咖啡杯。这只是识别咖啡杯,是个相对容易,但是计算机视觉比这个要复杂得多,但我们看这个图像,看到很多东西。如果要给很多注解的话,你就说,黄色大巴开在路上,右边的画,你就说,一间起居室,很多阳光照进来,而你写这个注解的能力,就是对这个图像的深度理解。那么,可不可以让电脑理解图片和我们做的一样?如果要让你用中文来注解这张图片,同样,你就看这个图片,说,这个棒球运动员准备击球,一个人在冲浪,一个车停在现场。

所以,电脑是否可以理解图像,好像我们有这个能力写注解。所以我给你们一个惊喜,这个字幕不是人写出来的,是电脑写的,百度是第一个用神经网络技术写的。现在还有其他好多公司来尾随我们。所以我们今天在的位置在哪里呢?在计算机视觉我们已经建立了一个很好的技术来建立图像。我们在对美国听众展示用中文写的字幕。既然已经有非常复杂的电脑技术,现在就是应用是什么。电脑可以了解在过去五年有长足的发展。应用是什么?医学影像,图像的搜寻,买什么衣服,百度还有其他公司有这样的计算机视觉技术,尝试产品和技术,今天也不知道最好的应用是什么,未来几年会改变这方面的情况。

所以,电脑视觉是深度学习带来的革命。为什么深度学习,也就是神经网络如今有迅猛的发展?这就是我们来建立了有效的深度学习的算法,改变整个人工智能的方法。举个例子。建造火箭,需要两个部分组成,很大的引擎,很多燃料,好像宇宙火箭,如果有很大的引擎,很少的燃料,这是无法工作的,反之亦然。所以需要有一个很大的引擎和很多的燃料才行的通,算法的时候也是,建立一个很大很大的神经网络。另外数据就是燃料,在整个人类社会的数据化,可以看到很多以前拿不到的数据。这就是很大的可以腾飞的火箭。因此未来的最近今年的深度学习就是让火箭可以腾飞。大概是2010,五年前,最大的神经网络有一千万的连接点,几年后我就开始了在google云项目,用一千个电脑建立的一亿个神经元的网络,这其实为深度学习带来很大进展。后来我意识到这是一个非常昂贵的技术,有朋友就意识到用不同的技术,用其他gpu技术,在电脑里面处理讯息图像的技术可以建立这样的神经网络,用大的引擎飞火箭。比过去还大十倍。今天在百度,硅谷或中国建立了巨大的神经网络。代表百度来讲,我们是第一个建立深度学习的网络,这就是火箭引擎,现在有很多公司步我们后尘。

现在举个实例,深度学习如何了解互联网。今天百度很多用户是用语音搜索,很多太年幼的用户,也有很多年龄大的用户,或文化程度不高的用户,无法用拼音搜索。对于他们,用语音搜索是唯一的方式可以让我们知道他们的需求。如果在安静的环境中,手机可以识别你的语音。如果在嘈杂的环境中,比如车里或者餐厅中,识别就不是很好,我们要想办法解决这个问题。传统的方式是工程师要写软件,分解成小的软件来解决这个问题。我们要不要换一个角度,为语音识别建立一个火箭发动机一样的流程。一般来说最大的语音识别的数据是需要两千小时的数据,我们要利用七千小时的语音数据来,燃料多三倍。我们后来又说从这七千小时语音数据来总结出十万多个小时的数据,通过这些数据,可以建立矩阵,跟其他的语音识别系统,比别的api都好很多。在比较小的时间当中,建立出体系。在嘈杂的环境中也表现的比较好。秘诀就是我们有很大的引擎和很多的燃料。

为什么要说这个?市场上有很多的产品,但是语音会是一个改革互联网很大的因素。在这个方面,中国其实领先于美国和其他国家很多,特别是在移动互联网方面。我们花很多时间在智能手机上,用打字的方式沟通,即使在嘈杂的环境中用语音沟通,可以通过讲话就可以给另一半发消息,如果语音识别继续改进的话,以后这个技术可能改变我们的生活。

此外,语音识别也会对互联网,家用电器带来很大的改革。我有五个遥控器,如果我可以用讲话控制的话就完美了。我现在还没有下一代,但是我希望有一天我的儿子或孙子一辈,可以问我在我小时候你跟你的微波炉讲话却没有反应这是真的吗?太不礼貌了。未来语音识别会对我们的技术带来翻天覆地的变化。

现在围绕互联网有很多变化,因为现在有很多的数据围绕着语音,如果有很大的引擎很多的燃料,通过深度学习可以深入了解解决这些问题,可以改变我们使用技术的方式,也可以带来其他领域,如金融这些方面的变化。你们可以看出来我非常兴奋,另外还有炒作的因素,在过去有很多人提到了邪恶的机器人,有些人在担心机器人可能会带来负面影响。其实我们现在掌握的技术是非常好的,我个人还不知道怎么建造出有自我感知的机器人。当然,我对于技术是很有激情的,我相信会改变我们的生活,给成千上万人的生活带来变化。有些炒作或担心我觉得没有必要。非常感谢。

问:有几个问题,这些算法有很多的事情变了,百度不是唯一做深度学习的。你的前老板google也在做。很多公司都在做。什么变了?更大的数据库?更高的购买力?更大的引擎?

答:你知道吗,有一个我学习的事情是说你拿一个软件,在很慢的机器里没法运行,但用更快的电脑就可以做了。电脑越来越快,数据越来越多。这个很难,你知道,做软件其实是个很难的事情。但是现在已经在做十年,二十年前没法做的事情。

问:而且价格显著下降,Andrew解释了在百度的一千个电脑做一个10亿的链接。现在这个更便宜了是吧?

答:降低成本的很大一个原因是我们意识到了很多技术更好。Google在云技术方面有很大的潜力,当我带领google深度学习team,叫绿色团队,我们用云只建立他们的网络。这是没问题的。他们用这个方法做了很多应用。但是随后我们发现,我们可以不用云,转而用超级计算机的技术来降低成本,建立模型,如果在云里面做,会用成千的电脑来做,几年,因此必须要防止电脑坏掉。您们的笔记本可能三年就坏了,那些百度投资的计算机很大的容量,因此不会坏。百度是世界领先,使用HPC技术建立新的网络。

问:我们现在已经介绍了,很多人在上网的时候,还没有电脑,智能手机,语音识别这些东西,到底电脑的工作是否带动更多人上网?

答:智能手机是个很亲密的装置。我有一个iphone 6plus,在美国朋友都问我为什么要用这个,太大了,但是在中国就显得很小。在中国,智能手机大屏幕可以来工作,这是很好的机会,做更多的事。在美国我们一直在用桌上电脑,没有很多人用移动电脑。但是在中国这是很好的机会。

问:最后一个问题,Andrew谈到了一些关于深度学习的恐惧, 当然他是夸张的,但是有些聪明的人都吓到了。Eli Billi 和Steven Hawking建立了一些人工智能专家,我想他们管这个叫未来学院。不提他们说话,你自己觉得为什么他们会如此恐惧和担忧?

企查猫

答:你知道么,有时候我觉得霍金掌握了一些关于人工智能的秘密,而我不知道。不过我不觉得这些邪恶机器人啊,世界末日的情况今天会有任何现实的可能性。这样的炒作实际上给人类社会提出了不同的挑战,比如就业。在很久时间,技术建立了很多机会。但是在历史上来说,技术提出了很多就业方面的挑战。看美国,花了两百年从农业经济到如今不到2%的人是农民。技术取代了农业专业,农民可以训练自己的子女做不同的工作。技术的变革越来越快,因此需要重新训练人,比如汽车产业,美国有三百五十万的卡车司机必须重新找工作。如今的教育届从来没有面临过的紧张是,现在就要训练很多人适应新的生活方式,而不是训练子女。我非常顾虑,没办法及时训练需要的人。恶意机器人的炒作实际上是劳工话题,是学术界,政客一些严肃的人的炒作。

已有0人评论 我有话说相关内容阅读

关注前瞻微信

意见反馈

暂无网友的评论

网友评论

0评论

网友评论仅供其表达个人看法,并不表明前瞻网同意其观点或证实其描述。

 

免责声明:
1、凡本网注明“来源:***(非前瞻网)”的作品,均转载自其它媒体,转载目的在于传递更多的信息,并不代表本网赞同其观点和对其真实性负责。
2、如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。
征稿启事:
为了更好的发挥前瞻网资讯平台价值,促进诸位自身发展以及业务拓展,更好地为企业及个人提供服务,前瞻网诚征各类稿件,欢迎有实力机构、研究员、行业分析师、专家来稿。(查看征稿详细