今日头条副总裁马维英:人工智能的技术成果要如何运用到实践?

DoNews5月25日消息 (记者 费倩文)25日,2017中国国际大数据产业博览会在贵州贵阳开幕。今日头条副总裁、人工智能实验室主任马维英在人工智能方向的论坛“人工智能与认知技术的大未来高峰论坛”上做了“信息流与人工智能的未来”的主题演讲。马维英认为,当下人工智能已经可以收获一些成果,能否将技术成果切实的应用落地于实践,已经是人工智能发展到今天需要思考的问题。

WechatIMG79.jpeg

马维英表示,今日头条已经用人工智能重新定义了个性化信息流。但今日头条不局限于此,一直在思考和实践让人工智能技术创造更大、更好的社会价值。目前,今日头条在“让技术实现社会价值”上的一些成果,已可以通过互联网+的精准地域弹窗技术,向用户推送相关的寻人信息或线索进行头条寻人和头条追逃。

此外,马维英透露今日头条内部已经建立了一套针对假新闻和谣言的系统,可通过技术过滤、模型打压等机器算法加上用户反馈的方式,高效识别虚假信息并借助大数据技术“精准辟谣”,同时定向对曾阅读过该虚假信息的用户进行展示辟谣,消除虚假新闻信息对用户的影响。

目前,今日头条已成立了“人工智能实验室(AI Lab)”平台,研究领域为机器学习、自然语言理解、计算机视觉、人机交互与机器人等方向。平台内聚集了一批机器学习应用开发经验的专业工程师团队,在广告推荐、文本理解、图像视频识别等方面建立了独特技术优势,将研发出更多信息领域高科技产品。(完)

附演讲全文:

大家好,非常荣幸参加此次论坛。 

获取信息是人类社会自古以来就有的需求。PC互联网时代,有搜索引擎,有人找信息,信息也找人,所以广告、搜索成为了一个完美的结合。而今天我们到了一个移动互联网的新阶段,新的信息平台又出现了,接下来我将介绍今日头条如何利用人工智能促进人类社会的信息交流与创作。

人工智能的本质是什么?我认为是软件产业的颠覆性革命。今天大家都谈到软件在吃全世界,但很多人不一定认识到软件产业本身也在被颠覆。过去的软件要由工程师用各式各样的编程工具写出编程语言。但过去二三十年间万物数字化之后,数字表达让很多东西从类比世界走到了数字世界,这为计算机提供了机会。

计算机的强项就是会算并且算得快,可以用光速推进。原来人类社会中很多耗时的过程一旦数字化之后可以直接算。比如人与信息的连接——以前在杂志、报纸每个月流传一次,但现在几毫秒我们就可以连接一次。

我觉得今天有几大趋势在推动人工智能的发展。第一个是万物数字化。第二个其实是大计算——GPU、PGA,今天还有新的Computing的device,提供了几千台服务器分析数据的能力,并且能力民主化之后人人都可以随取随用。而大计算意味着可以训练大模式。刚刚我提到软件产业的革命,其实今天软件本身已经是一个非常大的模型,它包含统计的模型,包含符号逻辑的模型,包括知识表达。所有人类社会中累积的大数据,用现代的机器学习构建大模型之后,就可以进一步自动化人类社会中的许多流程。

从今日头条的角度来说,我们认为当下人工智能可以重新定义新一代的信息内容平台,也能够更高效的连接人与信息。我们可以帮助数字生活,之后再进一步帮助数字工作,然后最终人机交互界面能够有新一代的机会发生。

今天来贵阳我们看到大数据的确是非常重要的一环,大计算又给了我们能够建立大模型的机会,今天整个软件产业就因此走上了一个新的时代。越来越多的软件是基于数据写出来的,但它怎么写呢?这些软件本身都是几千亿兆的参数,参数量太大不可能人调,那么就用大数据和机器学习来调参数。

这是我们看到的一个背景,再回过头来看,今日头条其实就是在这样一个趋势中重新定义信息平台。以前搜索引擎对用户的理解可能只是几个密切搜索的关键词还有点击过的网页,它与网站有没有直接关系,并且要做反向工程(reverse engineering),把网站里的结构信息重建后做相关排序,而每个人看到的搜索结果都是一样的,排序算法没有针对个人个性化。

今天,在头条上每个用户都有一个很高维的向量表,每篇文章不论是新闻、图片、视频、直播、问题或答案,都是一个高维向量的深度学习学出来的表。在中国今日头条有海量用户,机器知道他们在什么时候想看什么,这些信息帮助我们理解了用户。

我们有头条号,今年还有微头条,创作者把他们的内容给到今日头条,而我们在中间做个性化推荐。如今智能手机让人不再受限于一个场景,地理位置也不再被绑缚,他可以在任何地方任何时间来接受信息。这个信息不管是与工作相关还是学习、娱乐,基本上都在同一个信息平台里面。所以我们连接两端,左边我们看到的所有的文章、主题、视频、问答和图像,另一边是人。我们希望能够作为一个最懂你的平台来智能连接这两边的人与信息。

这张图代表了我们未来的远景。一个新的时代从信息的创作端,也就是创作者,到信息消费端的读者,有各自各样推送的管道和应用在背后,每一个中间人与信息连接的都是一个信息流。我们在今日头条建设这个人工智能的基础建设平台和服务,来支撑整个头条大数据中的处理、分析、挖掘、理解、组织。

因为人工智能很大程度上依赖大数据,如果你能够清楚地定义每一个输入、输出,又很多例子样本可以帮你学习中间的非线性转换方程式,现在深度学习的方法其实都做得非常好。在头条我们会对信息进行过滤、审核再进一步借由它的表达方式进行个性化的分发。分发之后还有互动、交流以及二次传播。原来信息消费者今天也变成信息创作者,越来越多的人都在生产新的内容,分享新的视频、问题和生活的点点滴滴。我们希望用这样一个人工智能的基础设施平台+服务,让算法来学习这里面每一个环节的语义表达方式。

未来整个社会要从数字化进一步走到智能化表达。今天人工智能可以用来学习从数字表达到语义表达的转换(transformation),因为数字化之后还不够,计算机无法直接理解, 人工智能学习语义表达全世界,在那个空间里计算机的能力就可以发挥。用向量计算加加减减就知道图像里面是什么,加加减减就知道它的内容能产生什么样的情感,是悲伤、是快乐,是害怕,对内容有产生情感的认知。

头条正在建立一个我认为将来最好的一个视频理解系统,因为我们现在有大量的短视频、小视频,我们也有大量的标注系统,因为审核团队在工作中提供了很多标注,监督式机器学习可以使用这个大数据来训练自动视频理解系统。而学出的系统再给审核人员用,那他们就更高效的审核,并且仍能提供更多的反馈和新的标注数据,因为他们可以告诉我们之前的正误。所以人+机器,机器帮人,人又帮机器让我们产生正循环,不断的迭代大数据。所以我们就是要闭这个环,这个环包括闭用户的环,还有闭我们内部工作人员的环,我们运营人员的环,我们审核人员的环,不断的借由这些大数据,挖掘人的智能。我们相信在这样的基础下,头条有机会开发出更好的机器创作还有机器阅读的技术。