今日头条:借助AI 头条要建“最好的”视频理解系统

  日前,2017年中国国际大数据产业博览会在贵阳开幕,今年展会的主题为“数字经济引领新增长”。人工智能自然也成为其中的重要话题。5月26日,今日头条副总裁马维英在大会上发表演讲,讲述了人工智能与信息流的未来。

  在马维英看来,人工智能的本质就是软件产业的颠覆性革命,大数据、云计算和大模型,推动着人工智能的发展。而在PC互联网时代之后,移动互联网时代将是智能来连接人和信息,从个性化服务到公益领域,人工智能将无处不在。而今日头条就在利用人工智能促进人类社会的信息交流与创作。

  马维英表示,今日头条正在建立视频理解系统,监督式机器学习使用大数据来训练自动视频理解系统,提高审核人员的效率。头条还在致力于开发出机器创作和机器阅读的更好的技术。让人工智能再往前走到超级智能,这是我们可以期待的未来。

  以下为马维英演讲实录,经黑智编辑整理:

  获取信息是人类社会自古以来就有的需求。PC互联网时代有搜索引擎,人找信息,信息也找人,所以广告和搜索成为了一个完美的结合。而今日,我们到了一个移动互联网的新阶段,新的信息平台又出现了。接下来我将介绍今日头条如何利用人工智能促进人类社会的信息交流与创作。

  人工智能定义新一代的信息内容平台

  人工智能的本质是什么?我认为是软件产业的颠覆性革命。今日大家都谈到软件在吃全世界,但很多人不一定认识到软件产业本身也在被颠覆。过去的软件要由工程师用各式各样的编程工具写出编程语言。但过去二三十年间万物数字化之后,数字表达让很多东西从类比世界走到了数字世界,这为计算机提供了机会。

  计算机的强项就是会算并且算得快,可以用光速推进。原来人类社会中很多耗时的过程一旦数字化之后可以直接算。比如人与信息的连接——以前在杂志、报纸每个月流传一次,但现在几毫秒我们就可以连接一次。

  我觉得今日有几大趋势在推动人工智能的发展。第一个是万物数字化。第二个其实是大计算——GPU、PGA,今日还有新的Computing的device,提供了几千台服务器分析数据的能力,并且能力民主化之后人人都可以随取随用。而大计算意味着可以训练大模式。刚刚我提到软件产业的革命,其实今日软件本身已经是一个非常大的模型,它包含统计的模型,包含符号逻辑的模型,包括知识表达。所有人类社会中累积的大数据,用现代的机器学习构建大模型之后,就可以进一步自动化人类社会中的许多流程。

  从今日头条的角度来说,我们认为当下人工智能可以重新定义新一代的信息内容平台,也能够更高效的连接人与信息。我们可以帮助数字生活,之后再进一步帮助数字工作,然后最终人机交互界面能够有新一代的机会发生。

  今日来贵阳我们看到大数据的确是非常重要的一环,大计算又给了我们能够建立大模型的机会,今日整个软件产业就因此走上了一个新的时代。越来越多的软件是基于数据写出来的,但它怎么写呢?这些软件本身都是几千亿兆的参数,参数量太大不可能人调,那么就用大数据和机器学习来调参数。

  这是我们看到的一个背景,再回过头来看,今日头条其实就是在这样一个趋势中重新定义信息平台。以前搜索引擎对用户的理解可能只是几个密切搜索的关键词还有点击过的网页,它与网站有没有直接关系,并且要做反向工程(reverseengineering),把网站里的结构信息重建后做相关排序,而每个人看到的搜索结果都是一样的,排序算法没有针对个人个性化。

  今日,在头条上每个用户都有一个很高维的向量表,每篇文章不论是新闻、图片、视频、直播、问题或答案,都是一个高维向量的深度学习学出来的表。在中国今日头条有海量用户,机器知道他们在什么时候想看什么,这些信息帮助我们理解了用户。

  我们有头条号,今年还有微头条,创作者把他们的内容给到今日头条,而我们在中间做个性化推荐。如今智能手机让人不再受限于一个场景,地理位置也不再被绑缚,他可以在任何地方任何时间来接受信息。这个信息不管是与工作相关还是学习、娱乐,基本上都在同一个信息平台里面。所以我们连接两端,左边我们看到的所有的文章、主题、视频、问答和图像,另一边是人。我们希望能够作为一个最懂你的平台来智能连接这两边的人与信息。

  这张图代表了我们未来的远景。一个新的时代从信息的创作端,也就是创作者,到信息消费端的读者,有各自各样推送的管道和应用在背后,每一个中间人与信息连接的都是一个信息流。我们在今日头条建设这个人工智能的基础建设平台和服务,来支撑整个头条大数据中的处理、分析、挖掘、理解、组织。

  因为人工智能很大程度上依赖大数据,如果你能够清楚地定义每一个输入、输出,又很多例子样本可以帮你学习中间的非线性转换方程式,现在深度学习的方法其实都做得非常好。在头条我们会对信息进行过滤、审核再进一步借由它的表达方式进行个性化的分发。分发之后还有互动、交流以及二次传播。原来信息消费者今日也变成信息创作者,越来越多的人都在生产新的内容,分享新的视频、问题和生活的点点滴滴。我们希望用这样一个人工智能的基础设施平台+服务,让算法来学习这里面每一个环节的语义表达方式。

  未来整个社会要从数字化进一步走到智能化表达。今日人工智能可以用来学习从数字表达到语义表达的转换(transformation),因为数字化之后还不够,计算机无法直接理解,人工智能学习语义表达全世界,在那个空间里计算机的能力就可以发挥。用向量计算加加减减就知道图像里面是什么,加加减减就知道它的内容能产生什么样的情感,是悲伤、是快乐,是害怕,对内容有产生情感的认知。

  今日头条在用AI做什么?

  头条正在建立一个我认为将来最好的一个视频理解系统,因为我们现在有大量的短视频、小视频,我们也有大量的标注系统,因为审核团队在工作中提供了很多标注,监督式机器学习可以使用这个大数据来训练自动视频理解系统。而学出的系统再给审核人员用,那他们就更高效的审核,并且仍能提供更多的反馈和新的标注数据,因为他们可以告诉我们之前的正误。所以人+机器,机器帮人,人又帮机器让我们产生正循环,不断的迭代大数据。所以我们就是要闭这个环,这个环包括闭用户的环,还有闭我们内部工作人员的环,我们运营人员的环,我们审核人员的环,不断的借由这些大数据,挖掘人的智能。我们相信在这样的基础下,头条有机会开发出更好的机器创作还有机器阅读的技术。