北大计算机所万小军:写稿机器人背后的老师

由中国计算机学会(CCF)主办、雷锋网与香港中文大学(深圳)全程承办的 AI 盛会「全球人工智能与机器人峰会」(CCF-GAIR),将于 7.7-7.9 日在深圳召开。

CCF-GAIR 为国内外学术、业界专家提供了一个广阔的交流平台,既在宏观上把握全球人工智能趋势脉搏,也深入探讨人工智能在每一个垂直领域的应用实践细节。延续上一次大会的议题,本次 CCF-GAIR 2017 将会迎来更多人工智能和机器人行业的议题与讨论。

北大计算机所万小军:写稿机器人背后的老师

说到机器人,就不得不说近两年在媒体行业火起来的写稿机器人。从 2015 年开始,腾讯、百度、今日头条、阿里,以及传统媒体南方都市报先后加入写稿机器人的大军,特别是今日头条和和南方都市报的背后,离不开北京大学计算机科学技术研究所(以下简称北大计算机所)的支持。

2016 年 2017 年初,今日头条和南方都市报先后与北大计算机所合作,分别推出奥运 AI 小记者 Xiaomingbot 和“小南”。据了解,Xiaomingbot 是国内第一款综合利用大数据分析、自然语言处理与机器学习技术的人工智能写稿机器人,而小南的特点是更偏重于民生领域的报道。

那么,北大计算机所是一种怎样的存在?

根据其官方网站的介绍,该研究所是北京大学的二级科研教学机构,研究方向主要包括图形图像处理技术与数字出版应用、数字内容计算与知识服务技术研究、网络视音频处理与检索技术、数字文档处理技术、信息安全技术。过去,北大计算机所围绕计算机技术在印刷、新闻出版领域的核心应用做了不少创新性的研发工作。

其中,负责这两次写稿机器人研发工作的是语言计算与互联网挖掘研究室。该研究室成立于 2008 年 7月,是以自然语言处理技术、数据挖掘技术与机器学习技术为基础,对互联网上多源异质的文本大数据进行智能分析与深度挖掘,为互联网搜索、舆情与情报分析、写稿与对话机器人等系统提供关键技术支撑,并从事计算机科学与人文社会科学的交叉科学研究。

目前,研究室的研究内容包括以下几个方面:

研制全新的语义分析系统实现对人类语言(尤其是汉语)的深层语义理解;

综合利用自动文摘、文本生成、文本推荐等技术让机器写出高质量的各类稿件;

针对多语言互联网文本实现高精度情感、立场与幽默分析;

其他探索性研究,包括特定情境下的人机对话技术。

北大计算机所万小军:写稿机器人背后的老师

语言计算与互联网挖掘研究室负责人万小军

万小军本人的研究领域包括自然语言处理、文本挖掘和人工智能,在 2015 年获得 IBM 全球杰出学者奖(IBM Faculty Award),同时他的一篇关于采用特征工程抽取句子的论文《Towards Constructing Sports News from Live Text Commentary》在 ACL2016 (ACL,国际计算语言学协会,是世界上影响力最大的国际学术组织)引起了广泛关注。

从现有的写稿机器人来看,多数专注于的财经、体育等领域,由于这两个领域有一定的规则和数据可寻,实现起来也较为容易。但是不是其他领域就无法使用写稿机器人了呢?北大计算机所与南方都市报合作的“小南”便打消了这个疑问。小南推出的时间在 2017 年春运期间,专注于民生领域的报道,首篇报道共 300 余字,数据自动抓取完成后,报道生成只用了不到一秒的时间。万小军曾想媒体表示,教小南写稿过程中,难点是可供学习的样本不够丰富,尽管名声关注度高,但不像体育和财经报道有相对固定的模式,训练预料较为缺乏。

另外,小南的另一项本领是生成报告摘要。万小军介绍,小南采用了先进的自动文摘技术,该技术可以根据多种文本特征———如关键词、段落位置等———判断不同信息的重要性,最终在摘要里保留核心部分。

实际上,除了写稿,未来还有很多潜力可开发,如对已有的稿件进行改写,根据不同的稿件写综合报道等等等。也有不少媒体人直呼,什么时候这些写稿机器人可以开放给所有媒体人使用。