金兼斌:机器新闻写作:一场正在发生的革命

作者:金兼斌发布日期:2015-12-08

「金兼斌:机器新闻写作:一场正在发生的革命」正文

【内容提要】 聚焦于新闻内容生产的自动化趋势,即基于算法的新闻内容生产和编辑、出版。通过追溯谷歌新闻开启的机器自动选编和推荐新闻的做法,重点介绍了机器新闻目前的发展现状、工作原理和应用前景,并探讨了新闻生产自动化对新闻业、新闻学科以及新闻从业人员的素养要求带来的深远影响。

【关 键 词】机器新闻/算法/新闻生产自动化/内容生产/新闻写作/数据新闻

对于不断追求创新和效率的人类而言,内容生产行业无论是出版、报业,还是影视和新闻网站中的内容提供的自动化,并不仅仅是梦想而已。虽然包括文字、音频、视频、动画等多种媒体为载体的内容的生产,不同于衣物鞋帽和各类机电产品的生产,但在后者早已实现大批量自动化生产的今天,在各类自动化手段,从设计、生产到质量检测的各个工艺环节普遍应用的今天,内容生产是否具有机器不可替代的独特性,是值得存疑的。在传统蓝领工种所从事的工作大量被“自动化”后,传统白领工种所从事的工作,很多方面也在逐渐被“自动化”。事实上,从“内容创作”到“内容生产”,这种措辞上的改变,已经传递出某种让“写作”走下神坛的意味。

一、新闻的自动选编

就新闻行业的这种自动化浪潮而言,影响最大的早期实践大概要算“Google News”了①。2001年,Google当时的首席科学家克里希纳-巴拉特开发出一个与Google搜索核心技术PageRank算法相关的算法StoryRank,可用于新闻的推荐排序,此即“Google News”的前身。“Google News”在不同的国家和地区提供不同的版本,其本质上是一款Web新闻聚合器,其首页更新和新闻推荐都不依赖于人工操作,而是由后台的聚合算法实现。时至今日,在中文“Google新闻”页面的下方,仍有“所有新闻的选择、排序、分类和搜索均由电脑程序自动决定”的说明。而在其“关于Google新闻”说明中②,有以下3段意味深长的话:

Google新闻是一个由计算机生成的新闻网站。它汇集了来自中国大陆超过1000多个中文新闻源的新闻资源,并将相似的报道组合在一起,根据读者的个人喜好进行显示。

一直以来,新闻读者都是先挑选一种出版物,然后再寻找所关注的标题。为了向读者提供更加个性化的选项以及更加多样化的视点供其选择,我们采取的方式略有不同。在Google新闻中,我们为每项报道提供了指向多篇文章的链接,因此您可以先确定感兴趣的主题,然后再选择要阅读每项报道的具体发布者的网页。点击您感兴趣的标题,然后您就可以直接进入发布该报道的网站。

我们的文章是由计算机进行选择和排名的,它们会评估某项报道在线显示的频率和所显示的网站及其他因素。因此,对于任何给定的报道都有多样化的视点供您选择。我们将继续添加新闻来源,优化技术,不断改进Google新闻,并努力向更多地区的读者提供这一产品。

显然,Google新闻所开创的是新闻的机器选编,还不是本文所要着重探讨的新闻的机器写作。但写作和编辑同为新闻内容生产的两个关键环节。在上述“Google新闻”的自动选编推荐中,关键是以下几点:

1.新闻来源:来自我国大陆1000多个中文新闻源。新闻来源的选择和把关,在很大程度上决定了聚合推荐的新闻的丰富和多样性程度;这实际上是“Google新闻”选择和推荐的样本框,决定了哪些新闻有机会被推荐。

2.推荐逻辑:即其算法(algorithm)。值得指出的是,StoryRank和PageRank类似,其对一篇报道的推荐和选择,并不是仅仅通过分析报道本身的内容,而是着重分析报道在网上的受关注程度:被哪些网站发布、转发的多少和频率、在网站的什么位置发布等,以此来“计算”有关新闻的价值或重要程度。

3.推荐而不提供:从新闻作品版权等角度考虑,“Google新闻”只是提供各种新闻不同的新闻来源,有点“述而不作”的味道,具体的新闻则仍需要到各来源网站去阅读。Google新闻的这一做法最大限度地让它避免了各种版权纠纷,换言之,它把自己定位为自己所定义的众多新闻源的精华索引页。

作为机器编辑肇始的“Google News”,其所开创的基于所选择的样本框进行新闻自动选择和推荐、排序的方法,对各大新闻网站、新闻门户和其他搜索引擎带来了很大的冲击和影响,包括百度新闻等跟风者不少。值得指出的是,在“Google News”最初推出之时,还是Web1.0时代。10年过去,互联网特别是移动互联的发展,使得新闻生产和消费的格局又有了很大的变化。这其中最大的变化就是社会化媒体的兴起,以及基于消费端的用户偏好,被纳入到新闻推荐的算法考虑中,从而可以为用户推荐更加个性化、定制化、动态化的新闻产品和内容。事实上,以“今日头条”等为代表的新闻客户端,都是当初“Google News”所开创的机器新闻编辑产品的变种和升级。

无论是“Google News”也好,“今日头条”也好,这类产品的出现和风行,揭示了这样一种趋势,即机器学习、深度学习正在改变包括新闻生产在内的诸多之前依赖人力、脑力密集的产业和行业的生态和业态。从工业革命开始,人类的自动化梦想就一直在加速膨胀,试图在一切有可能把人力解放出来的领域,代之以无论是硬件还是软件意义上的“机器”的协助甚至完全自动化。一些前沿创新公司,如Google和百度,都在不约而同地研究无人或者自动驾驶汽车③;而在自然语言处理、自动翻译等领域,近年来所取得的进展也是令人侧目的。Google的自动翻译近年来在准确性方面有很大提升,相信随着其每时每刻的海量语料的学习,辅之以群智形式的修正反馈④,其翻译的水平终将接近或达到专业同步翻译的水准。而百度则在2012年启动了其深度学习研究工作,并于2013年成立深度学习研究院,在2014年聘请人工智能领域的顶级学者吴恩达担任公司首席科学家,负责百度研究院尤其是其“百度大脑”计划。2013年底,百度创始人李彦宏出现在江苏卫视《最强大脑》第一期现场,并对此节目有自己的关注点:“《最强大脑》讲的是人脑,我想的是电脑能不能做。如果你能做到的事情,我通过研究后用电脑也能做到,甚至做得更好,那不是很有意义的一件事吗?”⑤可以预见,在不远的将来,一台连接到特定云端支持网络如百度大脑系统的计算机,在包括人际互动、问题解答等方面达到与“人”几乎一致,并不是不可能的。2014年6月8日,一台计算机成功让人类相信它是一个13岁的男孩,成为有史以来首台通过图灵测试⑥的计算机。这被认为是人工智能发展的一个里程碑事件,也进一步验证了图灵的信念,即假以时日,在一定程度上机器是可以有人一样的智能和思维的。

如果机器真的可以具有人一样的智能,它也许真的可以成为“他”或“她”,从事包括新闻的选编、写作这样的“专业性、创造性工作”。当代最有影响的媒介理论家之一Douglas Rushkoff在其2010年出版的《编程,或者被编程(Program or Be Programmed: Ten Commands for a Digital Age)》一书中写道:随着计算机和网络计算能力的不断提升,“思考本身将不再――至少不再是独一无二地――成为人类的特权”⑦,计算机和网络终将具备写作的能力。

下面让我们来检视机器新闻写作。

二、机器新闻写作:基于算法的新闻内容生产

编辑和写作,就其所需要的人工智能程度而言,显然写作更具挑战性。在机器新闻生产的语境中,机器编辑通常主要指对已有新闻作品的选择和推荐、聚合,很少涉及对成稿的修改;而机器新闻写作,则仍是不折不扣的从无到有的“创作”。

2014年6月30日,美联社公关主管科福在美联社博客平台发表了一篇随后引起广泛关注和报道⑧的博文《季度营收报道方面的一大飞跃》⑨,介绍了美联社将从当年7月开始,在关于公司季度财务情况的新闻报道方面,全面采用机器新闻写作,其文章撰写软件由一家名叫Automated Insights的公司开发。

按照美联社商业新闻主管Lou Ferrara的说法,采用基于算法的机器新闻写作后,在无须增加新的人手的情况下,美联社的商业新闻中关于企业季度经营状况的报道量,将增加10多倍,即从原先每季度300篇上升到4400篇,而与此同时将能把之前用于此类报道的记者“解放”出来,让其可以从事更具有创造性和挑战性的新闻策划和新闻源拓展工作。

把机器或者程序能做的交给机器和程序,从而把人力解放出来,去从事具有创新要求和需要发挥想象力的工作,这是自工业革命以来自动化革命的基本理念。关于机器新闻写作,美联社的看法是,这将让记者“能做回新闻的本职工作,而不是忙于数据处理”⑩,因此,机器新闻写作的引入,并不意味着记者编辑工种的消亡。

但显然并非所有类型的新闻都适合机器写作,至少目前来看是如此。就美联社的实践而言,其此前已经在用自动化手段提供各种数据式的体育“报道”,但此前主要是整合、综合关于运动员、赛事的各种实时数据,而此次的企业季度经营状况报道则是不折不扣的新闻报道了。尽管如此,可以看出,适合通过机器或算法进行的新闻写作,一般是以各种数据、图表的引用和分析为基础的硬新闻,新闻的主体来源于对数据的引用、解释和分析,具有明显的“数据处理”色彩,可看作是目前方兴未艾的“数据新闻学”的一个分支。

事实上,在2014年3月,机器新闻就已经露了一手,令新闻界刮目相看。美国时间3月17日早上6时25分,洛杉矶遭遇一次地震冲击,洛杉矶时报在地震发生3分钟后在其网站上发布了第一条新闻,是所有新闻媒体中最先发布的突发新闻报道,而这条新闻是机器人撰就的。以下为该条机器新闻的内容(11):

根据美国地质勘探局的消息,星期一早上,在距加州韦斯特伍德约5英里地区,发生了震级为4.7级的浅表地震。地震发生时间是太平洋时间早上6时25分,震中约深5英里。

据地质勘探局的数据,本次地震震中距离加州贝弗利山庄约6英里,距离加州环球影城约7英里,距离加州Santa Monica约7英里,距离加州Sacramento约348英里。在过去10天,在该地区附近,并无监测到任何震级达到或超过3.0级的地震。

此消息来自美国地质勘探局的地震通报服务。本条内容是由作者所写的算法自动产生的。

这里的“作者”,指的是洛杉矶时报的记者兼程序员Ken Schwencke,他所创建的这个名为Quakebot(地震机器人)的算法程序,在地震当天早上他被震醒时,已经自动根据其所收集到的信息,把上面这条新闻写好了。Schwencke所需要做的,是大致审阅后,按下“出版”命令。于是一条新闻就在地震发生后的3分钟内发布了。

像Quakebot这样的机器人程序,大多是为特定类型的新闻而写作,通常而言是为突发性的短新闻而量身定制的,需要和一些重要的信源或数据平台实时相连,一旦某些条件符合或具备,程序就会自动产生一条新闻,并且可以随着相关数据的累积,持续补充、修改已生成的新闻作品,或者产生一条新的新闻,作为系列作品的一部分。以Quakebot为例,它是专为报道本地的地震警报和犯罪杀人事件类突发新闻而编写的。因此,程序会持续关注、收集相关动态数据,但具体写什么主题、什么角度、什么重点的报道,

上一篇 」 ← 「 返回列表 」 → 「 下一篇