2019年12月,南都发布了写稿机器人小南的2.0版本“财经写稿
2019年12月,南都发布了写稿机器人小南的2.0版本“财经写稿机器人”。目前已经生成稿件5000篇,发稿近1000篇。其中,国内在这个领域做得最好的前腾讯“Dreamwriter”项目创始人马丁对于该项目如何建立数据池、文本规则等提出了大量建议。
近日,南都记者专访了马丁,他认为信息的结构化处理将是大趋势,内容行业必然会迎来工业化和科技化的生产方式,而目前的信息整合仍然属于“初级阶段”,无论是国内还是国外,现阶段主要依靠数据及各方信息的“拼接”,未来对于大量结构化信息的处理要求,将会慢慢的高,而且越来越多地需要机器去进行“预测”,这将是未来的一个方向。
南方都市报APP“T财经”账号发布的部分“10万+”稿件。
机器处理信息速度将越来越快
马丁认为,传统新闻及信息的生产方式,更倾向于传统的手工操作,生产关系体现为师徒制。马丁坚信,新闻行业,乃至于整个内容生产行业,必然会迎来工业化和科技化的生产方式,内容从业者将更多利用科技手段进行工作。
“当然,这个演进过程不会一蹴而就。目前机器人生产出来的稿件还相对较弱,但机器学习和进化速度非常快,未来可能会达到很多人想象不到的境地。”马丁说。
马丁认为,现在针对某个公司或者行业,目前是大量散落的信息分布在网络的不同角落,机器可以通过技术去监测与捕捉这些信息,不仅可以分析新鲜出炉的数据,还能提前预判并且规避风险,因为金融领域最重要的决策就是如何控制风险,这一点,技术抓取信息并进行预测,还有很大施展空间。比如这两年出现的P2P爆雷事件,其实之前在网络上已经有很多零星的信息,但一直没有形成完整的信息图谱,通过机器抓取以后,可以进行人工分析,进而预知风险点。
机器生成稿件还有一个重要的方向就是“语义分析”,随着自媒体的不断发展,速度与数量已经不再是唯一目标,推动信息整合不断纵深才是主要方向。
“传统的信息整合,一定会被机器取代。未来(信息处理)只有标准化之上的个性化才更有生存空间。比如,汽车是标准化的生产,但是可能内饰、设计等元素,就变成了个性化,再比如我们穿的鞋,用机器做的是大众化的、便宜的,手工做的是贵的,是奢侈品。”马丁说。
Dreamwriter的诞生:被速度逼出来的产品
2015年9月10日,腾讯新闻APP发布了一条《8月CPI同比上涨2.0% 创12个月新高》的稿件,读起来只是一篇普通的财经新闻,但报道最后的“本文来源”指出了这篇稿件的独特之处:Dreamwriter,是由腾讯财经开发的自动化新闻写作机器人。
这是国内首次出现由机器人撰写的新闻稿件,这款产品的创始人正是马丁。
一切还要从2014年说起,当时马丁就职于腾讯网财经频道,负责日常即时消息的更新,马丁带着三个同事组成团队,接手之前二十人左右记者团队的部分工作。
当时的境况是,他面临“人少、工作量大”的挑战,而网媒与纸媒最大的区别就是对报道速度的极致要求,这也是网媒之间的竞争焦点。
“只要晚一点,流量就会跑到竞争对手那边,所以我们只能不断提高写作速度。”马丁表示。
为了提升出稿速度,马丁给团队分了工,每人负责几个条线。他自己负责宏观方向,主要是宏观经济数据的报道。在实际操作中,马丁慢慢发现,其实每一项宏观经济数据报道都遵循固定的“套路”:以"CPI"数据为例,一定是先报道这个数据本身,先跟预期做比较,再跟以往数据做比较,最后得出一个简单的判断。接着就是权威部分的解读,以及专家意见等。
“事实上,稿件是可以提前准备好的,我当时也是这么做的。在数据发布的前一天就把稿子写好,把数据空出来;等数据发布之后,再填上数据并写出简单判断,可以在10分钟之内就发布。”马丁表示,“写稿久了,就会进一步思考:既然整个写作过程是机械式的,为什么不干脆就让机器去完成这一切呢?”
但是马丁提出这个设想后,并没有得到重视,只好暂时搁置。
直到2015年春节后,一些权威媒体开始使用机器人写稿的消息不断传出,他所在的部门才开始慢慢重视,但支持力度极其有限:由于未获得内部技术支持,部门批了10万元经费,用于找技术外包来实现需求。
“本想把所有宏观经济数据都做了,但10万元只够做四个数据,我就选了PMI、CPI/PPI、信贷、海关这四个数据做起。”马丁回忆道。
2015年9月份,被命名为“Dreamwriter”的机器人写作产品上线,并于9月10日正式发布第一篇报道《8月CPI同比上涨2.0% 创12个月新高》,震惊业内。
“我开发款产品的时候,获得了支持极其有限,基本是无人看好。但是当这款产品获得业内认可,被媒体大规模报道的时候,我很快就失去了这个项目的控制权。”马丁说,“于是就从腾讯离职了。”
虽然离开了腾讯,但马丁对“Dreamwriter”的发展始终保持着关注。
马丁认为目前的信息整合,仍然属于“初级阶段”,无论是国内还是国外,现阶段主要依靠数据,然后就是各方信息的整合,虽然信息丰富度已经大大提高,但仍然是机械式的信息整合。随着金融产业不断发展,对于大量结构化信息的处理要求,将会慢慢的升高,而且慢慢的变多地需要机器去进行“预测”,这将是未来的一个方向。
机器写稿从标准化到差异化
“一个产业要发展,必须经历一个工业化的过程,而工业化就涉及到标准化的问题。在稿件的生产上,标准化这个问题好像一直都没有人去做,只有标准化是大规模机器生产的前提。”马丁认为。
马丁表示,“另一方面,差异化才能真正创造价值。就像‘李子柒’,之所以获得认可和追捧,正是因为她在视频中所表现出的‘农耕文明’,是超出后工业时代人们认知边际的,正是这种差异化产生了价值。机器人写作也是一样的道理,机器负责标准化,手工负责差异化。”
马丁认为,未来的机器写作,将会是一个‘标准化-差异化-再标准化’的螺旋,首先是机器大规模的标准化生产,把平庸的信息逐渐取代,但拥有独特表达能力和文字水准的创作者,因为其写作方式难以被标准化,而存留下来。但是,后者如果按照同一种套路写得多了,就会被机器复刻,后者就必须开辟出新的差异化写作方式,如此循环反复。
“最终,机器生产的海量信息将逐渐成为标准化的信息产品,而整个行业的进化,也会从手工作坊式转向大机器生产,甚至朝着智能生产的方向跃升,这会逐渐抬高行业门槛,给整个行业的水准带来大幅提升。
在马丁看来,随着数据积累不断加深,机器生成的稿件在“颗粒度”上还可以做得更多,一篇稿件的丰富程度一定会不断提升,因为数据不断积累,稿件可引用的元素就会慢慢的多,针对某个议题的内容会自然而然地加入进来。
采写:南都记者 申鹏
机器处理信