阅读率与人工稿件基本持平 机器写作正逐渐被接受
2019-09-10华凌
华凌
近几年,机器写作不再是纸上谈兵的技术,已然渗透到了我们的生活之中。今日头条、腾讯、百度、360等公司,以及新华社、南方都市报、第一财经等传统媒体单位均开展了机器写作技术的研究与应用。
除了新闻写作,还能应用于这些领域
目前,机器写作在传媒、出版、文娱、广告等多个行业均具有广阔应用场景。欧美等地较早成立专注于机器写作技术应用的多家公司,例如ARRIA、AI、NarrativeScience等基于行业数据,通过机器写作生成行业报告或新闻报道,从而节省大量人力。同时,不少国外知名媒体单位纷纷采用机器写作技术进行新闻稿件创作,以节约人力成本,提高效率。
“与人类作者相比,机器写作具有效率高、时效性好、覆盖性强、无偏见等优势。今日头条的线上测试表明,机器人撰写新闻稿件的阅读率与人工稿件的阅读率基本相同,这说明机器稿件的质量不错,能够被广大用户所接受。”北京大学计算机科学技术研究所研究员万小军表示。
然而,计算机不能凭空写作,必须根据所输入的数据与素材进行创作。据介绍,根据输入的不同类型的信息,计算机一般采用不同的写作方式进行创作。例如,计算机根据输入的结构化数据(报表、RDF数据等)进行文字创作,从而能够生成稿件。这是目前机器写作应用的主要方式,适用于天气预报、医疗报告、赛事简讯、财经报道等文本的生成。
万小军介绍说,近几年机器写作除了用于撰写新闻、报告等实用型文本之外,还被用于创作古诗、现代诗、散文等文学作品,例如微软小冰、清华九歌等系统分别能够创作现代诗和古诗,在文字表现形式上的总体效果还不错,但在意境上有所欠缺。
深度学习生成模型,但还难保准确性和可读性
近几年,深度学习发展迅速,机器写作技术也受到其深刻影响。
据万小军介绍,基于深度学习技术进行文本生成,不依賴于模板或规则。这样的写作方式虽然在研究上取得一定进展,但目前还不能保证所生成稿件的准确性与可读性,难以满足很多应用场景下对稿件的质量要求。此外,深度学习生成的模型训练需要大量的平行语料,而在很多领域内较难获取到这样的大规模语料。
计算机根据已有的文字素材(例如已经发表的新闻)进行二次文字创作时,能够基于已有稿件创作出不一样的稿件,主要依赖于两类自然语言处理技术:自动文摘与文本复述。其中自动文摘用于对单篇文本或多篇文本进行内容提炼与综合,形成摘要或综述。
文本复述则用于对现有文字进行改写,在主题与意思基本不变的前提下产生另一种文字表述。因此在平行语料充足的前提下,各种统计机器翻译方法(包括神经网络机器翻译)均可应用于此问题。最新的研究主要集中在,如何有效利用少量的平行语料和大规模的非平行语料进行复述模型的学习。