大型语言模型之于新闻采编:机遇·挑战·进路
2023-12-17张路正梁恺俊张晨
张路正 梁恺俊 张晨
【内容提要】由人工智能实验室Open AI发布的对话式大型语言模型ChatGPT具有基础数据海量化、逻辑分析智能化、语言生成高效化等特征,对新闻采编工作具有重要影响。通过与ChatGPT对话发现,它可以辅助开展新闻策划采访、挖掘新闻背景信息、校验编辑新闻,助力提升新闻报道的价值性、精准性、时效性。同时,ChatGPT也带来了信息失真、产权纠纷、技术依赖等风险挑战。针对机遇与挑战,新闻工作者应注重融合性应用、创造性思考、人文性关怀。
【关键词】ChatGPT 新闻采编 机遇挑战 应对策略
科学技术发展日新月异,人工智能影响愈发深远。大型语言模型(Large Language Modeling)技术ChatGPT(Generative Pre-trained Transformer)可对用户输入的提问进行快速有效地回答。ChatGPT“火出圈”之际,中国各大互联网巨头和研究团队也不甘示弱,积极跟进布局,百度已发布并测试“文心一言”。以ChatGPT为代表的大型语言模型技术将对诸多行业产生影响,影响最大的莫过于语言文字领域,对新闻采编工作的影响尤为明显。ChatGPT可参与新闻的策划、采访、写作、编辑、审核等工作,实现“全过程渗透”。据报道,英国《每日镜报》和《每日快报》正在探索运用ChatGPT协作撰写新闻报道。ChatGPT的出现,既给新闻采编工作带来了机遇,也形成了一定的挑战,如何取长补短,值得新闻工作者深思。
一、ChatGPT的优势特征
ChatGPT拥有坚实的计算机硬件基础,OpenAI公司技术人员在训练ChatGPT模型时,使用了大规模的计算资源和高效的分布式计算技术,以便快速处理海量的文本数据,并及时优化模型参数以提高模型的准确性和性能。在高性能软硬件的加持下,ChatGPT具备了基础数据海量化、逻辑分析智能化、语言生成高效化等特征优势。
(一)基础数据海量化
ChatGPT是一款自然语言处理模型,它采用深度学习算法,在大量真实世界的语料库上进行了长时训练。据微软官方微博发布的信息,ChatGPT是一个基于3000亿个词汇訓练拥有1750亿参数的自然语言处理模型,它使用在大量数据上训练的深度学习算法来生成对用户提示的类似人类的响应。ChatGPT的训练数据集主要分为六类:维基百科(11.4GB)、书籍(21GB)、期刊(101GB)、Reddit链接(50GB)、Common Crawl(570GB)和其他数据集,Total标记总量则为753GB。根据ChatGPT的答复,它的训练数据包括1970年至2021年各种文本语料,涵盖了全球大部分国家和地区。ChatGPT数据库不仅基数大,且具有“滚雪球效应”,这意味着通过不断地学习、调教和修正,ChatGPT数据库将如雪球一样“越滚越大”。2021年3月,OpenAI宣布其GPT-3语言模型被“超过300个应用程序使用,平均每天能够生成45亿个词”,单个模型每分钟能生成310万词语的新内容。[1]2023年2月,麻省理工学院汤普森博士在一项报告中指出,“ChatGPT在头两个月获得了超过 1 亿用户,现在估计每14天产生的文本量相当于人类所有的印刷作品。”由此可见,ChatGPT的训练数据基础非常扎实,且使用了深度学习算法和各种创新技术进行训练,从而使其具有海量化的数据特征。
(二)逻辑分析智能化
最新发布的ChatGPT 建立在 OpenAI的 GPT-4语言模型之上,增加了监督学习和强化学习技术,它最主要的突破在于背后架构GPT-4中使用的Few-Shots(小样本)和用户反馈技术,且能对图片进行解析回应。[2] ChatGPT经过训练后可以根据人类提交给OpenAI应用程序编程接口(API) Playground的提示进行训练,并对问题提供智能化响应。ChatGPT被称为继移动互联网“时空革命”之后的“思维革命”,其千亿级的参数规模,加上不断学习与改进,能够日益接近人类大脑神经的思维水平。ChatGPT在美国的大学申请者标准化考试(SAT)中处于中上游 ,在美国医学考试的性能测试中,它与三年级医学生的智慧大致相同。研究人员从“中国编辑记者从业资格证考试题库”中抽取了10道单项选择题,ChatGPT凭借其思维判断能力答对6道,处于“及格水平”。ChatGPT可以用来处理较为复杂的问题,包括多因素分析、联想联系、逻辑归纳以及抽象思维等,它可以在获得足够的信息后自行理解问题,而且能从中提出有意义的结论。总之,ChatGPT不仅能帮用户解决具体问题,还能有理有据地解释背后的逻辑,既能授人以鱼,又能授人以渔。
(三)语言生成高效化
ChatGPT的语言生成高效化得益于其主要使用的GPU芯片,在AI芯片领域,GPU具有超高算力和深度学习能力,可以同时处理大量并行运算。根据瑞银分析,ChatGPT使用了约1万颗英伟达GPU来训练AI模型,这些GPU具有数百上千内核,可以处理大量并行运算,比普通CPU运算速度快10至100倍。通过硬件设施的加持和不断地训练,ChatGPT学习了人类语言的语法、词汇和语义,并通过特定的算法生成文本。在此基础上,ChatGPT能够以快速的速度提供流畅、准确和读起来自然的响应。除了利用GPU的计算能力,ChatGPT在训练中还应用了一些创新性的技术,例如自回归式生成技术、分布式计算技术、批处理技术、数据缓存技术等,这些优化手段使模型的输出更加精确和自然,进一步提高了ChatGPT的性能和效率。研究测试发现,ChatGPT在回答简单问题时表现得宛若真人对面回答一般自然,而在处理较为复杂问题时,则需要略微耗费十几秒的时间来响应。ChatGPT具备高效的语言生成能力,这对于大规模文本处理和合成有着重要意义。特别是在新闻写作方面,使用ChatGPT技术能够极大地提高高效性,甚至是一键生成文章。近期的一项技术测试显示,ChatGPT生成的文章信息准确度超过98%,所耗费时间远低于传统写作,这表明ChatGPT在新闻写作编辑方面已经走在了前端。
二、ChatGPT给新闻采编工作带来的新机遇
ChatGPT作为一项语言模型技术,与新闻工作具有广泛的交叉融合点。ChatGPT不仅可以辅助新闻工作者进行策划、采访和编辑,还能协助挖掘新闻背景信息,并进行校验审核,为新闻工作带来了全新的机遇。
(一)辅助开展新闻采访策划
ChatGPT可以在新闻策划和采访方面提供有力地支持。作为一种基于深度学习的大型语言模型,ChatGPT可以调取庞大的在线和离线资源,帮助编辑发现新的故事线索和资料来源,并快速分析数据来揭示趋势和新闻价值。ChatGPT技术可以帮助新闻编辑制定采访大纲,并快速分析采访对象的发言,挖掘重要信息,加速新闻稿件的撰写和编辑过程。新闻工作者可以借助ChatGPT的技术元素,更快地实现制作“好新闻”的目标。此外,ChatGPT可以根据输入的关键词和背景信息生成新闻报道的初稿,节省了部分内容创作的时间和劳动力成本。
为了评估 ChatGPT 在新闻采访写作方面的能力,研究人员对其进行了实例测试,向ChatGPT输入指令:
某大城市车友会发出倡议,号召私家车主“每周少开一天车”。请你以此为新闻线索准备一份采访提纲(至少包括确定采访对象,拟定各自的提问内容)。
在ChatGPT交流框输入上述题干后, ChatGPT很快列出了采访提纲(见图1),采访提纲包含了对交通官员、社会学家、环保团体、政府官员、交通专家的提问,覆盖较为全面,问题具有针对性,不失为一份合格的采访大纲。
为进一步测试其写作能力,研究人员继续向ChatGPT输入指令:
请围绕上述采访大纲,写一篇新闻报道。
ChatGPT很快也进行了回复(见图2),通过将ChatGPT的答复与参考答案比较,契合度达到80%以上。邀请学界、业界专家对ChatGPT所列采访提纲进行分析,专家评语为“考虑周全、逻辑缜密”,专家背靠背打分结果为9分(满分10分)。由此可见,ChatGPT的逻辑分析能力较强,且能根据上下文的信息进行推理,最终提供切实可行的解决方案。
(二)辅助挖掘新闻背景信息
新闻背景信息是对新闻前景作出解释和补充的事实,对于新闻的写作和报道具有很大的支撑作用。记者在撰写新闻前,需要深入挖掘新闻背景,并搜集到尽可能多的细节信息。ChatGPT具备高质量的自然语言理解和语义理解能力,能对海量新闻背景进行搜索、分析、调用,为新闻工作者提供新闻线索和创作灵感。作为一个强大的语言模型,ChatGPT可以提供多语言支持,帮助新闻工作者跨越语言障碍,进行多语言报道和翻译工作,拓宽了新闻报道的背景范围。ChatGPT还可以准确判断新闻所述内容的真实性和正确性,并从多个角度细分新闻背景,识别其中的观点、事件、人物、地点等,为报道提供深入而全面的分析(见图3)。
(三)辅助进行新闻校验编辑
ChatGPT在新闻校验和编辑方面具有强大的优势,它采用海量数据集技术,分析新闻稿件的文字句式和语义构造,进行智能化編辑,输出文本符合新闻格式要求,实现了逻辑缜密、结构清晰、语言规范、表述准确、行文流畅等目标。此外,ChatGPT还可以对新闻稿件进行纠错,及时发现并标识疑似错误的部分,并给出相应的修改方案。以“‘祝融号”火星车着陆成功”这则新闻为例,将新闻内容输入ChatGPT语言交流框后,它能发现新闻信息中的错误并予以更正(见图4)。ChatGPT将错误的时间“5月16日”改成了正确的“5月15日”;ChatGPT对语句进行了梳理,将“近十个月左右”改成了“近十个月”;ChatGPT对标点符号进行了校正,将句号改成了逗号。在进一步输入完善润色的指令后,ChatGPT对新闻的背景、意义等进行了完善,使新闻更加流畅,从而提高了新闻稿件的质量和可读性。
三、ChatGPT给新闻采编工作带来的挑战
新的科技是一把双刃剑。正如英国《卫报》记者Samantha Lock所言,ChatGPT能够生成令人印象深刻和类似人类的文本,但带来好处的同时也会带来许多弊端。ChatGPT技术在传媒领域的应用,可以成为新闻工作者的得力助手,但也存在信息失真、产权纠纷、技术依赖等风险挑战。
(一)信息真实的风险
需要注意的是,尽管ChatGPT可以生成大量的文本,但毕竟信息来源不是绝对可靠,并且ChatGPT输出的文字有时可能不准确或不完整,对真实度要求很高的新闻只能将它作为参考。在现代社会中,人类很难避免虚假信息的传播,而ChatGPT作为一个回复文章的工具,其回复的准确性与真实性尤为重要,因为错误或虚假的信息可能会给社会带来极大的误导,并产生潜在的法律风险。由于ChatGPT是基于已有数据训练而成的,可能在生成文本时受到数据偏见的影响,导致输出内容存在失真和偏见的问题。因此,在涉及到需要辨别真假的新闻时,ChatGPT提供的信息不具有权威性,新闻工作者需小心处理这种情况,避免传播虚假或有偏见的信息。
近日,杭州市政府据称取消了限行措施的新闻被广泛传播,但浙江之声记者调查发现该消息是不实的。[3]该事件显示出错误信息的扩散速度很快,而ChatGPT的回答也有可能被恶意利用。因此,必须提高对信息真实性的警觉性,以避免错误信息地流传。为了更好地了解ChatGPT的准确度,研究人员曾对其进行提问,ChatGPT也作出了坦诚地回答,表示其提供的信息不可避免地存在不准确的情况,建议使用者酌情参考并自行判断。此外,ChatGPT所调用的大量数据资源也存在一定问题,可能存在质量低劣、信息过时等情况,这也会影响最终生成的输出结果。总之,在使用ChatGPT提供的答案时,需要保持谨慎并注意验证。即使看似合理的答案内容,也需要找到源头信息进行核实,以确保所获信息真实可靠。[4]
(二)知识产权的纠纷
ChatGPT的训练数据由大量人工生成的文本组成,包括在线论坛、社交媒体、新闻文章、书籍等。在用户引导问答的过程中,ChatGPT的回答缺乏对于来源的引用,这可能会对用户在未注明来源的情况下使用生成的内容而造成剽窃等知识产权侵犯问题。[5]ChatGPT的训练过程中难免复制使用他人享有著作权的作品,从而存在一定著作权侵权的风险。据报道,已有国外新闻媒体指责OpenAI在不支付任何费用的情况下,使用他们的文章来训练ChatGPT,继而引起了相关的知识产权纠纷。《华尔街日报》记者Francesco Marconi在网上向ChatGPT索要了一份用来训练它的新闻来源清单,结果回复中列出了包括路透社、《纽约时报》等20家媒体,但并不清楚OpenAI是否已经与所列出的版权方达成了合作协议。使用已刊登的新闻作品对ChatGPT进行训练,需要先从相关媒体申请授权,并达成合作协议之后才能使用相关资源,否则会被视为滥用记者作品的行为。ChatGPT将语料库中的内容复制到自己的數据库中,这种文本数据挖掘行为在当前仍存在着有关是否侵犯“复制权”的争议。由于ChatGPT不具备法律人格,如果它侵犯了他人的著作权或泄露了他人的隐私,相应的法律责任将由其权利人或使用者来承担。ChatGPT等人工智能主要通过挖掘人类日常交流和文本,进行分析和统计,对于一些受著作权保护的文本、视频、代码等,如果没有获得权利主体的授权,而直接将其复制到自己的数据库中,并在此基础上进行修改、组合等操作,就有可能侵犯他人的著作权。[6]
(三)技术依赖的挑战
使用人工智能技术带来了便利,也带来了技术依赖的挑战。正如马克思关于“机器代替人”的批判中指出,“劳动用机器代替了手工劳动”“但是给工人生产了愚钝和痴呆”。[7]随着ChatGPT的智能化水平不断提高,新闻工作者对于人工智能技术的依赖度也随之增加。ChatGPT可为其提供搜集资料、数据分析、文章写作、编辑翻译、信息监测、人物采访等辅助支持(见图5)。新闻工作者可能会形成“日用而不觉”的惯性,产生技术依赖。然而,ChatGPT目前也只能在部分领域、部分方面替代人类的工作,这也带来了一定的弊端,容易使一些人陷入思维惰性,一定程度上可能会抑制创新。新闻工作者需要明白,人工智能技术只是人类的辅助工具,不能替代人类进行智力创作,掌握应用ChatGPT的目的是提高工作效率,而不是变得懒惰和被动。
四、ChatGPT时代新闻工作者的发展进路
在以ChatGPT为代表的生成式人工智能浪潮之下,全球新闻传播业态也将迎来技术变革与传媒革命。作为时代脉搏的记录者与前沿瞭望员,新闻工作者对ChatGPT等新技术应保持开放但审慎的科学态度。换言之,既不能置若罔闻,也不能过度依赖,而要主动融合应用,注重创新思考,用心用情做好新闻工作。
(一)主动融合应用
ChatGPT和新闻工作者都有独特的优势和局限性,而且两者之间存在着相互补充和互动的关系。ChatGPT需要人类的监督和控制,确保它的工作是安全的。人类的监督和控制也是保障ChatGPT持续发展和协调发展的关键。新闻工作者和ChatGPT应该是一种协作关系,以更好地服务人类社会。首先,新闻工作者要学习掌握ChatGPT机器人与AI技术,以便有效利用自然语言处理、知识图谱、深度学习等方面的技术手段,跟上时代的步伐。其次,新闻采编工作者应该结合媒体运作的专业精神,利用ChatGPT技术,实现自动化的新闻采编,以便提高工作效率。此外,新闻工作者可以运用ChatGPT技术创新工作,比如采用ChatGPT机器人搜索信息、统计数据、分析预测,探究事实背后的本质特点,以便把握社会、政治、经济等方面的发展趋势。为了更好地运用人工智能技术,记者应当加强自己的专业技能,不断学习有关ChatGPT机器人和AI技术的最新发展,了解ChatGPT等人工智能技术的原理和应用边界,提高自己技术水平,以便更好地解读信息、把握趋势,让技术能力与技术管理协同发展。
(二)注重创造思考
ChatGPT的优势在于逻辑推理,但缺乏真正的思考能力。因此,ChatGPT应该被视为人类的辅助工具,主要担任技术性工作,缺乏创新能力。换句话说,ChatGPT无法完全代替人类从事新闻策划、编辑审核等重要职能,人类才是智慧、创造力和情感等方面的最终归宿。首先,新闻工作者应该了解最新的市场发展趋势,并把握市场变化。同时,重视媒体文化创意,树立独特的媒体视角,借助ChatGPT机器人和网络营销手段推动自身发展。其次,新闻工作者应该加强自己的新闻思维,学习掌握新闻趋势,并善于发现真正有价值的信息,而不仅仅追踪人工智能技术所关注的内容。新闻工作者不应当因人工智能的优越性与便利产生技术和思想依赖,而是要坚持自身的主导者地位,确保人文情怀和专业素养在新闻报道中得到体现。[8]再次,新闻工作者需要不断激发想象力和创造力。新闻工作者可以多参与艺术、文化等领域的活动,扩大自己的视野和思维方式。在写作和报道过程中,可以尝试运用隐喻、比喻等修辞手法,通过诗意的语言和富有表现力的文字来提升报道的艺术性和创造力。总之,新闻工作者应该保持开放和灵活的思维,善于与人工智能技术进行交互和合作,将ChatGPT作为辅助工具,重视创造性思考,不断提高自己的专业技能,以满足现代新闻市场的需求。
(三)倾注人文情怀
新闻工作并非仅仅追求事实的本身,还需要注重人情味、深入洞悉社会现状,输出自己的观点和见解。这需要在“智性”的基础上,更多地融入“人性”关怀,倾听被采访对象的心声,与受众进行积极互动,引发共情共鸣。新闻工作者在新闻策划、采访、写作以及编辑等各个环节中,必须注重体现人文情怀,传递信息的同时也要表达情感,提升受众的参与感,真正让他们感知新闻的温度和人性。新闻工作者应始终坚持价值导向,注重报道的社会责任和公共利益。人工智能可以辅助生成新闻内容,但只有新闻工作者能够赋予信息真实、客观、多元的价值,通过深度采访和深入调查揭示问题的本质,以人的情感和道德底线为基准进行判断和挖掘。同时,新闻工作者还需要深入基层、深入现场,探究社会思潮,贴近实际、贴近生活、贴近群众,与人工智能形成差异化竞争,从而更好地服务于公众。
作为新闻从业者,除了技术技能外,良好的人文思维和新闻思维能力同样至关重要,这些能力使受众更好地认识到新闻报道的潜在价值、重要性、独特性,并理解新闻在社会中的角色。新闻工作者应该运用人类智慧和写作技能,将自己的观察、思考和情感融入到新闻报道中,赋予新闻作品独特的人文魅力,让读者更好地理解和共情。
五、结语
ChatGPT等大型语言模型的出现和快速迭代给新闻工作者带来了机遇和挑战,为了适应大型语言模型技术的发展,新聞工作者需要不断学习技能和更新理念,尤其要在技术融合、创新思考、人文关怀方面下功夫。本文是关于ChatGPT对新闻采编实践影响的全面分析,是在以ChatGPT类产品为代表的智能化浪潮下,利用ChatGPT开展新闻采编的一次尝试性实践研究。毋庸讳言的是,囿于时间、技术和篇幅,本研究仍存在以下不足,如无法对近期和远期即将出现的产品或服务趋势做出准确预测;由于中国版的ChatGPT尚未上线,且不能直接使用国外版ChatGPT,只能采用网络上提供的ChatGPT接口进行测试,导致相关数据的精准性不够高。团队后续会在国内新的同类产品出现后加以深入对比研究,为新闻工作者提供更加符合本土化需求的分析结果与建议。
参考文献:
[1]OpenAI官方博客.GPT-3为下一代应用程序提供动力[EB/OL].[2021-03-25].https://openai.com/blog/gpt-3-apps/.
[2]文巧,高涵.ChatGPT为何能“打败”众多大模型,除了千亿级参数,还有什么?[EB/OL].[2023-02-20]. https://www.nbd.com.cn/articles/2023-02-20/2677040.html.
[3]吕霞,崔欣.“杭州3月1号取消限行”为不实信息!警方已介入调查[EB/OL].[2023-02-21].http://jsnews.jschina.com.cn/piyao/swrd/202302/t20230221_3166497.shtml.
[4]王树义,张庆薇.ChatGPT给科研工作者带来的机遇与挑战[J].图书馆论坛,2023,43(03):109-118.
[5]李若一,王林,贾骥业. ChatGPT背后的知识产权风险[N].中国青年报,2023-02-21(006).
[6]韩永军. ChatGPT进入法治研究视野[N].人民邮电,2023-02-17(008).
[7][德]卡尔·马克思.马克思恩格斯选集(第一卷)[M].北京:人民出版社,2012.
[8]李紫贤,覃信刚.人工智能在新闻传播安全中的运用研究[J].新闻论坛,2023,37(01):94-96.
作者简介:张路正,江西师范大学新闻传播学院讲师,硕士生导师,博士;梁恺俊,江西师范大学软件学院硕士研究生;张晨,江西师范大学新闻与传播学院硕士研究生
编辑:文 言