基于多特征融合的谐音广告语生成模型

2018-11-16徐琳宏林鸿飞祁瑞华

中文信息学报 2018年10期

徐琳宏，林鸿飞，祁瑞华，杨亮

(1. 大连外国语大学软件学院，辽宁大连 116044； 2. 大连理工大学信息检索实验室，辽宁大连 116024)

0 引言

随着商品经济的发展，商品的种类和品牌数量不断增加，广告成为商家竞争和销售的重要手段。广告传播的方式不仅包括传统的电视和报纸，网络作为一种新的形式，占有的比重也越来越大，尤其是手机、平板电脑和电视等电子媒介的出现，为广告的传播提供了更快、更广的传播途径，逐渐受到更多商家的青睐。广告的定义为： “通过媒体向公众介绍商品、劳务和企业信息的一种宣传方式。一般指商业广告。从广义来说，凡是向公众传播社会人事动态、文化娱乐、宣传观念的都属于广告范畴。[1]”广告的形式多样，有语音、图片以及视频形式。无论哪种形式，广告语言都是其中不可或缺的部分。“广告语言是指广告中的语言，包括各种广告中所有的语言文字信息，即广告中的语音、词语、句子、文字、标点符号和文字图形。[2]”

广告语言和广告语是从属关系，“广告语言包括广告语，广告语是广告语言中的纯语言形式，是广告语言中最能体现企业品牌价值的部分。[3]”一则成功的广告语不仅要语言简短、朗朗上口，而且要有美感，能凝练商品或品牌的核心价值，是一种高级的语言创作过程。广告语的创作过程中需要更多的智慧、灵感和丰富的知识，也是一个艰苦的过程。

古诗词是传统文化中广泛流传的文学形式，朗朗上口、对仗工整，有较强的传播优势。巧妙地用古诗词改编广告语，可以增强广告作品的文化品位，增强广告的感染力。古诗词一般文字精炼、意境深远，符合广告语简短而内涵丰富的特点。借助诗词的广告语能够获得人们的广泛认知，有较高的知名度。通过计算机自动生成古诗词型的广告语有两种生成方式：一种是为商品生成新的符合韵律的诗词广告语；另一种是在原诗的基础上经过嵌入和替换的方法生成广告语。两种方式各有特色，生成新诗词的方法可以更好地贴近商品特征，但新诗词在传播能力方面不如嵌入式的诗词广告语，因为后者是大家耳熟能详的诗句，能迅速引起人们兴趣，便于记忆和再次传播，本文采用后一种形式。

在古代诗词的基础上，我们通过谐音替换和多特征融合的方式生成广告语，并从语音、形状、语义和情境多方面评估广告语，为该类语言的创作提供更多更好的资源。接下来的内容安排如下：第1节介绍了国内外广告语生成和诗词生成的相关工作；第2节提出谐音广告语的生成模型；第3节解释生成广告语的评估方法；第4节报告了实验的设计和结果；第5节给出了研究的结论和未来改进的方向。

1 相关工作

本文研究目标是以古诗词为原型，自动生成谐音广告语，所以下面分别从谐音广告语生成和古诗词生成两个方面介绍相关的研究工作。

谐音广告语中包含谐音词汇，而大部分包含谐音词汇的语句都具有双关的含义。在谐音双关语和广告语的生成方面，国外很早就有相关的研究工作。早在1982年，Michel等人就研究过双关广告语中的模糊性[4]。2002年，Pricken也提出将熟悉的表达方式做替换或者变换，这是产生广告语的重要手段[5]。2003年，Lundmark等人以概念混合理论为基础，研究双关广告语中隐喻与幽默的关系[6]。2008年，Valitutti等人生成具有情感的广告标题，生成广告语时根据句中词汇来合成情感，而情感是在大规模语料库上通过无监督的方法获得，系统选择一些固定情感的词汇，如有强烈讽刺效果的词汇等，生成新的广告语[7]。2011年，Valitutti等又提出一种计算幽默程度的方法，评估生成的谐音双关语。首先利用音素距离、音节距离、单词距离和熟悉用语等多个特征生成谐音双关语，最后采用人工评估的方法检验生成系统的效果[8]。2012年，Pawel Dybala等人生成日文的双关语，通过高频词汇统计的方式过滤候选词汇，降低双关语生成系统的时间代价。Yike Zhang等人分别在2011和2012年利用叙述生成系统中的概念字典和广告修辞技术提高广告生成系统的能力[9-10]。2013年，Ping Xiao等人为图片广告语生成恰当的隐喻概念。他首先寻找与商品价值相同的高想象力的概念，然后从情感、突出特点、次要属性和张量相似度四个方面评估候选答案，最后采用三个真实的广告案例，验证生成方案的有效性[11]。Valitutti等人也在2013年通过对普通文本的替换产生谐音幽默的句子，替换过程中主要考虑单词的声音相似性、拼写和可替换性三个特征，使幽默生成变为词语选择问题，最后通过人工打分的方式评估谐音文本的幽默性[12]。

古诗词是中华传统文化的璀璨明珠，关于古代诗词分析及自动生成方面有许多研究工作，古诗词的生成除了考虑对仗和韵律，更重要是的考虑生成诗词的情境和意境。

徐有富将诗的意境分为时代特色、地域特色和个人特色三部分[13]。陈少松指出唐诗也分古体诗和近体诗，有的遵守平仄要求，有的不遵守，并详细讨论了诗与音节和调之间的关系[14]。徐志啸用“套语”理论研究《诗经》，认为相同韵律的诗表达同样的思想[15]。莫砺锋在《怎样读杜甫诗》一文中记述杜甫生处动荡时代，诗的风格沉郁[16]。以上是语言学方面对诗词韵律和意境的部分研究。下面介绍自然语言处理中关于诗词生成方面的研究工作。

2010年，周昌乐等人根据宋词的特点设计平仄编码，构建了一种基于遗传算法的宋词自动生成模型。并针对主题相关度、风格情感一致性和总体质量三个方面人工打分，评测生成诗句的效果[17]。2010年，何晶等人根据用户输入的关键词，生成诗词首句，然后将格律诗的上下句映射为统计翻译模型中的源语言与目标语言。其中设置的诗词评价指标有较好的借鉴价值，全诗评价包括语言、韵律、是否符合题意、结构和意境五个方面，每部分权重不同，采用人工打分的方式评估[18]。2015年，蒋锐滢利用主题模型进行诗词的意境扩展，使用BLEU值自动评测诗词质量[19]。

以上是国外双关广告语生成和国内诗词生成方面的研究进展，国内关于广告语生成方面的研究较少，基于固定文本来生成广告语的研究更是处于起步阶段。本文在大家耳熟能详的常用诗词基础上，生成谐音广告语，主要的贡献如下： ①根据一定的韵律模板生成初级广告语群，并提取广告语的九大特征； ②对生成的初级广告语群，采用基于主成分分析和自定义权重的双序评估方法，得到每个品牌的高分广告语群； ③考虑语音、形状、语义和情境四个维度，采用人工评分的方式，评估生成广告语的质量。

2 广告语的生成模型

广告语生成模型是在人们熟知的古诗词文集中挑选诗句，利用一定语音模板生成候选广告语群，然后再分别从语音、形状、语义和情境四个方面计算生成广告语的特征向量，从而得到某品牌的广告语群的特征矩阵。最后在评估阶段根据生成的特征矩阵，自动获取最佳广告语。某品牌的广告语生成系统的整体流程如图1所示。

图1 广告语的生成模型

该模型的输入是某品牌的信息，首先利用语音模板在古诗词文集中查找相应的候选广告语。然后对该品牌的候选广告语群中的每条广告语计算形状、语义、情境和语音四个维度的九个特征，生成该品牌广告语群的特征矩阵，作为后续评估算法的输入，从而筛选出质量较好的多条广告语。特征矩阵是选择广告语的重要数据，下面本文将详细介绍四个维度的九个特征。

2.1 语音模板

语音模板是在古诗词文集中检索每条诗句，查找与品牌信息相同或者相似发音的词汇，并替换成相应的品牌信息，生成候选广告语群。在计算两个词汇发音相似程度时，本文采用浮动积分制。

其中五支韵，i 与声母 zh、ch、sh、z、c、s 搭配，而七齐韵，i与声母 b、p、m、f、d、t、n、l、j、q、x、y搭配。

模板一是向上加分制，如果两个词汇的韵母完全相同分值设定为3，词汇中如果有一个字的发音完全相同，即声母、韵母和音调一致，则分值加1。例如，“江铃”和“江陵”，在韵母相同的基础上，两个字声母都相同，则语音距离得分为5。模板二是向下减分制，如果两个词汇的韵母不相同，则检查两个词汇的发音是否符合十三辙十八韵，符合则语音距离得分为1。古代诗词讲究合辙押韵，押韵的诗句读起来朗朗上口，也便于记忆。本文使用《诗韵新编》[20]中选取的十八韵制作模板，其中十八韵分类情况见表1。

表1 十八韵

2.2 形状特征

形状特征是指广告的外在表现形式，包括词性、长度和字形三部分。

(1) 词性特征：该特征计算品牌词汇Bi与诗句中被替换掉的原词汇Pi的词性是否相同。如果词性相同得分为1，否则得分为0。本特征在一定程度上体现了生成广告语的语法正确性。

(2) 长度特征：太短的广告语信息含量低，太长的广告语又容易使人失去阅读兴趣。单纯使用长度数值不能体现上述对广告语的要求，所以，本文将广告语的字数通过高斯变换，得到长度特征，增加中间长度的广告语特征值，降低长度过长或过短的广告语特征值，具体公式如式(1)所示。

(1)

其中x表示广告语的字数，f(x)为变换后的长度特征值。期望为μ，标准差为σ2，由公式(1)可见，选择一个合理的期望值μ，对结果的影响较大。为了得到合理的期望值，需要统计大规模的广告语，计算平均长度。2013年，刘佳等人创建了广告语言文本语料库[21]。该语料库包含2 676条广告语，共计28 653个汉字，广告语的平均长度为10.7，所以本文选择μ为10.7，σ=1的正态分布。

(3) 字形特征：有时包含相同汉字的词汇在词义上也会比较相近，所以字形特征计算品牌词汇Bi与诗句中原词汇Pi有多少个字完全相同。特征初值为0，如果找到字形相同的字，则累加1。

2.3 语义特征

语义特征主要是体现品牌信息嵌入到诗句中，语义上是否合理、通畅。包括内聚程度、替换距离和熟悉程度。假设广告种类的词汇为Ti，诗句中被替换掉的词汇为Pi。

(1) 内聚程度：计算Ti与广告语中其他词汇的Bigram值，相加后除以词汇总数，如式(2)所示。

,Vj)/lengh(Ai)

(2)

其中Coh(Ai)表示广告语Ai的内聚程度，Bigram(Ti,Vj)计算品种词汇Ti与诗句中第j个词汇的Bigram值。所以内聚程度是指Ti与广告语中其他词汇Bigram加和除以广告语的词汇总数。值越大说明诗词内容与该种类的商品越相关。本文集成KenLM Toolkit[22]工具包，训练Ngram语言模型。

(2) 替换距离：计算品牌词汇Bi与诗词中被替换掉的词汇Pi之间的Bigram值，如式(3)所示。

Dis(Ai)=Bigram(Bi,Pi)

(3)

Dis(Ai)值越大说明广告信息嵌入的越合理，值太小，则说明该品牌信息与原诗语义差别较大。

(3) 熟悉程度：每首诗被人们熟知的程度不一样，有些诗被广为传颂，而有些诗只有诗词鉴赏专家才了解。朗朗上口，被更多受众熟知的诗生成的广告语容易记忆和传播。

为了保证广告语的生成效果，本文选择的诗词是人们耳熟能详的唐诗宋词，将每首诗的熟悉程度定为四个等级。以人教版和苏教版的语文教材为划分标准，小学语文教材中出现的诗熟悉程度的特征值为5，中学教材中的值为4，高中教材中的值为3，不在语文教材中的诗词值为1。可见，值越大熟悉程度越高，生成的广告语传播效果越好。

2.4 情境特征

唐朝的王昌龄在《诗格》中提到“诗有三境：一曰物境；二曰情境；三曰意境”，其中情境的定义为“情境二。娱乐愁怨，皆张于意而处于身，然后驰思，深得其情。”简单来说，诗的情境就是指诗中表达的情感。

广告语主要是通过赞扬等手段，以积极的情感表达商品的优点。所以通常来说，包含正向情感的古诗比较适合作为广告语，而包含哀怨、批评等负向情感的古诗作为广告语接受度会比较低。为了更好地刻画诗句的情感特征，本文将情境特征划分为诗句情感和整诗情感两部分，因为一首诗中多有转折和递进，每一个分句的情感不一定和整首诗的情感基调一致，所以我们采用诗句情感和整诗情感，分别从微观和宏观两个方面来描述诗句的情感。

(1) 诗句情感：该特征主要描述诗词生成的广告语的情感倾向性，分为-1、0和1三个等级。分别表示贬义、中性和褒义三种情感。计算如式(4)所示。

(4)

其中Orien(Ai)表示广告语Ai的情感倾向性，Orien(Cj)表示广告语中第j个汉字的情感倾向性。因为古诗中的用词和现代汉语的用词有较大差别，一方面分词的准确率比较低，另一方面即使切分正确，古诗中的用语在现代情感词典中也很多没有收录，因而，本文选择在汉字级别上计算古诗的情感。一条广告语的情感倾向性是通过其中字的情感倾向性累加得到的。汉字Cj的情感Orien(Cj)是通过大连理工大学信息检索实验室的情感词汇本体[23]，根据汉字出现在正向和负向情感词汇中的频率确定汉字的情感。即，

其中MaxClass(Cj)表明字Cj在情感词典出现次数最多的类别，分为褒义、贬义和中性三种类别。

(2) 整诗情感：古诗相对于现代文来说，比较晦涩难懂，还有的诗文比较长，不容易找到代表整篇古诗情感基调的语句。所以，本文不是通过分析古诗文本身获得整篇诗文的情感，而是利用百度百科，爬取与诗篇对应的现代文解说。例如《静夜思》在百度百科中的解说为“此诗描写了秋日夜晚，诗人于屋内抬头望月的所感。诗中运用比喻、衬托等手法，表达客居思乡之情，语言清新朴素而韵味含蓄无穷，历来广为传诵” 。由此可见，现代解说比白话文形式的古诗文更易理解。

诗词解说可以看作是一个小的语篇，获取篇章情感倾向性的方法是：首先，使用Word2Vec在1G的维基百科中文语料上训练词向量。然后将诗文解说中每个词汇的词向量拼接得到一篇解说文的二维矩阵Mij，i为解说文的最大词汇长度，j为一个词向量的长度。最后将矩阵Mij作为卷积神经网络(CNN)的输入，通过深度学习的方法计算语篇的情感倾向性。诗文解说作为测试集，训练集和开发集选取 COAE2014 任务 4 提供的5 000条微博语句，其中4 000条训练集，1 000条作为开发集。卷积神经网络在开发集上的准确率为86.25%。

3 多级融合的双序评估算法

第2节中的广告语生成模型，为每条广告语计算出一个特征向量。因此，输入一个品牌的商品，生成候选的广告语群，即得到包含多条广告语的特征矩阵。有时一个品牌商品广告语的数量可以达到几十个或者几百个，如何从中挑选最优的广告语，需要一个合理的评估算法。

评估算法的输入是广告语群的特征矩阵，因为此阶段生成的广告语并没有评价质量好坏的标签，需要采用无监督的方法，将多特征融合，得到广告语的排序。本文采用的是多级融合的双序评估算法，算法的整体流程如图2所示。

图2 多级融合的双序评估算法

广告语群的特征矩阵分别经过主成分分析(Principal Component Analysis，PCA)和自定义权重(Custom Weight，CW)两种评估算法计算得分并排序，最后融合两种评估算法的分值，得到最终的广告语分值。多级融合中第一级是指两种评估算法中分别融合特征矩阵的多个特征，第二级融合是指组合两个评估算法的得分，获取广告语的最终分值。下面分别介绍两种评估方法。

3.1 基于PCA的评估算法

基于主成分分析的评估算法是在一定有效成分比例的控制下，通过矩阵变换，选择多特征值中比较有代表性的特征进行积累，计算得分。

3.1.1 PCA的基本原理

主成分分析(Principal Component Analysis，PCA)，是一种常用的无监督降维方法。通过正交变换将一组相关特征转换为一组最优不相关的特征。其主要原理如下：

假设样本个数为m，X={x1，x2…，xm}表示样本数据。第一步，首先对样本数据X进行归一化，计算样本的协方差矩阵S=XXT。第二步，求得S的m个特征根λ={λ1，λ2…，λm}，使|S-λI|=0，其中I为单位矩阵。第三步，求特征根对应的单位特征矩阵A，则主成分F=AX。

(5)

一般有效成分比例取值在80%以上，使降维后的特征能更好地体现原始样本数据的关系。

3.1.2 基于PCA的广告语评估

每条广告语都对应一个向量，每个分量分别对应第2节中给出的九个特征。这些特征之间有一定的相关性，例如诗句情感和整诗情感可能相关，整个诗文的情感一定是通过部分诗句来表现的。还有替换距离和内聚程度也都有一定的相关性。如果直接将各特征的分值归一化后相加，会把某些相关性较大的特征多次叠加。为了去除特征之间的冗余性，本文首先利用主成分分析法，消除部分特征的相关性，保留独立不相关的p个主要特征，然后将p个独立的特征值相加，作为广告语的最终得分。

(6)

3.2 权重评估算法

自定义权重的评估算法首先为各特征分配自定义的权重，然后将权重向量与特征向量相乘，并加和作为广告语分值。具体步骤如下：

第一步，将九个特征分为形状、语义、语音和情境四个维度，每个维度的权重初始化为0.25，包含多个特征的维度，每个特征平分本维度的权重，得到一个初始化的权重向量W={w1,w2,…，wn}。其中，n值为9。第二步，通过式(7)计算广告语Ai的得分：

*Xij

(7)

3.3 两种评估算法的测试及融合

本文选择网上流传较广的四个标准广告语作为测试集，每个都是由诗词改编。用这些广告语测试两种评估算法的有效性。利用第2节中给出的模型为四个品牌生成广告语群。分别通过PCA和自定义权重两种方法，计算标准广告语的得分，分值的范围是0～9。两种评估方法在标准广告语上的平均得分均高于5.3分，且标准广告语在生成的广告语群中排名基本都在前三名。说明两种评估方法都能够有效地从生成的广告语中挑选出大众认可度较高的广告语。

虽然两种评估方法都能够识别接受度较高的广告语，但两者打分的结果也有一定差别。基于PCA的评估方法打分普遍比基于权重的方法分值低，且广告语之间分值差距较小。而基于权重的评估方法广告语群中分值差距较大。如果单纯使用PCA的评估方法，不能有效区分广告语的级别，仅使用基于权重的方法，可能会丢失某些质量较高的广告语，召回率较低。单纯使用PCA的方法又不能更好地体现广告语的区分度。为了更全面和完善地评估生成的广告语，本文融合了两种评估算法，具体算法如下：

forAiin AdvermentList:

if score_pca(Ai)>=tand

score_weight(Ai)>=t:

score(Ai)=average(Ai)

else if score_pca(Ai)>=t:

score(Ai)=score_pca(Ai)

else if score_weight(Ai)>=t:

score(Ai)=score_weight(Ai)

else

score(Ai)=0

其中t为广告语分值的阈值，本文设置为6。循环广告语群中每条生成的广告语，如果两种评估方法的分值都大于等于t，则最终分值取两者平均。如果两种评估方法的分值都小于t，则舍弃该广告语。从算法中可以看出，两种评估方法，只要有一组分值大于t，则输出广告语，这在一定程度上增加了高分广告语的召回率。如果两个评估方法分值都大于t，则取平均值，也保证了广告语之间的区分度。

4 实验结果

第3节中通过融合两种评估算法，得到高分广告语群，这些评分较高的广告语是否能够获得受众的认可，还需要通过人工打分的方式评估。本节主要介绍使用的语料、实验方案及人工评估标准和结果。

4.1 实验数据集

实验数据包括品牌信息和古诗词文集。品牌信息本文选择了茶叶、白酒、酒店和衬衫四个品种，共28个品牌的信息。每个品牌信息包括品种、品牌、谐音词汇和描述四部分信息。其中，谐音词汇是最终出现在广告语中的词汇。

考虑到生成的广告语不但要朗朗上口，还要便于记忆和传播，本文的古诗词文集没有采用全唐诗和全宋词，而是选用人们比较熟悉的唐诗和宋词591首，按句切分后作为候选的古诗词文集，其中每句包括诗名、作者、诗句、熟悉程度和诗词描述。熟悉程度是指人们对诗句的熟悉程度。小学、中学和高中课本中的诗句分别定位5、4、3等级，其余的熟悉等级定义为1。诗句描述是在百度百科抓取的诗文解释，完整描述整个诗文的内容和意境。

4.2 实验方案及结果4.2.1 实验方案及评估标准

首先，根据输入的品牌信息，利用第2节中的广告语生成模型，生成候选广告语群，并计算对应的特征矩阵。然后采用第3节中介绍的多级融合的双序评估算法，以特征矩阵为输入，得到候选广告语的评分和排名，并从中分离出高分广告语群。最后，制定合适的评估标准，通过人工评估的方式，验证生成广告语的质量。

考虑到目前机器对诗词意境和语义关系的理解的不足，我们采用人工评估的方式综合考察广告语的效果。曹志耘在《广告语言艺术》中认为广告语要“简明、醒目、生动”[2]。于根元在《广告语言概论》中提到“广告语言要短，要上口”，“广告语言的任务是介绍商品和服务”[24]。根据上述广告语的特性，本文从语感和主题贴合度两个方面考察生成的广告语，具体的评估标准如表2。

表2 广告语评估标准

4.2.2 实验结果及分析

我们请五名评测员按表2中的标准对高分广告语群打分。经双序评估算法过滤后的广告语共55条，每条都由五个评测人员分别在语感和主题贴合度两个方面打分，结果如表3所示。

其中机器得分是第3节双序评估算法计算后的分值。P1到P5列分别给出五个评测人员在语感和主题贴合度两个方面对55条广告语的评分结果。

表3 人工评估结果

从结果可以看出人工评估结果略低于机器评分，两者基本相近，说明双序评估算法对高分广告语群的评估与人们的感受基本接近。语感得分普遍比主题贴合度部分比例高，说明语音模板效果较好，能够过滤出朗朗上口的广告语。但广告主题和诗词意境的贴合还有待加强。

图3分析了茶叶、白酒、酒店和衬衫四个品种广告在人工评分和机器评分上的差异。白酒的机器评分与人工评分最相近，这是因为很多古诗的题材与酒有关，诗词的意境与品种主题比较贴合。衬衫的人工评分最低，只有4.7分。很大一部分原因是由于衬衫属于现代商品，古诗所处的时代没有此类商品，很多衬衫和古诗的主题不相融。所以在生成广告语中可考虑商品种类和文集之间的相融程度。例如白酒适合使用古诗生成广告，而洗漱用品可能使用歌词作为原始文集更好。

图3 不同品种的评测结果

为了对比三种评估方法的效果，下面通过55个人工评估的广告语检验PCA评估方法、自定义权重的评估方法以及融合评估方法的有效性。其中，一致性是计算自动评估方法与人工评分差值的平均，如表4所示。

表4 三种评估方法效果对比

实验结果表明，PCA评估方法比权重评估方法的一致性更高，更接近人工评分的结果，但权重评估方法的F1值最高，能够找到更多的高分广告语。融合方法吸取两种评估方法的优点，F1值更高，与人工评分最接近。

为了进一步细化各个维度特征对自动评分结果的影响，本文以效果较好的自定义权重方法为例，依次添加语义、情境、形状和语音四个维度的特征，取机器评分与人工评分之差的绝对值衡量各个特征的作用，结果如表5所示。

表5 各维特征对自动评估算法的影响

可见，依次加入语义、情境、形状和语音四大类特征，机器评分的结果逐渐接近人工评分的结果。其中加入语音特征，结果提高最为明显，这是因为谐音广告语评估中，语音上是否朗朗上口是评估大众接受程度的一个重要特性。

因为人工的参与，不同人对诗词的理解有一定的随机性，打分机制存在依赖打分人个人偏好的问题。为了衡量评估人工打分质量，本文尝试增加了机器评估生成广告语的部分，使机器评估方法辅助人工评估，更加全面和多角度地评估生成的诗词广告语。

广告语一般简明、醒目，所以机器评估部分主要从语义透明度和语句简洁性两个方面考核。语义透明度是指整个句子的语义可以根据合成语句的多个词汇含义来推知的程度。本文通过计算广告语中所有字的使用频率来衡量。语句简洁性是指句子清晰、简单，本文利用语句中汉字的笔划数量来计算。最后将机器评估的排序结果与人工评估的排序结果对照，利用两者的相关性判别不同评估人的打分质量。

表6中“前N个”代表人工评估的前N个广告语在机器评估的前N个中出现的个数，即两者的一致度。由于机器对诗词意境和语义的把握还有欠缺，所以机器评估不能完全代替人工评估。但机器评估涵盖了广告语要“简明、醒目”的特点，它与人工评估的相关性可以从一个侧面反应人工评估的可靠性。由表6中数据可以看出人工评估与机器评估的相关系数均在1/3左右，每个人的相关系数基本相近，可见人工评估虽然有一定的主观性，但标准基本相近，比较可靠。