基于GR-RFR算法的古陶瓷艺术品定价研究
2023-01-11吕红娣詹棠森张佳奇
吕红娣,詹棠森,陈 武,张佳奇
(景德镇陶瓷大学信息工程学院,333403,江西,景德镇)
0 引言
市场价值是定量表征艺术品具有投资价值的指标,市场价值的大小可以直观有效指导拍卖行工作人员、艺术品投资者、收藏者以及爱好者对古陶瓷艺术品进行客观估价,保障投资顾问的建议合理可观。国外对于艺术品的研究早于国内研究,国外已具有精准的定价研究方法,主要方法为:Candela利用代表作品的方法[1],即同一作者的作品的价值通过以往的代表作价值进行参考,分析了意大利现代和当代绘画1983—1994年期间的拍卖数据,构建了意大利艺术品市场的现当代绘画价格指数,此方法简单明了,但缺乏稳定性。基于重复销售的思想,Goetzmann于1986年提出了重复销售定价方法[2],建立基于重复销售定价法的价格指数体系[3]。在1999年,Biey等[4]则指出只有在艺术品市场受到冲击时,传统重复销售定价法才发挥有效,于是他们对传统的重复销售法进行了改进。
国内对于艺术品价值预测的定量研究的方法主要还是传统的计量经济和统计学方法。对于艺术品的统计学方法多采用基于信息贫、数据少的灰色关联度[5]、关联变权的小波神经网络逼近[6]以及数据包络分析法DEA[7],层次分析法和信息熵等方法[8-12],以及灰色GM(1,N)模型[13-14]进行陶瓷艺术品价格预测。但这些方法都是定量化,而没有文本数据预测。
本文通过雅昌艺术网采集了最近5 年比较有参考价值的6个指标,建立基于改进随机森林回归算法的古陶瓷艺术品价值预测模型。通过实例,预测精度高,具有文本和定量相结合的算法,具有较好的广泛性。
1 随机森林回归算法
随机森林(RF)算法最早由美国Leo Breiman[15]于2001年提出,而随机森林回归算法(RFR)是机器学习中基于Bagging的算法之一,从原始样本中抽取多个不同样本,对每个样本进行决策树建模,最后汇总所有回归树的输出的平均值作为最终预测结果,这样的预测结果具有很好的鲁棒性和稳定性。
回归树汇总的公式如下所示:
(1)
2 随机森林回归模型的参数优化
RFR模型预测准确率由预测误差的大小决定,而为了达到预测误差的方差与偏差的平衡,让模型的效果达到最优,需要进行超参数的优化,由于RFR算法的参数比较多,但是对预测结果影响较大的参数则是迭代次数n_estimators、决策树的最大深度max_depth、最大特征数max_features、最小分离样本数min_impurity_split。
RFR算法常用的优化参数方法有随机搜索法(Random search method)和网格搜索法(Grid search method)。交叉验证则主要用于模型的效果验证,它是对于数据集的测试集和验证集的选择,也能够有效地防止模型过拟合。为了提高训练的效率,本文提出了在随机搜索法调参的基础上,再次进行网格搜索法调参。基于随机搜索法,实现N次的超参数随机匹配与择优;但由于随机搜索法寻到的是一个随机不完全遍历后所得的结果,可能并不是全局最优的,而只是一个大概的最优范围。另外通过网格搜索法,从而使最优解更加接近全局最优解。为了验证模型的可行性,利用交叉回归的评分函数Score对模型的训练进行评分。评分函数Score分数值越接近1,说明此模型越好;反之,分值越小说明模型预测能力越差。计算表达式为
(2)
3 GR-RFR算法在艺术品价值预测中的应用
利用Python编写网页爬虫代码,从国内较为权威的雅昌艺术网页爬取2017—2021年的古陶瓷艺术品历史拍卖数据,包括古陶瓷艺术品名、尺寸、估价、成交价格、拍卖时间、拍卖行、艺术品描述等,作为后期建模训练的数据基础。将从定性和定量双角度进行研究影响古陶瓷艺术品价值的特征重要性和预测效果。
3.1 数据预处理
由于采集到的是雅昌网页的原始数据,还需要删除重复值、缺失值、异常值、文本分析和提取特征等预处理,才能输入训练模型。
1)缺失和重复值处理:需要删除重复值,手动查询填补缺失值。
2)异常值处理:异常值包括属性不明确以及价格偏差较大的数据,除此类明显不符合模型的异常值。
3)文本分析提取特征:在充分考虑古陶瓷艺术品内部特征对价格的影响后,还需要根据艺术品的专家描述提取相应的特征。因此根据文献[12]的特征划分方法,确定特征指标范围,将古陶瓷的生产年代特征划分为唐、宋、元、明、清等5个指标;其次将古陶瓷的器型的划分为文房用具、日用器、祭祀器、陈列器等4个指标;然后将古陶瓷装饰划分为彩装饰、釉装饰和胎装饰等3个指标;最后将古陶瓷的图案则划分为动物图案、人物图案、吉祥图案、山水图案、无图案以及植物图案等5个指标;根据此划分标准,利用文本分析法,对数据集中的专家描述内容进行提取古陶瓷艺术品的生产年代、造型、装饰和图案等指标。如表1所示。
表1 原始数据以及标签处理(部分展示)
4)数据平滑处理:由于尺寸的数值较多,不便于统计分析,则将尺寸以10 cm的步长划分为“≤10”“10~20”“20~30”“30~40”“40~50”“50+”6类划分;对于数值型的古陶瓷拍卖价格特征,将其作为RFR模型的输出值,但为了减少数据偏差较大对预测结果的影响,利用式(3)对古陶瓷拍卖价格pricei进行对数平滑处理得到logpricei。
对数平滑处理的对数公式为
logpricei=ln(pricei)
(3)
式(3)的反对数处理公式为
pricei=exp(logpricei)
(4)
5)热编码处理:面对表1中的定性数据,由于样本文本特征维度较低,因此直接采用独热编码处理为一个多维的0/1矩阵,增加决策树深度。
独热编码(One-Hot Encoding),是使用N棵二叉树来对N个特征指标进行编码,每个特征的指标都有它独立的二叉树,并且在任意时候,只有值为1 的树枝才代表某个特征指标,为0的树枝则代表非此特征指标。
一般,树模型所使用的独热编码(One-Hot Encoding),就是利用欧式空间的点与点之间的距离公式求得离散特征指标与特征指标之间的距离,从而使得特征指标之间距离的计算或相似度的计算更加合理。
6)将上述预处理后的定性与定量数据以4:1的比例随机划分221个样本数据,将其中的116个样本(80%)用于训练模型,另外45个样本(20%)用于模型测试。
3.2 RG-RFR算法的参数优化
因所采用的双重搜索调参法均是通过K折交叉验证法确定最终的参数值,随着K值越大,模型结果越好,但其训练的时间越长,综合考虑后,选择K=3的交叉验证法。
基于三折交叉验证的随机搜索法,实现了300次的超参数随机匹配与择优,在其所得到的最优匹配结果的临近范围内选取几个数据;然后通过网格交叉搜索法遍历每一种参数组合,从而选出比较好的超参数组合作为最终结果。经过随机与网格双重搜索寻优后得到的最终参数组合如表2所示。
表2 RG-RFR算法的主要参数优化结果
利用式(2)计算得到传统RFR模型的训练得分和验证得分分别为0.795 1、0.769 5。而经过三折交叉验证的双重搜索法调参优化后的RFR模型(RG-RFR模型)确定的4个参数依次为60、350、12、3,将这4个参数带入模型训练和预测的得分分别达到了0.998、0.986 7,比传统RFR模型训练的效果明显提高了不少,Score值越接近于1,则说明改进RG-RFR模型训练效果越好,其可用度更高。
3.3 实验的结果
将古陶瓷艺术品特征数据作为RG-RFR模型的输入变量,对古陶瓷艺术品进行价值预测。以雅昌艺术网公布的古陶瓷艺术品的成交价格的对数值为实际值和传统RFR模型的预测值与改进RFR模型的预测值进行比较分析,通过可视化分析结果如图1所示。
图1 RG-RFR模型和RFR模型预测结果对比图
由图1所示,训练过程中,传统RFR模型的预测值比RG-RFR模型的预测值误差较大。并且比较45组预测结果如表3所示。
表3 45组基于RG-RFR模型的预测结果(部分展示)
由表3可知,这45组测试数据的预测结果中也有1~4处预测误差较大,但总体的平均预测误差小于0.005 1,足以说明模型预测效果较好。RG-RFR模型的预测误差的均值MRE1=0.005 1远小于传统RFR模型的预测误差的均值MRE2=0.082 1,说明此RG-RFR模型更适合用于古陶瓷艺术品价值研究。
3.4 影响因素重要度分析
在古陶瓷艺术品价格预测模型中,对每个价格影响参数在每棵树上的贡献求平均值,经比较后可度量每个艺术品价值的影响参数的重要度。经过Python编程,得到特征重要度图,如图2所示,古陶瓷艺术品价值影响因素中最重要的是古陶瓷的出产年代,重要度值为0.481 2,陶瓷的装饰、器型、尺寸的重要度也比较高且差不多,相比下,古陶瓷的图案的重要性偏低。
图2 古陶瓷特征重要性的柱形图
4 结论及创新点推广
以2017—2021年雅昌艺术网拍卖古陶瓷艺术品的221个历史数据为例,充分体现古陶瓷艺术品的自身特征,对历史拍卖数据进行定性文本挖掘,获得5个主要的内部特征作为训练特征,基于三折交叉验证的双重搜索法优化的RFR算法,构建古陶瓷艺术品价格的预测模型。结果表明:这一方法可以很好地挖掘了古陶瓷艺术品内部特征和其市场价格之间的非线性关系。在古陶瓷艺术品估价策略尚不明确的情况下,应用这一方法预测得到的古陶瓷艺术品的市场价值具有一定的可靠性和参考性。同时随机森林回归算法结构简单,需要调整的参数较少,能够针对古陶瓷艺术品进行快速、批量估价。根据模型影响参数的重要性,可知古陶瓷的生产年代、装饰、器型、尺寸以及图案对古陶瓷艺术品价值研究都较为重要,依次增加这些数据的精度,可以提高模型的准确度。但还存在一些需要改进的地方,例如模型选取的样本量和特征有点少,及特征重要性分析,对特征的筛选继续完善,以及随着样本数据的增加,模型的性能还需要进一步改善。
本文提出的RG-RFR模型,相较于单一搜索法,避免了本文参数选择的最优参数陷入局部最优。该算法可以打破以往固有的金融统计预测方法广泛应用于古书画作品、古式钟表等物件的市场价值评估和定价模型,自然也可以应用于其他房价、二手车价等金融领域的预测。