基于多源数据的养老科技技术体系识别研究*
2019-08-17黄鲁成郝亚丽
黄鲁成 郝亚丽 李 晋 苗 红
(北京工业大学经济与管理学院,北京100124)
根据全国老龄办公布的数据,到2018年,我国60岁以上老年人口为2.49亿,占全国总人口的17.9%[1]。预计到2020年底,我国老年人口将达到2.48亿,进入老龄化社会的快速发展时期。人口老龄化对劳动力供给、资本积累、国民储蓄、经济增长潜力及增长方式等诸多方面都有显著的不利影响[2]。十九大报告提出,要积极应对人口老龄化,构建养老、孝老、敬老政策体系和社会环境,推进医养结合,加快老龄事业和产业发展。应对人口老龄化有多种途径,依靠科技创新是其中的重要途径,识别应对人口老龄化所必需的科学技术体系对社会发展具有重要意义,同时识别养老科技(gerontechnology)体系是对其进行技术分析的基础。
1991年在荷兰艾恩德霍芬召开的第一届国际养老科技会议上正式提出“养老科技”的概念,同时确立了养老科技的研究框架,随后国际养老科技学会于1997年在欧洲成立,Gerontechnology杂志由该学会于2001年创办,养老科技被誉为硅谷下一个最热门的事情。养老科技是指能满足老龄化社会需求的技术,由“老年医学”和“技术”两部分组成,其中老年医学更多关注生物学、心理学、社会学和医学方面的研究,技术则涉及物理、化学、机械、电子工程、信息和通信工程等科学[3],可以为老年人提供照料护理、健康管理、卫生保健、安全环境和社会参与途径,提高健康和生活质量的跨学科、跨领域的科技工作[4]。
随着老龄化社会的影响,学者对于养老科技的关注度越来越高,主要进行的是养老科技领域的整体性研究。黄鲁成等[5]构建了技术景观四侧面分析框架对养老科技产业进行分析,从不同层次较为全面地评估了我国养年科技的发展。吴菲菲等[6]基于知识的新颖性和领域交叉性构建了前沿性技术的识别方法,并应用于养老科技领域的前沿性技术识别。这些研究结果都是在养老科技领域的大范围中进行的,缺乏精准性。为了更精准地识别并定位相关技术问题,为政策制定及技术布局提供理论支撑,识别技术体系是必要的。
关于养老科技体系的识别,较常见的是利用研究文献,通过共词聚类[7]来揭示研究主题。专利是所有研究资源中最全面的[8],世界知识产权组织认为:世界上90%的技术反映在专利中,85%的技术只出现在专利中,因而有学者通过专利数据[9],基于专利词频统计和文本聚类来确定养老科技技术分类。
养老科技技术领域的研究中,学者们对养老科技技术领域的分类不尽相同,但都可以反映老年人对技术的不同需求,该部分研究多采用文献研究的定性方法。Bouma H等[10]将养老科技划分为五个领域:健康、居家与日常生活、行动与交通、通信以及工作和娱乐。Chen等[11]将养老科技产品和服务分为四类:居家与日常生活、学习与娱乐、健康和通信。Pilotto等[12]将养老科技分为三个主要领域:居家与安全、移动性与康复、沟通与生活质量。Orlov[13]将养老科技分为沟通与参与、居家与安全、健康、学习与娱乐以及居家护理。已有的成果为本研究奠定了基础,本文在此基础上,对养老科技技术领域的分类体系进行探讨。
Micera等[14]构建了养老科技的三层体系结构,主要包括移动通信技术、智能家居、可穿戴传感及计算、远程医疗以及环境辅助生活技术等。Piau等[16]将解决老年人独立生活的技术分为辅助技术、远程医疗、智能家居[15]。机器人技术可以帮助老年人独立生活,主要包括伴侣机器人、远程呈现机器人、康复机器人、健康监测机器人、家庭机器人、跌倒检测及预防机器人等。Song等[17]将智能老化技术分为信息技术、医疗系统及设备(可穿戴设备、移动健康保健设备)、生物技术和机器人技术。Rashidi等[18]将环境辅助生活技术分为智能家居、移动和可穿戴传感器、机器人技术。此外,环境辅助生活还包括信息通信技术的解决方法,如远程医疗、跌倒检测和提醒功能等。
此外,刘云等[20]通过调研分析相关文献资料(研究文献、产业资料和政策文件),同时与领域技术专家访谈,确定了集成电路制造的技术领域分类体系。陈悦等[21]综合研究文献、技术手册和专家咨询等渠道提炼出了工业机器人的技术分类体系。Hoeflinger等[22]利用USPTO专利数据库的专利信息,通过主题聚类识别了自主创新中游戏化的技术体系。翟东升等[23]基于专利特征信息抽取,从产品、功能、技术属性、科学效应和功效方面构建了“隐性眼镜消毒”技术领域的技术树。
综上,学者们分别采用文献、专利等识别养老科技体系,尚未发现采用不同数据源结合来识别养老科技体系的研究,但已有学者通过组合不同的数据源,来分析其他领域的技术分类体系。基于文献的养老科技体系识别可以明确基础科学研究的热点主题,基于专利的养老科技体系识别可以把握目前的技术发展水平,而技术报告内容具有前瞻性、新颖性、科学性和真实性等特点,可以反映学科研究的成果和进展等情况[24],通过政策文本,可以把握国家具体的方针和战略。基于此,本研究探讨如何综合使用研究文献、专利文献、政策文本、技术报告等数据源来识别养老科技体系,所研究的养老科技技术体系由以提高老年人生活质量为目的的相关技术所构成,是可以为老年人提供生活照料、医疗护理等相关服务的有机整体。
1 研究设计与方法
本文的养老科技体系通过综合养老科技研究文献、专利文献、政策文本和技术报告等数据源,使用客观方法,同时结合专家咨询等多个方面提炼而来。本研究分为基于多源数据的养老科技技术领域词典构建、养老科技技术体系识别研究,及养老科技技术体系应用研究三个部分,研究的技术路线图如图1所示。
1.1 研究设计
1)基于多源数据的养老科技技术领域词典构建
养老科技技术领域词典主要通过Web of Science文献数据库、德温特专利数据库(Derwent Innovation Index,DII)、政策文件和技术报告构建,具体步骤如下:对于文献数据集,对关键词进行词频统计及降噪处理,通过帕累托法则确定高频关键词;对于专利数据集,利用TextBlob文本处理工具提取名词短语,对名词短语进行词频统计,得到高频名词短语;对于政策文本和技术报告,通过阅读,可以直接从中得到技术相关名词。综上得到养老科技技术领域词典。
2)养老科技技术体系识别研究
本文在分析养老科技技术领域词典的基础上,对养老科技技术体系进行探讨。养老科技技术体系的识别主要利用文献和专利数据,采用主客观相结合的方法,具体步骤如下:首先对文献和专利数据集进行文本预处理,并通过word2vec对数据集进行训练;然后利用训练好的词向量模型,通过计算技术领域词典中技术名词的语义相似度,得到技术名词的扩展词;最后通过K-Means对技术名词进行技术主题聚类分析,结合聚类结果,综合专家研讨意见,得到养老科技技术体系。
图1 研究技术路线图Fig.1 Research technology roadmap
3)养老科技技术体系应用研究
在识别养老科技技术体系的基础上,本文以移动通信技术为例,对养老科技技术体系的应用进行研究,主要对该技术领域的技术生命周期、热点技术及前沿技术进行识别。其主要目的是了解养老科技领域移动通信技术的技术发展过程,识别该领域的研发热点和前沿技术,以求把握整个移动通信技术研发动向,帮助该领域相关研究人员与决策者迅速、准确地把握移动通信技术的研究态势,为合理布局研究重心、提高科研效率提供有价值参考和决策支持。
1.2 研究方法
1)word2vec
word2vec[25]是 Google在 2013年推出的一个自然语言处理工具,运用深度学习的思想,可以采用CBOW或Skip-gram两种来训练词向量通过训练,其中,CBOW是根据上下文对当前词进行预测,而Skip-gram是根据当前词来预测上下文。可以将每个词映射为K维实数向量,通过计算词与词之间的相似度来判断它们之间的语义相似度。
2)K-Means算法
K-Means算法是一种无监督聚类算法,首先定义常数K,表示最终的聚类类别,然后随机地选择K个对象[26]分别作为K个类别的聚类中心,通过计算每个样本与聚类中心之间的相似度,将样本划分到最相似的类别中。
2 养老科技技术体系识别
2.1 数据获取
制定检索策略[27],检索日期为2019年6月,采用主题进行检索,在Web of Science核心合集中(包括 SCIE/SSCI/A&HCI/CPCI-S/CPCI-SSH)检索得到与养老科技相关的文献共45720篇。同时通过德温特专利数据库检索得到与养老科技相关的专利共18069个专利族,其中药理学和药剂学相关专利不纳入研究范围,最终得到15316个专利族。
2.2 数据预处理
对下载得到的文献和专利数据进行清洗,将其中摘要字段缺失的相关数据剔除,最终得到45331篇文献和15302个专利数据,合计60633条。数据预处理包括将英文标点符号和数字去除,只留下由字母组成的单词,字母全部转化为小写,并将其作为训练词向量的初始数据集。
2.3 技术领域词典构建
技术领域词典是指记录特定技术领域专有词汇或者术语的词典[28]。本文技术领域词典中的专有词汇主要从研究文献中的关键词、专利文本中的摘要、政策文本和技术报告中得到。
由于研究文献中的“DE-关键词”字段中的数据较为规范,其中的技术名词可以作为技术领域词典,对关键词进行词频统计并作降噪处理,通过帕累托法则确定了2079个高频关键词,结合专家意见最终从中筛选得到89个技术名词。
对于专利文本,首先通过TextBlob文本处理工具提取“AB-摘要”字段中的名词短语(即候选技术术语)并其进行词频统计,通过专家意见最终得到162个高频技术名词短语。
此外,技术词典的构建还结合一些关于智慧养老的政策文件(表1)以及技术报告,比如:2017年2月6日工业和信息化部、民政部和国家卫生计生委联合发布的《智慧健康养老产业发展行动计划(2017—2020年)》,明确指出重点推动智慧养老关键技术和产品的研发,特别是智能健康养老服务产品供给工程中所包括各项设备的重点方向,包括健康管理类可穿戴设备、便携式健康监测设备、自助式健康检测设备、智能养老监护设备、家庭服务机器人等。
表1 智慧养老的相关政策文件Tab.1 Relevant policy documents of smart pension
2.4 词向量训练
在训练词向量之前,首先对技术领域词典中的名词短语添加标识符号,如将“fall detection”替换为“fall_detection”,对初始数据集中的名词短语进行同样的处理,得到最终训练的数据集。通过Python编程语言Gensim包中的word2vec模块对经过标识符号处理后的数据集进行词向量训练,得到数据集中词语的向量表示。word2vec可以根据输入的词语得到与其语义相似的词语(top20),并输出对应的语义相似度。在训练过程中,对各项参数进行设置,其中 size=400,min_count=1,workers=8,window=5,其余参数均使用默认值。本文通过训练的词向量对技术名词进行扩展,设置语义相似度的阈值为0.75,得到了117个技术领域词典中技术名词的相似词。
2.5 K-Means
2.5.1 最优K值的选取
关于K-Means算法中聚类类别K值的选取,主要有手肘法和轮廓系数法两种方法。本文通过轮廓系数(Silhouette Coefficient)[29]来确定 K值。轮廓系数会随着类的规模的增大而增大[30],彼此相距很远、本身很密集的类,其轮廓系数较大;反之,其轮廓系数较小。聚类类别K与平均轮廓系数曲线图如图2所示。当聚类类别K=4时,平均轮廓系数最大,聚类效果最好,因此将聚类类别最终确定为4。
图2 聚类类别K与平均轮廓系数曲线图Fig.2 Curve of clustering category K and average contour coefficient
2.5.2 聚类结果分析
对117个技术主题词进行K-Means聚类分析,设置聚类类别K=4,从而确定养老科技技术体系的一级分类体系。为了保证研究结果的准确性,请领域专家对每个一级分类体系中的技术主题词进行研讨,最终将117个技术主题词划分为17个技术主题,主要包含:痴呆症护理、机器人技术、传感器技术等,聚类结果如表2所示。
表2 K-Means聚类结果Tab.2 K-means clustering results
3 养老科技技术体系应用研究
本文在识别养老科技技术体系的基础上,对养老科技体系的应用进行研究,主要包括技术生命周期的识别、热点技术的识别和前沿技术的识别。由于养老科技技术体系包括四个一级技术领域,本文仅以移动通信类技术为例,以此来说明本文所构建的养老科技技术体系的具体应用,起到抛砖引玉的作用,未来可以对各个一级技术领域进行深入研究,进行对比分析。
3.1 数据来源
本文的专利数据来源于德温特专利数据库。检索表达式定义为:TS=((“mobile device*”or“mobile phone*”or“mobile telephone*”or“mobile terminal*”or“smart phone*”or“wireless communication device*”or“wireless device*”or“wireless sensor*”or“wireless sensor devices*”or“wireless network*”or“wireless signal receiver*”or“wireless technology*”or“wireless communication*”or“wireless communication module*”or“telecare*”or“telehealth*”or“telemedicine*”or”telerehabilitation*”or“remote monitoring*”or“telemonitoring*”or“telepresence*”)AND("age*people"OR"elder*people"OR"old*people"OR"senile people"OR"senior people"OR"age*adult*"OR"elder*adult*"OR"old*adult*"OR"senile adult*"OR"senior adult*"OR"age*person*"OR"elder*person*"OR"old*person*"OR"senile person*"OR"senior person*"OR"age*citizen*"OR"elder*citizen*"OR"old*citizen*"OR"senile citizen*"OR"senior citizen*"OR geriatric OR"old age"OR"age*-friendly"OR"healthy age"OR"aging population"OR population aging OR"the elderly"OR"Silver Age"OR"Silver Market*"OR"Silver Customer*"OR"Active ageing"OR"age*societ*"))。检索日期为2019年10月18日,鉴于专利存在18个月的滞后期,因此,所检索的专利数据集申请日截止到2018年4月18日,以消除专利滞后期带来的数据缺失问题,最终共得到1697条专利数据,以下研究将以这些数据为基础展开。
3.2 技术生命周期识别
本研究通过对养老科技中移动通信类技术的技术生命周期进行识别来确定该类技术发展的各个阶段。根据获取的专利数据,使用Loglet Lab软件进行logistic曲线的拟合,推算技术成长曲线,并对相关领域技术生命周期的饱和点、成长时间和反曲点进行估算发现:该技术在2013年进入成熟期,成长时间为20.7年;萌芽期、成长期、成熟期以及衰退期之间的分界点依次为2003、2013和2023年。(图3)。
图3 技术生命周期Fig.3 Technology life cycle
由此可知,移动通信类技术目前处于成熟期,相关技术趋向于成熟,市场规模也比较稳定。
表3 全球排名数量前十个IPC技术Tab.3 Top 10 IPC technologies in the world
3.3 热点技术领域识别
本文选取全球专利数量排名前十的IPC技术表示技术关注焦点,结果如表3所示。养老科技中移动通信类技术的关注焦点主要集中在移动技术和无线技术方面。 具体可以分为五类:第一类为移动通信类,如电话通信、无线通信网络、图像通信、电话通信等;第二类为数据处理系统相关,如电数字数据处理,行政、商业相关的数据处理系统或方法;第三类为医疗诊断类,第四类为无线技术相关,如无线通信网络、传输;第五类为信号装置类。
3.4 前沿技术领域识别
本文选取年平均增长率最快的前10个IPC技术作为此领域的前沿技术,如表4所示,可以将其分为五类:第一类为元件、系统及仪器,如时间登记器、电子计时器、一般钟或表的机械零部件、电开关;第二类是控制及数据处理,如一般的图像数据处理或产生、可变信息的控制装置或电路;第三类是信息化技术,如编码、译码或代码转换;第四类为生活需求类,小包、行李箱、手提袋,椅子、沙发、床等;第五类是辅助用具,如锁。
表4 年平均增长率最快的前10个IPC技术Tab.4 Top 10 IPC technologies with the fastest annual average growth rate
4 结论与展望
本文综合研究文献、专利文献、政策文本以及技术报告等数据源,首先构建了养老科技技术领域词典,然后使用word2vec对文献和专利数据进行词向量训练,对训练的词向量模型进行KMeans聚类分析,最后将聚类结果与领域专家知识相结合,识别了养老科技技术体系,将养老科技技术体系划分为四个主要类别,分别是老年人护理、关节置换技术、独立生活及辅助生活类技术和移动通信技术,共包括17个技术主题。
通过对养老科技技术体系的识别,可对养老科技领域的具体技术主题有全面的认识。以此为基础,可对养老科技技术体系的应用进行研究,将技术问题定位到具体的子领域中,更好地为政府相关部门和研发机构在技术布局中提供理论支撑。因此,本文以移动通信类技术为例,通过技术生命周期的识别发现:现阶段该类技术处于成熟期;关注焦点主要集中在移动技术及无线技术方面;前沿技术主要集中在具体设备元件、及生活设备的研发中。移动通信技术及无线技术研发将趋向于成熟,政府相关部门和研发机构在技术布局中可以更多地关注具体设备创新,尤其是满足老年人生活需求的设备。
此外,通过构建养老科技技术体系,可以对养老科技各子领域的全球竞争态势进行分析,从而发现我国在养老科技领域的优势和不足,为最终占领养老科技技术制高点奠定基础。本文所构建的养老科技技术体系并未使用网络信息数据,未来可以借助大数据的手段将网络信息数据纳入到数据源中。此外,本文仅对移动通信技术这一技术领域进行应用分析,未来可以对其他三个技术领域进行应用分析,从而全面展示养老科技技术体系的发展现状。