网络音频资源集合组织中的用户行为规律与偏好揭示
2019-05-07严炜炜马萧萧
严炜炜 马萧萧
摘 要:[目的/意义]区别于文献资源集合,网络音频资源集合的组织具有更强的个性化特征,其用户偏好的揭示不仅可拓展数字资源集合组织行为规律,亦有助于网络音频资源服务水平的提升。[方法/过程]选择代表性网络音频资源分享平台中的用户自组织音频资源集合作为样本,通过对音频资源集合名称的高频热词分析,探究用户创建网络音频资源集合逻辑与组织偏好。[结果/结论]相较于文献资源集合组织中对文献资源类型、学科领域等的强调,用户在创建网络音频资源集合时具有优先情感表达(内部归因),其次进行风格、主题、语种描述(外部归因)的组织规律和行为偏好。
关键词:网络音频资源;数字资源集合;用户认知;用户行为;用户偏好
DOI:10.3969/j.issn.1008-0821.2019.05.010
〔中图分类号〕F062.5 〔文献标识码〕A 〔文章编号〕1008-0821(2019)05-0074-06
Abstract:[Purpose/Significance]Different from the collection of document resources,the organization of network audio resource collection has stronger personalized features.The analysis of user preferences can not only expand the rules of organizing digital resource collections,but also improve the network audio services.[Method/Process]The user self-organizing audio resource collections on one representative network audio resource sharing platform was selected as a sample.Through the high frequency hot words analysis of the name of each audio resource collection,the organizing logic and preference were explored.[Result/Conclusion]Compared with the emphasis on the literature resource type and subject area in the literature resource collection organization,user usually gave priority to the expression of emotions(internal attribution)when creating a collection of network audio resources,followed by descriptions of the style,subject,and language(external attribution).
Key words:web audio resource;digital resources collections;self-organizing;user cognition;user behavior;rule preference;hot word analysis
为了在海量信息包裹的环境下有效组织信息资源,资源集合作为信息加工组织的方法在数字图书馆、门户网站等领域进行了广泛而深入的探索。资源集合是按照一定体系组成的信息对象集合及信息资源体系[1],其旨在对数字化信息资源进行集成、整合,将不同来源、相对独立的数字对象有机连接起来,对其内容进行充分地揭示。而作为数字资源有效保存和组织、分享的重要方法,资源集合在实践中也常被应用于实现跨库检索和一站式资源服务之中。然而,资源集合的相关研究主要聚焦于以文献资源为代表的研究对象以及文献资源集合形成的元数据结构的描述,对诸如音、視频等多媒体资源的组织探究尚显匮乏。事实上,以音频资源为代表的多媒体资源相较文献资源而言,具有内容庞杂、数据冗余、自主性强的特点[2],其资源组织逻辑也因而与文献资源会有所差异。基于此,本文选择数字音频资源集合作为研究对象,从用户行为习惯与偏好视角揭示音频资源集合的组织方法和规律,以期面向多媒体数字资源拓展资源集合的组织逻辑及其相关行为理论,并为音频资源集合的推荐和服务优化提供参考。
1 相关研究综述
1.1 资源集合的相关研究
资源集合元数据的描述和探析是资源集合相关研究的主要领域之一。例如,元数据深度被用以分析资源集合,旨在使资源集合元数据标准的建立更为精简,并被应用至数字图书馆的建设过程中[3];而在资源集合、个体资源元数据关系的描述及实现探究中,以资源集合与文献单元元数据关系分类逻辑框架项目为例,资源集合与文献单元元数据之间则存在三类关系实例,分别为:“属性/值传递”、“值传递”和“值约束”[4]。
除了对资源集合本身元数据的揭示之外,其它资源集合相关研究还聚焦于对资源聚合与资源整合等形成资源集合途径的揭示。例如,对于馆藏资源聚合层次可概括为针对实体文献的整理、数据的集成、信息的整合和针对知识的聚合,同时馆藏资源聚合也具有传统模式和深度聚合模式及其对象特征方面的差异[5]。相关研究还对比分析了国内外公共数字文化资源领域的整合问题,构建了公共数字文化资源整合模式,助力于将所有类型的公共数字文化资源整合到一个统一的平台,满足公众快速、准确获取公共数字文化资源的需求[6-7]。相比之下,国外对于数字资源聚合的研究主要倾向于应用研究方向,主要是生物医学应用、虚拟网络和数字图书馆中的应用,如CROERA分类器被用以对网络平台中包含的教育资源进行分类,实现教育资源的跨库聚合[8];而对于数字资源整合的研究,早期主要集中于图书馆、档案馆、博物馆等的馆藏发展方面[9],近年研究领域也朝其元数据和数字资源的整合领域拓展。
1.2 音频资源的相关研究
在数字化环境中,资源建设的概念被极大地拓展,各类音频资源也成为信息资源建设的重要组成部分。但相比于文献资源、信息资源,音频资源存在如下特点:从自身属性來看,其存在形态多样;从服务对象和使用者角度看,对音频资源的需求多元,不同的音频资源利用场景都具有特定的要求。因而需利用不同于文献资源的方式对其予以组织、建设。
相关研究探析了音频资源的保存与建设问题,如数字图书馆音频资源数字化保存的优点和数字音频资源的制作过程,以及高校图书馆视音频资源数据库的建设的必要性和知识产权问题等都被研究者们所关注[10-11]。同时,研究也从音频资源的内容及其整合方式视角进行了探索,如肖定斌分析了音频资源的内容价值,并就音频资源管理措施和音频内容资源整合与挖掘途径展开了研究[12];王铮等则以大英图书馆参加的欧洲Europeana Sounds和美国国会图书馆的《国家录音保存计划》为例,整合了海外图书馆在参与或主导音频资源建设方面的实践情况,以此为基础梳理和归纳相关经验与对策,为我国图书馆界的音频资源建设工作提供参考借鉴[13]。而国外在音频资源库建设和运营方面则有着丰富的经验,如美国在著作法中明确规定“向国会图书馆交存复制件或录音制品”以及在2013年公布“国家录音保存计划”,从而确立了国家音频资源的合法地位。
概括而言,资源集合的研究所涉及的领域涵盖了图书馆、博物馆、档案馆等各级文化机构,在研究发展中其研究的广度和深度都有所拓展。另一方面,音频资源数字化发展特征显著,用户越发接受和习惯于多媒体、碎片化、个性化的内容。此外,音频资源集合的组织逻辑和方式应与文献资源的方式具有差异性,尤其是个性化偏好以及应用场景对资源集合组织的影响,然而以音频资源为对象的研究相对于文献资源而言却较为匮乏,尤其是对音频资源集合组织逻辑与规律的揭示尚显不足。因此,本文关注对音频资源的集合,并面向音频资源拓展用户进行数字资源集合组织行为规律和偏好的揭示。
2 研究设计
在音频资源数字化进程中,音乐资源得益于其丰富且海量的资源内容和广泛的互联网分享传播特性,现已成为网络音频资源中最重要的代表性资源。网易云音乐作为音乐资源平台中的后起之秀,通过歌单、动态、评论等多种互动方式,打通用户之间的关系链接,既涵盖了丰富的音乐类音频资源,也为用户提供了便捷的分享与交互机制,在短期内就积累了庞大的用户群体。故而,本研究选择网易云音乐中的音乐资源作为研究对象,探究用户对网络音频资源集合的组织行为规律与偏好。
在网易云音乐平台之中,歌单(也即歌曲集)是一种用户自主组织和表达的歌曲集合形式;创建歌单,实则是用户进行以歌曲为组成要素的音频资源集合个性化创建行为[14]。歌单不限主题,各有特色,无论是创造歌单主题还是为歌单添加音乐,都由用户自主完成,其实质便是创建者情绪的表达。网易云音乐正是通过赋予用户更多的自由度和决定权,进而鼓励、支持用户创造更多的歌单,从而以用户为主体,实现UGC最大化。除一般性分类外,网易云音乐又发展出很多个性歌单。正是这些看似主题不鲜明,但却具有个人性格的歌单不仅吸引了其他音乐客户端用户的加入,更是发展出了独有的音乐社交文化。
考虑到歌单名称的创建是用户对歌曲集合的个性化主题概括行为的体现,其命名规律充分反映了用户对于网络音频资源集合特征的理解和揭示,能够凸显其进行网络音频资源集合组织的行为规律和偏好。故而,本研究进行网易云音乐的热门歌单名称的采集和文本分析。
3 文本分析过程
在对网易云音乐歌单进行内容分析的过程中,依照数据获取、文本预处理和特征提取3个阶段对热门歌单名称进行数据采集和分析。
3.1 数据获取
本文选取网易云音乐社区热门歌单排行榜中的所有歌单作为研究样本,考虑到Python软件在爬虫应用开发中所具备的稳定、高效的处理效能及其成熟的框架体系,本研究在数据获取环节,利用Python进行网易云音乐社区爬虫程序的编写,并对样本歌单的URL和名称信息进行采集,采集时间为2017年11月6日,共获得1 255条有效数据。
3.2 文本预处理
文本预处理阶段包括对样本数据进行去噪、分词、停用词过滤等步骤。通过观察数据集可以发现,歌单名称中包含大量噪声,如表情、符号等。整个数据集在剔除空白歌单、表情、数字、符号等噪声后,共得到1 248条有效数据。
在对歌单名称初始文本进行去噪工作之后,需要对其进行中文分词及停用词过滤操作。音乐歌单具有较强的UGC属性,其所含内容个性化特征明显,故而本文在分词处理时选取包含4种分词模式,同时可以加载自定义用户词典的Jieba包作为分析工具,同时引入配备的搜狗词典以提高分词效果[15]。此外,为了节省存储空间和提高分析效率,还去除了数据集中对理解文本内容没有贡献的标点符号、语气词等。在对数据集完成中文分词后,下载哈工大停用词表,并根据文本特性自行添加建立了包含2 182个停用词的停用词表,对数据集进行停用词过滤,最终得到对理解歌单文本内容具有贡献的3 057个单词。
3.3 特征提取
为了对分词结果进行特征提取,在完成词频统计后,本文选择其中出现频次排名前50的热词作为基本分析对象,共计2 874个样本点。词频分布和词云图分别如表1和图1所示。
4 热词分析
热词反映某一特定时空范围内人们普遍关注、具有态度倾向的问题,其针对性、实践性强,能深刻挖掘事件发展趋势及用户行为偏好。本文针对网易云音乐歌单名称进行高频热词的挖掘和分析,对于归纳出用户在创建以歌单为代表的音乐资源集合时所体现出的偏好和行为规律具有重要意义,亦可作为以网易云音乐为代表的网络资源平台优化的重要参考。
4.1 资源集合标注热词的类别分布
依据词性特征及语义信息,样本高频词可分为5类:表达孤独、温柔、治愈等的“情感”类;涵盖古风、电子、说唱等“风格”类;BGM、女声、电影等“主题”类;以欧美、華语、韩语等为代表的“语种”类;包括音乐、歌单、精选、amp等无明确特征的“其它”类(见表2)。
首先,诸如“孤独”、“喜欢”、“时光”、“温柔”、“治愈”等这些表达歌单情感的热词多次出现,其频率皆高于其他3类,且此类热词在所选取的排名前50的样本热词中占比最高,表明较多用户在创建歌单时均会倾注更多的个人感情色彩,以切身感受为曲目添加情感标签;其次,“古风”、“纯音”、“电子”等揭示音乐风格的热词出现频率位居第二,进一步说明用户在创建歌单名称时,会充分利用音乐资源的属性特征,而音乐单曲的曲风则在用户区分歌曲时被用户视作仅次于情感的另一划分属性;再次,“bgm”、“女声”、“前奏”等体现音乐主题的热词出现频率也较高,说明用户在歌单名称的选择上还是倾向于能够揭示曲目类别、性质的词汇,划分不同主题的资源集合;最后,“欧美”、“华语”、“韩语”等代表音乐语言的热词频繁出现,这表明大多数用户在创建歌单时也容易按音乐语种这种显著而清晰的划分属性进行标注,明晰曲目特征;除此之外,如“音乐”、“歌单”、“精选”、“amp”等词,其虽然也有较高的出现频率,但由于不能作为区分音乐资源集合的依据,且并无揭示资源集合内容的含义,单独列为一类,不做重点考量。
4.2 资源集合标注热词的比较分析
除“其它”外的4类歌单热词的出现频次具有显著的不同。总体上讲,在歌单热词分布中,反映音乐情感和风格的热词出现频次要明显高于另外两类的热词,这说明大多数用户在进行歌单名称的创建时更注重于乐曲情感和风格的划分。这正验证了“音乐是情感的语言”这一言论[16]。尽管体现音乐主题以及其它划分语言特征的术语也是用户在创建歌单名称时参照的重要指标,但更多的依然是先确定曲目情感和风格,之后再考虑主题。依照图2所示结果,可以梳理出用户创建歌单名称的基本组织规律:首先用户会基于切身体验,贴上情感标签,之后确立曲风,此后再明确曲目主题,最后确定是“欧美”、“华语”、“韩语”或者其他语种进行划分,即形成“情感→风格→主题→语种”的偏好路径。
图2 音频资源集合标注热词的频次和频率
具体而言,基于情感类别的热词占比最高,且每个热词出现的频次相差不大(见表3),其原因可归结于用户体验音乐资源时的状态或个人喜好,主观体验不同,对其划分结果自然不同,但基于曲目固有的基调,用户划分的结果也并无大的差异;在体现乐曲风格的热词中,笔者观察到“纯音”、“古风”、“说唱”以及“电子”这4种风格出现频率最高,这表明在该年度这几种曲风更受青睐,更能够凸显用户赋予的集合特征,而“edm”、“摇滚”此类小众型曲风音乐集合的个性化组织欲望较低;对于揭示曲目主题的热词,如“bgm”、“女声”、“前奏”等词汇的出现频率持续居高,由此得出用户在创建音乐资源集合时,会自主标明自身“集合”的特性,以彰显歌单主题,吸引听众;相比之下,反映音乐语种的热词,在排名前50的热词中仅占比10%,且欧美、华语此类大众语言所占的频率居高,而日语、粤语相对较少,这表明大多数华语和英语歌单拥有相对较高的受欢迎度。
基于上述对高频热词的分析,笔者认为,虽然用户创建歌单具有很强的自主性和个性化特征,但其创建本质具有一定规律性,即按“情感→风格→主题→语种”的顺序进行优先选择,明确曲目特征,形成由内涵向外延扩伸的用户偏好行为规律。除此之外,对于每个类目之下具体的热门项目,也可作为平台推荐系统的优化依据。
4.3 资源集合标注规律揭示
用户偏好是用户认知、心理感受及理性的经济学权衡的综合结果,网络音频资源集合的组织,即是在认知视角下探析用户偏好的过程。对于曲目信息,网易云音乐的网络用户依据不同的认知水平,以及曲目所体现出的个性特征,划分不同的音乐类别,形成差异化的行为规律。
用户的认知影响用户体验,而用户认知的影响因素主要涉及认知者、认知对象和认知情境3个层面,认知者的因素包括用户的知识经验、价值观念、情感状态等[17]。情感是认知活动中不可或缺的重要组成部分,认知的发生对情感具有依赖性,没有情感就不会有认知,情感贯穿于认知活动的全过程,对认知产生举足轻重的作用[18]。与此同时,音乐资源集合本身的创建就是一种情感的表达,因而用户在创建资源集合时,自然会优先依据情感因素来对音频资源进行分类,从而产生不同的音频资源偏好。
认知对象的影响主要体现在对象的个性特征上,对象的个性特征,激发了用户的行为需求和动机,影响用户的行为习惯和用户的认知、情感[19]。音乐资源的个性特征体现在乐曲的风格、主题、语种等方面,影响着用户的认知和选择。曲风既是创作者对音乐的独特而鲜明的表现的结果,也是欣赏者对音乐进行正确的欣赏、体会和品味的结果。曲风的形成有其主、客观的原因,在主观上,创作者由于个人生活经历、情感倾向、个性特征的不同,在歌曲创作中会自觉或不自觉地形成区别于其他创作者的各种具有相对稳定性和显著特征的创作个性,曲风就是创作个性的自然流露和具体表现。因而用户在对音乐资源进行情感分类后,进而依据个性情感倾向进行曲目风格的划分。此外,音乐资源的主题和内容要通过一定的形式和风格来表现,音乐的主题表达音乐内容的主题思想、基本背景,主题是牵引,音乐风格才是主要的学习内容,由此音乐资源的主题分类排序于曲目风格之后。此外,语言作为音乐资源的基础内容,为其他分类标准提供依托,语言的差异最基础也最为明显。因而,用户在标注网络音频资源集合时,根据网络音频资源不同的风格、主题和语种的个性特征,编汇不同的集合类别,形成了网络音频资源集合的组织逻辑规律。
另一方面,据凯利的三维归因理论[20],认知者的因素是属于内部归因,客观认知对象属于外部归因。情感因素作为影响用户认知的内部归因,发挥着主导性的作用,也因而成为用户进行网络音频资源集合组织的首选参考要素;外部归因只有通过内部归因才能起作用,因而风格、主题、语种等个性特征作为外部归因,对用户的影响程度次于情感因素之后,起到网络音频资源集合特征的补充描述作用。
从实践来看,以歌单为代表的音频资源集合用户组织偏好规律对于音乐平台的音频资源推荐以及其它多媒体领域的应用也具有参考意义。网易云音乐平台中歌单标签的推荐顺序为“语种→风格→场景→情感→主题”,与文章结论“情感→風格→主题→语种”这一决策机制存在差异。由于用户认知会对资源集合的组织创建产生显著的影响,用户的偏好习惯则会导致其在组织行为上具有明显的个人倾向[21],故而,以网易云音乐为代表的网络音频资源平台在分面检索设置时需尊重用户偏好习惯,完善音频资源分面推荐逻辑。此外,用户对网络音频资源的组织和体验需求已不局限于以网络音频资源的外部特征来划分音乐类别,而更多地倾注于个人认知和情感感受,这种创建偏好和规律也同样适用于其他诸如音频、视频等多媒体领域,以提升用户个性化体验并增强用户黏性。
此外,对比文献资源的组织而言,网络音频资源组织中更体现了由内部归因所反映的个性化特征所产生的影响。这是由于,文献资源组织专业性强、标准明确,尤其是在以数据库为代表的文献资源集合组织与检索设计中,其资源集合主要依据文献资源类型、学科领域等统一规范进行划分和组织。相较而言,网络音频资源集合组织的用户自主参与性更强,会更依赖于内部归因表达以凸显个性化特征和偏好。
5 结 语
网络音频资源的发展是对文献资源的拓展和延伸,然而目前音频资源存在的组织规律不清晰、系统性不强等问题,很大程度上影响了音频资源的建设和有效利用。此外音频资源的集合方式较文献资源更为多元、广泛,从用户出发的音频资源个性化组织特征与文献资源有着显著的不同。基于此,本文聚焦音频资源集合,以代表性网络音频资源平台——网易云音乐社区为例,抓取社区内热门歌单名称文本内容,选用热词分析法对高频词汇进行挖掘分析,最后结合应用心理学用户认知的概念,从用户行为习惯与偏好视角揭示音频资源集合的组织特征,归纳出用户在创建网络音频资源集合时形成的优先情感表达(内部归因),其次进行风格、主题、语种描述(外部归因)的行为偏好,并为网络音频资源平台的音频资源分面检索设计和推荐优化提供指导。当然,本文也存在一定的局限,文章尽管采集了网易云音乐社区热门歌单的所有数据,但样本数量有限,在后续的研究中可进一步通过时序数据和跨平台数据的补充,进行用户组织网络音频资源集合行为规律的更全面验证和跨平台比较分析。
参考文献
[1]刘茜,张晓林.描述资源集合的元数据[J].大学图书馆学报,2002,(1):17-20.
[2]沈中锋.数字音频资源碎片化需求分析[J].科技与出版,2013,(7):84-85.
[3]袁小一,俞毅.资源集合元数据标准探析[J].情报理论与实践,2007,30(5):671-673.
[4]张海霞,刘炜.资源集合/个体资源元数据关系描述及实现[J].现代图书情报技术,2009,(3):23-29.
[5]赵蓉英,王篙,董克.国内馆藏资源聚合模式研究综述[J].图书情报工作,2014,58(18):138-143.
[6]肖希明,刘巧园.国外公共数字文化资源整合研究进展[J].中国图书馆学报,2015,41(5):63-75.
[7]唐义,肖希明,周力虹.我国公共数字文化资源整合模式构建研究[J].图书馆杂志,2016,35(7):12-25.
[8]Marcos A,Roberto R,Luis A.Cross-repository Aggregation of Educational Resources[J].Computers & Education,2018,(117):31-49.
[9]Jones D.Collection Development in the Digital Library[J].Science & Technology Libraries,1999,(3-4):17-27.
[10]张源漳.论数字图书馆音频资源的制作与发布[J].图书馆论坛,2004,24(3):77-79.
[11]覃燕梅.高校图书馆视音频资源数据库的建设及其知识产权问题[J].图书馆学刊,2008,(2):114-116.
[12]肖定斌.论媒体音频资源的内容价值与整合开发[J].情报探索,2013,(4):100-102.
[13]王铮,刘红煦.图书馆音频资源建设的挑战与应对策略——以欧洲Europeana Sounds和美国《国家录音保存计划》为例[J].情报资料工作,2017,(1):75-81.
[14]李丹丹.音乐社交:网易云音乐的互动仪式链研究[D].重庆:西南大学,2016:29-31.
[15]范佳健.微博评论信息的聚类分析[D].合肥:安徽大学,2017:25-28.
[16]王宝春.音乐是情感的语言——浅谈音乐与情感[J].科教导刊,2013,(11):90,102.
[17]全国13所高等院校《社会心理学》编写组.社会心理学[M].天津:南开大学,2008:117-121.
[18]刘萍,叶方倩.基于认知观的信息搜寻行为研究综述[J].情报科学,2017,(1):161-166.
[19]邓胜利.用户个性特征对信息行为影响的研究进展[J].情报理论与实践,2014,37(5):119-122.
[20]Ulrich R O,Albert S,Roberta V,et al.Using Attribution Theory to Explain Tourists Attachments to Place-based Brands[J].Journal of Business Research,2012,65(9):1321-1327.
[21]林鑫,周知.用户认知对标签使用行为的影响分析——基于电影社会化标注数据的实证分析[J].情报理论与实践,2015,38(10):85-88.
(责任编辑:孙国雷)