基于大数据的毕设系统外衍应用策略研究

2023-09-20葛世强

电子元器件与信息技术 2023年6期

葛世强

兰州职业技术学院，甘肃兰州，730070

0 引言

毕设系统可以实现互动式选题，在线交流式毕业设计过程可以很好地解决在毕业设计实施过程中存在的问题。目前毕业设计材料全面实现无纸化，对相关核心数据进行留存，便于后续对数据进行分析，为今后毕业设计题目立题的科学性和创新性提供科学数据参考，进而将毕业设计数据反馈进人才培养方案，从根本上提高毕业设计实施效率，对类似的系统具有一定的参考价值和借鉴意义。其中各类型数据可以对专业建设、师资培养、社会需求等方面进行实际检测，对题目关键词的词频统计结果可以图表化进行展示，在一定程度上表现出学生的专业基本素养及职业面向方向。对系统中的数据进行分析后可以直观掌握论文涵盖范围和学生就业意向在不同时间段内的变化情况，结合企业对专业的实际需求，为专业发展、师资提升、人才培养等方面提供数据支持。从毕设系统平台数据、数据特征和专业方向这三个方面分析，衍生出面向专业发展-人才培养互动创新的推荐策略，提出由应用人群、数据采集、依据特征推荐系统及衡量评估四部分构成的推荐模型框架，使得大数据技术在毕设系统中能够为人才培养与专业建设创新推荐提供有效的数据服务[1]。

1 毕设系统现状

毕设系统自2020年上线运行以来，已有系统学生用户997人、系统教师用户72人、毕设题目1184项，选题数量占出题数量的84.2%。系统学生用户根据知识广度、技能特点、兴趣方向等考量指标选择毕设题目。针对论文题目特征数据进行提取，获取到毕设题目中词频排名靠前的词有：设计、网站、管理系统、智能、网络、控制系统。

2 毕设系统外衍应用技术基础

2.1 大数据技术

大数据从网络多层次视角[2]对日常生产活动中以数据形式所产生的海量信息进行记录，应用大数据技术相关方法，依据数据需求对这些大量数据信息进行分析处理，最终得到与数据需求吻合度较高的数据信息。在互联网高度发展的今天，数据的增长速度日益加快，对于海量的数据信息来说，使用科学方法进行数据处理，能够为用户快速高效地提供指向性数据。

大数据技术可以在提供准确全面数据信息的同时，确保获取数据信息的速度，以及数据信息的真实性和多样性。万物互联、云端发展的背景进一步推动了大数据技术向着更加完善、更加成熟的方向不断迈进，同时也促进了计算机科学技术快速发展。计算机科学技术与大数据技术有机融合，充分发挥了两者的实际应用优势。针对大数据分析量规模庞大、数据类型表现形式复杂、数据生成时效性指标较高、数据准确性和可信性要求严格等特点，依靠普通处理方式显然难以满足需求，结合机器学习技术能够很好地完成数据分析与数据挖掘任务，而这也是当下大数据技术发展的主流方向。

2.2 机器学习

在大数据技术不断发展的大背景下，机器学习也向着智能数据处理、智能数据分析等方向不断发展。传统机器学习中对于数据分析可以使用监督学习和非监督学习来完成，对于决策问题可以应用增强学习来实现。监督学习适用于已完成数据标注的训练集、标记特征输出值等具体数据的分类处理场景，代表算法有：决策树、朴素贝叶斯、KNN、随机森林、逻辑回归等。非监督学习适用无需进行标注值的训练集和标记特征输出值的聚类任务，代表算法有：k-均值聚类、高斯混合模型、最大期望等。增强学习采用交互反馈式学习以期获得最佳决策，代表算法有：Q学习、R学习、时间差分学习等。

在大数据环境下，有些场景下传统机器学习不能很好地完成任务，而使用基于大数据技术的表示学习、深度学习、迁移学习、主动学习、极限学习等机器学习方法则能够很好地解决问题。其中：深度学习可以通过样本数据中存在的规律和数据表示层次高效标识数据特征；迁移学习可以通过预先掌握的数据特征解决新增不同特征空间数据的问题；主动学习使用微小标注样本数据模型处理数据及规模庞大且缺少标注的任务；极限学习可以满足对数据时效性较高的应用需求。

在实际应用场景下对数据处理任务所要求的不同大数据特性，由于机器学习技术具有算法优化能力[3]，将机器学习算法与大数据技术相结合提高数据处理速度。将机器学习算法与适用的信息智能处理方法进行融合，可以提升大数据处理的有效性。

3 毕设系统外衍应用需求分析

毕设系统外衍应用在构建中具有数据的普适性，其数据均由输入、流转和输出这三类系统数据特征构成。面向不同的应用场景，依据不同应用场景下所存在的需求差异性，从数据、用户特征和业务流转三方面分析系统需求。这里的用户包含教师用户和学生用户，在之后的论述中仍按此含义进行描述。

3.1 系统数据采集

在毕设系统中以论文相关数据作为数据基础，将匹配学生专业与学习兴趣或学习领域为目标，目的在于辅助系统用户在进行数据资源获取、提升决策率的同时，增加系统用户的黏性，设计与效果评价均从系统用户视角出发。面向系统的用户需求，在关注用户自身基本特征数据的同时，还可以采集用户的交流、留言等潜在的互动行为数据，深入统计、分析，精确定位[4]为论文题目推荐这一系统外衍应用提供数据源。

在毕设系统中收集用户数据、论文数据以及互动数据进行数据加工处理，利用处理后的数据来得到用户特征、论文特征、行为特征等关键信息，根据处理后得到的特征信息可以训练论文选题推荐模型，实现毕设系统中论文题目推荐外衍服务。以系统用户行为来创建[教师-论文]、[教师-专业]、[专业-论文]、[学生-专业]、[学生-论文]的特征索引值，将特征索引值以向量形式处理后注入机器学习模型进行论文选题推荐的训练。

3.2 数据特征分析

在系统中输入的数据包含交互数据、用户属性数据和用户冷入场时的初始数据。对于交互数据来说，推荐外衍服务可以通过专业偏向性、兴趣方向等来推测用户的专业关注点；除此之外还可以通过用户评论、咨询等数据进行推测。通过显性的方式由用户输入关键信息，再依据相应的推荐模型进行初始预测。用户属性数据即针对用户基本信息进行描述，该数据在用户的特定属性数据发生变化时同步更新，可以按照不同的应用场景设置不同的权重系数来应用于推荐外衍应用中。用户冷入场表现为系统中没有用户相关行为的历史数据，因此无法对其做出准确的个性推荐，为应对此种场景，可以将专业学科的课程考核数据作为参照，并结合用户自身基本信息完成数据的初始化设置。

由系统推荐外衍服务生成的输出数据涵盖了推荐结果组织方式、论文属性信息和教师用户属性数据，这三者间联系密切并存在内在的相互影响特征。推荐结果组织方式可以使用更多元的方式进行，可使用[论文属性信息-学生用户属性]为核心要素或使用[学生用户属性-教师用户属性]作为核心要素等方式进行推荐，对于最终的推荐结果需要按照其权重和专业属性进行分类、排序等，在优先展示关键数据的同时，尽量降低用户获取相关推荐信息的时间成本和行为成本，增加系统使用的便捷性，增强系统用户黏合性。

3.3 算法特征

现有推荐系统研究主要从信息检索、机器学习和决策支持三个视角展开[5]，系统推荐外衍服务的生成过程是实现推荐的内在逻辑，核心为推荐算法的设计。推荐算法一般按照数据召回、结果排序、计算重排的基本业务流程，推荐算法可以采用不同的机器学习算法，并与大数据处理方法相结合[6]来实现。对于数据召回可以采用并行状态下的多路召回策略，可以采用多路协同、向量召回、权重计算等推荐结果召回方法。在召回推荐结果后，可以对这些召回结果数据进行重排，排序模型核心要素是学生用户属性数据及行为数据构成的向量序列。在重排过程中进行多样性抽样、加入推荐内容以及推荐的约束规则，最终得到学生用户推荐外衍服务列表。

3.4 结果特征

系统推荐外衍服务的推荐结果中，其结果特征有匹配量、覆盖率和熟识度三个方面。匹配量是衡量系统推荐外衍服务的关键指标，它反映了推荐的结果或资源与学生用户特征数据的匹配度；覆盖率表现为对专业范围的涵盖情况，在加入覆盖率考量指标后可能会降低匹配度，但是在专业建设、师资培养、社会需求等方面能够提供多样化的数据服务，而且学生用户的知识结构、学习成果等很大程度上受专业建设和教育师资影响，得到更加多样化的推荐结果，能够有效降低学生用户的选题困难；熟识度描述了学生用户对于系统推荐外衍服务的结果是否熟知了解、是否有类似学习经历，熟悉推荐可以增加用户对系统的信任[7]。

4 毕设系统推荐外衍服务框架

在进行系统推荐外衍服务需求分析后所设计的框架需要满足对于不同系统用户对数据、推荐结果特征和推荐结果评价的差异性需求。框架由系统用户场景、基础数据、推荐结果特征和推荐结果评价四个主要模块构成。

数据是推荐外衍服务执行的基础条件，采集的数据涵盖系统用户特征数据、专业数据、课程考核数据和系统用户互动数据四类核心数据。在四类核心数据中，一部分数据在录入后进行基础处理再保存到数据库中，另外一部分数据在使用时由基础数据通过数据挖掘、机器学习算法的处理后得到，此数据一般作为运行时数据使用。

在基础数据中，系统用户数据主要包括系统用户属性数据、系统用户特征数据和系统用户特征统计数据；推荐结果特征数据需要包括专业属性数据和系统用户的交互行为统计数据，上述数据由对用户特征数据、专业数据、课程考核数据、用户互动行为数据的分析处理得到。在对学生用户的课程考核数据进行向量化处理后，结合专业属性数据可以动态修正学生用户特征数据，即在学生用户特征数据中反映学习行为差异属性特征，例如学生用户的创新活跃度、知识范围、技能属性等。而对于教师用户，在互动过程中承担着响应角色，因此也需要同时关注其特征数据和反映教师用户自身的专业、学习行为等方面的一般数据，如教师用户的年龄、专业标签和学习方向、既往承担毕设任务等。

推荐外衍服务算法特征包括了从数据召回、结果排序、计算重排整个推荐业务实现过程中所使用的算法，可以使用协同过滤和多目标排序模型等模型算法，可以使用相似度计算、交叉熵损失函数等机器学习算法实现具体技术细节。得到的推荐结果特征指基于这些算法产生的推荐结果具有相应特征，推荐算法正是通过影响上述推荐结果的特征从而影响用户感知的系统表现[8]。

5 结论与展望

本文针对毕设系统中的数据进行挖掘与分析，对实现推荐外衍服务的问题进行了研究。在系统数据的基础上提出了面向系统用户互动的多元推荐系统构建模式，进一步通过分析面向企业-用户互动创新的推荐系统需求，提出了由系统用户场景、基础数据、推荐结果特征和推荐结果评价四部分组成的框架结构。毕设系统实现推荐外衍服务可以帮助提高毕设选题与专业方向及爱好特长精准匹配，通过数据特征更加直观展示专业特点、学生专长及教师研究领域，不但可以吸引系统用户进行留言评价、知识分享等互动，而且从多个方面提升系统用户参与意愿。在现有推荐外衍服务基础上，如何在系统中融合企业用户角色到相应的应用场景及在系统用户的互动过程中完善激励机制等方面仍需进一步探索研究。