人工智能算法的实战演练和强化学习
2020-10-09宋燕
宋燕
摘 要 人工智能是一门综合性的交叉学科技术,该技术的学习除了对数学、计算机、通信等专业理论知识的要求,更需掌握该技术对实际问题的分析和解决能力。本文以基于人工智能算法的大数据比赛为例,从课题选题、研究内容的制定、方案的规划及项目完成的整个流程的介绍,说明了实战演练对人工智能算法学习的重要性,同时也充分调动了学生学习的主观能动性和团队的合作能力。
关键词 人工智能算法 大数据 实战演练
中图分类号:TP24文献标识码:A
0引言
近年来,随着信息通讯和计算机技术的迅猛发展,人工智能技术成为科学领域的一大研究热点,已经渗透到社会生活的众多领域。国内外许多高校相继增设人工智能专业或开展人工智能等相关课程的建设以培养该领域的专业技术人才。传统的理论教学模式已无法满足社会对综合性应用人才的需求,尤其是当今热门的人工智能领域的技术人才的培养,实战经验和演练具有十分重要的现实意义。
1课题选题及研究目的
随着信息发布平台的多元化、普遍化、大众化,信息呈现爆炸式增长,人们可以通过不同渠道快速获取消息,给生活带来了极大便利。然而面对大量似是而非的虚假消息,尤其是混杂在真消息中的谣言,人们难以区别其真假。并且在假消息的错误引导下,有些人会轻信假消息,将假消息传播给自己的亲朋好友,导致假消息快速传播。新型冠状病毒自爆发以来,造成国内外数百万人感染。病毒的快速蔓延,使得网上产生许多关于病毒起源、感染人数以及神奇疗法的错误说法。本课题以新型冠状病毒疫情为例,通过对疫情谣言的文本分析,旨在建立一个能够有效辨别真实、虚假新闻的模型。通过建立真假舆情专家模型,不仅可以帮助群众提高辨别能力,有效遏制谣言传播,还可以辅助政府部门的谣言治理能力。
2课题研究内容和方案
2.1数据预处理
首先,对公开网站收集的数据集在Python调用Jieba库来对新闻信息进行切词处理;其次,运用一种融合关键字提取算法与词向量技术的相似度计算方法即TF-IDF算法进行优化文本特征选取,最终得到包含真实、虚假新闻关键特征的结构化数据;再者,考虑到词频对于判别标准的影响不大,所以采用词袋模型将特征提取后的数据进行编码,转化为数值向量;最后,运用PCA特征降维技术去除特征中的冗余和噪声信息。
2.2不平衡数据的过采样技术
实际生活中,真假新闻标题类别数目往往存在不平衡关系,分类器在处理这类数据时极易向多数类样本倾斜,往往表现出较差的分类性能。然而在实际情况下,相较于多数类样本,少数类的数据往往隐含重要信息,更值得被关注。因此,如何提高少数类样本的信息表达并提升分类器性显得尤为重要。
具有代表性的三种过采样策略包括SMOTE,ADASYN和CBSO算法,但是这些成熟的算法仍然存在一些本质缺陷,如缺乏对数据分布特点的考虑、噪声样本的过滤以及边界样本信息重要性的忽略等。为此本课题研究采用更为先进的改进的CBSO算法,其核心主要体现在两方面:(1)通过同时考虑集群容量和类间距离,针对少数类样本的不同簇使用加权分布策略;(2)对于紧凑/不紧凑的簇内分布样本,提出混合过采样算法,以此获得更理想的合成样本质量。
DFBASO 大致分为三个步骤:第一步,输入不平衡的训练集,并将少数类和多数类样本分别进行FCM聚类分析得到相应子簇划分结果;第二步,通过科学分析数据集的特征和分布,为少数类样本科学确定了需要待合成样本数量;第三步,将混合合成样本算法应用于表现出不同特征的数据中。
2.3数据分类
为了验证提出方法的有效性,本课题选取了使用广泛的支持向量机(SVM)作为分类器进行实验。
3实验结果分析
为了验证作品算法的有效性及改进后的算法相较于传统过采样算法处理性能优劣,本作品利用了传统方法包括SMOTE过采样方法、ADASYN过采样方法以及不通過过采样方法直接进行分类的方法与本文提出的改进方法进行对比,经过2折交叉验证后得出实验结果如图1所示。通过对比实验易见,本课题的方法具有较好的性能。
4结束语
综上所述,以大数据背景下人工智能算法的比赛为例,既加强了学生对理论知识的掌握程度,又锻炼了学生对理论知识的运用能力以及实际问题的处理能力。最后,在本次人工智能算法比赛的近50支参赛队中取得了二等奖的优异成绩。
参考文献
[1] 姚海鹏,王露瑶,刘韵洁.大数据与人工智能导论[M].北京:人民邮电出版社,2018.
[2] 金国峰.重大疫情中网络谣言的形成诱因及其治理[J].学校党建与思想教育,2020(12): 20-23.
[3] 丛培影.为何美国社交媒体假消息泛滥[N].中国国防报,2017-01-27(023).
[4] 陈雅赛.突发公共卫生事件网络谣言传播与治理研究——基于新冠疫情的网络谣言文本分析[J].电子政务,2020(06): 2-11.