网络安全领域智能语义分析技术研究
2020-12-30孙强强丘恵军陈昊
◆孙强强 丘恵军 陈昊
(深圳供电局有限公司 广东 518000)
1 语义分析
语义分析是人工智能的一个分支,也是自然语言处理技术的核心技术,涉及的学科有:机器学习、认知语言、语言学、计算语言学等。语义分析技术的进步有助于促进其他自然语言处理任务的快速发展。近年来,人工智能中的语义分析技术,特别是深度学习技术发展迅速。例如:在自动驾驶、语音识别、围棋游戏、图像识别等众多领域都取得了突破。
语义分析通过各种方法,识别和理解一段文本内容所表达的语义内容,这种对任何语言的理解都可以归为语义分析的范畴。通常,一段文本内容由词、句和段落组成。词汇语义分析的重点是如何获得或区分词的语义。简单来说,语义分析是通过建立有效的模型和系统,实现对各种语言的自动语义分析,达到实现对整个文本所表达语义的理解。
语义分析技术在词汇层面上的意思是如何理解词义,包括词义消歧和词义表示。
1.1 词义消歧
词汇歧义作为自然语言固有特征。词义消歧是根据一个多义词在文本中出现的上下文联系来确定其在该文中的词义,是各项自然语言处理的基础步骤和必经阶段。词义消歧包括两个必要的步骤:(1)在词典中描述词义;(2)在语料库中进行词义自动消歧。词义消歧要克服的两个关键问题是:(1)词典构建、(2)上下文建模。
1.2 词义表示和学习
早期词汇表示的实践,是把词义表示由网络中的词义位置,连接到网络根节点的路径的信息。然而词义的数字化则是另一个表示方式。
一种最直观、最通用的表达单词的方法是一个hot,此方法把每个单词都表示成一个长长的向量。因此,词向量的维度数就是词汇表的大小。其中,大部分元素用0表示,仅有一个维度值用1表示。该“维度”表示的就是当前的单词意思。但是,此表述的方式是存在问题的,主要问题点是:对于任意两个词来说,它们的关系是孤立的。
机器学习算法和技术水平的不断发展,出现了比较流行的表达词义的方式,如:词的嵌入(注:也叫词向量)。通俗来讲,这种方式的基本思路:用训练的方式拨开语言中的每一个词,如通过JIEBA分词,每个词被映射成为固定的维度向量,通过计算将这些向量汇聚、组合在一起从而形成词向量空间,每个向量其实也是空间中的一个小点。假如在这个空间中引入“距离”(distance),根据比较“距离”的大小,用来判断词与词之间的拟合程度(也即是词汇或语义上的相似性)。
2 网络安全领域
为了防止这些类型的攻击,重要的是对钓鱼邮件有明确的理解。钓鱼邮件的真正困难在于如何发现它,本文将研究智能语义分析技术如何抵御这类攻击。
钓鱼邮件指攻击者发送伪装的电子邮件,包括恶意文件、恶意链接、病毒木马等,欺骗用户输入账号、密码、银行卡号等敏感隐私信息,窃取用户敏感信息,或者把中病毒、木马的设备作为跳板,实施进一步的攻击行为。
近几年来,随着人工智能技术的快速发展,在网络安全领域机器程序模仿人的功能不断增强,现在已有攻击者利用先进的人工智能技术,收集各种维度的数据,如公共网站数据、社交网络数据、邮件数据等,通过对大数据的进一步挖掘,从中提取用户的出生日期、性别、常住地、电话号码、电子邮件地址等个人信息,通过AI语言模型批量化为社会工程攻击创建连贯的令人信服并具备针对性的网络钓鱼邮件,并利用机器学习来分析大量被盗记录,以识别潜在受害者,构建能够更加有效针对这些人的内容详尽的钓鱼类电子邮件。深度伪造(deep fake)技术制作的假文本、假视频,已经很难让人区分,它能够骗过当前的一些反钓鱼邮件遥测技术。它自身能够不停地增强学习,假如攻击有效果,有效信息将会反馈到样本模型中,从而进一步增强攻击样本的准确性;而且,即使失败的无效数据也会得到反馈利用,使机器程序能够分辨哪些信息是无效的。所以,攻击者越来越善于学习目标的特性,发送出看似合法的邮件,通过对外部技术和资源的整合使其网络钓鱼的成效变得越加突出。
3 网络安全领域智能语义应用
我们的研究内容主要集中在硬件的设计与测试,通过使用自然语言处理(NLP)的方式来设计硬件的组件,因为我们认为这种方式对防范钓鱼邮件具有一定作用。根据一段时间的研究和测试,我们总结得出,一是攻击者通常会根据传统已存在的钓鱼检测方法,改进钓鱼的策略和手段,从而实现规避检测的目的;二是网络钓鱼的活动具有存活时间短暂、时效性较强、伪装水平较高和钓鱼目标较广泛等特点,往往很难有效地识别。举个例子,跟合法目标网站相似的域名名称、页面内容排版和图片布局相似的内容等,以此欺骗用户获取敏感信息。AI生成的文本内容具有通用性和大众化的特定,通常是将钓鱼邮件批量发出,有目的、有针对、有方向地发向特定人群,其个性化非常灵活。然而,真正具有高危害的攻击,往往是通过电话来交谈关于你的事情,攻击者可以根据交谈的内容调整自己的讲话,因此理解句子的语义是理解钓鱼邮件的最佳方式,也即是通过机器读懂钓鱼邮件的文本的字面内容。通过对文本内容的关注了解,这种策略用来防御钓鱼邮件的攻击。
通过语义分析,建立邮件库的样本模型,检测邮件中的问题或命令,或评价句子中主要动词和宾语的整体意义。
“动词+宾语”的组合逻辑,与黑名单模型中描述禁止动作的“动宾”,进行比较可得出批量电子邮件内容中是否存在恶意的命令执行。我们实践过程中,随机从一批钓鱼邮件选出一些,首先是进行内容的识别和训练,标识每个单词是否有同义词,排除歧义的单词,避免出现归类失误的情况。
我们研究总结得出,开展此类工作(即通过钓鱼邮件获取黑名单)的难点部分是获取攻击样本。检测的精准度,与模型训练中的攻击样本的精准度,息息相关。为确保精准度,我们提高了样本的数量,数量总数超过380,000个钓鱼邮件和正常电子邮件。最后的检测数据表明,样本模型识别率达到预期。这也说明本文的工作不仅在理论上具有创新性,也具有一定的落地应用的价值。
4 结语
互联网技术的快速发展,网络电子邮件作为人与人、业务与业务之间交流的重要工具之一,已经是黑客攻击的主要目标,为欺诈、勒索病毒的传播提供了温床。邮件安全是网络安全中的风险点之一,打破了传统的边界架构安全的防御,所以邮件安全的防御十分重要。根本的解决方案,不仅仅要依赖各种的边界设备、检测系统和人员安全意识的提升,更重要的是要用新的技术来对抗,充分发挥人工智能技术中语义分析技术的优势,通过对邮件内容的检测和管控,杜绝钓鱼邮件的传播,如果发现钓鱼邮件及时切断钓鱼邮件的传播,保护自身资产的安全,确保网络用户的上网的安全。