大数据背景下的电子邮件系统发展研究
2024-06-03叶雪洁杨阳朝李阳阳周阳
叶雪洁 杨阳朝 李阳阳 周阳
摘要:多媒体技术的快速发展为电邮系统带来了全新的机遇和挑战,突出表现在网情分析难度增大、违规数据变种增多、反垃圾效果不明显、高级防御能力偏弱、人机审核难度加大等方面。通过全网监测网情态势、实时捕获环境特征、建设内容风控体系、强化高级威胁防护、提高内容审核巡查等方式,电邮行业可以达到掌握关键信息动态、提高内容识别效果、及时发现隐藏风险、减少垃圾邮件干扰、降低人工审核成本等目标。未来,电邮行业应立足“技术+应用”发展道路,有效提高用户体验,推动人工智能与电邮行业融合创新,实现典型示范应用和“杀手锏”产品,基本形成技术标准、服务体系和产业生态链,推动智能化应用,提升产业发展水平。
关键词:多媒体技术;电邮行业;内容识别;智能化应用
doi:10.3969/J.ISSN.1672-7274.2024.04.011
中图分类号:TN 929.5,TP 391.44 文献标志码:A 文章编码:1672-7274(2024)04-00-03
Research on the Development of Email Systems in the Context of Big Data
YE Xuejie, YANG Yangchao, LI Yangyang, ZHOU Yang
(China Electric Network Space Research Institute Co., Ltd., Beijing 100085, China)
Abstract: The rapid development of multimedia technology has brought new opportunities and challenges to email systems, particularly in the increased difficulty of network situation analysis, the increase in variants of illegal data, unclear anti spam effects, weak advanced defense capabilities, and increased difficulty in human-machine auditing. By monitoring the overall network situation, capturing environmental characteristics in real time, establishing a content risk control system, strengthening advanced threat protection, and improving content audit patrols, the email industry can achieve the goals of mastering key information dynamics, improving content recognition effectiveness, timely discovering hidden risks, reducing spam interference, and reducing manual audit costs. In the future, the email industry should focus on the development path of "technology+application", effectively improve user experience, promote the integration and innovation of artificial intelligence and the email industry, achieve typical demonstration applications and "killer" products, basically form technical standards, service systems and industrial ecological chains, promote intelligent applications, and enhance the level of industrial development.
Keywords: multimedia technology; the email industry; content recognition; intelligent applications
1 電邮行业发展背景
随着大数据、物联网、移动互联网等先进技术驱动,我国的新型人工智能产业将呈现出深度学习、人机协同、自主管理、群智开放、跨域融合等新发展特征,其高度交叉的技术属性和产业特征将促使我国新型网信技术和传统产业的深度融合发展,这对于推动我国生产力跨越式提升,抢占我国未来经济先机具有极其重要的战略意义[1]。目前,多媒体技术是信息领域发展最活跃的技术之一。通过使用图片、音频、视频等多种方式进行工作,多媒体覆盖之广、发展之快超乎想象,其裂变式发展引发了全球信息格局的重大调整和传播生态的急剧变化[2][3]。电子邮件虽达不到即时通信软件或社交媒体的飞速增长,但电子邮件系统是目前应用最为普遍、最为关键的应用系统之一,在网络中是以明文形式传输和存储的,因而电子邮件所具备的公信力和开放性仍是即时社交软件所不可取代的,且将继续存在。当前,电子邮件具有以下几个特点。
(1)用户规模保持低速稳定增长。我国对电子邮件市场监管将越来越规范,在全终端服务的趋势加强,电子行业也将越来越活跃,市场优胜劣汰越来越明显。整体来看,电子邮件作为早期发展起来的通信方式,目前已拥有了数量庞大的用户群体。我国电邮市场已趋于成熟,从2015年开始增长率维持在5%~7%,未来我国使用电邮用户规模将保持低速稳定增长。
(2)通信方式具备跨平台特点。电子邮件作为去中心化的通信工具,相较于即时通信软件,可实现跨平台使用。邮件内容可通过不同类型进行组织管理,实现分类文件、设置标签、使用搜索等能力,并可与其他应用程序集成,具备同步日历、任务列表等功能,工作方便快速、便捷处理。
(3)邮件办公成为重要使用方式。邮件系统主要有以下三个常见类型,即海外商业邮件服务系统、国内商业邮件服务系统和开源邮件系统。在全球范围内,邮件系统有相当普遍的使用,但相对于国内市场来说,邮件系统大多在政府部门、院校、大中型央企、金融证券等领域应用,邮件系统应该具备更强的安全性和稳定性。
2 电邮行业面临的困难
目前,信息传播来源广泛、手段隐蔽多样,信息技术快速发展对电子邮件行业带来了很大的冲击。我国目前已经实施的《中华人民共和国网络安全法》《互联网信息服务管理办法》《网络安全法实施条例》等国家网络安全法制规范,虽然已经初步实现了对网络新闻、音视频资料、搜索引擎服务等带有社会宣传属性和动员功能的公共信息服务行业全面监管工作,但对电邮领域违法违规行为的有效管理手段相对企业而言还相对薄弱,且目前被动型、举报式的监管执法手段已经无法满足新形势下企业的行政执法监督工作需要,因此急需形成智能化、新型化、多样化的工具与机制,以有效解决企业当前被动获取违法违规行为线索的问题,而电邮领域则依然面临着突出的安全监管工作问题[4]。
Cofense Intelligence《2023年电子邮件安全报告》调查数据显示,电子邮件仍面临巨大的安全挑战威胁。网络钓鱼作为最大的网络攻击载体,借此恶意电子邮件增加了478%;商业电邮欺诈(BEC)已连续第8年列入最严重网络犯罪形式之一;在网络钓鱼活动中,使用Web3平台托管恶意内容,Web3技术增加了341%;利用Telegram机器人窃取信息的恶意活动明显增加,同比增长超过800%;结合恶意软件特性、成本和复杂性等特点,QakBot、Emotet依然是最值得关注的恶意软件家族。当前,电邮行业面临的困难主要有以下几个方面。
(1)多源异构数据增多,网情分析难度加大。短视频等新业态带来颠覆性问题,数据结构已发生巨大变化,文字、图片、音频、视频等非结构化数据呈指数级增长,网情监测在数据体量、生产速度和复杂程度等方面都发生了巨大变化[5]。
(2)深度伪造方法多样,违规数据变种增多。目前,可用于深度伪造生成的开源软件增多,出现更多的文本敏感词、特殊符号混淆、图片嵌入等违规内容形式,极大降低了伪造门槛,如何识别深度伪造面臨新的技术挑战[6]。
(3)风控异常检测缺失,反垃圾效果不明显。单纯依赖内容维度检测,缺失账号维度、行为维度异常检测,存在着内容风控维度单一、反垃圾效果不佳等问题;目前内容风控比较滞后,无法预知行为异常,垃圾内容通过频繁更换不同账号发送。
(4)针对性攻击更激烈,高级防御能力偏弱。互联网上钓鱼攻击威胁的生命周期在不断缩短,电子邮件攻击越来越具有针对性,而勒索软件攻击则增长了数十倍,垃圾邮件的种类及其发送工具也越来越复杂、多样。
(5)违规内容对抗性强,人机审核难度加大。随着个性化算法推荐技术的广泛应用,信息内容分发效率得到显著提高,与此同时伴随着虚假信息传播、信息茧房等问题,仅依靠人工和机器审核,无法判断消息来源真假,去伪存真的内容审核愈发重要[7]。
3 电邮行业技术趋势
围绕我国电邮行业目前面临的重大技术难点,根据当前科学发展趋势与国际市场趋势研判,为全面落实党的二十大会议精神,深入贯彻我国创新驱动发展战略,全面释放大数据分析潜能,将着重围绕在大数据分析人工智能、高级机器学习、人机智能等新兴技术领域进行攻关,以算法为关键核心、以数据和硬件为基础,重点围绕知识计算、认知推理、人机交互等关键领域共性技术重点布局攻关。
(1)全网监测网情态势,掌握关键信息动态。在数据融合方面,通过利用跨模态认知计算、语义理解认知等智能化技术,基于文本、图片、音视频等数据,通过机器视觉相关算法及模型来增强语义层面的融合与挖掘分析,从而融合处理多模态的复杂信息和数据和建立知识图谱。在态势预警方面,基于全球多语言、跨模态、全媒体信息智能搜索技术以及基于文本语义分析组件平台的有害信息监测发现、基于隐马尔科夫模型等预警技术,实现敏感和有害信息的快速预警,提供态势感知、信息预警、深度研判、决策参考等全链条大数据支撑。
(2)实时捕获环境特征,提高内容识别效果。在敏感信息特征提取方面,通过机器学习方法来抽取敏感信息特征、构建敏感信息识别语义模型,进而提出敏感信息检测方法,从而实现智能鉴黄、违禁检测、涉政检测等功能,并建立自适应移动互联网特征的机器学习算法库[8]。在模型参数的自动更新方面,通过采用在线学习算法可以及时捕获最新的环境特征,从而对模型特征和参数进行适时更新调整,从而可减少模型的检测性能下降问题。此外,为了更好地提高内容理解和识别效果,一方面可以通过联合聚类技术,来收集偏旁部首的笔画属性特征,从而发掘词语使用规律,进而构建高阶语义的智能词库,从而解决数据变种快的现象;另外,也可以通过语义池挖掘方法找到关键目标主题的语义池,并通过训练不同词向量模型,以便于确定上下文语义关系图和减少多义词问题。
(3)建设内容风控体系,及时发现隐藏风险。运用深度学习技术,通过风险名单、IP画像、人机分析、设备建模、行为模型、业务模型等算法模型库,通过研究多业务场景的全过程智能数据分析,新建关联多维度行为的动态业务模型来满足用户需求,并经过应用者授权来检测图像、视频中的色情、涉政等违法违规现象,通过定期对网站进行监测并及时发现内容安全风险,探索网络空间数据行为分析方法,从而发掘数据背后的行为规律,掌握信息行为背后的意图,对行为进行精准预测,对网络空间态势进行评估,并以此为网络空间安全的监管政策提供强大技术支持。
(4)强化高级威胁防御,减少垃圾邮件干扰。为避免DDOS、字典入侵攻击、内部滥发和盗号等状况的发生,以及保护邮件用户系统不被纳入黑名单系统、保证邮件用户安全稳定和通信顺畅,我们需要采用截获病毒、勒索、钓鱼邮件等方法精准地识别垃圾邮件,以降低带宽耗费和对垃圾信号的影响。在用户行为分析和深层次内容解析等先进技术手段的基础上,可采用沙盒动态行为分析技术,高效发现未知威胁,并采用静态检测、动态检测、病毒检测、钓鱼检测等技术引擎提升企业各种威胁检测的能力,并可按照需求灵活地选择检测策略,通过实时而精准的分析技术来进行不间断地威胁检测和反垃圾防护措施。
(5)提高内容审核巡查,降低人工审核成本。通过建立涵盖“内容+人员+运营”的链条式管理机制、提供细分型的定制化服务,来提高对产出内容信息的审查能力以及对具备文本、图像、语音、视频、网页等多媒体内容信息的风险智能辨识与评估能力,同时创新发展并完善AI算法,打通人机审核的联动机制,提升机审模型有效性,使人与AI有机融合在一起,实现更加有效和精准的内容信息审查工作,以便于迅速识别淫秽色情、暴力恐吓、政治敏感等信息,从而有效减少人工审核成本。
4 建议与展望
(1)电邮从内容安全角度为切入点,具有一定发展空间。随着新的媒介形式不断发展,邮件的内容安全问题也是越发突出,我们需要完成从关键词分析到构建知识图谱的演进,完成从文本分析到跨媒体分析、从单语种分析到跨语种分析、从内容分析到“时间+空间+地域+内容+群体+行为”的多维分析转变。未来电子邮件的技术发展将主要朝安全性、物联网、融合三个方向发展。
(2)电邮用户群体聚焦在党政机关事业单位和国有企业。当前无纸化电子办公盛行,而政务邮件系统又是我国国内政务部门间传递信息的重要基础设施,并已成为外来攻击者的攻击重点。另外,由于政务工作人员性质特殊且责任重大,信息传输的安全性问题显然更为重要,应切实增强对党政机关事业单位和国有企业间网络电子邮件系统的安全监管与保护力度[9]。
(3)加快推进电邮大数据核心技术能和产业智能化升级。随着网络黑客和各种势力对我国网络攻击和渗透力度逐渐加大,我国面临着日益严峻的网络空间安全问题。电邮大数据的关注点不应该只局限于表层应用的开发,更多应关注于核心技术开发。在保证信息安全的同时,我们应立足“技术+应用”发展道路,有效提高用户体验,推动人工智能与电邮行业融合创新,实现典型示范应用和“杀手锏”产品,基本形成技术标准、服务体系和产业生态链,推动规模化应用,提升产业智能化发展水平。
参考文献
[1] 吴朝晖.人工智能的过去、现状和未来[J].未来传播,2019(3):4.
[2] 曹红.计算机多媒体技术的应用现状与发展趋势[J].产业与科技论坛,2022(10):47-48.
[3] 于惠雯,赵艺洁.多媒体计算机技术开发研究[J].信息记录材料,2021(2):118-119.
[4] 龚文全,孙明俊.内容安全治理问题现状及发展建议[J].中国信息安全,2020(2):65-67.
[5] 孙丽杰,李春华.大数据环境下网络舆情管理方法研究[J].思想政治教育研究,2017(1):124-129.
[6] 朱浩齊.构建全链路内容风控体系解决内容安全难题[J].中国信息安全,2020(2):73-74.
[7] 龚文全,孙明俊.内容安全治理问题现状及发展建议[J].中国信息安全,2020(2):65-67.
[8] 刘聪,周子韬,张才俊,等.结合触发事件及词性分析的敏感信息识别方法[J].计算机工程与应用,2020(20):132-137.
[9] 朱次平,周燕.政府公务邮箱系统建设实践——以贵阳市公务邮箱系统建设为例[J].信息系统工程,2020(5):18-19.