校园网信息安全过滤技术研究
2009-06-07钱文彬
钱文彬
1. 引言
校园网络作为学校重要的基础设施,担当着学校教学、科研、管理和对外交流等许多角色。教育信息化、校园网络化已经成为教育发展的方向。校园网是一个要求高可靠性和安全性的网络系统,校园里学生都是通过校园网来访问Internet。由于Internet的开放性、动态性和异构性的特点,不可避免的使校园网。
面临着主动信息服务带来的诸多不安全的因素,如缺乏对信息发布的有效控制、不良信息的泛滥等。若不对校园网进行安全控制,学生通过校园网也可以访问一些不良网站、非法信息等。如何在这样的网络环境下为校园网用户提供更好的服务、并有效控制网络信息的传播,保障网络信息的内容安全,就成为了现在亟待解决的问题。
2. 安全过滤技术研究
安全过滤(Security Filtering, SF) 也就是所谓的信息的选择性传播。它是通过监控动态的信息源以找到满足用户需求的信息或剔除用户不需要的信息。它的任务就是从动态的信息源中过滤掉在一段时间内比较固定的非需求信息或非法信息,并阻断有害信息的进一步传播。
2.1 安全过滤的特点。
从安全过滤技术的概念以及它的应用环境,可以归纳出安全过滤的特点如下:
2.1.1 非法信息的特征描述与表达在一段时间内是相对固定的;
2.1.2 安全过滤直接阻断或删除过滤出的有关信息,并将其记入日志文件,当用户下一次浏览相关信息时,过滤的准确性和自主性将会更高;
2.1.3 安全过滤的实现对用户是透明的,实时的;
2.2 安全过滤的主要方法。
2.2.1 名单过滤(URL/IP过滤)。
建立不良网站的URL或者IP地址列表数据库,并对该数据库进行定期的数据更新。当用户访问这些站点时,将访问站点的URL或者IP地址与数据库列表中的进行匹配,如果能够正确匹配,则给予阻断或封锁。核心问题是如何对列表数据库进行更新,让列表数据库智能化,即具备自学习能力,使列表数据库能自动加入不良网站的URL或者IP地址并去除已经整改的项目。
2.2.2 分级过滤。
根据网页的内容属性或其它特征,按照一定的分级标准,建立网站的分级标记,分级标记可以附在网页上,也可以保存在文件或数据库中,使用时以分级标记为过滤的依据,与过滤模板进行比较,或通过浏览器的安全设置选项实现分级过滤。
2.2.3 关键词过滤。
该种方法是对文本内容、文档的元数据等进行关键词简单匹配或者布尔逻辑运算,对满足匹配条件的网页或网站进行的过滤。在进行关键词过滤时,时常还会出现关键词变形的情况,如同音字词、字词顺序颠倒、字词中插入其它字符串等,这些变形后的关键词是不能通过简单的匹配或者逻辑运算来实现有效过滤的,因此,可以采用计算关键词的匹配相关度、计算关键词中字之间的位置差等方法来完成对变形后的关键词的过滤。
2.3 基于内容的多层次安全过滤技术。
内容过滤技术主要采用了自然语言处理、人工智能、概率统计和机器学习等技术进行过滤。非法的信息需求可以表示成非法信息模型,即表示成向量空间中的非法向量,并通过对待过滤文本进行分词、去除停用词、文本特征提取以及特征项权重计算等预处理过程生成文本向量,然后计算文本向量和非法向量之间的相似度,将相似度低于过滤阈值的待过滤文本发送给该用户。
内容过滤的关键在于对文本的理解,而文本理解的关键在于对文本的结构分析,只有充分了解文本的各个组成部分,才能够切实地了解文本表达的主题,从而抽取出代表文本主题的特征词集。文本过滤的另外一个关键是用户兴趣模型的构造,即用户模板构建技术,只有准确地表达出用户的信息需求,才能提供更好的过滤效果。基于内容的安全过滤技术包括文本的表示、文本预处理、文本特征提取、文本特征项权重计算以及过滤反馈等内容过滤关键技术。
当拥有多个分校区分布在不同城市希望在本部大方向的安全策略下,给予不同分校区某种程度的权限修改其适合的安全策略时,就需要采用分层管理功能。
多层次管理功能应包含全球管理员、群组管理员、最低过滤级别、群组、子群组、检测范围、特别帐户、同步集中控制管理等方面。其中,全球管理员(Global Administrator)是一个拥有所有过滤设备绝对控制权的帐户。全球管理员能够根据公司安全策略,在Web内容安全过滤设备上建立不同的群组,并且再为每个群组建立一个小组。全球管理员能够无限制地控制所有Web内容安全过滤设备的功能。
群组管理员由全球管理员建立。在全球管理员授权修改的安全策略范围内,群组管理员帐户可以针对群组的需求修改适合的安全策略。群组管理员所修改的安全策略仅能影响到这个帐户所管理群组。每一个群组,可以只设立一个小组管理员账户。
最低过滤级别(Minimum Filtering Level, MFL)是由全球管理员制定的过滤级别,最低过滤级别是整个校园网无论哪一个群组必须一致执行的最低标准策略。
群组的定义是由全球管理员设定的一群使用者。特别帐户是一个用户名/密码,由全球管理员或群组管理员创建。其目的是要允许某其帐户可以不受安全使用策略的限制,造访任何网站。全球管理员可以选择允许特别帐户绕过最低过滤级别,也可以选择特别帐户仅受最低过滤级别限制。
3. 结语
不良信息的识别与过滤是阻断校园网上不良信息传播的有效手段,本文将内容过滤与多层次管理技术相结合,提出基于内容的多层次安全过滤技术。利用这种技术可以阻断学生对不良网站的访问,提高校园网利用率。
收稿日期:2009-09-16