邮件归档技术研究
2009-11-26马琳
马 琳
摘 要:电子邮件是高校信息沟通的最主要方式,由于垃圾邮件导致的邮件安全问题,加上保护数据完整性的要求,电子邮件的归档问题需要得到有效解决,复旦大学采用了一款软硬件集成的解决方案做了相关测试。本文研究了电子邮件归档的关键技术,对存在问题和未来趋势做了分析,提出邮件归档技术在校园网中的应用研究是未来的发展趋势。
关键词:电子邮件 邮件归档 邮件存储
中图分类号:TP309.3文献标识码:A 文章编号:1673-8454(2009)19-0077-03
邮件安全问题最初是由企业财务问题引发,发展至今,可对海量邮件数据提供完整性保护、有效存储和实时查询的邮件归档技术(Mail Archiving)越来越被业界关注。[1]在国内高校中,电子邮件也是最主要的交流方式,愈演愈烈的垃圾邮件导致的邮件安全问题,以及保护数据完整性的要求,使得邮件归档与查询需及时得到解决。
一、邮件归档技术的定义
邮件归档技术是对电子邮件数据进行有效的自动归档、备份、管理、数据保护和长期的访问与检索。[2]这种技术区别于单纯的邮件存储,不仅对海量数据集中管理和在线存储,还对不被频繁使用的数据进行有效数据迁移,使之存于日常备份窗口之外,从而保证高速搜索和数据发现,提供用户随时访问,同时引入了数据完整性的保护机制进行邮件恢复。邮件归档技术在保证固定数据、避免数据丢失的前提下,更着眼于数据的检索与迁移功能。
二、国内外进展研究
1.邮件归档技术的发展历程
磁带备份是早期邮件归档的雏形,目的仅仅是为了灾难恢复,但数据恢复起来比较复杂,检索成本高。[3]接下来的文件复制是基于文件而非应用层的,也就是将邮件定期复制到另一台离线存储设备上。这种方式的缺点是存在重复拷贝,在两次拷贝期间删除的文件可能丢失,无法进行数据完整性保护。另外经济成本也颇高,一般都要使用NAS 或SAN 方式存储。简单归档技术,它实现了从数据层到应用层的跨越。[4]但由于其功能和策略都比较简单,不能满足企业级用户任意复杂的策略管理需求。
目前,基于策略驱动的归档技术是大家关注的热点,它是根据各种法规的最大并集设计的,除基础归档功能之外,更强调内容策略管理,支持正则表达式匹配,以及多条件多优先级匹配、超强附件内容匹配,可实现复杂逻辑条件的归档策略,控制不同类型邮件的处理动作。能够根据用户策略实现清除垃圾邮件、重复邮件内容以及邮件目录化,减少了邮件归档的成本和复杂度。
2.国内外邮件归档技术现状分析
国外的邮件归档技术起步较早,2004年10月,在电子交易咨询和市场调查方面都享誉极高的美国加州Radicati Group公司,发布的综合报告 “E-mail Archiving Corporate Survey,2004-2005” 称,电子邮件归档、安全和存储厂商之间的合并和收购之后,电子邮件归档将成为更大的企业信息安全的一部分。[5]近年来,随着数据库索引、存储等技术的飞速发展,邮件归档技术有了很大程度的提升。有研究表明,除了防止垃圾和病毒邮件、手机邮件等问题,邮件归档已经成为企业级用户最关注的邮件问题之一。[6]
Mirapoint 2006年6月尝试推出业界第一个电子邮件归档解决方案。国际互联网数据中心(Internet Data Center,IDC)预测2011年前的年均增长率将为235%。[7]虽说电子邮件归档技术还处于萌芽期,但是很多迹象表明该行业正迅猛发展。[8]
随着主要厂商相继介入,如EMC、Symantec、CA等,邮件归档技术的可扩展性功能也进一步增强,例如邮件归档技术向E发现领域的延伸,不再简单地关注电子邮件信息,还能够跟踪各种信息源,包括日历文件、数据库、工作表、音频文件、动画文件、网站链接以及计算机程序代码等;其次防病毒功能、垃圾邮件过滤和电子邮件归档技术集成也是另一方向上的功能扩展。在国内,邮件归档技术还处于起步阶段,未见有相关报道。
目前邮件归档技术大致有两类,一种是纯软件方案,但是这类系统需要外部存储设备支持。另一类是一些邮件厂商或反垃圾邮件厂商提供的软硬件合一的产品,设备本身具备大容量磁盘,甚至单台即可达到TB级的存储空间。单机归档邮件数量可高达2000万封以上。对于一般中小企业来说,可满足1~3年的归档需求,不过,如需存储更长时间的数据,就要扩容或外接存储设备。而前一种采用了专门的存储设备,容量的扩充将更加平滑。[2]
三、邮件归档系统的应用
复旦大学采用了一款软硬件集成的解决方案,在校园网上进行了相关测试,使授权用户能快速地找出所需邮件,并将其还原到该邮箱。我们选择了部分用户,分别归档所有邮件,包括垃圾邮件和正常邮件,以及仅归档正常邮件,测试效果理想,解决了相关邮件安全问题,满足了实时查找需求。
1.邮件归档系统的体系结构
邮件归档系统是与邮件服务器或者邮件网关服务器物理并联在网络中,利用服务器中的日志(Journaling)功能,将邮件进行自动归档。另外还有许多当前流行的安全技术被集成在邮件归档中,例如内建的病毒检测功能和病毒库规则库实时更新技术,可以帮用户进行病毒和垃圾拦截后再归档。
开启后台邮件服务器的日志(Journaling)功能,定制需要进行归档的邮件存储数据库,建立相应的Journaling Account或者启用Push Mode,用以配合将所有发送和接收的邮件归档。在此过程中推荐开启Envelope Journaling,这样可以有效地记录所有邮件通讯过程中的信息。[9]邮件归档系统的体系结构如图1所示。
2.关键技术研究
(1)邮件存储机制
电子邮件的归档,首要考虑的是海量数据存储,为了更好解决容量问题,需要对邮件内容进行压缩,这有别于普通的ZIP压缩技术,是根据内容进行的。首先,邮件归档技术采用单一实例存储,把相同文件内容只保留一个副本,当一个附件发送给多个用户时,将只保留一份文件,大大地节约了存储空间。其次,使用压缩存储功能,在存储前对邮件进行压缩,进一步降低了消耗,压缩存储功能可以节约近1/3的存储空间。
再者,邮件归档技术支持邮件从昂贵的事务级存储向相对经济的存储进行数据迁移,如转移到低成本的磁带上,尤其是长期不用的电子邮件信息,节省出昂贵的磁盘空间。管理员同样能够使用存储镜像达到数据冗余和增加外部存储空间从而使存储容量无限扩大。
(2)索引和查询的机制
邮件归档中采用即时索引(Real-time Index)技术,可快速有效地查询信息。由于大量邮件存储使得全文检索索引不仅费时且会影响在线查询的效能。所以当储存于数据库中的邮件、数据与档案,有任何数据新增、修改、删除等异动时,不需重建即可在线异动维护全文检索索引,确保信息搜寻不会有“时间差”,并且易于数据维护。
多国语言的查询支持包括繁体中文、日文、韩文、泰文等复杂的东亚语种支持,同时在检索到的邮件显示中消除了乱码,甚至可以实现多种语言共同显示,从而更好地完成在短时间内对海量邮件的关键字检索。支持模糊匹配和多附件查询,可以按信头关键字、主题、收件人、发件人等检索,还支持各种格式的正文,以及上百种格式的附件,例如Office文档、PDF、ZIP等格式。
(3)数据保护技术
邮件归档中可以用WORM (Write Once Read Many)机制进行固定数据。WORM是指一次写多次读技术,硬件设备的控制使存储介质只能写入一次数据,不允许修改,从而保证数据的真实性和法律效力。
邮件归档技术为所保存的数据规定了严格的保存期限,对于那些已经设定的期限,用户只可以延长,但无法将其缩短。并且,所有处于生命周期中的数据都不允许被删除或修改,用户和管理员对于存储服务器中的邮件只有读权限,这样避免了邮件被误操作或意外损坏;对于超出生命周期的数据可以做到高达35次的数据安全擦除。
邮件归档技术支持整个过程的可审计,允许个人用户拥有审计访问权限。用户只能对其自己的邮件进行访问和搜索,支持基于职能的权限系统,审计角色可以对所有用户的操作进行跟踪和监控,确保系统的使用透明和可控。
3.策略讨论
对于归档策略的选择,与各个学校反垃圾邮件网关策略相关。对于无人值守的反垃圾邮件网关来说,可以将垃圾邮件和疑似邮件队列缓存在垃圾邮件服务器本身,等生存期一过,自动清除队列,这种策略情况下,就可以仅归档投递到邮件服务器上的正常邮件,既节省了邮件服务器和归档服务器的空间,又为用户查询被过滤策略误判的邮件提供了一定时间的缓冲期,队列的生存期可以自定义,也和邮件的流量和本地硬盘空间大小相关。我们曾经把队列生存期定义为两到三个月,如果用户在此期间没有关于正常邮件的疑问,一般很少会丢信。网关的有效拦截率在87%~90%。对于那些邮件网关放行的正常邮件,已经投递到邮件服务器的,归档系统将自动进行数据备份、索引以提供需要时的高效访问。
另一种情况,就是对于疑似邮件的人工分拣,根据邮件头的信息人为地去判断是否是正常邮件,在这种情况下,就可能产生误操作,尤其是当通信量非常大的时候。针对这种情况,归档邮件的策略可相应地调整为归档所有邮件,包括垃圾邮件,可以完全避免各种原因包括误操作造成的邮件丢失情况。
对于邮件内容的归档策略,如果是正式的应用,不妨将那些非活跃数据,即随时间关系访问量递减、若干年之前的历史数据,通过数据迁移的功能,转移到相对廉价的设备上作为长期历史数据的备份,这种策略相对高校来说还是比较合适的。具体的时间等参数要根据各个学校的情况不同具体设定。
四、前景展望
在国外,邮件的归档行为已经被大多数政府、银行业、金融证券机构所采纳,也是国外一些法律部门取证的来源。只是在国内,用户意识尚停留在起步阶段,随着信息化校园的深入,电子邮件信息的地位,在教学科研和日常生活中将会有越来越多的提升,邮件归档行为也许会被大多数高校用户所接受。
虽然邮件归档技术即将成为未来的潮流和趋势,但是就目前国内高校的环境而言,当前的产品是否适合高校的环境,还引来许多争议。现有电子邮件如何做邮件归档时的策略选择,业界尚无统一标准,其在校园网中的应用可能是未来信息安全方面的发展趋势。
参考文献:
[1]刘启诚.Mirapoint推出业界第一个邮件归档解决方案[J].通信世界,2006(8).
[2]如何进行邮件归档.http://www.searchstorage.com.cn/ShowContent_10612.htm
[3]MIRAPOINT专业邮件归档及邮件审计技术解决方案.http://www.szfederal.com/UploadSoftPic/
[4]黄昆.邮件归档的发展和变迁[J].中国计算机用户,2006(31).
[5]E-mail Archiving Corporate Survey,2004-2005.http://www.giichinese.com.cn/chinese/rd24134_e-mail_archiving.html
[6]达实.Mirapoint:帮助企业实现法规遵从[J].通信世界,2006(8).
[7]存储新宠:电子邮件归档.http://www.5dmail.net/html/2006-5-23/2006523115120.htm
[8]电子邮件归档存储系统的最大失误.http://it.enorth.com.cn/system/2007/10/09/002115648.shtml
[9]XADM:How to Enable the “Message Journaling”Function for an Exchange Server Mailbox Store.http://support.microsoft.com/kb/261173
(编辑:金冉)