APP下载

蒙古文网站搜集方法的研究

2014-07-02吴丽萍黄秋筱

无线互联科技 2014年1期

吴丽萍 黄秋筱

摘 要:随着科技的进步,互联网已深入群众,我国少数民族如蒙古族等也借助互联网弘扬本民族文化,致力于实现民族语言文字信息数字化处理。蒙古文网站数量快速增多,能够快速、全面、准确的获取蒙古文网站信息,对蒙古文信息处理发挥重要作用。为实现快速、全面、准确的获取蒙古文网站信息,利用元搜索引擎获取包含蒙古文高频语素的网页URL,根据网页文字编码范围判断其是否属于蒙古文网站,再利用各网站之间的链接获取更多的蒙古文网站。

关键词:蒙古文网站;元搜索;高频语素;广度优先法

1 蒙古文网站现状

Internet的飞速发展给整个社会带来了一场意义深远的信息革命,我国的互联网技术也飞速发展,并在政治、经济、文化中发挥重要作用。但是由于我们国家地域辽阔,民族众多,大部分民族拥有自己的语言文字,在互联网技术迅速发展的大环境下,少数民族的语言文字信息数字化处理技术尚处于起步阶段。近年来我国少数民族的网站数量在迅速增多,网络资源日益渐增,蒙古文网站也如雨后春笋迅速增多,但是目前到底有多少蒙古文网络资源,这些蒙古文网络资源为大家提供什么服务,哪些蒙古文网络资源是蒙古族群众关注的热点,这些人们都还一无所知。欲回答这些问题,首要任务就是要知道有多少个蒙古文网站。虽然现在已经有蒙古文网站大全,但这些大全的网站都是通过人为手动搜索出来的,由于工作量大、效率低,于是就不能够及时更新网站数量及信息,从而导致出现搜集的蒙古文网站数量不全,网站信息错误等问题。人工搜集蒙古文网站的弊端百出,于是人们希望开发蒙古文搜索引擎。

2008年1月3日,内蒙古首个蒙古文互联网搜索引擎正式上线,这填补了蒙古文互联网一直没有搜索引擎的空白,但还存在许多缺陷,目前能搜集到的蒙古文网页数量少之又少。获得的蒙古文网站数量太少,原始资源不利于搜索引擎的发展。同时由于当前蒙古文编码不统一,对搜索引擎的技术要求变得更高,短期内无法做到像中英文搜索引擎那样包罗万象。为解决目前存在的这一系列问题并为开发更好的蒙古文搜索引擎做铺垫,我们先致力于搜集到尽可能全的蒙古文网站。

2 蒙古文网站搜集方法

2.1 使用元搜索引擎搜索蒙古文网站

搜索蒙古文网站可以用网络爬虫进行,但这种方法需要昂贵的网络设备和大量的时间。鉴于蒙古文网站的数量还不是很多,我们将采用元搜索引擎的方法,即应用著名搜索引擎(如GOOGLE、BAIDU等)的搜索结果搜集蒙古文网站,进而达到节约成本、提高工作效率的目的。使用这种方法具体操作分为以下三部分:

⑴获得可能的蒙古文网页URL。因蒙古文是拼音文字,由形如 等的语素构成,在GOOGLE、百度、360搜索等多个搜索引擎中输入各种不同蒙古文编码的高频语素,各搜索引擎将返回包含该语素并有可能是蒙古文字的网页。虽然蒙古文其各种编码的高频语素都一样,但由于蒙古文编码较多,一些搜索引擎只能搜到一种或几种蒙古文编码的蒙古文网页,并无法搜集到涉及全部蒙古文编码的网页,例如在GOOGLE中只能搜索到unicode编码的蒙古文网页,而蒙科立、赛音、明安图等其他蒙古文编码的网页则无法搜索;在360搜索引擎中可搜索到蒙科立、unicode、赛音、布日古德、明安图等编码的蒙古文网站。因此在多个搜索引擎中输入不同编码的蒙古文高频语素,其返回结果互补,这样可避免遗漏所需要搜集的蒙古文网站。

获得返回的包含蒙古文高频语素的网页后,获取其URL并对这些网页的URL进行一步步拆分,将其分为域名、子域名、子目录、页面URL,完成这些工作后将拆分后的URL子块以域名为键,其他部分为值的字典形式存储在数据库中。例如在360搜索中输入“ ”,获得一个网页链接http://ijilmuren.blog.163.com/blog/static/35654254200943163320156,接著此链接可拆分为ijilmuren.blog.163.com/blog,ijilmuren.blog.163.com和163.com。当然这里拆分的时候需要注意部分顶级域名并不能区别各个网站,如mgwhw.com和talchir.com这类域名,如果拆分后仍以“.com”为键值,那么就会漏掉部分蒙古文网站或者有些多余的非蒙古文网站保存到数据库中,导致结果不准确。因此对于“.edu”、“.cn”、“.com”等这类域名,域名拆分的键值就不应该只保留顶级域名,而应保留其二级域名或三级域名,如talchir.com。

⑵判断获取的URL是否为蒙古文网页。在含有URL的数据库中逐一提取已经拆分好的域名、子域名、子目录和页面的URL,获取相应的页面内容,采用正则表达式的方法提取出页面文本并判断网页文字是否为蒙古文,若是蒙古文则保留并存储其对应的URL,若不是则放弃该URL。

判断页面文本是否为蒙古文有两种方法,第一种是判断网页文字编码所属范围是否在蒙古文编码范围内,从而判断其是否为蒙古文网页。具体操作为:先判断页面中蒙古文范围内的编码数与文本总编码数的比值m,当m大于某个预先设定好的阈值A时,可认为该页面文字属于蒙古文,此时m值可作为判断该页面是蒙古文的可信度值。第二种是利用蒙古文高频语素在蒙古文文本中出现的统计概率作为阈值,当页面中该语素出现的概率大于等于其统计平均值后,可认为该页面文字为蒙古文。但使用此方法时由于单个高频语素的出现概率太小,把这个小概率当做阈值,实验时可搜到的网页很少,而且单个语素的编码值还有可能是其他文字的编码值,如汉字、英文的符号,这样得出的蒙古文网站数量少且可信度不高,所以采用第一种方法更有效。

⑶获取已得到的蒙古文网站的基本信息(如备案号、服务器所在地、可信度、在中文网页中的排名等等)。

⑷完成蒙古文网站搜集,最后要做的是实现搜索机制与用户的接口。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索软件,高效率、多方式地从搜索软件中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。

2 利用蒙古文网站之间的链接搜集并确定其他蒙古文网站地址(广度优先法)

广度优先搜集法(又称宽度优先搜索)是最简便最常用的搜索算法之一,这个算法也是很多重要的图的算法的Dijkstra单源最短路径算法和prim最小生成树算法都采用了和宽度优先搜索类似的思想。广度优先搜索基本算法为:⑴从某个顶点出发开始访问,被访问的顶点作相应的标记,并输出访问顶点号;⑵从被访问的顶点出发,依次搜索与该顶点有边的关联的所有未被访问的邻接点,并做相应的标记;⑶再依次根据⑵中所有被访问的邻接点,访问与这些邻接点相关的所有未被访问的邻接点,直到所有顶点被访问为止。

广度优先法是沿着树的宽度遍历树的节点,如果发现目标,则算法中止。该算法的设计和实现相对简单,属于盲目搜索。在目前为覆盖尽可能多的网站,一般使用广度优先搜索方法,也有很多研究将广度优先搜索策略应用与垂直搜索中,其基本思想是认为与初始URL在一定链接距离内的网站具有主题相关的概率很大。

3 结束语

以前由于蒙古文编码不统一,使得蒙古文搜索引擎只能搜到很少的蒙古文网页,存在很大缺陷,对人们利用网络获取蒙古文资料造成极大的不便。虽然有蒙古文网站大全,但由于这些是人为手动搜集的蒙古文网站,也存在蒙古文网站基本信息更新速度慢,获得蒙古文网站不全的问题。而搜集蒙古文网站的程序可以快速准确获得蒙古文网站及其基本信息,如备案号、服务器所在地、中文排名、世界排名、是否可访问等,解决了获取蒙古文网站数量不全、网站信息更新慢的问题。

此外,快速获得齐全的蒙古文网站,利于人們更好的了解蒙古文网站和及其相关内容,便于国家相关部门有效合理地管理和发展少数民族网站,进行少数民族语言信息处理,也为开发更好的蒙古文搜索引擎做好铺垫。所以搜集蒙古文网站于国家,于蒙古人民都是很有必要的一项工作。

[参考文献]

[1]确精扎布.关于蒙古文编码的若干问题——与王升亮、嘎日迪、敖其尔先生商榷[J].内蒙古大学学报(哲学社会科学版),2008,40(4):27-33.

[2]郭琰.元搜索引擎的关键技术研究及系统实现[D].南京理工大学:南京理工大学,2002.

[3]范道尔吉.蒙古文信息处理系统基础研究[D].内蒙古大学,2006.

[4]张芳.基于专业搜索引擎的元搜索引擎的研究与实现[D].华中科技大学:华中科技大学,2009.

[5]白云莉.蒙古文信息处理平台-蒙古文、锡伯文和满文的文字输入法的研究[D].内蒙古大学,2003.