APP下载

微博搜索技术及隐私安全问题的研究

2016-03-12辽宁对外经贸学院信息管理系李志晓

电子世界 2016年21期
关键词:关键字爬虫热门

辽宁对外经贸学院信息管理系 李志晓

微博搜索技术及隐私安全问题的研究

辽宁对外经贸学院信息管理系 李志晓

通过与谷歌搜索进行比较研究,找出微博搜索技术的优缺点,并提出了利用网络爬虫技术来提高微博搜索的多样性和准确性。同时分析了微博用户个人隐私安全问题的泄露途径和保护途径,以及微博实名制的必要性。

谷歌搜索;网络爬虫;隐私安全

1.微博搜索技术目前的发展

目前,有很多重要的时事热点事件都是由微博最先进行报道的。微博搜索技术发展的重要性不言而喻。其实微博在搜索和查询方面都具独特的特征,微博搜索技术其实是属于信息检索技术领域的,或者说是属于文本检索的范畴,这也是近段间以来的研究热点之一。微博就是一个由大量文档数据组成的被检索语料库,根据用户提供的检索词,经过检索模型对文档数据库中相近的语义词进行对比,最后将结果按照升降顺序返回给用户。但是,由于微博搜索技术缺少对商业智能的支撑,简单的来说就是现在的微博搜索技术基本是把传统网页搜索的基础内容进行了克隆,缺少对信息的挖掘整理,且微博的搜索结果和搜索范围也仅仅只限于微博本身,因此用户需要耗费大量的时间精力去对匹配结果进行归纳提炼,才能获取到最终所需的信息。经常会导致用户感到困难并且对检索结果不满。

2.搜索技术面临的问题

为了更好的挖掘微博搜索技术的问题,本文将搜索引擎中其中比较重要的三点与相对比较成熟的搜索机制比如谷歌搜索,进行比较思考从而为微博搜索的进一步发展提供意见。

2.1 热门搜索列表的比较

随着计算机行业的快速发展,网络信息量直线增长,为了掌握最新最有用的热门信息,提供热门信息列表让用户方便的获取最新信息也是很有必要的。通过对微博热门列表和谷歌热门列表进行比较分析,可以看新浪微博作为时效性强的搜索引擎网站,不管你处在任何页面都能够看到"发现"的这个功能,单击就能看见热门列表的存在,而谷歌搜索在热门列表的体现则比新浪微博丰富很多,不仅包含热门搜索词并且还对热门信息进行了分类,为用户提供了方便的服务。但是在建立热门列表时一定要注意的是在一定程度上要帮助用户过滤垃圾信息。因此检索系统需要开发专门的筛选器,在信息进入到语义搜索之前用这个筛选器筛选掉可疑的垃圾信息,并对搜索出的结果进行整合。

2.2 搜索提示与结果的比较

对于缺少搜索经验和搜索词不明确的用户来说,在搜索过程中不可或缺的会有探索式的搜索过程,然后在过程中不断发现自己的信息需求。所以说检索提示对一个搜索引擎来说是至关重要的。当用户输搜索词时在检索框中会相应显示出与搜索词相关的最热门搜索条目并进行实时排序,这样不仅能减少用户输入耗费时间而且同时也是热门列表的另一种表现方式。

用户在搜索过程中难免会出现输入错别字或在不注意的情况下输入拼音的情况,从而导致搜索结果不理想。先说新浪搜索,当你输入错别字后它便不会出现检索提示了,而是在搜索结果会自动给出"你要搜的是不是XXX"内容,而谷歌搜索则在用户输入错别字时自动显示出搜索提示来帮助用户进行错别字纠正,从而帮助用户获取正确的搜索信息。可以发现谷歌搜索提供了错别字纠正的功能而微博搜索并没与实现这一点。

3.利用"爬虫"技术解决微博搜索面临的问题

"网络爬虫"也可以叫做蜘蛛程序。爬虫是搜索引擎中的重要组成部分,它可以自动的对网页程序进行抓取并且同时获得网页的链接地址,然后从网站的首页开始对网页的内容进行读取并获得另一个网页的链接地址,就这样不停的从一个站点移动至另外的站点,直到把网站的所有内容抓取尽为止。所以它对一个搜索引擎的的查准率和搜索词提示率都起着重大的作用。在微博中想要加入爬虫技术需要设置入口网站地址,爬虫通过一定的方法将网页的源代码以文档的形式保存在微博引擎中,然后以匹配逻辑继续提取下面的网页地址再次进行保存。当满足一定条件时,爬虫停止工作。利用网络爬虫的主动性和智能性来解决微博搜索目前面临的问题。

3.1 增加搜索结果的多样性

微博目前的搜索技术在运行中没有办法发现网页中的信息的规律和关键字,缺乏一定的智能性。所以在微博中需要建立较完整的的资料库,以便爬虫来获取关键信息。比如建立一个基于微博搜索的媒体新闻网站爬虫模型,让微博搜索引擎通过爬虫技术与相对成熟的新闻网站建立联系。再建立时间的限制,让微博的爬虫接口获取最新的微博和新闻,因为新闻网站的信息来源广、具备比较高的参考价值,且每条新闻的发布都有一个后台支撑着,这样确保不存在过多垃圾信息,完全围绕事件进行微博发布,紧扣信息主题,不存在虚假和谣言信息。因此利用爬虫建立网站联系,可以对这些信息进行聚类,增加了消息的可靠性和准确性的同时也增加了微博搜索结果的多样性。

3.2 增加搜索结果的准确性

由于微博搜索的特殊性,所以关键字搜索在微博搜索引擎中就显得尤为重要。在对微博主题进行爬虫时,需要构建关键词词库来帮助爬虫对系统的微博信息进行爬取,增加搜索结果的准确性和覆盖性,从而解决微博搜索结果的疏散性。

如果需要对微博搜索结果的准确性进行增加,这就需要对增加对关键字的数据挖掘,根据微博的文本内容进行聚集分析,得到不同的分类结果,从而产生关键字库模板。并且对不同事件所涉及关键词组再次进行分类。这样当用户输入的搜索词时,爬虫在关键字库模板中进行分类抓取,从而得到用户所需的查找内容。并且把通过数据挖掘获取到事件的时间点,聚集在一起进行爬虫抓取,做为数据挖掘的第一阶段,在准确性的基础上增加了实时性。例如把近期提及一篇新闻关键字的微博文章和新闻都聚集在一起,再用爬虫后的关键字模块进行关键字标注,最后通过比对映射增加关联词词库,这样微博的搜索引擎便可以对用户大量的输入词进行完整的内容搜索和联想。虽然微博搜索结果有一定的疏散性,但是微博信息具有很强的交互性,利用这个特性获取事件爬取的关键词然后形成词库,放入到数据库中为搜索的后续信息做好前提工作。

通过查阅资料我发现国内已经开发出针对于中文的分词技术,且技术相对成熟,常用的中文分词包有庖丁解牛分词包(适用于Lucene整合)Ling Pipe(开源自然语言处理的Java 开源工具包)等。该技术可以完成中文分词词性标注和未登录词识别等功能,并将结果存入到数据库中。假如用户想查询与雪有关的微博内容,利用爬虫的关键字抓取技术可以可以搜索到很多与雪有关的内容,但是如果把这个分词技术建立在爬虫关键字基础上的话,那么会增加微博搜索引擎的后台支持,当用户输入雪时在搜索结果页面中会同时展示类似冬天、寒冷等类似的微博内容。这样既丰富了内容又节省了时间,提高了搜索效率。

总结来说将爬虫技术应用于微博搜索需要完成三个阶段:

(1)构建关键词词库模板,综合关键词,形成模板,并实时更新。

(2)增大搜索引擎接口,选定具有代表性的信息库来源。

(3)数据挖掘,利用分词技术提取关键字的特征词。随着信息时代的高速发展,国内外的热点新闻热点话题在网络上更新的越来越迅速,关键词的更新也越来越快。通过爬虫技术在微博搜索中的应用,增加了搜索结果的时效性、高效性、准确性。

4.微博上的个人隐私安全问题

4.1 微博是否需要实名制

随着网络实名制的的发展,越来越多的社交平台要求用户在注册时需要填写自己的真实信息,如个人的地理位置、教育信息等方便在网络社交圈中找到自己的好友。以社交网络人人网为例,它是一个实名制的社交平台,用户注册人人网时需要进行个人身份证号、出生日期这些重要的个人信息的填写来完成注册,就相当于把用户的个人信息完全的裸露在网络上,我认为这样做是利弊相间的,虽然增加了用户在网络中的舒适感和真实感但是同时方便了不法分子对这些信息进行利用,增加了用户被网络诈骗的几率。微博虽然暂时还没有实行制度,但随着网络在我们日常生活中的应用,我相信微博实名制指日可待。其实只要微博能够有个人隐私数据的保护技术,如自动提醒用户自己的信息将被收集展示,由用户自己决定是否继续录入自己的信息。网络社交平台的实名制度究竟是增加了用户在网络上的"存在感还是更大程度的暴露了用户真实生活中的个人隐私?所以网络社交平台是否需要实名制,也是一个需要探讨解决的问题。

4.2 用户信息的泄露与保护措施

微博的魅力在于它会引导我们找到很多好久不联系同学,并且通过关注很容易的就看到他们的最近生活状态,微博还有一个特点就是没有用户访问记录,你可以尽情的"窥视"每个人的微博主页,可以轻而易举的了解一个人的交际网。这从侧面也体现出了微博泄露用户个人信息的严重程度。所以用户在使用微博发布信息时,必须要知道,你在社交网络上的发布的所有动态都是完全透明性的,所以一定要提高安全意识。

要处理微博用户个人隐私安全面临的问题,需要从用户本身的安全保护意识和提升网络技术支程的方面着手处理。因为有很多用户并不了解信息泄露的严重性所以社交平台应该负起这个责任。并且积极引领用户去了解怎么样去保护自己的信息隐私安全,如定期变更密码或不要随意展现自己的地理位置等,提升用户的安全意识。在当下的网络情况,多数的社交软件都有和第三方软件合作,比如当用户要完成一个新的注册,在下方就会弹出授权第三方登陆,当用户同意授权后,第三方软件则会窃取到用户的大量信息,形成巨大的信息泄露源。所以,微博应该在确保第三方程序安全的同时应该有种技术让用户在第三方登录时能够完全自主选择个人信息的展示的程度。所以,这就需要建立一个能够控制隐私信息流的技术支撑,通过对用户端口与服务器端口的局限设计,就能够加强对信息流的监管控制,从而达到保护用户隐私安全的目标。微博作为一个社交平台网络,应该加强自身的安全程度,采取合理有效的措施保护用户的个人信息安全。

5.总结

微博搜索的问世,是搜索系统发展中至关重要的一步。尽管它现在的发展仍然存在着很多漏洞,但是相信只要能把爬虫技术合理的应用到微博搜索中去,利用关键词库模板的爬虫技术进行微博搜索结果的进一步完善。同时微博要尽快的的加强对用户信息的保护,积极引领用户加强对隐私安全的意识,希望国家也质定些相关的法律政策,为社交平台的网络用户提供一个安全的上网环境。

[1]林红静,黄梦醒。基于微博信息的关键词库爬虫策略[J]。海南大学学报,2016(02):17.

[2]周中华,谢江,张惠然。基于Python的新浪微博数据爬虫[J]。计算机应用,2014(11):35-36.

[3]陈晨。基于主题爬虫的个性化搜索引擎技术研究[J]。黑龙江科技信息,2110(11):38-40.

[4]卫冰洁,王斌,李帅,李鹏。微博检索的研究进展[J]。中文信息学报,2015(02):11-12.

猜你喜欢

关键字爬虫热门
利用网络爬虫技术验证房地产灰犀牛之说
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
基于Python的网络爬虫和反爬虫技术研究
成功避开“关键字”
大数据背景下校园舆情的爬虫应用研究
大数据环境下基于python的网络爬虫技术
热门智能手机应用
智能垃圾箱
2009年热门特色风味小吃
本月热门产品报价