基于主题搜索的通用教学资源共享平台设计*
2010-12-07徐朝军
□ 徐朝军
基于主题搜索的通用教学资源共享平台设计*
□ 徐朝军
本文提出利用主题搜索技术从互联网搜集分散教学资源的共享平台的设计思想,并借助于Lucene索引和检索技术为用户提供高效的教学资源服务,避免了资源库建设过程中出现的以开发为主、来源单一、更新动力不足、维护工作量大等问题。提高了现有互联网闲散资源的利用率,从而减少资源重复开发所导致的人、财、物的浪费及时间上的低效,从技术上为教学资源建设和共享提供了新的思路和方法。
主题搜索;教学资源共享
在教育信息化大背景下,教学资源建设是各级、各类教育主管部门、机构、培训部门教育、教学改革的重要内容。从上世纪90年代初的CAI课件开发、资源库建设,到本世纪初提出、现已全国遍地开花的网络课程资源建设,以及突破部门、地区等区域限制的教学资源联盟,其资源来源不外乎两种渠道:一是自行开发,二是引进共享。
本着集约、共享原则,本文提出通用教学资源共享平台的设计思想,期望借力于主题蜘蛛技术搜集分散在互联网各个节点的教学资源,根据用户的需求进行分类索引,提供统一的教学资源服务。该平台具有低成本、通用性强、资源更新快等特点。实验数据表明,该方案具有较高的可行性。
一、概述
随着教育信息化的推进,教学资源的应用需求日益旺盛,为满足此需求,从教师个体到学校、区县教育局,乃至市、省、国家级的教育主管部门都开始了声势浩大、形式多样的教学资源开发、建设工作,课件、资源库、主题网站、网络课程等不一而足[1]。
网络使用成本的下降及“校校通”工程等政策的推动,为资源表达和交流提供了网络平台和空间,Web2.0理念及技术的深入,更是激发了教师资源发布和交流的欲望,互联网上个人教学网站、博客、空间比比皆是,以“教学资源网”为主题的网站更是数不胜数。
在这些网站中除了部分商业资源外,很大一部分是免费的,可以共享使用。如果能充分利用这些分散在各个网络空间站点的教学资源,可以极大地节约资源开发建设所需的人、财、物,避免了自主开发在时间上的低效,还可以保证教学资源的持续更新。
二、共享平台设计
1.设计思路
基于上述想法,结合已有工作,本文提出以主题搜索技术为核心的通用教学资源共享平台。
首先,采用主题蜘蛛技术[3][4][5],从给定的种子网站开始,下载存储来源于种子网站的所有链接资源,并根据网页Title、URL锚文本、URL链接字符串等信息,按主题资源目录树进行规则分类[6];对于种子网站外的链接,则随机从这些网站下载10个网页,抽取这些网页的文本信息,计算这些网页与主题的相关度,如果达到设定的阈值,则该外部网站作为候选种子网站,在人工确认后加入种子网站。
为便于用户资源使用,平台除了提供主题目录检索外,还提供按文字全文检索。开源软件Lucene提供了便捷的全文索引和检索功能,平台可以根据网页Title、网页正文、URL锚文本、URL链接字符串进行资源检索。
为减少自动系统可能存在的信息抽取的不准确,保证资源描述信息的规范性,系统采用Web2.0技术,向注册用户开放资源描述信息修正接口,以资源描述信息修正积分、最新资源推送服务激励注册用户共同努力,维护资源信息的规范性。
2.平台结构
笔者研究小组设计了如图1所示教学资源共享平台,其核心模块包括:主题蜘蛛、主题规则库、主题网站识别三个部分。
3.核心技术
为充分展示平台的工作原理和特点,下面对平台中设计的核心技术作详细介绍。
(1)教学资源表示
式1是多媒体资源在共享平台中的表示方法,其中部分冗余类别信息是为了提高资源分类精度。
(2)主题数与主题库
图2是基础教育资源主题树与分类目录。主题树是系统的灵魂,它是整个基础教育资源体系的代表,也是资源分类依据和资源检索目录树的组成部分,它的构建应在基础教育专家和互联网专家共同合作下完成。在每个子目录(非终端节点)下都有若干专业主题词条ti(ti∈T,T是主题词库),即每一个主题词条都属于一定的类别,ti为叶子节点。树中每个节点的词条都作为主题词纳入主题词库T。
(3)资源分类过程
平台采用规则分类算法进行资源分类。锚文本是对它所指向资源的描述,而网页标题则是对本网页或网站主题的概括,所以根据网页锚文本和标题进行分类可以取得较高的精度,而规则分类算法比较适合于短文本分类。具体分类步骤如下:
① 下载网页,对网页内容进行解析,提取出网页标题、所有超级链接等信息;
② 分析网页中的每一个超级链接,如果超级链接的锚文本、ALT说明文本中包括主题词ti,则根据其在主题分类树中的节点位置,结合模糊规则理论,综合判断其所属学段、学科等类别属性,如:“高二物理(静电场部分)测试题”是来源于中国基础教育网物理栏首页(http://www.cbe21.com/subject/physics/index.php)的一个链接,根据锚文本的关键词条“高二”、“物理”、“静电场”、“测试题”,可以得出式2所示信息:
③ 根据网页间的链接关系、超级链接信息、网页正文,抽取资源的描述、简介、文件类型等其它属性;
④ 保存上述资源信息至教学资源库。
(4)主题网站识别
识别新的主题网站是为了在已有种子网站的基础上,进一步充实种子网站库。过程如下:
① 从每个初始种子网站下载10个网页,并抽取其文本,以主题词库T为分词词典,采用TF/IDF算法(见式3)[7]进行文档训练;
② 随机抽取外部网站的10个网页文本,根据VSM算法(见式4)[8],计算其与初始主题的相关度,将高于预设值(本文实验值为0.8)的网站列入候选种子网站,供进一步手工确认,在丰富资源来源的同时,保证种子网站的权威性。
三、实验
实践中,开发小组以Windows 2003 Server/IIS6.0/SQL Server 2003/.net 2003为开发运行平台,实现了基础教育资源服务平台,主题蜘蛛运行于普通PC平台,并对相关数据进行了统计。
基础教育资源初始种子网站为20个,主题树如图2所示,其下主题词共为32729条。系统在连续运行15天后,共得到URL链接23717个,其中有效资源为205394,新发现种子网站53个,对有效的资源,研究按表1、表2进行了统计,从数据来看主题搜索技术可以从互联网发现多种文件类型的教学资源,为教学资源建设提供新的思路。
表1 按文件类型进行资源分类的统计结果
表2 按媒体类型进行资源分类的统计结果(不包含网页类资源)
四、结论
本研究构建的平台避免了资源库建设过程中出现的以自主开发为主、来源单一、更新动力不足、维护工作量大等问题,而是着眼于提高现有互联网资源的利用率,减少资源重复开发,在技术上通用性较强。
1.低成本
资源平台通过主题搜索技术,发掘互联网现有闲散资源,提高现有资源的利用率,而不是重新开发。因此,资源服务所需人、财、物及时间成本较低。
2.通用性强
如果根据新的主题资源服务需求,更换平台中新主题相关种子初始网站库(20个左右) 和主题库,该平台就可以适用于新的主题资源服务。在实践中,我们以该平台为核心,先后用于基础教育资源、中学物理教育资源、学前教育资源、职业教育资源等系统服务项目的开发,并得到用户的认可。
3.资源更新快
主题蜘蛛是不断连续运行的程序,它周期性地扫描种子网站,发现新的资源,更新、删除死的资源链接,持续动态的提供资源服务,对个人兴趣爱好、行政政策、经济利益等依赖很小。主题蜘蛛遍历种子网站的周期即为资源更新周期,在一般情况下,一个月即可对所有资源遍历一次,一个星期内即可发现网站上95%的最新资源。
[1]徐恩芹,刘美凤.中小学教学资源现存问题透析[J].中小学信息技术教育,2006,(11).
[2]罗志勇.知识共享机制研究[M].北京:北京图书馆出版社,2003.
[3]徐根宝.搜索引擎与信息获取技术[M].北京:清华大学出版社,2003.
[4]ALTING(O)VDE IS,ULUSOY(O).Exploiting interclass rules for focused crawling[J].IEEE Intelligent Systems,2004,19(6):66-73.
[5]Jun Li,Kazutaka Furuse,Kazunori Yamaguchi:Focused crawling by exploiting anchor text using decision tree[J].WWW(Special interest tracks and posters)2005:1190-1191
[6]李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14.
[7]钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取-以新闻网页为例[J].情报理论与实践:2008,31(6):945-950.
[8]郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258.
2009-09-30
徐朝军,讲师,在读博士,南京师范大学教育技术系(210097)。
责任编辑 郑 重
Developing educational resources is an integral component of educational reform in the information age.This article puts forward the design concept of using Lucene's indexing and retrieval technology to effectively provide educational resources for users.The platform designed in this way can overcome deficiencies in the construction of resources banks.For example,resources banks tend to focus on the development of resources so that the resources are from a single source.Moreover,resources are not timely updated and maintenance represents a huge workload.In contrast,the new platform aims to increase the availability of resources distributed over the Internet,hence avoiding repetition in resources development and providing a new way of developing and sharing educational resources.Experiment results show that this design concept is feasible.
Designing an Educational Resources Sharing Platform Supported by Theme-based Retrieval Technology
Xu Chaojun
theme-based retrieval;educational resources sharing
G40-057
B
1009—458x(2010)03—0064—03
*全国教育科学“十一五”规划2009年度教育部青年专项课题“网络课程使用现状自动量化评价系统研究”(课题编号:ECA090441)的研究成果之一。