基于标签的信息抽取预处理算法
2009-01-06范春晓和晓军李淑云
数字技术与应用 2009年11期
范春晓 和晓军 李淑云
[摘 要]针对现有现有HTML网页的特点,提出了一种基于标签的Web 网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对可清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点,使后续信息的抽取较之未改进有明显的优势。
2009-01-06范春晓和晓军李淑云
范春晓 和晓军 李淑云
[摘 要]针对现有现有HTML网页的特点,提出了一种基于标签的Web 网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对可清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点,使后续信息的抽取较之未改进有明显的优势。