APP下载

基于Hadoop的互联网隐式文本感知技术

2018-03-13李月洁柳长安刘星平贾聪

现代电子技术 2018年6期

李月洁+柳长安+刘星平+贾聪

摘 要: 互联网隐式文本感知技术能够在图像中提取相应文本格式内容,但存在信息吞吐量低、运算速度差等问题。为此,提出基于Hadoop的互联网隐式文本感知技术。引入Hadoop分布式框架,承接互联网隐式文本感知技术,利用隐式文本感知方式,实现图像特征向量生成提取。实验数据表明,设计的基于Hadoop的互联网隐式文本感知技术能够进行高信息的吞吐,实现隐式文本感知提取。

关键词: Hadoop; 互联网隐式文本; 感知技术; 信息吞吐量; 分布式框架; 图像特征向量

中图分类号: TN711?34; TP393 文献标识码: A 文章编号: 1004?373X(2018)06?0121?04

Abstract: The Internet implicit text perception technology can extract the corresponding text format content from the image, but there exist problems of low information throughput and arithmetic speed. Therefore, an Internet implicit text perception technology based on Hadoop is proposed. The Hadoop distributed framework is introduced to undertake Internet implicit text perception technology. The implicit text perception mode is adopted to realize generation and extraction of image feature vectors. The experimental data shows that the designed Internet implicit text perception technology based on Hadoop can perform high information throughput, and realize implicit text perception and extraction.

Keywords: Hadoop; Internet implicit text; perception technology; information throughput; distributed framework; image feature vector

0 引 言

在互联网中,图像是互联网数据重要的组成部分,在图像中会蕴含很多显式以及隐式的文本信息,显式的文本信息能够通过数据扫描以及提取技术进行识别,但隐式文本只能通过感知技术进行感知性的提取。传统的联网隐式文本感知技术受到信息吞吐量的限制,很难全面地进行隐式文本的全面认知[1?2]。同时运算速率决定感知技术的最终结果,本文提出基于Hadoop的互联网隐式文本感知技术。引入Hadoop分布式框架,能够接受流形式的访问,有效地承接了互联网隐式文本感知技术,放宽了HDFS,提高了容错性,利用隐式文本感知方式,实现图像特征向量生成提取。为了保证该方法的有效性,模拟使用过程进行仿真实验,实验结果表明,基于Hadoop的互联网隐式文本感知技术能够进行高信息量的感知识别,并能够提取全部隐式文本。

1 基于Hadoop的互联网隐式文本感知技术

1.1 导入Hadoop分布式框架

互联网中的图像一般具有可下载存储等属性特点,在互联网图像的隐式文本一般不具有以上属性[3?4]。广义上讲Hadoop能够利用集群的属性进行多维度的混合剥离,将非隐式文本进行有效剥离后,有助于感知技术的使用。

導入Hadoop分布式框架作用有以下几点:

1) 对于不同信道、不同互联网渠道的图像能够识别;

2) 进行图像的初级剥离;

3) 有效的成绩感知技术的识别提取模块。

1.2 互联网隐式文本协作感知技术的实现

图像识别过程中首先进行初始信道识别。互联网中的识别信道以数据的形式,对图像中的隐式文本进行传输。每个图像中的隐式文本以属性链的形式相互关联,图像识别过程实际上是光感以及灰度上的扫描选举,经过分布式的结构已经完成了对图像原始处理,并且已将非隐式文本进行剥离,因此图像隐式文本通边缘算子确认、去灰度处理、识别认证三个步骤便可以实现图像识别[5]。边缘算子的确认过程也是对隐式文本的定位过程,互联网状态的图像中携带Tx属性,将Tx属性标识为点位属性,便可以实现边缘算子的确定,也是完成对隐式文本确认过程。去灰度处理使用不同帧频进行去除,居策频率是去灰度最佳使用频率。识别认证阶段使用的GTF的光感识别认证码,由于去除灰度后的图像,剩下的码包括:式隐性码以及属性码,GTF的光感识别认证码默认属性码的存在,直接识别隐性码便可以完成识别。GTF的光感识别认证码识别过程如下:

public partial class anpai_show chuli:System.Web LTLPage

{protected void Page?Load(object sender,EventArgs e)

公司地址: 北京市西城区德外大街83号德胜国际中心B-11

客服热线:400-656-5456  客服专线:010-56265043  电子邮箱:longyuankf@126.com

电信与信息服务业务经营许可证:京icp证060024号

Dragonsource.com Inc. All Rights Reserved

icp