APP下载

一种基于云存储的自组织增量类脑记忆模型

2018-07-19刘义红

关键词:结点文档神经元

刘义红

(淮南师范学院计算机学院, 安徽 淮南 232038)

在日常生活和工作中,记忆对人类来说是非常重要,它可以帮助人们完成日常的事务,回忆过去的往事,通过分享记忆来维持社会关系,表达自己的情感。随着计算机和智能终端技术的快速发展,越来越多的用户将自己的个人数据存储在网络服务商的云端存储设备上,这些数据随时间呈指数级增长,并且隐含着丰富的记忆信息。如何利用云存储和机器学习技术,将这些数据中隐含的记忆信息挖掘出来是十分有意义的课题,有着广阔的应用前景。

本文提出一种基于云存储的自组织增量类脑记忆模型(Brain Memory Model of Cloud Storage,BMMoCS)。试图通过信息采集设备将用户行为记忆数据存储到云端服务器,利用自组织增量网络学习算法,对记忆数据特征信息进行提取和分析,从而发现记忆知识,然后利用这些知识辅助人类记忆,以此来构建一个记忆服务系统。最后,在真实数据集上对模型进行了仿真实验,实验结果表明模型能够模拟大脑的记忆功能。

本文第1节介绍与本研究内容相关的工作;第2节介绍云存储的记忆系统服务架构;第3节详细介绍一种基于云存储的自组织增量类脑记忆模型;第4节给出该方法的仿真实验结果及分析,最后进行总结并对下一步工作进行展望。

1 相关工作

Google首席执行官Eric Schmidt首次提出了“云计算”的概念后,掀起了一股“云存储”风暴,国内外人云存储服务产品相继出现,如谷歌云、百度云盘、360云盘、微云、天翼云等等。根据艾瑞咨询公司发布《2016年中国个人云盘行业研究报告》和《2016年中国企业云服务行业研究报告》显示,2016年中国个人云存储用户规模预计将达到3.96亿人。个人云存储产品具有跨平台存储、同步更新、文件分享等功能,较好的满足了用户使用需求。而对于这些云存储数据,目前研究主要集中在记忆特征信息提取、记忆计算和记忆服务等方面。

在记忆特征提取方面。研究者主要聚焦在与时间、位置和物体相关的记忆信息特征抽取上。文献[1-2]使用时空情境和交互历史信息来快速提取联系人姓名。文献[3-4]通过获取用户位置信息,当用户进入或离开某个地点时,将该地点发生的故事发送给用户。文献[5]提出了一个面向位置的个性化视频通信和分享系统,家庭成员之间可以通过系统分享记忆,增进成员之间情感。文献[6-7]使用RFID(Radio Frequency Identification)和移动标记技术,将人的记忆与物品联系起来,以增强用户的回忆,同时支持基于情境的记忆分享。

在记忆计算方面。研究者主要聚焦在生物学、认知理论、神经网络上。文献[8]把记忆机制引入传统蚁群算法,提出了一种基于生物记忆原理的蚁群智能体记忆模型,蚂蚁智能体通过记忆不断搜索、更新自身记忆库和蚁群记忆库,优化自己当前路径。文献[9]采用幂函数量化艾宾浩斯生物记忆曲线,提出一种智能词汇记忆模型,当单词临近遗忘时提醒用户及时复习,动态调整生物记忆曲线。文献[10]提出一种双向认知计算的p阶正态云模型,模拟智能认知过程。文献[11]将输入、记忆、联想三种模式分别至于不同网络层,提出了一种基于神经网络的通用联想记忆模型。文献[12]将递归神经网络应用到联想记忆中,提出了一种基于忆阻激活函数的递归神经网络,实现动态图像的联想记忆。文献[13]提出一种不增加网络参数的递归神经网络的新方法,该方法具有基于复数值向量的联想记忆功能。

在记忆服务方面。研究的热点主要聚焦在往事回忆和记忆分享上[14]。文献[15-16]将记忆与实物结合起来,建立一种体验式回忆系统,用户可通过实物联想记忆中的场景。文献[17] 将日常生活中发生的事情,记录到一个电子记事系统中,以帮助记忆损伤的用户回忆往事,辅助治疗老年痴呆症等。文献[18]设计了一个用户邮件整理和分析系统,系统根据记忆提示信息,将邮件可视化分类管理,用户利用用户界面快速浏览邮件信息,激发用户回忆。文献[19]利用文本知识机器学习方法,建立了一种基于内容的文本知识推荐系统,实现文本知识的推荐,帮助用户理解知识。文献[20]基于云存储理论,设计了一个智慧健康大数据管理系统,实现医疗健康信息共享与智能分析。此外,像微信、微博和Facebook等在线共享服务发展迅速,使用非常广泛。

综上所述,通过对当前国内外关于记忆理论研究现状和发展趋势的调查分析,发现很少有研究者将云存储和记忆联系一起来开展相关研究工作。本文正是基于在这方面考虑,对云存储的记忆系统进行探索,以此来推动智慧健康的发展和应用,为人类的健康生活提供理论和技术支持。

2 记忆服务系统架构

本文提出的记忆服务系统采用四层设计架构,自下而上分别为数据采集层、云存储层、记忆计算层和记忆服务层。系统架构及数据流如图1所示。

图1 系统体系架构图

2.1 数据采集层

数据采集层的主要任务是收集个人日常使用的电子设备、网络社交而产生的大量记忆数据。比如,在旅游、聚会、重要节日、网购、微信、微博、QQ、Facebook等活动过程中产生的本文、图像、声音、视频等数据,这些数据通常称为感知数据,它们隐含着非常重要的记忆特征。

2.2 云存储层

云存储层主要任务是使用云服务来存储个人感知数据,并利用ETL(Extract Transform Load)和数据挖掘技术,将本文、图像、声音、视频数据等用户数据进行预处理,解决数据源格式不统一,无法进行一致地高效地数据处理问题。预处理提取的数据记忆特征,将加载到一个面向主题的、集成的、稳定的、反映历史的、随着时间流逝发生变化的记忆数据库中,并向记忆计算层提供数据。

2.3 记忆计算层

记忆计算层主要任务是构建一个记忆模型,将记忆数据进行聚类计算,形成记忆簇,并向记忆服务层提供往事回忆和记忆分享服务。该模型是本文的分析重点,将在第四部分详细介绍。

2.4 记忆服务层

记忆服务层主要任务是向用户提供一个友好的交互记忆服务,它包括往事回忆和记忆分享两项功能。往事回忆是通过输入用户的情境数据特征到记忆计算模型,模型给出云存储数据库中相似度较高的按降序列出记忆信息,向用户呈现个人存储的往事。记忆分享主要是提供与家人、朋友、同事、同学等群体共同分享个存储的往事服务,便于社群交流与协作。

3 BMMoCS记忆模型

3.1 定义

用户存储的云数据通常是增量变化的,这就要求设计的记忆计算模型能适应这种变化,具有很好的普适性。因此,采用自组织增量学习的神经网络来分析设计记忆模型。为了描述模型方便,在这里定义下列术语和符号。

定义1:记忆库M,形式化定义为

M={(x1,P1),…,(xd,Pd),…,(xN,PN)}

式中:二元组(xd,Pd)表示记忆库中第d个文件,由记忆特征向量xd和文件存储位置Pd两部分构成,N表示文件总数。

定义2:xd表示存储文件d的记忆特征向量,形式化定义为

xd=(xd1,xd2,…,xdi,…,xdm)

式中:xdi表示存储文件d中第i个记忆属性,m表示文件d中记忆属性总数。

定义3:Pd表示存储文件d的存储信息集,形式化定义为

Pd=(p1,p2,…,pi,…,pn)

式中:pi表示文件d的第i个存储信息。如,文件的存储位置、时间、类型等。

定义4:神经网络NE,形式化定义为

NE=(V,E)

式中:V为顶点集,每个顶点vi由五元组(ci,ni,φi,Hi,Pi)组成,ci表示记忆特征向量,ni表示神经元被激活的次数,φi表示神经元的平均累积协方差矩阵,Hi表示描述神经元区域的超椭球边界阈值参数,Pi含义同定义3。E为边集,每条边用二元组(i,j)表示,i,j分别表示顶点vi,vj。

3.2 模型

本文提出BMMoCS模型(见图2)。输入层的数据是云存储原始数据的记忆特征向量,即输入模式,它表示在记忆特征空间分布中所处的位置。记忆层与输入层进行全连接,将输入模式数据经变换后存储到对应的神经元记忆子网中,它们之间的连接反映了原始数据的分布情况以及拓扑结构。

图2 BMMoCS模型

模型的基本思想是用一定数量的代表性数据来近似原始的完整数据集,结构上保持原始数据的邻近相关性,然后再以这些代表性的数据为基础对新来输入模式做出决策。具体而言,记忆层中的神经元是输入层空间中的某些输入模式的代表,它周围的区域与输入模式的空间分布是一致的。假设这个局部信息服从高斯分布,用式(1)描述的超椭球来表示它的周围区域。

(1)

式中:x表示输入层的特征向量(x∈M),ci表示记忆层的一个神经元向量,φi表示神经元i的平均累积协方差矩阵(见式2),Hi是一个相似度阈值参数,表示超椭球边界。

(2)

Hi参数的取值对记忆层的稳定性影响较大。如果取值得过小,则会有许多相似的数据模式被当作独立的神经元,导致记忆层神经元结点过多;而取值过大,则会有许多不同的数据模式被掩盖,导致量化误差增大。取值过大或过小均不能准确地反映原始数据的分布。下面对Hi参数进行分析。

显然,式(1)的边界方程是

(3)

q为置信度 (4)

(5)

输入模式x与神经元ci之间采用式(6)马氏距离度量。

(6)

3.3 算法

输入:记忆库M,λ,ω,σ,α,β,q。

输出:记忆层神经网络NE(N,E)。

算法步骤

1:初始化集合N=Ø,E=Ø。

2:随机选择一输入模式(x,p)∈M。

3:根据式(7),计算被输入模式激活的神经元集T:

T={i|Di(x)

(7)

若N=Ø或T=Ø,则生成新结点inew,

置T=T∪{inew},转到2。

4:根据式(8),计算T中与输入模式距离最小的神经元结点(即,竞争获胜的结点)iwin,

iwin=argmini∈TDi(x)

(8)

5:更新iwin结点,

ciwin=ci+(x-ci)/(ni+1)

niwin=ni+1

φiwin=φi+[ni(x-ci)(x-ci)T-

(ni+1)φi]/(ni+1)2

(9)

Piwin=Pi∪{p}

6:建立连接边。在T中,若iwin结点与其它结点间没有边,建立连接,并更新边集。E=E∪{(iwin,j)|iwin,j∈T}

7:若iwin的邻接点j满足式(10),

Diwin(j)<α*(Hiwin+Hj)

(10)

则,合并iwin和j为新结点inew。

cnew=(nici+njcj)/(ni+nj)

nnew=ni+nj

(11)

Pnew=Pi∪Pj

N=(N-{iwin,j})∪{inew}

将E中所有(iwin,k)、(j,k)改为(inew,k)

若iwin与邻接点j,满足条件:Diwin(j)>β*(Hiwin+Hj),则删除iwin和j之间的连接边。

8:当输入数据总数是λ整数倍时,若某神经元结点的激活次数ni远远小于均值mean,则示该结点为噪声,删除结点及连接边。

(12)

9:若还有新的输入模式,则转到2;否则,输出NE(N,E)。

在算法学习过程中,当被激活的神经元与它邻接点之距离越来近时,且小于一定阈值时,说明它们分别所代表的区域具有相同模式,需要合并操作,保持模型的简洁和稳定性。当它们之间距离越来越远,且大于一定阈值时,说明它们分别所代表的区域属于不同模式,需要断开连接,保持模型的鲁棒性。

λ,ω,σ,α,β,q是超参数,在实际应用中,根据具体的数据集来设置。ω是神经元激活次数ni函数,且满足limni→∞ω(ni)=1。σI决定了新结点超椭球区域的大小,I是单位矩阵。α,β分别表示两个神经元超椭球重叠和分离比。

这里,给出式(9)和式(11)的推导过程。

a. 式(9)推导

假设i结点当前的协方差矩阵为

当i结点被输入模式xn+1激活,那么,

(xn+1-ci)(xn+1-ci)T+

b. 式(11)推导

假设i和j合并为新结点inew,i,j的协方差矩阵分别为

那么,

φinew=∑ni+njk=1(xk-cinew)(xk-cinew)T/(ni+nj)=

4 仿真实验

实验数据来源百度个人云盘,数据集是某用户在2015年8月至2017年9月期间,阅读并保存到百度网盘上的1852个文本文档(为便于验证,只用文本类型数据来分析模型的有效性)。实验时,去除了语料库中所有无意义的停止词和频次低于5的词,用语料库中的单词描述文档的记忆特征,单词在文档中出现的频率作为特征值,增加文档标题词权重,突出它的重要性,经过预处理后,得到文档-词的特征矩阵和文档-存储信息向量数据库,其结构如图3~4所示。图3中,xi,j表示第i个文档中第j个单词的特征值;图4中,{pi,1,pi,2,…,pi,j,…,pi,m}表示第i个文档中存储的信息集,其中pi,j表示信息集中的一个元素。

图3 文档-词特征矩阵

图4 文档-存储信息向量

模型稳定性分析。从两个方面来验证,a)在记忆特征数据库中随机选择输入模式,运行学习算法,得到记忆层神经网络NE1;b)将记忆特征库中数据按相关度排序,顺序选择输入模式,运行学习算法,得到记忆层神经网络NE2。两种方法实验生成的神经元结点变化越势如图5所示。实验结果表明,在特征数据库给定的情况下,模型与输入次序无关,它有较好的稳定性。

图5 记忆层神经元结点变化越势

模型有效性分析。根据云存储记忆数据特点,用户通常在两种情境下,回忆已存储的数据,一种是用户读到一篇新文档,联想回忆以前已阅读过的文档,并把它们提取出来。另一种是用户依据自己的模糊记忆描述,提取已存储在云盘上的文档。在这里把上述两种情境,分别称为A记忆模式和B记忆模式。并从两个方面来仿真实验,a)从特征数据库中随机抽取200个文档特征数据作为测试数据,其余1 652个文档特征数据作为训练数据。b)从语料库中随机抽取100个单词,然后将其组合成200个短语测试数据,1 852个文档特征数据作为训练数据。实验采用查准率和查全率来衡量模型的性能。查准率和查全率分别定义为

(13)

(14)

式(13)(14)中,P表示查准率,R表示查全率,T表示测试结果中查找正确的样本数,N表示测试获得的结果样本总数,M表示测试样本中与查找目标相关的正确样本总数。通过实验得到表1实验结果,该结论表明模型在文本数据分析上是有效的。

表1 A、B两种记忆模式的查准率和查全率 %

5 结论

本文提出了一种基于云存储的自组织增量类脑记忆模型,模型依据云存储中个人行为数据,运用自组织增量网络学习模型,致力于重构记忆服务系统,解决记忆数据呈现,从而辅助个体记忆,支持往事回忆、记忆分享等服务。模型通过真实数据集上仿真实验,结果证明该模型的稳定性和有效性达到了预期的效果。算法比较容易现实,能够较好地进行云存储记忆数据分析。但是,文中只对文本类型数据进行了验证,还有像声音、图像、视频、表格等复杂数据验证需要进一步研究,这也是未来工作的研究方向。

猜你喜欢

结点文档神经元
浅谈Matlab与Word文档的应用接口
LEACH 算法应用于矿井无线通信的路由算法研究
基于八数码问题的搜索算法的研究
有人一声不吭向你扔了个文档
AI讲座:神经网络的空间对应
仿生芯片可再现生物神经元行为
这个神经元负责改变我们的习惯
Word文档 高效分合有高招
研究人员精确定位控制饮酒的神经元
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat