APP下载

聚类分析在外国语言学研究中的应用

2018-07-25穆晓岩

关键词:聚类分析应用研究

穆晓岩

【摘要】聚类分析,还可以被称为是数值分类学,这属于一种多元统计的分类技术。该技术主要运用在商业和生物与工程以及人类学,还有社会学等多种领域中。语言学中的研究存在很多分类问题,然而学者们选择定性法分类的非常多,计量手段的分类法非常罕见。鉴于此,本文将对聚类分析在外国语言学研究中的应用进行分析。

【关键词】聚类分析 外国语言 研究 应用

【中图分类号】H087 【文献标识码】A 【文章编号】2095-3089(2018)04-0003-01

现阶段在聚类分析中的新方法非常多,对聚类算法来说,其使用的技术并不一样,在理论背景上彼此交叉和重叠,并不能容易地归类一个比较统一的标准,聚类分析法能够被分为层次聚类方法和基于划分下的聚类方法与图论聚类方法以及密度下与网格基础下的方法等多种。上述方法尽管从不同角度方面多运用的理论方法也不同,然而对存在差异的实际问题来说,聚类分析当中的基本内容一直是人们研究的重点。

一、聚类方法浅析

(一)层次聚类方法分析

就层次聚类算法来说,其主要优点是指,不需要实现知晓用户指定的聚类数目,能够灵活地对不同层次聚类粒度进行控制,同时,还可以比较清晰地对簇之间所具备的层次关系进行表达。然而,层次聚类算法在运用中的缺点也是非常明显的,主要有,层次聚类时,不能追溯已有的簇结构处理;上一层次簇形成之后,一般是不能在之后的执行过程中进行调整的。现阶段,很多层次聚类算法在计算过程中都有一定的复杂度,这一过程中,0是数据集中数据点的数量。计算开销是非常大的,已经是促进层次聚类算法中性能提高的一个瓶颈,导致其不能适用于规模较大的数据集。

(二)划分聚类方法的分析

这一聚类方法早已在模式识别和数据挖掘等不同领域有了广泛的应用,截至目前为止,还是多个研究工作中的思想源头。如果目标函数具有可微性,就要对数据集进行初始划分,再将其作为起点,并对样本点的归属进行调整,进而让目标函数实现最优。如果目标函数得到收敛,就能够获得最终的聚类结果。k-means与FCM都是该类算法中比较典型的代表,在现阶段的研究成果包括:密度加权的模糊类聚类算法,以及在混合距离学习下的双指数模糊的均值算法等。其在具体使用过程中的优点主要包括,收敛速度比较快,容易扩展,存在的缺点是指需要知晓事先所指定的聚类数目。除此之外,初始簇的中心选择和噪声数据存在与聚类数目本身的设置都会严重影响聚类结果。

(三)密度与网格聚类方法的分析

基于密度与网格之上的聚类方法主要来自于基于密度聚类方法与基于网格聚类方法。其中,密度聚类方法一般主要在数值属性的数据集中进行运用,后者可以在任何属性数据集中进行运用。因为该方法对数据进行处理过程中,都注重使用样本点空间的分布信息,同时,总是经常地结合使用,所以可以归结在一块使用。

二、国外语言研究中对于聚类分析法的具体应用

聚类分析法主要在语义和句法型式与认知语言学以及心理语言学,还有计算语言学与社会语言学等多种研究领域当中被应用。聚类分析法在实际中的应用主要是和语料库数据进行结合。主要应用的领域包括以下几点。

(一)在词汇语义学中的应用

在语言学的研究中有这样一个假设。如果语言项目语境在分布信息对该语言项目本身的语义和功能特点进行了揭示。语言成分本身的意义即是该语言成分在分布中的条件或者是限制。例如,Firth曾经提出:“观一词之同伴可知一词”;此外,Hanks曾经指出:“动词语义是由其补足语的模式所决定的。”语料库给予了词在分布环境中的信息,例如共现词和其频率。按照语料库所给予的共现特征中的频率信息,该分析方法能够用来较客观和系统地对近义词和反义词进行辩解。聚类分析法应用在词汇语义学当中是非常有必要的,其对于词典的编纂和外语的教学都非常有实用价值。

(二)在句法型式的研究领域中进行应用

聚类分析法能够帮助人们对语料库当中存在的句法结构实施聚类,有助于相关人员对经验数据性的句法进行研究。例如,相关人员可以对语料库当中的一個单词进行全部索引行并聚类,对这一单词进行识别和提取,例如,动词的所有句法型式,进而获得对指定单词句法行为进行全局性和系统性地了解和认识。有助于数据驱动句法的研究,并对其词典进行编撰,同时在外语教学中的价值也非常大。

(三)语言文体的变异研究

语篇当中会出现很多语言结构的单位在使用中统计的特征。主要有词长和句长与型符类符比以及单现词比例,还有词性比例和句型比例等。从多数研究中可以看出,各种语言的结构特征在不同体裁当中的文本也存在着客观地变异情况。语言风格和文体与体裁都是因为不同语言的结构单位特征所产生的。该频率分布的不同造成分析语篇的风格和文体物质的基础。利用各种特征统计分析文本的思想比较早的是数学家Morgan在19世纪中期的猜想与建议。很多研究人员可以结合该语言的结构单位进行不同风格和文体文本以及语篇的分析。

(四)语言本身的社会变异和功能变异研究

语言变异和社会结构之间的关系非常复杂,运用以往的一般研究的手段不能进行处理。在以往的研究方法当中,对于研究变量进行选择和假设建立也是研究人员按照某种理论框架和既定的研究个案与个人在研究领域中形成的经验和灵感所展开的。这是截至目前位置一直被延用的一种研究方法。尽管人们不能否认该研究方法是有一定意义的,然而还是必须承认,以往的研究方式基本也是瞎子摸象,存在很大的盲目性,加之,在某些时候属于东一榔头西一棒子的模式,没有系统性地研究。按照个人在这一领域中的经验或者是出现的灵感所提出的语言研究假设不可避免地存在很大地盲目性,由于和大规模语言数据的对比,个人在经验和灵感来源上都非常有限。将聚类分析法运用在其中,能够更好地克服该局限的出现。

三、结束语

总而言之,在未来的发展中,对于大规模语言数据的进行依赖的程度会也来越大,在此基础上的数据挖掘也逐渐增多。规模较大的语言数据在人工和肉眼下是不能被有效处理的。这时,聚类分析等多种数据挖掘的方法是人们重要的工具。外语研究人员要加强对包括聚类分析在内的数据挖掘技术进行研究,保障研究与时俱进。

参考文献:

[1]唐成成.聚类分析在高校课堂教学质量评价中的应用[D].重庆师范大学,2017.

[2]杨昱梅,李婧.聚类分析算法在大学生心理健康分析中的应用研究[J].中国教育学刊,2015(S1):27-29.

[3]王骏,王士同,邓赵红.聚类分析研究中的若干问题[J].控制与决策,2012,27(03):321-328.

猜你喜欢

聚类分析应用研究
FMS与YBT相关性的实证研究
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究