APP下载

网络言语识别方法研究

2010-01-29陈景丰

铁道警察学院学报 2010年1期
关键词:网名言语网民

陈景丰

(铁道警官高等专科学校侦查系,河南郑州 450053)

“网络虚拟社区”是随着网络以及人们网络社会行动的扩展而出现的人类社会活动的新型空间。据 2009年 7月 16日 CNN IC(中国互联网络信息中心)发布的《第 24次中国互联网络发展状况统计报告》,我国的网民规模增长迅猛。截至 2009年 6月底,中国网民规模达到 3.38亿人,较 2008年底增长13.4%,半年增长了 4000万人,稳居世界第一位。与网民规模持续增长相对应的是我国互联网普及率的稳步提升。数据显示,截至 2009年 6月底我国互联网普及率达到了 25.5%。CNN IC互联网发展研究部主任刘冰还表示,2009年底到 2010年初中国网民总数有望突破 4亿规模(见图 1)。

图1 2005-2009中国大陆网民规模与互联网普及率变化图

网络虚拟社区与现实生活社区一样鱼龙混杂,现实生活社区的各种现象也会自然地反映在或存在于虚拟的网络社区中,其中包括各种违法犯罪案件。网络犯罪案件的发生又多与网络言语行为关系密切,如网络语言暴力、网络色情、网络诈骗、网络人肉搜索、网络攻击、网络赌博、网络虚假信息散布等。在与网络言语有关的违法犯罪案件中,通常可以透过网络言语行为特点,对犯罪主体的个人特征做出一定的刻画和描述,从而为有效、及时、准确遏制和打击网络违法犯罪活动提供技术上的支持。本文正是基于以上观点,试图通过对网络虚拟社区成员的构成及其不同群体之间言语行为习惯特点的研究分析,找出一个较为科学合理的网络言语识别方法。

一、网络言语识别的依据

语言是一种具有民族性的社会现象,言语是语言的个人变体,语言存在于言语之中,言语则是对语言成分的具体运用。利用网络言语探析言语人个体特征应是网络言语识别的目的所在。

网络言语识别是运用文字学、语言学、社会学、心理学、精神病学等多种学科的知识和方法,科学分析案件中的网络言语材料,以推断网络言语人的籍贯(母语地)、年龄、职业身份、文化程度、性别及是否为精神病人等。网络言语识别的主要依据是网络案件中的网络言语材料,即网络言语的形式、网络言语的内容、网络言语的表达方式以及与网络言语活动有关的各个方面特征。不同社会阶层、不同年龄、不同地域、不同职业文化程度、不同心理生理特征的人有着不同的言语特征,这种不同具体表现在网络言语人对文字、词汇、语法、内容和网名的使用上。

网络言语属书面言语的一种,它与口语的联系是比较紧密的。网络言语中所使用的文字、词汇和语法通常能够反映出方言地域特点、年龄网龄特点、职业身份特点、文化程度及心理生理特点。网络言语的内容通常又与言语人所处的生活环境、个人境遇及思想状态有密切关系。

需要特别说明的是,网民在网名的选用上更是与其年龄、爱好、性别、关注对象有着密切联系。网名是网络虚拟社区中的 ID,网络虚拟社区成员要想发表自己的观点、主张或与其他成员互动交流,一般都需要注册自己的 ID即身份证明。一个人可以拥有一个或多个 ID,这有点类似文学创作中的笔名。网名通常可以以字母、拼音、数字、汉字词汇、怪异字等形式出现,也可以以它们的组合或真名的形式出现。在网络虚拟社区人际互动过程中,网名具有匿名性和彻底的符号性。

真名通常是父母给起的因而无法选择或难以更改,而网名则是自己起的,故网名透露出的信息往往比真名更多,如性别、年龄、文化程度、职业身份、籍贯、爱好、心理特征等。在多数网络违法犯罪案件中可以透过网名对犯罪主体的个人特点做出一定的刻画和描述,从而为有效、及时、准确遏制和打击各种网络违法犯罪活动提供准确依据。

在网络言语识别过程中还应当对网络虚拟社区成员的构成状况进行调查分析和研究,这是进行网络言语识别的基础。

二、年龄、网龄的识别

(一)网民年龄构成

青少年网民在现有网民中所占比重最大,是当今中国互联网最大的用户群体。这主要得益于教育部自 2000年开始建设的“校校通”工程,同时,互联网的娱乐特性也加大了其在青少年人群中的渗透力度,网络游戏、网络视频、网络音乐等服务均对互联网在该年龄段人群中的普及起到了推动作用。

从 2008年起,网民中高龄群体的比例不断上升,增长率已经超过了网民总体的增长速度,这显现出了我国网民结构在年龄上不断优化呈成熟化的趋势。

从图 2可以看出近两年网民年龄结构的变化趋势:10~29岁年龄人群占据了 33%的份额。30岁以上具备消费能力和资金支配能力的人群所占比逐渐升高,其中 30~39岁人群增长幅度最大。另外, 40岁以上的网民规模整体也有上升趋势。

图2 网民年龄结构对比

(二)年龄、网龄的识别要领

《第 24次中国互联网络发展状况统计报告》显示,35岁以下的青少年网民占整个网民总数的绝大多数,他们也是率先掌握并使用网络语言的一个庞大群体。因此,网络言语往往是以这一群体的语言风格为基本特色的,如时下的网络言语大多没有明确的文体意识,表达形式具有自由、随意、另类、鲜明和独特的特点。

具体到不同年龄的网民组群上,其特点也有明显差别。如在文字词汇的使用上青少年时尚、简洁、日常,创新性强,喜用数字、字母谐音。中年人相对比较保守沉稳,偶尔会使用一些出现频率较高的网络词语,借以掩饰个人身份、年龄、性别和语言习惯。老年人在文字词语的使用上与一般书面用语表现一致。

在内容和语气上青少年好奇心强、思维比较幼稚,内容空洞,甚至粗俗、口气狂妄。中年人一般比较沉稳、理性,与社会实际联系紧密。老年人思维僵化,怀旧情绪明显。

在网名的选用上,青少年容易接受外界的各种新鲜事物,喜欢仿效流行,而中年人则善于进行复杂的概括和推理。通常情况下网名含意越丰富的年龄越大,网名越随心所欲的年纪越轻。

从网名所用文字来看,上世纪六七十年代前出生的网民的网名一般都为四个字或者四个字以上(通常为四字的成语、短句)。七八十年代出生的网民的网名一般都为两个字或者三个字,比如妮子、妞妞、红樱桃等。80年代末以后出生的网民的网名则五花八门,有的根本不用汉字而改用乱码、偏旁、繁杂字、日本字、“火星文”等,他们注重追求网名的特殊化、怪异化。

网龄的长短一般可以从言语人对网络文字、词汇、图画符号使用的多少和熟练程度上去作分析判断,如看像“偶”(我)、“稀饭”(喜欢)、“木油”(没有)、“PK”(比拼)、“素”(是)、“表”(不要)等网络言语常用词汇出现频率等。网络言语若与普通书面语习惯、风格相近则说明其网龄较短或年龄较大,反之也成立。

三、文化程度的识别

(一)网民文化程度构成

与 2008年末相比,目前网民数量仍在逐渐向低学历倾斜。《第 24次中国互联网络发展状况统计报告》显示,网民中文化程度为高中 (中专)的比例最高,达到 31.1%,其次是本科 (25.8%)和大专(23.3%)。文化程度为本科及以上的网民比例为28.5%,文化程度为本科以下的网民比例达到了71.5%。可见,文化程度为本科以下的网民仍然占据大多数(见图3)。

图3 网民文化程序结构对比

(二)文化程度的识别要领

初中以下文化程度的网民语文水平往往较低,其网络言语内容单调、词汇贫乏、错别字多、方言土语明显、缺乏逻辑性,所涉及的知识也较为肤浅,他们大多道德水准较低,常夹杂一些辱骂他人的言语内容。

高中文化程度的网民语文水平通常较高,文体结构清晰,好用成语典故和文言叙述风格。

大学文化程度的网民理论水平较高,常常能涉及某一专业领域知识,有较强的写作能力,经常图文并茂,个人言语风格明显,常关注社会时政问题,分析问题的角度和方法比较独特。

一般情况下,文化程度越高的人思维能力就越强,对事物的认识能力、对问题的分析能力、对知识的创新能力、对字词的驾驭能力也越强。

在网名的选用上,文化程度高的人往往注重网名含意的深度,或含蓄或大气,如曙光初照演兵场、花市暂得楼、上古如、东方甲乙木、处处山依旧、墨不文、章无计、轻不狂、成不美、言非心、冷无冰等。而文化程度低的则多直白家常,如富贵长在、卧龙冈、康乾雍、鲁地、学海无涯、老顽童等。

四、母语地的识别

(一)网民地域构成分析

《第 24次中国互联网络发展状况统计报告》显示,中国城乡网民比例中农村网民所占比例略有上升,目前农村网民规模达到 9565万人,较 2008年底增长 1105万人,增幅 13.1%。

而各省网民人数则分布不均,东部省份及京津沪渝直辖市网民约占整个网民数的 50%以上,超过了广袤的中西部地区的总和。

(二)居住地区或母语地的识别要领

方言土语是确定言语人居住地或母语地最主要的依据,具体到网络言语中主要表现为谐音别字、方言词汇和语法等方面。如粤方言区的网民常会将“挥手”打成“非手”,辽宁方言区的网民将“人”打成“银”,吴方言区的网民将“想念”打成“念想”,闽方言区的网民将“已经”打成“经已”等。另外,倒装句式在南方网民言语中较为常见。

对于城乡网民的区分,要注意他们对地方词汇、地方景物、地方风俗等内容的使用和描述方面网民,后者往往在方言土语、农村景物、地方风俗上表现得更为明显和充分。

网名在地域色彩上有时会比较明显,如离娄山人(上海)、长亭外 (杭州)、东岳泰山 (山东)、昆仑奴(甘肃)、河东古掘 (山西)、春江月 (浙江)、太湖渔民(江苏)、良渚人文 (浙江)、十三龙人 (洛阳)、魏都无双(许昌)、晋秀斋 (山西)、无湘不成军 (长沙)等。

五、职业身份的识别

(一)网民职业构成分析

《第 24次中国互联网络发展状况统计报告》显示,中国网民最大的构成群体是学生,占 31.7%。除了学生之外,党政机关、事业单位工作者和企业公司的管理者、职员、专业技术人员等文职人员也占有较大比重。而占中国人口最大比重的农民、第三产业人员在网民中所占比重还比较低。与 2008年末相比,无业下岗失业人员所占比例上升了 2.1个百分点,说明上网行为在这一群体中有所增加 (见图4)。

图4 网民职业结构对比

(二)职业身份的识别要领

语言文字的社会性和职业性决定了不同职业身份的人具有不同的网络言语特点。

学生用语通常具有明显的学生特色,如好奇心强、知识面较窄,语句臃肿繁杂,用字用词新奇时尚,常夹杂英语单词或用拼音字母替代某些文字。

机关、事业单位的工作人员文化水平普遍较高,信息丰富,知识面广。其网络言语语义明确、语气委婉,思想性较强,有一定的理论水平,词汇丰富,使用文字、术语准确规范。言语内容常涉及社会生活的方方面面。

厂矿企业单位的职工因其具体工作不同,其网络言语特点差别较大,对问题的认识角度和分析的方法常常能暴露出其具体的职业特点,如对企业政策、分配制度、生产状况及就业、物价、子女上学等问题的认识。

农民网民的言辞之间常常会表露出浓厚的农村生活气息,如言语内容多是耕作、粮油销售、农村风俗等农村生活内容,有的还涉及政府的农业政策、计划生育政策等。农民一般文化程度较低,别字较多,方言土语突出,书面表达口语化。

关于军人,他们的生活环境、习惯和工作性质决定了他们网络言语中多表现为直爽痛快、亢奋、豪放等特征;军人或有从军经历的网民一般爱用部队常用词语,如“战友”、“首长”、“战报”等。

在网名的选用上,学生网名一般多为两个字或者三个字,网名又多与情感及近期流行时尚有关,喜欢网名的昵称化、特殊化、怪异化。如:妮子、妞妞、红樱桃、夜无眠、燃烧的青春、笨潴熊、幕后黑手、發呆、人心隔肚皮、玉米粒/玉米棒、全世界停电、寳寳、牵你手等。

机关、事业单位的工作人员由于文化水平普遍较高,网名构思多比较巧妙,文笔流畅,语言严谨,综合抽象概括能力较强。

农民网名通常乡土气息浓厚、粗犷直白,如胡球转、巨根、气叉、财神、东区十一少、老白皮、天龙老李、铁蛋等。

军人网名通常比较强悍且多与部队生活有关,如大兵、长鸣、大尉、吴军长、阿童木等。

另外,网名还能反映出网民个人的兴趣爱好,如香炉紫烟、自在翁、围棋 88、梦石主人、花梨镶紫檀、心即佛等。

六、性别的识别

(一)网民性别构成分析

《第 24次中国互联网络发展状况统计报告》显示,截至 2009年 6月,中国网民男女性别结构保持在 53∶47的比例,与 2008年末相比,网民的性别结构基本稳定。与 2007年以前相比,中国网民性别结构进一步优化,网民性别结构趋近于总人口中的性别结构。

本次调查结果显示,互联网在男性中的普及程度仍然高于女性(见图 5)。

图5 网民性别结构对比

(二)性别的识别要领

由于生理、心理及环境因素的影响,男女性别方面的差异也会表现在网络言语中。女性关注的多为生活中具体的人和事,而男性关注的常常是社会政治方面的话题。女性对男女关系问题比较敏感,在情节上常常注重对事件过程的描述。男性则往往就事论事,注重事件结果的评论。女性在使用辱骂性词语方面比较保守,男性则明显粗俗张狂。

在网名的选用上男性阳刚、霸气、直白、张扬,如中国网评、铁血小队长、黄河愤、王大麻子、青蛙、哈瓦那雪茄、丛林、风雨堂、近距离、大椿、南倡北道、等红杏、帶倪俬渀、毀灭 &沒侑亽性、刺青等。

而女性网名则显得天真可爱、情感含蓄和富有意境,如傻丫头、坏女孩、悠阑、乘着歌声的翅膀、风雅的梅、沙子、玛瑙、一叶飞来、花儿、青儿、鱼美丽、处女座、甜甜☆微笑、群 §舞佳人、梦幻水晶、紫 ¤樱¤梦、品茗听雨。叠字系列也常见于女性网名中,如梅朵朵、青花花、饶巧巧、甘芊芊、燕霜霜、柳蝉蝉、伊袖袖、楚烟烟、伊可可、衣怜怜等。

七、精神病人的识别

(一)精神病及其患者在社会总人口中所占比例

精神病是一种由于丘脑、大脑功能紊乱及病变致使患者在感觉、记忆、思维、感情、行为等方面表现异常的疾病,精神病在我国是一种常见病、多发病。

2009年 3月,正在北京参加两会的全国政协委员、人民解放军总医院副院长范利指出,根据中国卫生部疾控中心今年初的统计,中国有心理问题和精神疾病的人口比例高达 7%,总数超过 1亿人,并且呈现年轻化的趋势。范利指出,心理精神健康是全民族素质的标志之一,如此高发的心理问题与精神疾病,已成为影响中国社会和谐的重大公共卫生问题和社会问题。

心理问题与精神疾病患者所占比率大的主要原因是我国正处于社会转型期,各种社会矛盾增多,竞争压力加大,工作节奏加速以及存在发生重大灾害、经济危机的因素等。

从年龄、性别、地域、文化程度等方面看,我国精神病患者的分布状况为:20岁左右的青少年占患者的七成以上;女性比例高于男性,占六成以上;农村患者比例高于城镇约占六成;患者文化程度普遍偏低,高中以下患者占九成以上。

(二)精神病人的识别要领

由于精神病人在心理、生理上存在严重障碍,故网络言语中多会表现出以下特点:语义含糊不清、逻辑混乱,生造词汇,内容上空泛、诡辩,口气狂妄、荒诞离奇,乱用标点,布局混乱,经常使用医疗词汇和怪异的网络图片等。

精神病人在网名的选用上多具有神秘、空灵、病态色彩,但分析时要注意将其与青少年所追求的网名特殊化、怪异化区别开来。

猜你喜欢

网名言语网民
言语思维在前,言语品质在后
大学生选取和使用网名的调查分析
网民低龄化 “小网虫”的明天谁来守护
你知道爸爸妈妈的网名有多么犀利吗
你知道爸爸妈妈的网名有多么犀利吗
有关公路,网民有话说
如何学大明星取网名
关于冬天
关于言语行为的现象学思考
有感“网民节”