微博与门户网站新闻语体的计量对比-turnitin查重

本文是一篇语体论文范文,关于语体毕业论文格式模板,关于微博与门户网站新闻语体的计量对比相关学年毕业论文范文。适合语体及新闻及比值方面的的大学硕士和本科毕业论文以及语体相关开题报告范文和职称论文写作参考文献资料下载。

摘要：微博新闻与门户网站新闻同属于网络新闻语体,二者的词汇密度均在80%以上,拟声词和叹词的总比值都很低,而陈述句的总比值都很高.二者的不同之处是微博新闻比门户网站新闻更倾向于书面语体.微博新闻的词汇密度、平均词长、成语的总比值均高于门户网站新闻,词型例比、3字及3字以下词的总比值、惯用语的总比值均低于门户网站新闻,11个词类的词型使用频率远不及门户网站新闻均衡,多用长句,句长分布比门户网站新闻更集中、更接近,而破碎度和直接引语的数量均低于门户网站新闻.

关键词：微博新闻；门户网站新闻；语体；计量；对比

中图分类号：G20文献标识码：A文章编号：1003-1502（2014）04-0107-05

一、引言

微博新闻是由微博平台认证的企业、机构、媒体等非个人组织发布的新闻.在微博新闻中,不仅有文字,还可以有图片、视频、网络链接等.一般来说,每篇微博新闻的字数限制在140字内.门户网站新闻是以各大门户网站名义发布的新闻.与微博新闻一样,门户网站新闻中也可以有文字、图片、视频、网络链接等.然而与微博新闻不同的是,门户网站新闻并没有篇幅上的限制.

计量语体分析就是采用计量的方法来研究语体.计量语体分析“隐含着对比的原则,因为任何‘量’在语体研究中作用的发挥和大小,取决于与另外一个或几个量的对比”.[1]虽然微博新闻和门户网站新闻都属于网络新闻,但是由于它们在传播方式、目的以及受众等方面不尽相同,所以二者在语体上也存在着一些差异.本文在真实语料的基础上,采用计量的方法对微博新闻与门户网站新闻进行对比分析,探讨它们在语体上的差异.

二、语料及研究方法

本文语料包括微博新闻样本和门户网站新闻样本两部分.微博新闻样本选自新浪新闻中心微博的“头条新闻”,我们随机选取了其中的100篇原创新闻为样本（共12381字）,组建了微博新闻文本语料集合,命名为GFWB.门户网站新闻样本选自中国广播网、中国新闻网、新华网等门户网站,我们随机抽样选取了其中的100篇原创新闻为样本（共142382字）,组建了门户网站新闻文本语料集合,命名为MHWZ.

在获取样本之后,我们采用中国传媒大学“有声媒体语言资源网传媒语料库”的在线分词标注系统,①按照粗颗粒度②对GFWB和MHWZ进行切词和词语标注,提取出词汇层面和语法层面语体标记的数据；在数据分析的基础上,我们探讨了微博新闻与门户网站新闻语体上的差异.

三、词汇层面上的差异

我们选取词汇密度（lexicaldensity）、词型例比（typeandtokenratio）、词长、缩略语、成语和惯用语,作为微博新闻与门户网站新闻词汇层面的语体标记.

(一)词汇密度

学者Ure[2]将词汇密度定义为文本实词数与文本词汇总数之比.她的研究表明,英语口头语体的词汇密度在40%以下,书面语体的词汇密度高于口头语体.词汇密度的计算公式如下：

词汇密度等于（公式1）

按照公式1,我们计算出GFWB的词汇密度为82.06%,MHWZ的词汇密度为80.87%.微博新闻的词汇密度略高于门户网站新闻.一般来说,词汇密度越大,书面化程度就越高.

(二)词型例比

词型例比是词例数（type）与词型数（token）之比.词型例比越低,词汇就越丰富,“书面语体一般比较舒展、严密,词汇量也较口语丰富”.[3]词型例比的计算公式如下：

词型例比等于（公式2）

按照公式2,我们计算出GFWB中的词型例比为2.47,MHWZ中的词型例比为7.22.微博新闻中的词型例比明显低于门户网站新闻.也就是说,在词数相同的情况下,微博新闻中的词汇比门户网站新闻更丰富.

(三)词长

我们在词长这部分主要分析了平均词长和词长分布.

平均词长是总字数与总词数之比.书面语体的平均词长高于口头语体.平均词长的计算公式如下：

平均词长等于（公式3）

按照公式3,我们计算出GFWB的平均词长为1.82,MHWZ中的平均词长为1.68.微博新闻的平均词长略高于门户网站新闻.

我们还对GFWB和MHWZ中的词长分布进行了统计,见下表：

从表1来看,GFWB中1字词和2字词的总比值略低于MHWZ,而3字词以上（含3字词）的总比值却高于MHWZ.GFWB和MHWZ中3字及3字以下词的总比值分别是0.95698和0.98174.这说明微博新闻更倾向于使用3字及3字以上的词,门户网站新闻则更倾向于使用3字及3字以下的词.“词长在一定程度上代表了语言单位的复杂性”.[4]邓耀臣、冯志伟的研究表明,“音节数较少（小于等于3）的词汇在口语体中的平均使用频数明显高于书面语体”.

(四)缩略语、成语和惯用语

缩略语是“从已相对稳固了的较复杂的词或短语中抽取其主要成分,形成简短的词语,表示与原词语相同的意义”.[5]“成语是指历史上沿用下来或群众中长期流传、见解精辟并含有特定意义的固定短语”.[6]“惯用语是口语中形成的表达一种习惯含义的固定词组”.[6]（143）

我们对GFWB和MHWZ中缩略语、成语和惯用语的总比值进行了统计.总比值代表某类词语在语料中所占的比重.词语的总比值越高,使用频次就越高.GFWB和MHWZ中的缩略语、成语和惯用语的总比值见下表：

根据表2中的数据,我们计算出GFWB中缩略语的总比值比MHWZ高79.11%,成语的总比值比MHWZ高5.52%,而惯用语的总比值则比MHWZ低3.81%.③微博新闻中缩略语的总比值较高,这是由于受篇幅所限,微博新闻在语言上力求简练.而缩略语形式短小,恰恰符合了微博新闻篇幅上的要求.

微博新闻中成语的总比值高于门户网站新闻,而惯用语的总比值则低于门户网站.通常,成语多用于书面语体；惯用语多用于口头语体.

四、语法层面上的差异

我们选取词类、句长、破碎度和句类,作为微博新闻与门户网站新闻语法层面的语体标记.

词类

按照朱德熙（1982）词类划分标准,[7]我们将GFWB和MHWZ中的词划分为17个类别.我们对这17个词类进行了t-检验（置信区间取95%）.检验结果表明,GFWB中的代词、方位词、介词、连词、语气词、助词与MHWZ并无统计学意义上的差异,这6个词类在GFWB和MHWZ中的均值、总比值都很接近.也就是说,在词数相同的前提下,这6个词类的词型丰富程度在GFWB和MHWZ中相差无几,也许与这6个词类都属于封闭性词类④有关.检验结果还表明,GFWB与MHWZ中名词、处所词、时间词、区别词、数词、量词、动词、形容词、副词、拟声词、叹词的数据具有统计学意义上的差异.我们对GFWB和MHWZ中的这11个词类的总比值、均值和标准差进行了统计,见下表：

从表3来看,虽然名词、处所词、时间词、区别词、数词、量词、动词、形容词、副词、拟声词、叹词这11个词类的总比值差异较小,但是它们的均值差异较大.在总比值差异较小的情况下,均值越大,词型就越少.由此可知,微博新闻中这11个词类的词型丰富度均不及门户网站新闻.

值得注意的是,拟声词和叹词在GFWB中的总比值均为0,也就是说,在微博新闻中未出现拟声词和叹词.拟声词和叹词在MHWZ中的总比值分别为0.0044和0.0033.可以说,微博新闻和门户网站新闻中拟声词和叹词的总比值都很低.这也许是因为拟声词和叹词多用于口头语体和文艺语体,而微博新闻和门户网站新闻都属于新闻语体的缘故.我们对MHWZ中拟声词和叹词的分布情况进行了进一步考察,发现它们大多出现在直接引语中.

GFWB中11个词类的标准差均高于MHWZ.标准差反映了词型使用频率的离散程度,标准差越大,词型使用频率波动就越大.这表明GFWB中这11个词类的词型使用频率远不如MHWZ均衡,GFWB中11个词类的词频差距要比MHWZ大很多.词频差异越大,话题就越集中.这说明微博新闻的话题比门户网站新闻的话题更集中.人们大多认为书面语体中的话题相对固定,口头语体中的话题则往往不够集中.

句长

“长句中有较多的修辞成分,所以使用长句,就能够更准确、更严密地表达思想.也正是因为长句容量大,就可以对事物做详尽的描述”,[8]而短句“形体较小,字数较少,结构较简单等明白易懂,简洁有力,明快活泼”.[8]长句多用于书面语体,短句多用于口头语体.我们对GFWB和MHWZ中的句长分别进行了统计,见以下图表：

图1显示,在GFWB中,31至40字的句长所占比值最高；而在MHWZ中,则是11至20字的句长所占比值最高.GFWB句长的众数为38,MHWZ句长的众数仅为11.这些数据都表明微博新闻中的句子更长,更倾向于使用长句.

从表4来看,GFWB的标准差比MHWZ低7.7247,方差低352.701.标准差越低,句长分布越聚集；而方差越低,则说明句长分布越趋于平均值.这表明GFWB的句长比MHWZ更集中,且多接近句长平均值37.9365字（见图1）.由此可见,在微博新闻中,句长分布整齐,结构相同或相似的句子数量较多,而“句长相近、结构相似”的句子大多出现于书面语体中.

破碎度

“破碎度,是指一句话中停顿次数,即一句话的零散程度”.[9]阚明刚的研究表明,书面语体的破碎度要低于口头语体.破碎度计算公式如下：

破碎度等于（公式4）

我们将“句中停顿总次数”理解为句内点号的数量,将“语料中总句数”理解为句末点号的数量.根据黄伯荣和廖序东关于点号的划分标准和公式4,[10]我们计算出GFWB的破碎度为2.6,MHWZ的破碎度为2.9,即微博新闻的破碎度略低于门户网站新闻.通常书面语体的语言较为流畅,其破碎度往往低于口头语体.

句类

“句类是句子按照不同语气功能划分出来的类型.一般分为陈述句、疑问句、祈使句和感叹句”.[9]我们对GFWB和MHWZ句类的总比值进行了统计,见表5.

从表5来看,无论是在GFWB中,还是在MHWZ中,陈述句的总比值都远远高于疑问句、祈使句和感叹句.微博新闻与门户网站新闻都属于网络新闻语体,网络新闻的主要功能是传递信息、陈述事实,所以在微博新闻与门户网站新闻中,陈述句的数量比疑问句、感叹句和祈使句多.

表5中的数据还表明,GFWB中疑问句、感叹句和祈使句的总比值与MHWZ有较大差异.根据表5,我们计算出GFWB中疑问句总比值比MHWZ低49.76%,感叹句总比值比MHWZ低52.94%,祈使句总比值比MHWZ低85.13%.⑤我们发现这三个句类大多出现在直接引语中.显而易见,上述差异是由于微博新闻中的直接引语数量较少,门户网站新闻中直接引语数量较多而形成的.

结语

通过对微博新闻语体和门户网站新闻语体进行计量对比分析,我们得出以下几点结论：

第一,微博新闻与门户网站新闻都属于网络新闻语体,二者书面化程度都很高.微博新闻和门户网站新闻的词汇密度均在80%以上；拟声词、叹词的总比值都很低；而陈述句的总比值都很高.

第二,微博新闻比门户网站新闻更倾向于书面语体.微博新闻的

词汇密度、平均词长、成语的总比值均高于门户网站新闻；微博新闻中的词型例比、3字及3字以下词的总比值、惯用语的总比值均低于门户网站新闻；微博新闻中11个词类的词型使用频率远不及门户网站新闻均衡,即微博新闻的话题更集中；微博新闻中多用长句,句长分布比门户网站新闻更集中,也更接近；微博新闻中的破碎度低于门户网站新闻,直接引语的数量少于门户网站新闻.本文的不足之处主要有以下两点：第一,由于受到语言处理工具的限制,我们未能提取出语体的所有标记,因而我们所揭示的微博新闻语体与门户网站新闻语体的差异,只不过是冰山一角而已.第二,我们所选用的语料样本数量有限,这在一定程度上影响了统计数据的准确性.

今后,我们将扩大语料规模,探索出自动提取语体标记的方法,为语体研究尽绵薄之力.

注释：

①http：//ling.cuc.edu./cucseg/

②粗颗粒度与细颗粒度切分标准请参看《面向语言监测的自动分词标注规范研究报告》.

③计算公式为：差异等于×100%

④封闭性词类（closed-classword）的成员数目有限,变化较少,一般可以穷尽列举.

⑤计算公式为：差异等于×100%

微博与门户网站新闻语体的计量对比

一、引言

二、语料及研究方法

三、词汇层面上的差异

(一)词汇密度

(二)词型例比

(三)词长

(四)缩略语、成语和惯用语

四、语法层面上的差异

相关论文

微博对网络公民新闻影响

微博时代的公共新闻实践

微博考验新闻网站

政府门户网站微博

新闻英语的语体特征

微博时代的新闻采写

微博:军事新闻传播的新亮点

地方新闻门户网站门当户对才能转危为安

微博网站信息分类模式

推荐栏目

热门阅读