关键词:词语与词汇 词汇动态特性 词频累积百分比 高频词集中度
摘要:本文区分词语和词汇,词语是个别词,词汇是词语的集合体。过去讨论不同词汇的差异都只能列举词语的异同,无法呈现宏观的词汇特色。以断代词典所收录的字词来比较,也很难看出不同时代词汇的差异。本文考查'中研院'所收集的上古汉语数字资源、近代汉语数字文本、现代汉语平衡语料库、《唐诗三百首》、《宋词三百首》、北京大学标记的《人民日报》1998年新闻稿以及台湾通讯社1991—2002年所的新闻文字,论述词语成千上万,须要提炼出有意义的词汇特色来区别词汇异同。区别的关键在于词语的使用而不在于词语的有无,词语使用表现在语流或文本中。因此,本文所提出的词汇属性称为词汇动态属性。在语流中词语出现次数高低可以排序,从排序中可以从最高词频往下累积,得出词频在全部词语数目中的百分比。我们以词频统计中最高的15个词语的词频累积百分比作为高频词集中度,以高频词集中度当作词汇动态特性。从文本计算出来的词汇动态特性能清楚划分出所考查的古代、近代、现代、诗词和新闻稿的词汇属性。希望这个计量性质的词汇属性对今后的词汇研究有些助益。
语言学论丛杂志要求:
{1}摘要应能客观反映论文主要内容和观点,不加诠释和评价性文宁,具有独立性和自含性,一般不超过300字。
{2}来稿应具有科学性、创新性和实用性,研究设计及统计学方法正确,资料真实、数据可靠、论点鲜明、结构严谨、层次清楚、条理分明、详略得当。
{3}表格一律采用三线表形式,表内数据要求同一指标有效位数一致,表格内的各项标目除计量单位符号外一律用中文书写。
{4}注释要完整规范,至少包括作者(编者)、译者、文献题目、出版单位、出版时间(及杂志出版期号)、所引内容页码等信息;外文注释从其原有体例;引文出自互联网的,请注明题名、详细网址及访问时间。
{5}论文正文后附作者简介,格式参照:姓名(出生年月-),性别,籍贯,职称,学位,单位,研究方向,联系电话和邮箱。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社