期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

人口统计学变量分析模板(10篇)

时间:2023-05-16 15:18:18

人口统计学变量分析

人口统计学变量分析例1

中图分类号:G804.87 文献标识码:A 文章编号:1006-2076(2012)05-0068-05

职业压力问题在国外早已成为研究的热点,而我国关于职业压力的研究迄今尚未成熟,还没有形成特有的“本土化”理论体系。许多研究者对于职业压力问题的理解仍具有一定的局限性,认为职业压力和职业倦怠多发生于人际服务领域,因此研究对象主要集中于教师、护理、医生和管理工作者等职业[1-2],关于教练员职业压力问题一直被人们所忽略,相关领域研究较少涉及。通过检索CNKI中国期刊全文数据库和Elsevier Science外文期刊数据库,发现国内相关文献

甚少,国外研究也不多见。表明体育人力资源管理还未将教练员职业压力问题正式纳入研究。Maslach和Jackson(1984)[3]认为,持续的压力会导致教练员生理和心理上的精疲力竭,最终形成职业倦怠。Dingle(2002)[4]对印地安那州田径教练员的研究显示,性别对其感知到的职业压力无显著差异。而Acosta和Carpenter(2003)[5]研究发现,女性教练员因职业压力有较高离职意愿,得出工作性质、强度在传统性别角色分工影响下女性感知到更多的工作-家庭冲突压力。但同时Burrows(2002)[6]的研究表明,篮球教练职业压力在性别、婚姻和父母地位3变量上无显著差异,表现出结论的不一致性。我国学者顾海勇(2004)[7]认为,足球职业教练员承受的压力是多方面的,其中俱乐部方面、联赛成绩和名次、创新意识、知识水平和指挥能力是主要压力源。许欣(2007)等人[8]经调研证实收入水平高低与教练员工作-家庭冲突程度有显著性差异,积极渗溢和补偿行为对工作满意度有较强预测力。

以上关于职业压力的研究文献,对于研究和认识我国教练员职业压力问题,具有重要的启迪意义。然而,以往零散的教练员职业压力研究尚存在不少的缺憾及不足,具体表现为以下几个方面:1)研究背景:我国与西方的文化背景有着巨大差异,造成了东西方种族价值追求、伦理取向、职业压力等方面迥然相悖。因此,不能将国外的东西直接照抄照搬,而应该加强其“本土化”的研究,更加关注和加强职业压力特征在我国文化背景和组织管理模式下的研究,使以往研究成果与我国实际情况相结合,以真正揭示我国教练员职业压力的跨文化特征。2)研究方法:从依据的研究方法和理论基础看,由于知识及能力偏于一隅,其研究成果也仅是停留于局部定性的描述,或简单的数据罗列分析,缺乏深度及广度的领域拓展。3)研究类型:研究类型只是研究者主观思想观点的阐述和经验总结,而系统的理论分析和实证研究较为匮乏。4)研究内容:研究内容多为现状认识和观点陈述,侧重于表面层次的分析和探讨,特别是研究范围仅局限于工作组织和个体职业压力或职业倦怠一个单独变量上,显得比较片面单一。本研究运用心理学、社会学、管理学的理论,通过问卷调查对山东省“优秀运动队后备人才训练基地”教练员职业压力以及人口统计学变量的差异特征进行实证探究,以希为今后体育领域个体或组织进行压力管理提供理论依据。

研究对象与方法

1.1 研究对象

根据研究内容和样本采集的可行性,本研究主要在山东省济南市体育运动学校、青岛市体育运动学校、烟台市体育运动学校、新泰市业余体育运动学校等59个“优秀运动队后备人才训练基地”(主要考察基层和中层运动队教练员)随机分层抽取278名教练员为被试进行量表的测查;项目包括田径、游泳、举重、摔跤、柔道、跆拳道、拳击、体操、乒乓球、排球、篮球、足球、自行车、射击、帆船帆板、赛艇皮划艇、武术散打、武术套路、手球、射箭、跳水共21个项目。共发放问卷400份,回收312份,经筛查剔除其整份问卷答案成规则作答的,或一个题项选取两个及以上答案的,以及整份问卷漏答题目≥2个的,最后得到有效问卷278份。其中,男性205人,女性73人;年龄30岁以下81人,30岁~40岁109人,41岁以上88人;已婚217人,未婚61人;具有大专学历97人,本科及以上学历181人。

1.2 研究方法

1.2.1 研究工具

1.2.2 数据处理

运用SPSS12.0软件对收集的数据进行探索性因素分析、信效度检验、描述性分析、独立样本t检验、单因素方差分析、事后多重比较等。

2 结果与分析

2.1 竞技体育教练员职业压力总体现状分析

人口统计学变量分析例2

1 个案与群体

〔实例1〕某调查报告称,某村2001年出生婴儿10人,其中男婴6人,女婴4人,出生性别比高达150,严重失调。

〔实例2〕某乡给某村下达人口计划,其中一项指标是计划生育率,要求当年的计划生育率不低于95%,而该村一般每年出生不足20人。

〔实例3]某地计生委根据群众举报,查出某县一个超生5胎的情况,据此称该县超生问题严重。

〔实例4〕某县总人口不足50万人,近年来在孕妇中推广服用“福施福”。上级要求检查服用“福施福”后,人口缺陷发生率是否逐年下降。还有不少地方把孕产妇死亡率是否逐年下降当作生殖健康服务工作的考核内容。

这几个例子所出现的问题都是以个案或少量发生的情况,说明一个地方宏观的情况。人口和计划生育统计所分析的对象(人口)或事例具有群体性,这个群体是由每个个体的人或事件集合而成。每个个体是否发现这种现象是偶然的,作为表现群体规律的统计数据,只有当群体具有相当的规模后才有意义。群体的规模太小,尽管对每个个体的统计是准确的,指标的计算也是正确的,但计算结果并不能客观地反映群体的规律。

如实例1,一个村的出生人数仅为10人,计算的出生性别比要么是100(“绝对平衡”),要么就是男女比例严重失调。实例2中计划生育率受出生总数的影响,要么计生率正好100%,只要有一个计划外出生,计划生育率就低于95%。例4涉及的出生缺陷发生率或孕产妇死亡率一般统计时均以10万作为分母,对于一个县,每年出生几千人或1万多人,即使按照出生缺陷、孕产妇死亡发生的平均水平,每年也只有几例,偶然性很大,在统计数据上很难表现为逐年下降。至于例3,以一个特例说明全县的情况,更是欠妥。各种人口和计划生育统计教材上并未说明各项统计指标适用的人群至少要达到多少,但一般说来这些统计指标绝大部分不能用于分析规模在几百人到一千多人的村级情况,许多指标在县、乡级使用也不太合适。多年来各级是通过报表收集人口和计划生育统计数据。报表由上级制发,基层单位按统一的口径填报每个项目,然后逐级汇总、上报。这样以来,上、下级的报表式样相同,只是数量大小有差别,于是,上级单位计算哪些指标,下级单位“照葫芦画瓢”计算相同指标。特别是实行人口与计划生育目标管理责任制后,各项工作任务和责任要逐级分解、落实,相应地,工作指标也被层层分解,上一级控制的指标(如出生率、计划生育率)也被一直套用到基层单位。在这种情况下,群体性的要求很容易被忽视。

2 自然属性与社会属性

〔实例5〕1995年8月,在全国上半年人口形势分析会上,某省计生委分析本省当年上半年二孩出生数量比上一年同期减少的原因时称,由于自当年起全省广泛推行“三结合”,许多群众为了发家致富,主动退出二孩指标,于是二孩出生明显减少。笔者的同事立即对此理由提出了置疑:既然是主动退出二孩指标导致二孩出生减少,那么原来应在1995年上半年生育二孩的妇女至少在1994年上半年就应退出二孩指标,而那时候,该省并未开展计划生育“三结合”;至于1995年上半年开展“三结合”后退出的二孩指标,其二孩出生减少的效果应在1996年以后才能表现出来。群众退出二孩指标与二孩出生数量的减少在时间上出现了“矛盾”。

〔实例6〕许多文章分析妇女受教育程度越高,生育的孩子越少。

这两个例子说明分析人口出生数量的变化应考虑人口的自然属性和社会属性。人口首先是生物意义上的人口,具有自然属性,同时,人口生活、存在于一定的社会环境中,具有社会属性。人口现象的发生既受自然属性的影响,也受社会属性的影响。从根本上说,社会属性对人口现象的影响和制约是有条件的、间接的。而自然属性的影响和制约是无条件的、直接的。社会属性的影响和制约常常要通过自然属性来实现。在分析人口现象的时候,首先要解释人口的自然属性,然后再解释社会属性。就实例5而言,从妇女退出二孩指标到二孩出生减少,至少间隔10个月,即妇女的怀孕期,无论推行“三结合”力度多大,妇女10个月的怀孕期不能缩短。退指标的发生与出生数的减少在时间上不“同步”,至少要“滞后”一年。也就是说,1995年上半年因开展“三结合”妇女退出二孩生育指标不会影响这个时期的二孩出生数量。关于实例6,一个人的受教育程度属于社会属性,妇女受教育水平提高,的确会影响其生育行为。然而,影响生育的自然因素,直接因素是避孕节育行为,具体地说,影响生育的生物因素包括推迟结婚(不发生性行为)、采取避孕措施和流产(终止妊娠)。妇女文化程度影响到上述生物因素发生变化(如文化程度高,能够更好地掌握避孕知识,可以提高避孕的有效性,减少怀孕的可能),并通过上述因素影响生育孩子的数量。直接讲文化程度与孩子数量的关系,未免有些牵强。

3 定量与定性

〔实例7〕各地每年都要分析当年的人口形势,将当年的数据与上一年的数据进行对比。许多分析报告在列举了对比数据后得出结论:“今年的工作比上一年有明显的进步,取得了巨大的成绩,上了一个新台阶”。但如果我们仔细察看各项指标的数量,发现变化并不大,如计划生育率由88.5%上升到89%,出生率由15.4‰下降为14.9‰(这其中由于人口年龄结构的变化也能导致出生率下降),多孩出生由165人减少为149人,多孩率由2.2%下降为2%等等。根据这些数据的变化,得出的定性结论应当是:“工作稳步发展,人口增长保持平稳的态势”。人口和计划生育的统计分析主要是指对数据的分析,并由“定量”的描述引申到定性的判断。如果忽视定性的分析,那么,所谓定量分析不过是数量变化的文字描述而已。把握好定性分析的关键在于,定性分析应以定量分析为基础,即“定量”在前,“定性”在后。那种先“定性”,再计算数量变化的做法,违背了“定量”与“定性”的基本规律。这样进行的定量分析,只是给定性的结论加一些数量的点缀。

4 模糊和精确

〔实例8〕某地区的一份材料称,根据20年来每年总和生育率的变化,推算本地区20年来少生了1831275人。

〔实例9〕某县计生委利用农村赶集日人口比较集中的机会,出动服务车,设置咨询台,向群众宣传计划生育知识,提供咨询服务。县计生委的汇报材料称,“一个月来在集日上接受宣传、咨询的群众累计达到127328人次”。

乍一看,实例8和实例9中的人数和人次数的统计和计算十分认真仔细,数字如此精确,令人钦佩。但转念一想,不免生疑:实例8中利用总和生育率计算少生人口,需要以年龄别生育率与分年龄妇女人数相乘计算出生人数,一般来看,每个年龄组的计算结果都不会是整数,只好四舍五入。每一年若干个年龄组累计下来,个位数已经含糊不清了。再把20年的少生人数累计起来,怎么可能精确到个位数呢?况且20年间,该地区的人口并非处于“封闭状态”,各年龄组人数因为人口迁移而变化,也会影响到计算少生的数量。至于实例9,在一个开放的、人们频繁走动的集市上,如何判定哪个人接受了宣传,哪个人接受了咨询,并没有一个客观的标准;即使有标准,实际操作中也很难把握,因此,根本没有可能逐人统计。实例8、实例9中看似精确的数据令人感到滑稽,倒不如模糊一些,说“20年大约少生了18万人”,“一个月在集市上接受了计划生育宣传、咨询服务的人次达10余万”,或许有几分可信。从某种意义上讲,人口和计划生育所涉及的是宏观层面的事情,与此相应的统计数据所反映的是大致的状态或趋势,没有必要也没有可能做到精确。许多同志在应用统计方法时,往往注意的是方法本身的定义和计算过程,而对计算中数据的来源不了解。人口和计划生育统计属于社会经济统计范畴,很多数据是通过抽样调查获得,允许有一定的误差;即使是全面的调查(如人口普查、全局报表),在实施过程中,也会遇到这样、那样的干扰或影响,存在着调查误差,这是无法完全避免的。从某种意义上讲,数据存在一定的误差,这是人口和计划生育统计的特点之一。

5 原因与结果

〔实例10〕最典型的例子莫过于“人口出生率每降低1个千分点,人均gdp提高多少个百分点”的说法。这种说法的依据是利用相关分析法对全国各省的人口出生率和人均gdp的数量变化进行计算,得出二者之间的函数关系式和相关系数。把人口出生率作为自变量,看自变量的单位变化影响因变量(人均gdp)变化的数量大小。

在这个例子中相关分析法本身以及有关的数据都是正确的,然而,用这样一个函数式来解释人口增长与经济增长的相互关系是有问题的。其一,就统计方法来说,相关分析只反映变量之间的相关关系,而不说明因果关系;其二,人口增长与经济增长固然相互影响,但从本质上来说,是经济发展影响人们的思想,进而影响人们的生育行为,最终导致生育率下降,人口增长率降低,即经济增长是“因”,而人口增长是“果”。颠倒了因果关系,不仅逻辑上讲不通,数量上的“相关性”也失去了意义。

笔者在多年的工作中体会到,由于人口和计划生育所具有的特点,人口和计划生育统计分析方法的应用和统计数据的解释有别于其它部门和领域对于统计的一般要求。正确地应用统计分析有助于我们认识人口和计划生育的特点和规律,只有科学地认识和把握人口和计划生育的特点和规律,才能避免在统计分析中陷入误区。

社会科学实证研究中的统计分析方法应用

郑真真 (北京大学人口研究所 副教授)

统计学的应用随着微型计算机的普及越来越广泛,在社会科学实证研究中几乎是无处不在。有了一定规模的数据和一个统计分析软件,就可以很方便地进行各种估算和分析。然而由于统计分析方法本身并不像加减乘除那样简单,而一些统计分析软件已经发展到几乎是人人都可使用的程度,如果使用者在只知其然不知其所以然的情况下操作并得到结果,可能出现对统计分析方法误用或滥用的现象。本文仅对一些统计分析中比较常见的问题进行讨论,以引起各方面的重视。

1 描述性统计

描述性统计是社会科学实证研究中最常用的方法。准确、全面、正确的描述是所有实证分析的基础,如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将是值得怀疑的。一项研究能够将所研究的现象或对象描述清楚,就是一个极大的贡献;而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。但是因为描述性统计所用方法简单易得,往往没有得到足够的重视。

均值的局限 普遍用于描述样本集中趋势的测量之一是均值。它对于近似正态的对称分布样本来说是比较好的测量,对于不对称分布则不然,尤其会受到极端值的影响。两个分布完全不同的样本可能会有相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要我们进行深入研究的、或应当引起人们注意的。为了弥补均值的这个缺陷,一般在报告均值的同时也报告方差,或用直方图/散点图的形式描述分布,以提请读者注意群体内部的差异。

不同群体的可比性 在描述性统计中,往往涉及到对不同时期或不同人群的总体描述,以反映社会变化或地区差异。在社会科学中、尤其是人口研究中,不少事件的发生都是与年龄密切相关的,如我国妇女大部分在35岁以前完成了生育,从而导致35岁以上育龄妇女中极高的避孕现用率。在这种情况下,两个样本之间存在避孕现用率的差异可能只是年龄结构的差异,而不是年龄别避孕现用率的差异。又如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,但忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群。这种对两个不同群体的比较往往会导致错误的结论。

绝对数的使用 由于中国人口数量巨大,调查研究也比较容易得到大容量的样本,所以对任何小概率事件用绝对数报告都会出现惊人的巨大数字,单纯对绝对数的强调往往会产生戏剧性的效果。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究人群的比例。

小样本的代表性 在一次抽样的小样本中求得的率或比例会非常不稳定,与另一次抽样的结果可能会有较大差距。因此当研究仅限于从小样本获得的资料时,应当在报告比例的同时也报告样本量。

2 双变量统计分析

在社会科学研究中,首先分析的往往是两个变量之间的关系,如用相关或列联表等方法。一般在确定两个变量之间确实有某种关系,如在经过统计检验后证实两变量有显著相关关系,进行更进一步的分析才有意义。因此,双变量统计分析在实证分析中占有重要地位。但是,由于在应用中对有些问题的忽视,双变量统计分析也很容易出现偏差或错误。

卡方检验的局限 在利用列联表对两个定序/定类变量进行相关分析时,需要进行统计检验来判断两个变量的相关是否有统计上的显著意义。不少研究结果都用卡方检验的显著性报告相关状况。但值得注意的是,卡方统计量的计算本身是有局限性的,样本越大,卡方值就会相应增大,因此大样本的卡方检验很容易得到显著结果。所以一般在报告卡方检验结果以说明两变量是否显著相关时,还应当同时报告相关强度,即相应的相关系数,如gamma,lambda等。

统计意义上的显著与差别的实际意义 在检验两个定距变量的均值差别是否具有统计上的显著性时,也存在相似的问题。由于样本量越大,样本均值分布的方差就越小,因此常用的t检验结果就越可能显著,任何细微的差别都可能有统计上的显著性。但有时具有统计意义显著性的差异,在实际生活中可能意义并不大,如同在两个草堆之间找出一根草的差距,对判断两个草堆的大小没有实际意义。因此,对任何检验结果都应当有符合实际的解释和说明。

虚假相关问题 双变量分析中的虚假相关问题,几乎在所有关于社会科学研究方法的教科书中都会涉及到,在统计分析方法的教学中也被视为经典问题。但是多少年来,人们仍然在不断地重复着这个“经典的错误”,即认为可见的或统计检验结果显著的相关就是真正的相关;更为大胆的做法是把这种相关关系推向因果关系。我们知道,对于有的变量来说,即使是经过检验判定两者具有统计上显著的相关关系,也不一定存在实际意义上的关系,因为可能有未考虑到的变量或不可测量的变量在同时对两个研究变量起作用,有时甚至可能完全是偶然的巧合。例如,火灾的大小是以火灾损失来衡量的,而参加灭火的消防员人数是与火灾大小有关的,火灾越大,出动的消防员就越多,但凡是具有常识的人都不会根据出动消防员人数和火灾损失两个变量之间的高度相关,断定出动消防员越多火灾损失就越大,因为火灾的规模是决定因素(但很难直接衡量)。在有关人口科学研究中也有报告虚假相关的现象,如人口增长率的降低导致了经济增长的提法就是一例。因此,在分析相关关系时,应当根据理论、知识、经验、甚至常识来判断这种分析是否有意义、是否存在其他变量的作用(称为外在变量),避免得出有悖于常理的分析结果。有些虚假相关是可以通过统计分析方法判别的,如在控制了另外一些变量后观察两个变量的偏相关,或在双变量分析的基础上,进一步用多变量分析深入研究。

3 多变量分析

回归分析是多变量分析中应用最多的方法,尤其是逻辑斯蒂回归更是被广泛地应用。在众多应用中,比较明显的问题是使用方法是否得当和对结果的报告和解释是否规范、合理(见2002年第2期《人口研究》刘金塘文)。此外还有一些应当引起注意的问题。

分析框架的重要性 在社会科学研究中,各变量之间往往存在错综复杂的关系,如果在进行回归分析之前没有一个清晰合理的分析框架,那么回归的结果有可能会引起质疑。一般应在报告回归分析结果之前,介绍该分析的框架,如各变量的定义、各自变量与因变量的假设关系及其理由等,对建立的回归模型做出合理性论证。有一些变量可能是作为控制变量纳入回归模型的,如性别、年龄等,最好事先解释清楚。对假设因果关系的模型,应当至少能够说明:(1)该因果关系在理论上是正确的、在实践中是合理的;(2)从事件发生的时间上来说,应当是原因发生在先、结果发生在后。如有些回归分析中,未加说明即把所有与因变量显著相关的变量都囊括在自变量中,甚至有些自变量与因变量有明显的互为因果关系,显得分析逻辑混乱;还有的论文在简单介绍研究背景和数据来源之后,急于建立因果关系并推出回归分析结果,然后再根据各变量在回归模型中的显著性一一说明,这相当于事后解释;这些做法都是错误的。

在具备“奔4”微机和较易操作的软件的今天,转瞬间就可完成一次回归分析,但是在此之前,需要有大量的前期准备工作,包括文献检索和理论框架构建,才能确保统计分析的科学性。

分析方法应用的条件 每种多变量方法都有各自的前提条件或假设,如果这些条件不具备或者假设不成立,该方法的应用就成问题。如pearson相关是考察线性相关关系,多元方差分析只能辨别线性相关因变量的多元差异,线性回归分析假设自变量与因变量之间为线性关系,因子分析方法也是建立在各变量具有一定的线性相关基础之上的;另外,在逻辑斯蒂回归中,每个分类都应保证有足够的频数,如果频数太少就会影响参数估计的稳定性;等等。尽管一般不在报告分析结果时说明各种假设是否成立或条件是否满足,但是在进行分析时应当自觉地进行考察。如果不能满足条件或假设不能成立,就对数据进行转换或调整后再分析,或者改变分析方法。

多变量分析结果的展示和解释 多变量分析的结果一般是通过列表来展示的。现在一种并不少见的做法是直接把统计软件的输出直接复制到论文中,我们往往会在文章中看到包括回归参数估计、参数标准差、检验统计值、检验显著性、偏相关系数等等n行m列的大表,使人有目不暇接的感觉。实际上参数标准差和检验统计值是提供给分析者的信息,没有必要列在结果中;如果不是有特别需要的话,偏相关系数也不是关注重点;最主要的应当是回归参数估计及其显著性。

在列出分析结果之后,应当对结果的实际意义进行解释和讨论,而不是复述分析结果的数学意义。此外,在多元统计分析中一个常见的问题是分析者对变量作用不具有预期统计显著性的失望,因此绕开不显著的变量,甚至对数据或模型进行各种调整以获得显著结果。其实,统计分析结果不显著往往也是有实际意义的。例如在分析我国高龄老人的地区分布时发现,高龄老人比例与当地医疗卫生指标没有显著关系,这说明我国医疗系统还没有具备延长老人寿命的功能;另一方面也说明这些高龄老人的存活不是主要靠医药维持的。所以,在解释分析结果时,只要是在分析框架中涉及并参与分析的变量,无论作用显著与否,都应当给予充分的讨论;对于那些由于知识或信息的限制难以下结论的结果,可以作为问题提出,以便进行更有针对性的进一步研究。

此外,任何方法都有其局限性,分析结果也不会十分完美。因此在讨论结果的同时,也应当就此向读者说明。例如当一个多元线性回归分析的确定系数较低时,需要指出该模型有限的解释能力,探讨可能存在但没有纳入分析的更重要的影响因素。

不必求最新、只求最合适 有些研究生在撰写学位论文时,常常因为自己没有应用最新的统计分析方法而感到忐忑不安;在评论某项研究的创新性时,有时也出现把学术创新和应用新方法混为一谈的现象,例如认为应用描述性统计方法的研究水平低于应用解释性或预测性方法的研究。新方法是层出不穷的。但是,出现了新方法并不意味着传统方法就不再适用,而是各有千秋。统计分析方法是工具,哪件合适就用哪件,能用锤子解决的问题不必开冲床。有时越是复杂的方法,假设条件也会相应较多,应用的局限性更大。因此,盲目追求方法的新颖并不是高水平研究的保证,真正需要注意的是使用最合适的方法。而对所用方法的真正了解,是正确运用统计分析方法的前提。

总和生育率的内在缺陷及其改进

郭志刚 (北京大学社会学系、北京大学中国社会与发展研究中心 教授)

1 总和生育率的应用目的及评价原则

年龄别生育率及其概括性指标总和生育率(tfr)是生育研究中最常用的指标体系。但是现在它们面临很多实际问题。本文不讨论出生漏报导致统计失实的问题,因为其性质并不在于统计方法,而是一个社会问题。本文只局限于这一指标体系内在的有效性问题的方法论讨论。一个指标是否有效应该以研究目的为标准来判断,因此这一讨论将结合当前实际工作的需要来进行。

统计指标有两种功能:一种是对调查对象本身特征的直接描述,另一种则用于推断估计。很多情况下,统计指标同时承担着这两种功能,比如样本统计量反映了样本对象的特征,同时又服务于推断估计总体参数。既然是一种估计,自然会有推断偏差或误差。评价不同估计的优劣是看谁的偏差或误差更小。

那么通常我们应用tfr到底要反映什么?一是为了在控制育龄妇女结构的条件下概括时期生育水平,二是作为终身生育水平的估计。(注:在这一方面,总和生育率与人口的粗再生产率和净再生产率的性质类似,后两个指标中只不过又控制了下一代的性别和死亡因素的影响而已。)两种性质都反映在各年龄组生育率的合计上。通常,不同基数的相对数指标不可以直接相加(注:如男性平均年龄加女性平均年龄没有意义。)。为什么年龄别生育率可加,是因为设置了假设队列的概念。tfr主要不是平均的概念(注:早期将其翻译为平均生育率的确是错误的。至于年龄别生育率对妇女其他差别所做的均质假设,其实存在于所有汇总指标之中,而不论其分组有多细,但是都不会因此而称为“平均××率”。),而是总和的概念(即假设队列经过所有年龄后生育总和)。因此,tfr一身兼两任,其内容为时期生育率总和,其形式为队列终身生育水平。从前一种意义上使用时描述了该时期生育水平,从后一种意义上使用时则是假设队列终身生育水平的估计(注:但这种估计从原理上不同于一般统计量从样本推断总体的情况,但有关评价原则却是类似的。)。其值实际上涉及了35个实际队列,并且只有在生育水平及年龄模式长期不变的苛刻条件下,它才真正与实际队列终身生育水平相吻合(但是队列仍是泛指的)。尽管这一假设队列与真实队列并不能很好对应,但起码可以及时提供一种队列终身生育的估计来满足实际需要。

2 缺陷一:总和生育率对终身生育水平的背离

表现a:最早对tfr的批评是由于其剧烈的时期波动。一逢时期突发事件(如中国1958~1961),实际生育量发生了变化,tfr就会大幅度下降。应该说,批评并不是指向其描述时期生育水平的功能,而是指向其作为终身生育估计的功能。因为,这时tfr的下降只是由于时期特殊原因影响,并不意味着终身生育水平真的下降。实际上,时期效应一过,tfr马上便会出现反弹(即常说的生育补偿),然而反弹的水平也并不能标志终身生育水平真的那样高。总之,tfr短期内剧烈波动时,将其作为终身生育率估计来理解很成问题。其中最引人注目的是,反弹年份的分孩次tfr(i)会超过1,特别是一孩tfr(1)会大大超过1(注:1982年全国1‰人口生育率抽样调查数据显示(姚新武,1995),1963年tfr=7.463,其中各孩次tfr都大于1,最高的是tfr(1)=1.568。作为队列估计,即是说每人生育一个半一孩,显得很荒唐。)。人口统计学对此采取的对策是,避免采用这些年份的tfr来作为终身生育水平的估计,或者采用若干年份的tfr的平均值来作为终身生育水平的估计,希望将欠年与盈年的误差相抵消。

表现b:然而,有时即使社会中似乎并没有什么特殊事件,tfr也会背离终身生育水平。但是,往往只是在tfr提高时才会受到一定关注(注:如1983年左右中国人口学界对tfr的讨论。)。理论分析可以证明,这种背离既可以是正的,也可以是负的。特别是在负偏离的情况下,往往可能持续较长的时间。并且,这种负背离实际上正是当前所面临的实际情况,因此特别需要重视。

这种背离产生的原因是婚育年龄的变化,或者说是队列的年龄别生育模式的改变。而负偏离则对应着婚育年龄的推迟。与时期突发事件对婚育年龄的推迟的暴发性影响不同,生育模式的自身转变具有较长时期的持续性、变化上的渐进性、现象的隐蔽性等特征,并且它并不一定伴随生育补偿现象。甚至有时人们根本没有意识到这种偏离的存在。

人口统计学早就揭示出,晚婚晚育可以延缓人口增长,但这是从长期人口发展的角度来证明的。而晚婚晚育对年份tfr有什么影响,则很少有人涉及。从理论上说,取得同样的终身生育总量,可以有不同的进程表。即假定各队列的终身生育数量不变,从某一时期开始各队列的生育年龄开始推延,这一过程可以持续较长一段时期,直至最终稳定在一个新的生育模式上。我对此做过一些模拟计算,在这种情况下,生育模式转变时期中每年的tfr一定会低于事先所设的队列终身生育量,而这段时期两端及以外各年份的tfr则可以等于事先所设的终身生育水平。这表明,即使将整个转变过程或更长时期中各年的tfr都加在一起平均,得到的还是—个偏低的终身生育估计。

更普遍的情况是生育模式的变化与终身生育量的变化同时发生,这时tfr下降同时受这两个因素变化的影响,由生育模式变化导致tfr对终身生育水平的偏离便较难分析。

实际问题:实际工作需要不允许我们等很多年再提供真实队列终身生育统计,而现在只有tfr一种估计方法,并且我们知道tfr还会经常偏离队列终身生育水平,因此急需寻找一种更好的估计来取代它。否则尽管当前tfr的值虽然很低,即使不论统计失真问题,我们也不知道这是否仅仅反映tfr发生了负偏离,那么我们凭什么肯定生育率已经下降到更替水平了。我们又怎么能知道,当生育年龄推迟告一段落时,tfr向终身生育水平回归时会回升多少。要知道更替水平的真正概念是实际上某队列与其终身生育后代数量的比(注:从这个意义上,净人口再生产率等于1仅是一种时期估计的标准,并且也服从上述偏离,并不是真正的更替水平。)。

有关改进:bongaarts和feeney(1998)提出了去进度效应总和生育率(tfr')。该方法旨在提供一种根据时期数据对终身生育水平的较好估计(注:bongaarts和feeney(1998)警告说,这一方法不适用于那种特殊时期效应(即重大灾害等)的年份。)。郭志刚(2001)对此进行了介绍,并用中国多年生育数据对该方法进行了检测和评价,结果是tfr'作为终身生育水平的估计的确大大优于tfr(注:郭震威(2000)认为tfr'不伦不类,既不是时期生育指标,又不是终身生育指标,是个尴尬的指标。我认为,它只是应实际需要而产生的另一种根据时期生育信息对终身生育水平的新估计而已,其实这没有什么可尴尬的。统计中凡是不能直接测量的时候,都得采用估计来代替。真正有意义的问题是,它是否比传统tfr更接近于终身生育水平。)。

该方法基本原理可以这样来理解:现实中生育模式转变时,除了导致该年生育数量有所变化以外,还会有其他共生现象,如分孩次的平均生育年龄(maci)也会变化(注:bongaarts和feeney(1998)强调要用分孩次的平均生育年龄,而不能用总的平均生育年龄,因为后者会抹煞实际变化。)。maci实际上是生育模式转变的测量值,可以在理论上建立其变化量与时期生育变化量之间的函数关系。tfr'便是在常规分孩次tfr(i)的基础上利用maci的变化信息来调整,得到去进度效应的分孩次tfr'(i),然后再汇总为tfr'。经过调整,tfr'可以在相当程度上修正tfr距终身生育水平的偏离,因此tfr'更接近于队列终身生育水平(这里队列仍是泛指的)。也就是说,我们可以用tfr'来替代tfr原来所承担的终身生育估计的功能,而tfr还可以继续承担描述时期生育水平的功能,tfr'与tfr之差可以作为生育推延对当前生育水平影响的估计(注:我曾当面请教bongarts,问tfr'方法是否可应用于预测模拟,他毫不犹豫地回答说不能。)。

我认为,尽管tfr'指标还有继续改进的余地(注:比如某一年的maci的计算还要前一年和后一年的数据,因而多少丧失了一点及时性。然而,我自己曾尝试过另外的计算,比如只用前一年和当年两年的信息,调整的结果也并不差。),但显然bongarrts和feeney为解决这一估计问题指出了极富于科学价值的方法论途径。并且,这一新指标不仅可以用于监测队列终身生育水平,也可以用于分析以往的生育数据(郭志刚,2000),帮助我们更好地理解我国的生育转变史和计划生育史。

3 缺陷二:总和生育率不能控制育龄妇女的孩次结构

对某些重要因素进行统计控制可以为不同年份或不同地区的比较提供更大的可比性。尽管tfr控制了育龄妇女的年龄结构,但是它并没有控制育龄妇女的孩次结构。然而,当前许多人口模拟研究都不能再忽略育龄妇女的孩次结构问题,否则会有损其研究结果的有效性(注:比如,与调整生育政策相联系的人口模拟如果忽略现有一孩的妇女人数,便无法计算由于多年积累在一孩的这批妇女在政策调整时将产生的特殊生育效应。另外,有关生育政策后果方面的研究(如四二一家庭结构)也有类似问题。)。

问题的表现:实际上生育过程是严格的递进事件,也就是说,只有未生育者才能生育一孩,只有生育过一孩且尚未生育二孩者才能生育二孩。而常规生育率则是以年龄别所有妇女总数作为基数,因而没有容纳育龄妇女的曾生孩次信息,也就不能控制曾生孩次这种结构影响。因此,比较孩次结构差别较大的年份或地区之间的年龄别生育率(或tfr),便不能区分其差异到底是出于生育水平不同还是出于孩次结构不同。当其用于人口预测模拟时,如果假定两地区育龄妇女年龄结构相同,同样的系列生育率的假设会导致孩次结构十分不同的地区(代表着不同生育政策类型)将会有相同的出生人数,显然这严重地偏离实际情况。因此,面对当前的许多研究需要,基于年龄别生育率的tfr方法无论是用于比较分析上还是用于预测模拟,都会影响其结果的有效性(注:至于分孩次的年龄别生育率,只是对分子(即出生)划分了孩次类别,但是并没有对育龄妇女本身划分孩次结构。其基数没有控制孩次结构,因而从本质上说也没有控制孩次结构。)。

替代方法的产生:实际上,计划生育采取了分类指导原则后,便产生了多种生育政策类型,其显著特征便是孩次控制上的不同。在不同地区实施不同政策时,育龄妇女的孩次结构便取得了越来越重要的意义。从这一角度出发,导致feeney(1985)和马瀛通等(1986)分别以不同思路创建了孩次递进生育指标体系。

他们的共同点在于采用孩次递进比作为生育测量的基础来构建指标体系。如前所述,每年的出生可以划分孩次。如果再将某一群体生育指标的基数由对应口径的年中妇女总数换成年初对应(即前一)孩次妇女时,便称为孩次递进比(注:实际上可理解为一种概率,如本年年初某年龄组(或孩次间隔组)只有一孩的妇女中在本年生育二孩的比例。)。然后,还可以将孩次递进比换算成递进总和生育率。

feeney的模型突出地考虑了孩次递进间隔因素,不考虑年龄结构,因而常被称为间隔递进模型。而马瀛通等的模型则突出地考虑了年龄递进因素,因此常被称为年龄递进模型。

这两种方法不仅可用于在控制妇女孩次结构条件下的比较分析,也可以用于预测模拟(注:应该指出,其实中国人民大学人口研究所的老一辈人口学家早在1970年代所自行创建的标准(或可变)生育率预测法中也已经包含了控制孩次结构影响的思想(刘铮、邬沧萍、查瑞传,1981)。)。递进方法不仅可以在预测中控制孩次结构,而且应用于模拟预测时实际上比常规生育率方法更方便(注:这里的方便指,它只需要每年期初妇女的孩次别人口数便可以直接乘以递进比便得到对应的生育量,而不需要再计算其中妇女人数。)。由于递进比的概率性质,还能根本避免孩次别总和生育率出现的那种超过1的现象(注:尽管如此,bongaats和feeney(1998)认为这一类应用生命表方法的生育指标仍然没有真正控制生育进程变化的影响。)。

主持人评论

本期论坛邀请的三位专家都有多年从事人口统计和数据分析的经验,对人口学研究方法有很深的造诣。王谦副司长通过从多年工作中积累的大量实例,分析了在人口和计划生育工作中经常发生的统计方法和统计数据被误用的情况;郑真真副教授则对统计分析中比较常见的问题进行丁独到的分析和总结;郭志刚教授对总和生育率指标进行了深入全面的剖析,分析了其内在缺陷和改进方法。

王谦副司长通过10个典型实例说明在人口和计划生育实际工作中,统计方法和统计数据在五个方面经常被误用。这五个方面的问题有些属于统计分析中容易犯的错误,带有普遍性,如,错误地解释变量之间的因果关系,在统计分析中忽视定性分析与定量分析的关系,结论不是由统计分析中得出,使得定量分析只是定性结果的一种点缀。有些问题则由于人口与计划生育领域的特点而显得更为严重,如他指出的,大部分人口和计划生育统计指标在村一级或县、乡不适用是因为总体规模不够。统计所研究的是总体的数量关系而不是个别的数量关系,所以统计指标在一定的总体规模下才有意义,这是统计学中的基本概念,但是在实际中却经常被误用。我们经常看到的错误都是统计学上的一些“基本概念错误”,而不是“高深错误”。统计学上的概念和方法可能很简单,也容易理解,但是要在实际工作中正确地、恰如其分地运用并不容易,需要结合研究对象的特点。

郑真真副教授从另一个角度对描述性统计、双变量统计和多变量统计分析中经常被忽视的问题进行了讨论和分析。她不仅指出了问题的所在,而且告诉大家应该如何做,她所讨论的内容是大部分统计教科书上所没有的,具有很大的实用性,对于正确地应用统计分析方法具有很大的指导意义,具体的问题这里就没有必要再评述了。她的分析源于多年教学和科研工作的总结和升华,很多观点具有独到性,如对描述性统计的重视,多变量分析结果的展示和解释,不必求最新、只求最合适的方法。

王谦和郑真真从不同角度对统计分析和统计数据应用中出现的问题进行了分析,郭志刚教授则对人口统计中的一个重要指标-总和生育率进行了深入分析。他指出指标是否有效应该以研究目的为标准来判断,他从总和生育率对终身生育水平的背离和不能控制育龄妇女的孩次结构这两大缺陷出发,对问题的表现形式、实际工作中的需求以及改进方法进行了分析和介绍,其中渗透了他自己近年来对这一问题的研究结果和体会。我看完他的文章觉得获益匪浅,如90年代以来中国的人口调查所得到的总和生育率指标都非常低,这里面有统计漏报的问题,也有总和生育率指标自身的缺陷所带来的问题,在婚育年龄推迟时,总和生育率会低估终身生育水平。在以往的人口学研究中,对方法论的讨论和重视是不够的。研究方法的创新源于实践的需求,面对21世纪更加错综复杂的人口问题,我们需要研究方法的不断创新与发展,这是目前我国人口科学发展面临的一个巨大挑战。

三位专家的分析和讨论有很大的实用性,值得从事人口和计划生育的实际工作者和学者认真学习,但是毕竟他们不可能把所有的问题都归纳概括全面,这也不是本期论坛的初衷。我们希望通过本期论坛起到抛砖引玉的作用,引起同行对这一问题的重视。中国规范的人口学研究毕竟只有20多年的历史,有问题是可以理解的,统计分析方法的误用和研究的不规范在其他学科领域也同样存在,甚至有可能更严重,但是我们不能漠视这种状况继续下去,问题的解决需要全体同仁的重视和努力。我觉得目前至少可以加强以下几个方面的工作:

(1)提倡学术争鸣,鼓励同行之间开展批评,这将有利于学科的发展与规范;

(2)编审人员把好质量关,使在杂志上发表的文章符合学术规范,杂志上文章的示范作用往往比教科书要大得多;

(3)加强统计分析方法的教学工作。强调方法的适用性和在实际应用中应该注意的问题。

【参考文献】

1 刘铮,邬沧萍,查瑞传.人口统计学.中国人民大学出版社,1981

2 马瀛通,王彦祖,杨叔章.递进人口发展模型的提出与总和递进指标体系的确立.人口与经济,1986;1,2

3 姚新武.中国生育数据集.中国人口出版社,1995

4 郭震威.对“去进度效应总和生育率(tfr')方法”的一点看法.人口研究,2000;1

5 郭志刚.从近年来的时期生育行为看终身生育水平.人口研究,2001;1

6 郭志刚.时期生育水平指标的回顾与分析.人口与经济,2000;1

7 feeney.1985.parity  progression  projection.international  union  for  the  scientific

人口统计学变量分析例3

1 个案与群体

〔实例1〕某调查报告称,某村2001年出生婴儿10人,其中男婴6人,女婴4人,出生性别比高达150,严重失调。

〔实例2〕某乡给某村下达人口计划,其中一项指标是计划生育率,要求当年的计划生育率不低于95%,而该村一般每年出生不足20人。

〔实例3]某地计生委根据群众举报,查出某县一个超生5胎的情况,据此称该县超生问题严重。

〔实例4〕某县总人口不足50万人,近年来在孕妇中推广服用“福施福”。上级要求检查服用“福施福”后,人口缺陷发生率是否逐年下降。还有不少地方把孕产妇死亡率是否逐年下降当作生殖健康服务工作的考核内容。

这几个例子所出现的问题都是以个案或少量发生的情况,说明一个地方宏观的情况。人口和计划生育统计所分析的对象(人口)或事例具有群体性,这个群体是由每个个体的人或事件集合而成。每个个体是否发现这种现象是偶然的,作为表现群体规律的统计数据,只有当群体具有相当的规模后才有意义。群体的规模太小,尽管对每个个体的统计是准确的,指标的计算也是正确的,但计算结果并不能客观地反映群体的规律。

如实例1,一个村的出生人数仅为10人,计算的出生性别比要么是100(“绝对平衡”),要么就是男女比例严重失调。实例2中计划生育率受出生总数的影响,要么计生率正好100%,只要有一个计划外出生,计划生育率就低于95%。例4涉及的出生缺陷发生率或孕产妇死亡率一般统计时均以10万作为分母,对于一个县,每年出生几千人或1万多人,即使按照出生缺陷、孕产妇死亡发生的平均水平,每年也只有几例,偶然性很大,在统计数据上很难表现为逐年下降。至于例3,以一个特例说明全县的情况,更是欠妥。各种人口和计划生育统计教材上并未说明各项统计指标适用的人群至少要达到多少,但一般说来这些统计指标绝大部分不能用于分析规模在几百人到一千多人的村级情况,许多指标在县、乡级使用也不太合适。多年来各级是通过报表收集人口和计划生育统计数据。报表由上级制发,基层单位按统一的口径填报每个项目,然后逐级汇总、上报。这样以来,上、下级的报表式样相同,只是数量大小有差别,于是,上级单位计算哪些指标,下级单位“照葫芦画瓢”计算相同指标。特别是实行人口与计划生育目标管理责任制后,各项工作任务和责任要逐级分解、落实,相应地,工作指标也被层层分解,上一级控制的指标(如出生率、计划生育率)也被一直套用到基层单位。在这种情况下,群体性的要求很容易被忽视。

2 自然属性与社会属性

〔实例5〕1995年8月,在全国上半年人口形势分析会上,某省计生委分析本省当年上半年二孩出生数量比上一年同期减少的原因时称,由于自当年起全省广泛推行“三结合”,许多群众为了发家致富,主动退出二孩指标,于是二孩出生明显减少。笔者的同事立即对此理由提出了置疑:既然是主动退出二孩指标导致二孩出生减少,那么原来应在1995年上半年生育二孩的妇女至少在1994年上半年就应退出二孩指标,而那时候,该省并未开展计划生育“三结合”;至于1995年上半年开展“三结合”后退出的二孩指标,其二孩出生减少的效果应在1996年以后才能表现出来。群众退出二孩指标与二孩出生数量的减少在时间上出现了“矛盾”。

〔实例6〕许多文章分析妇女受教育程度越高,生育的孩子越少。

这两个例子说明分析人口出生数量的变化应考虑人口的自然属性和社会属性。人口首先是生物意义上的人口,具有自然属性,同时,人口生活、存在于一定的社会环境中,具有社会属性。人口现象的发生既受自然属性的影响,也受社会属性的影响。从根本上说,社会属性对人口现象的影响和制约是有条件的、间接的。而自然属性的影响和制约是无条件的、直接的。社会属性的影响和制约常常要通过自然属性来实现。在分析人口现象的时候,首先要解释人口的自然属性,然后再解释社会属性。就实例5而言,从妇女退出二孩指标到二孩出生减少,至少间隔10个月,即妇女的怀孕期,无论推行“三结合”力度多大,妇女10个月的怀孕期不能缩短。退指标的发生与出生数的减少在时间上不“同步”,至少要“滞后”一年。也就是说,1995年上半年因开展“三结合”妇女退出二孩生育指标不会影响这个时期的二孩出生数量。关于实例6,一个人的受教育程度属于社会属性,妇女受教育水平提高,的确会影响其生育行为。然而,影响生育的自然因素,直接因素是避孕节育行为,具体地说,影响生育的生物因素包括推迟结婚(不发生性行为)、采取避孕措施和流产(终止妊娠)。妇女文化程度影响到上述生物因素发生变化(如文化程度高,能够更好地掌握避孕知识,可以提高避孕的有效性,减少怀孕的可能),并通过上述因素影响生育孩子的数量。直接讲文化程度与孩子数量的关系,未免有些牵强。

3 定量与定性

〔实例7〕各地每年都要分析当年的人口形势,将当年的数据与上一年的数据进行对比。许多分析报告在列举了对比数据后得出结论:“今年的工作比上一年有明显的进步,取得了巨大的成绩,上了一个新台阶”。但如果我们仔细察看各项指标的数量,发现变化并不大,如计划生育率由88.5%上升到89%,出生率由15.4‰下降为14.9‰(这其中由于人口年龄结构的变化也能导致出生率下降),多孩出生由165人减少为149人,多孩率由2.2%下降为2%等等。根据这些数据的变化,得出的定性结论应当是:“工作稳步发展,人口增长保持平稳的态势”。人口和计划生育的统计分析主要是指对数据的分析,并由“定量”的描述引申到定性的判断。如果忽视定性的分析,那么,所谓定量分析不过是数量变化的文字描述而已。把握好定性分析的关键在于,定性分析应以定量分析为基础,即“定量”在前,“定性”在后。那种先“定性”,再计算数量变化的做法,违背了“定量”与“定性”的基本规律。这样进行的定量分析,只是给定性的结论加一些数量的点缀。

4 模糊和精确

〔实例8〕某地区的一份材料称,根据20年来每年总和生育率的变化,推算本地区20年来少生了1831275人。

〔实例9〕某县计生委利用农村赶集日人口比较集中的机会,出动服务车,设置咨询台,向群众宣传计划生育知识,提供咨询服务。县计生委的汇报材料称,“一个月来在集日上接受宣传、咨询的群众累计达到127328人次”。

乍一看,实例8和实例9中的人数和人次数的统计和计算十分认真仔细,数字如此精确,令人钦佩。但转念一想,不免生疑:实例8中利用总和生育率计算少生人口,需要以年龄别生育率与分年龄妇女人数相乘计算出生人数,一般来看,每个年龄组的计算结果都不会是整数,只好四舍五入。每一年若干个年龄组累计下来,个位数已经含糊不清了。再把20年的少生人数累计起来,怎么可能精确到个位数呢?况且20年间,该地区的人口并非处于“封闭状态”,各年龄组人数因为人口迁移而变化,也会影响到计算少生的数量。至于实例9,在一个开放的、人们频繁走动的集市上,如何判定哪个人接受了宣传,哪个人接受了咨询,并没有一个客观的标准;即使有标准,实际操作中也很难把握,因此,根本没有可能逐人统计。实例8、实例9中看似精确的数据令人感到滑稽,倒不如模糊一些,说“20年大约少生了18万人”,“一个月在集市上接受了计划生育宣传、咨询服务的人次达10余万”,或许有几分可信。从某种意义上讲,人口和计划生育所涉及的是宏观层面的事情,与此相应的统计数据所反映的是大致的状态或趋势,没有必要也没有可能做到精确。许多同志在应用统计方法时,往往注意的是方法本身的定义和计算过程,而对计算中数据的来源不了解。人口和计划生育统计属于社会经济统计范畴,很多数据是通过抽样调查获得,允许有一定的误差;即使是全面的调查(如人口普查、全局报表),在实施过程中,也会遇到这样、那样的干扰或影响,存在着调查误差,这是无法完全避免的。从某种意义上讲,数据存在一定的误差,这是人口和计划生育统计的特点之一。

5 原因与结果

〔实例10〕最典型的例子莫过于“人口出生率每降低1个千分点,人均GDP提高多少个百分点”的说法。这种说法的依据是利用相关分析法对全国各省的人口出生率和人均GDP的数量变化进行计算,得出二者之间的函数关系式和相关系数。把人口出生率作为自变量,看自变量的单位变化影响因变量(人均GDP)变化的数量大小。

在这个例子中相关分析法本身以及有关的数据都是正确的,然而,用这样一个函数式来解释人口增长与经济增长的相互关系是有问题的。其一,就统计方法来说,相关分析只反映变量之间的相关关系,而不说明因果关系;其二,人口增长与经济增长固然相互影响,但从本质上来说,是经济发展影响人们的思想,进而影响人们的生育行为,最终导致生育率下降,人口增长率降低,即经济增长是“因”,而人口增长是“果”。颠倒了因果关系,不仅逻辑上讲不通,数量上的“相关性”也失去了意义。

笔者在多年的工作中体会到,由于人口和计划生育所具有的特点,人口和计划生育统计分析方法的应用和统计数据的解释有别于其它部门和领域对于统计的一般要求。正确地应用统计分析有助于我们认识人口和计划生育的特点和规律,只有科学地认识和把握人口和计划生育的特点和规律,才能避免在统计分析中陷入误区。

社会科学实证研究中的统计分析方法应用

郑真真 (北京大学人口研究所 副教授)

统计学的应用随着微型计算机的普及越来越广泛,在社会科学实证研究中几乎是无处不在。有了一定规模的数据和一个统计分析软件,就可以很方便地进行各种估算和分析。然而由于统计分析方法本身并不像加减乘除那样简单,而一些统计分析软件已经发展到几乎是人人都可使用的程度,如果使用者在只知其然不知其所以然的情况下操作并得到结果,可能出现对统计分析方法误用或滥用的现象。本文仅对一些统计分析中比较常见的问题进行讨论,以引起各方面的重视。

1 描述性统计

描述性统计是社会科学实证研究中最常用的方法。准确、全面、正确的描述是所有实证分析的基础,如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将是值得怀疑的。一项研究能够将所研究的现象或对象描述清楚,就是一个极大的贡献;而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。但是因为描述性统计所用方法简单易得,往往没有得到足够的重视。

均值的局限 普遍用于描述样本集中趋势的测量之一是均值。它对于近似正态的对称分布样本来说是比较好的测量,对于不对称分布则不然,尤其会受到极端值的影响。两个分布完全不同的样本可能会有相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要我们进行深入研究的、或应当引起人们注意的。为了弥补均值的这个缺陷,一般在报告均值的同时也报告方差,或用直方图/散点图的形式描述分布,以提请读者注意群体内部的差异。

不同群体的可比性 在描述性统计中,往往涉及到对不同时期或不同人群的总体描述,以反映社会变化或地区差异。在社会科学中、尤其是人口研究中,不少事件的发生都是与年龄密切相关的,如我国妇女大部分在35岁以前完成了生育,从而导致35岁以上育龄妇女中极高的避孕现用率。在这种情况下,两个样本之间存在避孕现用率的差异可能只是年龄结构的差异,而不是年龄别避孕现用率的差异。又如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,但忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群。这种对两个不同群体的比较往往会导致错误的结论。

绝对数的使用 由于中国人口数量巨大,调查研究也比较容易得到大容量的样本,所以对任何小概率事件用绝对数报告都会出现惊人的巨大数字,单纯对绝对数的强调往往会产生戏剧性的效果。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究人群的比例。

小样本的代表性 在一次抽样的小样本中求得的率或比例会非常不稳定,与另一次抽样的结果可能会有较大差距。因此当研究仅限于从小样本获得的资料时,应当在报告比例的同时也报告样本量。

2 双变量统计分析

在社会科学研究中,首先分析的往往是两个变量之间的关系,如用相关或列联表等方法。一般在确定两个变量之间确实有某种关系,如在经过统计检验后证实两变量有显著相关关系,进行更进一步的分析才有意义。因此,双变量统计分析在实证分析中占有重要地位。但是,由于在应用中对有些问题的忽视,双变量统计分析也很容易出现偏差或错误。

卡方检验的局限 在利用列联表对两个定序/定类变量进行相关分析时,需要进行统计检验来判断两个变量的相关是否有统计上的显著意义。不少研究结果都用卡方检验的显著性报告相关状况。但值得注意的是,卡方统计量的计算本身是有局限性的,样本越大,卡方值就会相应增大,因此大样本的卡方检验很容易得到显著结果。所以一般在报告卡方检验结果以说明两变量是否显著相关时,还应当同时报告相关强度,即相应的相关系数,如Gamma,Lambda等。

统计意义上的显著与差别的实际意义 在检验两个定距变量的均值差别是否具有统计上的显著性时,也存在相似的问题。由于样本量越大,样本均值分布的方差就越小,因此常用的t检验结果就越可能显著,任何细微的差别都可能有统计上的显著性。但有时具有统计意义显著性的差异,在实际生活中可能意义并不大,如同在两个草堆之间找出一根草的差距,对判断两个草堆的大小没有实际意义。因此,对任何检验结果都应当有符合实际的解释和说明。

虚假相关问题 双变量分析中的虚假相关问题,几乎在所有关于社会科学研究方法的教科书中都会涉及到,在统计分析方法的教学中也被视为经典问题。但是多少年来,人们仍然在不断地重复着这个“经典的错误”,即认为可见的或统计检验结果显著的相关就是真正的相关;更为大胆的做法是把这种相关关系推向因果关系。我们知道,对于有的变量来说,即使是经过检验判定两者具有统计上显著的相关关系,也不一定存在实际意义上的关系,因为可能有未考虑到的变量或不可测量的变量在同时对两个研究变量起作用,有时甚至可能完全是偶然的巧合。例如,火灾的大小是以火灾损失来衡量的,而参加灭火的消防员人数是与火灾大小有关的,火灾越大,出动的消防员就越多,但凡是具有常识的人都不会根据出动消防员人数和火灾损失两个变量之间的高度相关,断定出动消防员越多火灾损失就越大,因为火灾的规模是决定因素(但很难直接衡量)。在有关人口科学研究中也有报告虚假相关的现象,如人口增长率的降低导致了经济增长的提法就是一例。因此,在分析相关关系时,应当根据理论、知识、经验、甚至常识来判断这种分析是否有意义、是否存在其他变量的作用(称为外在变量),避免得出有悖于常理的分析结果。有些虚假相关是可以通过统计分析方法判别的,如在控制了另外一些变量后观察两个变量的偏相关,或在双变量分析的基础上,进一步用多变量分析深入研究。

3 多变量分析

回归分析是多变量分析中应用最多的方法,尤其是逻辑斯蒂回归更是被广泛地应用。在众多应用中,比较明显的问题是使用方法是否得当和对结果的报告和解释是否规范、合理(见2002年第2期《人口研究》刘金塘文)。此外还有一些应当引起注意的问题。

分析框架的重要性 在社会科学研究中,各变量之间往往存在错综复杂的关系,如果在进行回归分析之前没有一个清晰合理的分析框架,那么回归的结果有可能会引起质疑。一般应在报告回归分析结果之前,介绍该分析的框架,如各变量的定义、各自变量与因变量的假设关系及其理由等,对建立的回归模型做出合理性论证。有一些变量可能是作为控制变量纳入回归模型的,如性别、年龄等,最好事先解释清楚。对假设因果关系的模型,应当至少能够说明:(1)该因果关系在理论上是正确的、在实践中是合理的;(2)从事件发生的时间上来说,应当是原因发生在先、结果发生在后。如有些回归分析中,未加说明即把所有与因变量显著相关的变量都囊括在自变量中,甚至有些自变量与因变量有明显的互为因果关系,显得分析逻辑混乱;还有的论文在简单介绍研究背景和数据来源之后,急于建立因果关系并推出回归分析结果,然后再根据各变量在回归模型中的显著性一一说明,这相当于事后解释;这些做法都是错误的。

在具备“奔4”微机和较易操作的软件的今天,转瞬间就可完成一次回归分析,但是在此之前,需要有大量的前期准备工作,包括文献检索和理论框架构建,才能确保统计分析的科学性。

分析方法应用的条件 每种多变量方法都有各自的前提条件或假设,如果这些条件不具备或者假设不成立,该方法的应用就成问题。如Pearson相关是考察线性相关关系,多元方差分析只能辨别线性相关因变量的多元差异,线性回归分析假设自变量与因变量之间为线性关系,因子分析方法也是建立在各变量具有一定的线性相关基础之上的;另外,在逻辑斯蒂回归中,每个分类都应保证有足够的频数,如果频数太少就会影响参数估计的稳定性;等等。尽管一般不在报告分析结果时说明各种假设是否成立或条件是否满足,但是在进行分析时应当自觉地进行考察。如果不能满足条件或假设不能成立,就对数据进行转换或调整后再分析,或者改变分析方法。

多变量分析结果的展示和解释 多变量分析的结果一般是通过列表来展示的。现在一种并不少见的做法是直接把统计软件的输出直接复制到论文中,我们往往会在文章中看到包括回归参数估计、参数标准差、检验统计值、检验显著性、偏相关系数等等n行m列的大表,使人有目不暇接的感觉。实际上参数标准差和检验统计值是提供给分析者的信息,没有必要列在结果中;如果不是有特别需要的话,偏相关系数也不是关注重点;最主要的应当是回归参数估计及其显著性。

在列出分析结果之后,应当对结果的实际意义进行解释和讨论,而不是复述分析结果的数学意义。此外,在多元统计分析中一个常见的问题是分析者对变量作用不具有预期统计显著性的失望,因此绕开不显著的变量,甚至对数据或模型进行各种调整以获得显著结果。其实,统计分析结果不显著往往也是有实际意义的。例如在分析我国高龄老人的地区分布时发现,高龄老人比例与当地医疗卫生指标没有显著关系,这说明我国医疗系统还没有具备延长老人寿命的功能;另一方面也说明这些高龄老人的存活不是主要靠医药维持的。所以,在解释分析结果时,只要是在分析框架中涉及并参与分析的变量,无论作用显著与否,都应当给予充分的讨论;对于那些由于知识或信息的限制难以下结论的结果,可以作为问题提出,以便进行更有针对性的进一步研究。

此外,任何方法都有其局限性,分析结果也不会十分完美。因此在讨论结果的同时,也应当就此向读者说明。例如当一个多元线性回归分析的确定系数较低时,需要指出该模型有限的解释能力,探讨可能存在但没有纳入分析的更重要的影响因素。

不必求最新、只求最合适 有些研究生在撰写学位论文时,常常因为自己没有应用最新的统计分析方法而感到忐忑不安;在评论某项研究的创新性时,有时也出现把学术创新和应用新方法混为一谈的现象,例如认为应用描述性统计方法的研究水平低于应用解释性或预测性方法的研究。新方法是层出不穷的。但是,出现了新方法并不意味着传统方法就不再适用,而是各有千秋。统计分析方法是工具,哪件合适就用哪件,能用锤子解决的问题不必开冲床。有时越是复杂的方法,假设条件也会相应较多,应用的局限性更大。因此,盲目追求方法的新颖并不是高水平研究的保证,真正需要注意的是使用最合适的方法。而对所用方法的真正了解,是正确运用统计分析方法的前提。

总和生育率的内在缺陷及其改进

郭志刚 (北京大学社会学系、北京大学中国社会与发展研究中心 教授)

1 总和生育率的应用目的及评价原则

年龄别生育率及其概括性指标总和生育率(TFR)是生育研究中最常用的指标体系。但是现在它们面临很多实际问题。本文不讨论出生漏报导致统计失实的问题,因为其性质并不在于统计方法,而是一个社会问题。本文只局限于这一指标体系内在的有效性问题的方法论讨论。一个指标是否有效应该以研究目的为标准来判断,因此这一讨论将结合当前实际工作的需要来进行。

统计指标有两种功能:一种是对调查对象本身特征的直接描述,另一种则用于推断估计。很多情况下,统计指标同时承担着这两种功能,比如样本统计量反映了样本对象的特征,同时又服务于推断估计总体参数。既然是一种估计,自然会有推断偏差或误差。评价不同估计的优劣是看谁的偏差或误差更小。

那么通常我们应用TFR到底要反映什么?一是为了在控制育龄妇女结构的条件下概括时期生育水平,二是作为终身生育水平的估计。(注:在这一方面,总和生育率与人口的粗再生产率和净再生产率的性质类似,后两个指标中只不过又控制了下一代的性别和死亡因素的影响而已。)两种性质都反映在各年龄组生育率的合计上。通常,不同基数的相对数指标不可以直接相加(注:如男性平均年龄加女性平均年龄没有意义。)。为什么年龄别生育率可加,是因为设置了假设队列的概念。TFR主要不是平均的概念(注:早期将其翻译为平均生育率的确是错误的。至于年龄别生育率对妇女其他差别所做的均质假设,其实存在于所有汇总指标之中,而不论其分组有多细,但是都不会因此而称为“平均××率”。),而是总和的概念(即假设队列经过所有年龄后生育总和)。因此,TFR一身兼两任,其内容为时期生育率总和,其形式为队列终身生育水平。从前一种意义上使用时描述了该时期生育水平,从后一种意义上使用时则是假设队列终身生育水平的估计(注:但这种估计从原理上不同于一般统计量从样本推断总体的情况,但有关评价原则却是类似的。)。其值实际上涉及了35个实际队列,并且只有在生育水平及年龄模式长期不变的苛刻条件下,它才真正与实际队列终身生育水平相吻合(但是队列仍是泛指的)。尽管这一假设队列与真实队列并不能很好对应,但起码可以及时提供一种队列终身生育的估计来满足实际需要。

2 缺陷一:总和生育率对终身生育水平的背离

表现A:最早对TFR的批评是由于其剧烈的时期波动。一逢时期突发事件(如中国1958~1961),实际生育量发生了变化,TFR就会大幅度下降。应该说,批评并不是指向其描述时期生育水平的功能,而是指向其作为终身生育估计的功能。因为,这时TFR的下降只是由于时期特殊原因影响,并不意味着终身生育水平真的下降。实际上,时期效应一过,TFR马上便会出现反弹(即常说的生育补偿),然而反弹的水平也并不能标志终身生育水平真的那样高。总之,TFR短期内剧烈波动时,将其作为终身生育率估计来理解很成问题。其中最引人注目的是,反弹年份的分孩次TFR(i)会超过1,特别是一孩TFR(1)会大大超过1(注:1982年全国1‰人口生育率抽样调查数据显示(姚新武,1995),1963年TFR=7.463,其中各孩次TFR都大于1,最高的是TFR(1)=1.568。作为队列估计,即是说每人生育一个半一孩,显得很荒唐。)。人口统计学对此采取的对策是,避免采用这些年份的TFR来作为终身生育水平的估计,或者采用若干年份的TFR的平均值来作为终身生育水平的估计,希望将欠年与盈年的误差相抵消。

表现B:然而,有时即使社会中似乎并没有什么特殊事件,TFR也会背离终身生育水平。但是,往往只是在TFR提高时才会受到一定关注(注:如1983年左右中国人口学界对TFR的讨论。)。理论分析可以证明,这种背离既可以是正的,也可以是负的。特别是在负偏离的情况下,往往可能持续较长的时间。并且,这种负背离实际上正是当前所面临的实际情况,因此特别需要重视。

这种背离产生的原因是婚育年龄的变化,或者说是队列的年龄别生育模式的改变。而负偏离则对应着婚育年龄的推迟。与时期突发事件对婚育年龄的推迟的暴发性影响不同,生育模式的自身转变具有较长时期的持续性、变化上的渐进性、现象的隐蔽性等特征,并且它并不一定伴随生育补偿现象。甚至有时人们根本没有意识到这种偏离的存在。

人口统计学早就揭示出,晚婚晚育可以延缓人口增长,但这是从长期人口发展的角度来证明的。而晚婚晚育对年份TFR有什么影响,则很少有人涉及。从理论上说,取得同样的终身生育总量,可以有不同的进程表。即假定各队列的终身生育数量不变,从某一时期开始各队列的生育年龄开始推延,这一过程可以持续较长一段时期,直至最终稳定在一个新的生育模式上。我对此做过一些模拟计算,在这种情况下,生育模式转变时期中每年的TFR一定会低于事先所设的队列终身生育量,而这段时期两端及以外各年份的TFR则可以等于事先所设的终身生育水平。这表明,即使将整个转变过程或更长时期中各年的TFR都加在一起平均,得到的还是—个偏低的终身生育估计。

更普遍的情况是生育模式的变化与终身生育量的变化同时发生,这时TFR下降同时受这两个因素变化的影响,由生育模式变化导致TFR对终身生育水平的偏离便较难分析。

实际问题:实际工作需要不允许我们等很多年再提供真实队列终身生育统计,而现在只有TFR一种估计方法,并且我们知道TFR还会经常偏离队列终身生育水平,因此急需寻找一种更好的估计来取代它。否则尽管当前TFR的值虽然很低,即使不论统计失真问题,我们也不知道这是否仅仅反映TFR发生了负偏离,那么我们凭什么肯定生育率已经下降到更替水平了。我们又怎么能知道,当生育年龄推迟告一段落时,TFR向终身生育水平回归时会回升多少。要知道更替水平的真正概念是实际上某队列与其终身生育后代数量的比(注:从这个意义上,净人口再生产率等于1仅是一种时期估计的标准,并且也服从上述偏离,并不是真正的更替水平。)。

有关改进:Bongaarts和Feeney(1998)提出了去进度效应总和生育率(TFR')。该方法旨在提供一种根据时期数据对终身生育水平的较好估计(注:Bongaarts和Feeney(1998)警告说,这一方法不适用于那种特殊时期效应(即重大灾害等)的年份。)。郭志刚(2001)对此进行了介绍,并用中国多年生育数据对该方法进行了检测和评价,结果是TFR'作为终身生育水平的估计的确大大优于TFR(注:郭震威(2000)认为TFR'不伦不类,既不是时期生育指标,又不是终身生育指标,是个尴尬的指标。我认为,它只是应实际需要而产生的另一种根据时期生育信息对终身生育水平的新估计而已,其实这没有什么可尴尬的。统计中凡是不能直接测量的时候,都得采用估计来代替。真正有意义的问题是,它是否比传统TFR更接近于终身生育水平。)。

该方法基本原理可以这样来理解:现实中生育模式转变时,除了导致该年生育数量有所变化以外,还会有其他共生现象,如分孩次的平均生育年龄(MACi)也会变化(注:Bongaarts和Feeney(1998)强调要用分孩次的平均生育年龄,而不能用总的平均生育年龄,因为后者会抹煞实际变化。)。MACi实际上是生育模式转变的测量值,可以在理论上建立其变化量与时期生育变化量之间的函数关系。TFR'便是在常规分孩次TFR(i)的基础上利用MACi的变化信息来调整,得到去进度效应的分孩次TFR'(i),然后再汇总为TFR'。经过调整,TFR'可以在相当程度上修正TFR距终身生育水平的偏离,因此TFR'更接近于队列终身生育水平(这里队列仍是泛指的)。也就是说,我们可以用TFR'来替代TFR原来所承担的终身生育估计的功能,而TFR还可以继续承担描述时期生育水平的功能,TFR'与TFR之差可以作为生育推延对当前生育水平影响的估计(注:我曾当面请教Bongarts,问TFR'方法是否可应用于预测模拟,他毫不犹豫地回答说不能。)。

我认为,尽管TFR'指标还有继续改进的余地(注:比如某一年的MACi的计算还要前一年和后一年的数据,因而多少丧失了一点及时性。然而,我自己曾尝试过另外的计算,比如只用前一年和当年两年的信息,调整的结果也并不差。),但显然Bongarrts和Feeney为解决这一估计问题指出了极富于科学价值的方法论途径。并且,这一新指标不仅可以用于监测队列终身生育水平,也可以用于分析以往的生育数据(郭志刚,2000),帮助我们更好地理解我国的生育转变史和计划生育史。

3 缺陷二:总和生育率不能控制育龄妇女的孩次结构

对某些重要因素进行统计控制可以为不同年份或不同地区的比较提供更大的可比性。尽管TFR控制了育龄妇女的年龄结构,但是它并没有控制育龄妇女的孩次结构。然而,当前许多人口模拟研究都不能再忽略育龄妇女的孩次结构问题,否则会有损其研究结果的有效性(注:比如,与调整生育政策相联系的人口模拟如果忽略现有一孩的妇女人数,便无法计算由于多年积累在一孩的这批妇女在政策调整时将产生的特殊生育效应。另外,有关生育政策后果方面的研究(如四二一家庭结构)也有类似问题。)。

问题的表现:实际上生育过程是严格的递进事件,也就是说,只有未生育者才能生育一孩,只有生育过一孩且尚未生育二孩者才能生育二孩。而常规生育率则是以年龄别所有妇女总数作为基数,因而没有容纳育龄妇女的曾生孩次信息,也就不能控制曾生孩次这种结构影响。因此,比较孩次结构差别较大的年份或地区之间的年龄别生育率(或TFR),便不能区分其差异到底是出于生育水平不同还是出于孩次结构不同。当其用于人口预测模拟时,如果假定两地区育龄妇女年龄结构相同,同样的系列生育率的假设会导致孩次结构十分不同的地区(代表着不同生育政策类型)将会有相同的出生人数,显然这严重地偏离实际情况。因此,面对当前的许多研究需要,基于年龄别生育率的TFR方法无论是用于比较分析上还是用于预测模拟,都会影响其结果的有效性(注:至于分孩次的年龄别生育率,只是对分子(即出生)划分了孩次类别,但是并没有对育龄妇女本身划分孩次结构。其基数没有控制孩次结构,因而从本质上说也没有控制孩次结构。)。

替代方法的产生:实际上,计划生育采取了分类指导原则后,便产生了多种生育政策类型,其显著特征便是孩次控制上的不同。在不同地区实施不同政策时,育龄妇女的孩次结构便取得了越来越重要的意义。从这一角度出发,导致Feeney(1985)和马瀛通等(1986)分别以不同思路创建了孩次递进生育指标体系。

他们的共同点在于采用孩次递进比作为生育测量的基础来构建指标体系。如前所述,每年的出生可以划分孩次。如果再将某一群体生育指标的基数由对应口径的年中妇女总数换成年初对应(即前一)孩次妇女时,便称为孩次递进比(注:实际上可理解为一种概率,如本年年初某年龄组(或孩次间隔组)只有一孩的妇女中在本年生育二孩的比例。)。然后,还可以将孩次递进比换算成递进总和生育率。

Feeney的模型突出地考虑了孩次递进间隔因素,不考虑年龄结构,因而常被称为间隔递进模型。而马瀛通等的模型则突出地考虑了年龄递进因素,因此常被称为年龄递进模型。

这两种方法不仅可用于在控制妇女孩次结构条件下的比较分析,也可以用于预测模拟(注:应该指出,其实中国人民大学人口研究所的老一辈人口学家早在1970年代所自行创建的标准(或可变)生育率预测法中也已经包含了控制孩次结构影响的思想(刘铮、邬沧萍、查瑞传,1981)。)。递进方法不仅可以在预测中控制孩次结构,而且应用于模拟预测时实际上比常规生育率方法更方便(注:这里的方便指,它只需要每年期初妇女的孩次别人口数便可以直接乘以递进比便得到对应的生育量,而不需要再计算其中妇女人数。)。由于递进比的概率性质,还能根本避免孩次别总和生育率出现的那种超过1的现象(注:尽管如此,Bongaats和Feeney(1998)认为这一类应用生命表方法的生育指标仍然没有真正控制生育进程变化的影响。)。

主持人评论

本期论坛邀请的三位专家都有多年从事人口统计和数据分析的经验,对人口学研究方法有很深的造诣。王谦副司长通过从多年工作中积累的大量实例,分析了在人口和计划生育工作中经常发生的统计方法和统计数据被误用的情况;郑真真副教授则对统计分析中比较常见的问题进行丁独到的分析和总结;郭志刚教授对总和生育率指标进行了深入全面的剖析,分析了其内在缺陷和改进方法。

王谦副司长通过10个典型实例说明在人口和计划生育实际工作中,统计方法和统计数据在五个方面经常被误用。这五个方面的问题有些属于统计分析中容易犯的错误,带有普遍性,如,错误地解释变量之间的因果关系,在统计分析中忽视定性分析与定量分析的关系,结论不是由统计分析中得出,使得定量分析只是定性结果的一种点缀。有些问题则由于人口与计划生育领域的特点而显得更为严重,如他指出的,大部分人口和计划生育统计指标在村一级或县、乡不适用是因为总体规模不够。统计所研究的是总体的数量关系而不是个别的数量关系,所以统计指标在一定的总体规模下才有意义,这是统计学中的基本概念,但是在实际中却经常被误用。我们经常看到的错误都是统计学上的一些“基本概念错误”,而不是“高深错误”。统计学上的概念和方法可能很简单,也容易理解,但是要在实际工作中正确地、恰如其分地运用并不容易,需要结合研究对象的特点。

郑真真副教授从另一个角度对描述性统计、双变量统计和多变量统计分析中经常被忽视的问题进行了讨论和分析。她不仅指出了问题的所在,而且告诉大家应该如何做,她所讨论的内容是大部分统计教科书上所没有的,具有很大的实用性,对于正确地应用统计分析方法具有很大的指导意义,具体的问题这里就没有必要再评述了。她的分析源于多年教学和科研工作的总结和升华,很多观点具有独到性,如对描述性统计的重视,多变量分析结果的展示和解释,不必求最新、只求最合适的方法。

王谦和郑真真从不同角度对统计分析和统计数据应用中出现的问题进行了分析,郭志刚教授则对人口统计中的一个重要指标-总和生育率进行了深入分析。他指出指标是否有效应该以研究目的为标准来判断,他从总和生育率对终身生育水平的背离和不能控制育龄妇女的孩次结构这两大缺陷出发,对问题的表现形式、实际工作中的需求以及改进方法进行了分析和介绍,其中渗透了他自己近年来对这一问题的研究结果和体会。我看完他的文章觉得获益匪浅,如90年代以来中国的人口调查所得到的总和生育率指标都非常低,这里面有统计漏报的问题,也有总和生育率指标自身的缺陷所带来的问题,在婚育年龄推迟时,总和生育率会低估终身生育水平。在以往的人口学研究中,对方法论的讨论和重视是不够的。研究方法的创新源于实践的需求,面对21世纪更加错综复杂的人口问题,我们需要研究方法的不断创新与发展,这是目前我国人口科学发展面临的一个巨大挑战。

三位专家的分析和讨论有很大的实用性,值得从事人口和计划生育的实际工作者和学者认真学习,但是毕竟他们不可能把所有的问题都归纳概括全面,这也不是本期论坛的初衷。我们希望通过本期论坛起到抛砖引玉的作用,引起同行对这一问题的重视。中国规范的人口学研究毕竟只有20多年的历史,有问题是可以理解的,统计分析方法的误用和研究的不规范在其他学科领域也同样存在,甚至有可能更严重,但是我们不能漠视这种状况继续下去,问题的解决需要全体同仁的重视和努力。我觉得目前至少可以加强以下几个方面的工作:

(1)提倡学术争鸣,鼓励同行之间开展批评,这将有利于学科的发展与规范;

(2)编审人员把好质量关,使在杂志上发表的文章符合学术规范,杂志上文章的示范作用往往比教科书要大得多;

(3)加强统计分析方法的教学工作。强调方法的适用性和在实际应用中应该注意的问题。

参考文献

1 刘铮,邬沧萍,查瑞传.人口统计学.中国人民大学出版社,1981

2 马瀛通,王彦祖,杨叔章.递进人口发展模型的提出与总和递进指标体系的确立.人口与经济,1986;1,2

3 姚新武.中国生育数据集.中国人口出版社,1995

4 郭震威.对“去进度效应总和生育率(TFR')方法”的一点看法.人口研究,2000;1

5 郭志刚.从近年来的时期生育行为看终身生育水平.人口研究,2001;1

6 郭志刚.时期生育水平指标的回顾与分析.人口与经济,2000;1

7 Feeney.1985.Parity progression projection.International Union for the Scientific

人口统计学变量分析例4

在目前中国的教育体制中,考试仍然是判断学生成绩好坏的重要手段,教师常需要进行诸如考试成绩等的统计分析,但是从信息的采集、分析、处理、显示到记录整个过程一般都要花费较多的时间,因此难以及时获取反馈信息用于适时调控教学。近年来,由于计算机的广泛应用,各种统计软件应运而生,SPSS统计软件能够代替传统的手工计算方法,可以轻松进行总分、平均分计算等多种数据统计和分析,方便快捷。下面就以高三第一次月考的成绩为例,介绍该软件在日常教学统计分析中的应用。

1.数据输入

启用SPSS,软件将自动打开数据编辑窗口,单击“Variable View”,切换到变量视图窗口,视图的每一行代表一个变量的各种属性,如名称(Name)、类型(Type)等。在前五行的中分别输入变量名姓名、语文、数学、英语、物理、化学、生物、总分,设置各变量的属性:将姓名变量的类型变为字符型(string),其余均为默认值。单击“Data Variable”,将窗口切换回数据视图,在各个变量中输入相应的信息和数据。SPSS软件也可以直接读取Excel、SAS等格式的文件。选择菜单【File】【Save】,在弹出的“Save Data As”对话框中选择适当的保存地址。

2.数据统计及分析

2.1数据的简单描述

执行【Analyze】【Descriptive Statistics】【Descriptives…】,出现“Descriptives”对话框,选择语文、数学等七个变量至右边“Variable”空框中,选择“Save standardized value as variables”。单击【Options】,出现“descriptives:Options”对话框,单击【OK】,系统就会弹出SPSS的结果浏览窗口,得到所有学生的语文、数学、英语、物理、化学、生物、总分变量的样本数、最高分、最低分、平均分、标准差、方差、全距等常用的统计量。

Descriptive Statistics

2.2绘制直方图

统计指标只能给出数据的大致情况,而直方图则更加形象直观。执行【Graphs】【Histogram】【Display normal curve】,系统弹出绘制直方图对话框,将“语文”选入“Variable”选择框内,单击【OK】按钮。此时结果浏览窗口内会绘制出如下直方图:

2.3排序

执行【Transform】【Rank Cases…】,弹出“Rank Cases”对话框,将左边选项中需要排列的变量选入右边“Variable(s)”空框中,如“语文”;“By”框是用来选择分组变量的,如“班级”,将班级作为分组变量选入“By”框;“Assign Rank 1 to”单选框组是用于选择将秩次赋给最高分还是最低分,这里选择“Largest value”;【Ties】钮用于定义相同值的处理方式,这里选择默认平均值。单击【OK】,系统就会在数据编辑窗口中建立一个新变量“r语文”(即原变量名前加r),取值为学生的语文成绩在班中的排名。

2.4频数分析

平常教师对成绩的统计,除了计算平均分外,还需要观测各分数段的学生人数,在SPSS软件中,这项工作可以通过重新编码和频数分析两个操作来实现:

执行【Transform】【Recode】【Into Different Variables…】,在对话框中,将左边列表框中的语文变量选入右边的“Numeric VariableOutput Variable:”框中,并在“Output Variable”框中输入“Name”为“语文2”。单击【Change】【Old and New Values…】钮,出现“Recode into Different Variables:Old and New Values”的子对话框,在左边“Old Values”方框中选择“Range”,在下面的两个空格内分别输入130、150;在右边“New Value”方框中选择“Value”,在后面的空格内输入1,然后单击【Add】按钮。重复此操作,分别将110―130分转为2,将90―110分转为3,将70―90分转为4,将低于70分的转为5,输入完毕后,单击【Continue】按钮,再单击“Recode into Different Variables”对话框中的【OK】按钮,数据编辑窗口中就会出现“语文2”新变量,完成对语文成绩的重新编码。执行【Analyze】【Descriptive Statistics】【Frequencies…】,出现“Frequencies”对话框,将左边框中需要分析的变量“语文2”选入“Variable(s):”空框中。单击【OK】,结果输入窗口就会呈现学生语文的各分数段人数分布,以及各种百分数。

语文2

2.5平均数差异显著性检验

在考试结果分析中,教师一般会用平均分高低来简单比较各班的成绩差异,SPSS软件的平均数差异显著性检验可以对此进行更科学的统计分析。例如,用独立样本检验比较两班学生的化学和数学成绩是否有差异:

执行【Analyze】【Compare means】【Independent-Samples T Test…】,选取数学和物理变量进入右边的“Test Variable(s)” 空框中,选取班级为分组变量,进入“Grouping Variable”中,单击【Define Groups…】按钮,在“Group1”“Group2”后分别输入1、3,单击【OK】,就会输出统计结果。

Group Statistics

Independent Samples Test

利用SPSS软件还可以进行“相关分析与回归分析”,可用来验证“数学成绩好的同学物理成绩也一定好”这样一个命题是否成立。

3.结语

SPSS软件为教师实施教学测量手段提供了一个较好的平台,如何运用SPSS软件更好地来分析教学测试结果,还需要我们在使用过程中不断探索。

参考文献:

[1]余建英,何旭宏.数据统计分析与SPSS应用[M].人民邮电出版社,2003.

[2]于水华,郑任儿.浅谈SPSS在教育信息处理中的应用.教育信息技术.

人口统计学变量分析例5

1.相关研究综述

1.1社会人口统计变量

社会人口统计变量是描述一特定族群的特性,

如性别、年龄、受教育程度、收入、职业等。社会人口统计变量不仅可以反映人们对于生活垃圾管理问题的认知与解决相应问题的能力,它甚至可以在一定程度上预测居民生活垃圾管理行为。许多学者如Webster(1975)[1]、Vining和Ebreo(1990)[2]、等证实了社会人口统计变量与生活垃圾管理中的循环利用行为显著相关。

然而也有学者对社会人口统计变量与居民生活垃圾管理行为显著相关提出质疑,认为两者的关系并不稳定。Neuman(1986)[3]出教育程度、收入等社会人口统计变量与环境行为没有关系。VanLiere和Dunlap(1980)[4]认为社会人口统计变量对环境行为的影响是非常有限的,如果要研究环境行为,最好是研究具体的某种环境行为,此时人口统计变量对这种具体的环境行为的预测能力明显增强。

1.2源头分类行为意向

行为意向(Behaviorintention,BI)是指行为趋向的意向,为做出行动之前的思想倾向和行动动机。Gollwitzer(1990)[5]为意向划分为两个阶段,一个是目标意向(Behaviorobjectintention,BOI),一个是执行意向(Behaviorexecutiveintention,BEi),这种划分取得了一定程度的研究支持,但关于假设的验证性研究较少。本研究即采用Gollwitzer的做法,将行为意向分为目标意向和执行意向两个维度。目标意向指的是生活垃圾源头分类的结果意向,如分类收集废旧塑料、分类收集废纸等;执行意向指的是对为实现生活垃圾源头分类所要付出的一种行为意向,如牺牲自己的时间进行源头分类,付出劳动和精力进行源头分类等。

2.研究假设

根据以上综述,本研究提出假设关系如下:

H1:目标意向因社会人口统计变量不同而存在显著差异。

H11:目标意向因性别不同而存在显著差异。

H12:目标意向因年龄不同而存在显著差异。

H13:目标意向因受教育程度不同而存在显著差异。

H14:目标意向因收入不同而存在显著差异。

H2:执行意向因社会人口统计变量不同而存在显著差异。

H21:行意向因性别不同而存在显著差异。

H22:行意向因年龄不同而存在显著差异。

H23:执行意向因受教育程度不同而存在显著差异。

H24:执行意向因收入不同而存在显著差异。

3.研究过程

本研究在对研究变量进行选取的基础上开发问卷的。问卷第一部分为源头分类行为意向,包括9个题项,第二部分为社会人口统计变量,包括4个题项。通过随机抽取大连市不同区域的中小学校和幼儿园,将问卷随机的发放给学生,学生将问卷带回家中,家长将问卷填好后学生将问卷交给老师。通过这种方法共获得有效样本618份;通过随机抽取大连市物业小区8处,在小区物业的帮助下获得有效样本98份。本研究运用SPSS统计软件进行数据分析。

3.1行为意向的因子分析

通过对9个初始变量作探索性因子分析,其KMO值为0.874,本组数据适合做因子分析[6]。按照特征根大于1以及方差极大旋转方法提取因子,可提取2个新因子作为这9个初始变量的主因子。提取的2个主因子的特征根分别为3.912和3.012,贡献率分别为13.471%和33.471%。

针对探索性因子分析所得结果及提取的主因子反映的原始信息,2个主因子可重新定义为:因子1为目标意向(BehaviorObjectiveIntention,BOI),含义为:居民明确知道垃圾该如何进行分类;因子2为执行意向(BehaviorExecutiveIntention,BEI),含义为:为实现生活垃圾源头分类所要付出的一种行为意向。

3.2社会人口统计变量的差别分析

社会人口统计变量主要包括性别、年龄、教育和收入四个变量。本研究主要采用独立样本T检验和方差分析来探讨社会人口统计变量在行为意向上的差异。

(1)性别

采用独立样本T检验探讨性别在行为意向上的差异,分析结果详见表1。通过表中数据可以看出,性别在执行意向、行为意向上存在显著差异。根据男性和女性在执行意向和行为意向的均数差异值可知:女性的执行意向和行为意向比男性强。

(2)年龄

本研究采用单因素方差分析(One-WayANOVA)探讨年龄在目标意向和执行意向上的差异。方差分析结果见表2。通过表中数据可以看出,年龄在目标意向和执行意向上均不存在显著差异。

(3)受教育程度

本研究采用单因素方差分析探讨受教育程度在各类主要变量上的差异。方差分析结果见表3。通过表中数据可以看出,受教育程度在目标意向上存在显著差异。经过单因素方差分析中PostHoc检验,结果表明:居民受教育程度越高其目标意向越强。

(4)收入

本研究采用单因素方差分析探讨收入在各类主要变量上的差异。方差分析结果见表4。通过表中数据可以看出,收入在目标意向、执行意向和行为意向上具有显著差异。经过单因素方差分析中PostHoc检验,结果表明:居民收入水平越高,其目标意向、执行意向越强。

综上分析,本研究提出的假设H13、H14、H21、H23得到验证支持,假设H11、H12、H22和H24没有得到验证支持。因此假设H1和H2均得到部分验证支持。

4.研究结论

通过对社会人口统计变量在目标意向、执行意向上的差异分析可以看出:

(1)性别在目标意向上不存在显著差异,在执行意向上存在显著差异,表明在目标意向上,男性和女性是一样的,而在具体的实施意向上,则女性比男性要强,因此女性的行为意向比男性要好。这个分析结果比较符合我国目前的家庭情况,女性在家庭生活垃圾管理中付出的更多。

人口统计学变量分析例6

[中图分类号]C924.24 [文献标识码]A [文章编号]2095-3283(2012)10-0117-03

作者简介:张翠芳,中共韶关市委党校讲师,研究方向:企业管理与绩效评价。

一、前言

人口既是生产者又是消费者,并通过这种两重属性与经济社会产生密切联系,现代系统理论将人类的生存发展作为一个大系统,而人口、经济、社会等都是其子系统,各子系统相互依存、相互渗透、相互影响。人口数量、人口素质、人口结构及人口分布等人口系统的情况及其变动对一个区域的经济、社会发展都具有重要影响作用,这种影响促进还是阻碍经济、社会发展难以凭空判断。

本文以广东省韶关市的人口数据为例,评价分析该地区的人口与经济、社会发展的协调性。韶关市位于广东省北部,属于经济欠发达地区,可将韶关市看作一个具有复杂功能的特殊系统,人口、经济、社会都可以看作这个系统中的子系统,以韶关市2000—2010年人口、经济、社会指标为例计算评价其人口、经济社会发展水平,并分析韶关市人口数量、结构、质量及空间分布是否与本市经济、社会发展水平之间具有协调性,全部数据来源于2011年韶关市统计年鉴。

二、评价人口、经济和社会发展的指标体系

全面、客观地评价人口、经济和社会的协调发展状况需要建立科学的指标体系,并应遵循以下四个基本原则:

1.科学性原则。即指标体系建立在科学的基础上,能够准确、全面、系统地反映人口、经济和社会发展的内涵。2.实用性原则。合理地选择指标,指标数据应易于统计,统计数据能确保权威性。3.完备性原则。指标体系作为一个有机整体,要能反映和测度被评价系统的主要特征。4.可行性原则。从实际情况出发,选择有代表性的综合指标和主要指标,那些在统计上无法量化、数据不易获得或相对不十分重要的指标可暂时不列入。

根据指标体系建立的相关原则,选取的指标如下:

三、人口、经济、社会各子系统综合发展水平的评价

采用主成分分析方法对各子系统综合发展水平进行评价,评价的原理及具体步骤如下:1.收集整理基本数据,采用Z—Score法对数据进行标准化,得到标准化后的数据;2.通过主成分分析法,求相关矩阵、特征根、特征向量和方差贡献率;3.求主成分及其得分;4.计算各主成分的得分与其特征值的乘积和得到各系统的综合发展水平值。本文利用SPSS软件处理上述数据,可自动将原始数据标准化、计算主成分得分。

下面以人口子系统为例,简述系统评价过程:

第一步,收集原始数据,2000—2010年人口子系统所选变量的值见表1,将表1中的6个变量数据粘贴至SPSS软件中,利用数据分析、降维、因子分析进行主成分分析。

第二步,分析软件输出的公因子方差见表2,表2给出了提取公因子后前后各变量的共同度,它刻画了全部公共因子对于变量Xi的总方差所作的贡献,说明了全部公共因子反映出原变量信息的百分比。例如,提取公共因子后,变量X1的共同度为0.980,即提取的公共因子对变量X1的方差做出了98.0%的贡献。从表2的数据可以看出,各个变量的共同度都比较大,说明变量空间转化为因子空间时,保留了比较多的信息,因此因子分子的效果是显著的。

人口、经济和社会子系统综合发展水平值见表5。由表5可以看出韶关市的人口、经济和社会子系统的综合发展水平趋势。2000—2010年人口子系统的综合发展水平值按时间顺序呈现先上升后下降的趋势,2005以前是上升趋势,以后呈下降趋势;经济和社会子系统的综合发展水平值按时间顺序呈现明显的上升趋势。2008年以后人口系统水平又变回负值,2010年水平与2000年相差不大,说明人口方面2005年以前是不断进步的,2005年之后水平呈现逐年退步趋势;经济、社会子系统的综合发展水平在2007年之后发展速度不断加快,这与韶关市经济、社会等各方面建设取得了与日俱增的进步密切相关。

四、人口、经济和社会子系统协调发展状况分析

韶关市人口、经济和社会子系统的综合发展水平值呈现出不同趋势,其中经济、社会子系统的变化趋势相同,而人口子系统综合发展水平值在2005年出现下降趋势,如果韶关市人口水平继续沿此下降趋势发展,人口问题可能会成为制约韶关市经济社会快速发展的不利因素。

导致人口系统综合发展水平值出现先升后降趋势的主要原因也反映了韶关市人口发展方面的一些问题:

首先,常住人口总量减少。尽管韶关市户籍人口每年都以低速增长,但常住人口数量自2005年292.26万人以后不断减少,2010年人口数量降至282.66万人,这主要是由韶关市劳动力流出数量大于流入所致。农村劳动力大量转移对于缓解资源压力、农民增加收入等方面发挥了重要作用,但过度转移对于当地的经济社会发展也会带来诸多负面影响,如本地农业生产劳动力减少、留守老人、留守儿童等一系列问题。高素质劳动力大量转移对本地经济发展也带来了不利影响,例如韶关市本地有多所技校,但是很多毕业生在就业时首选珠三角等经济发达地区,只有少部分毕业生留在本地工作,从而不利于韶关市工业发展。

其次,在校生人数呈下降趋势。尽管韶关市高等学校、中等职业学校、技工学校的在校人数在2000—2010年间呈增长趋势,但由于多年来人口只维持低水平增长率,小学在校生人数由2000年的338916万人降至2010年的207299万人,在校生总人数自2005年开始呈现下降趋势。这个问题也在一定程度上反映了韶关市当前人口结构的不合理现象。

第三,城镇化水平无显著提高。在人口指标体系中户籍人口中非农人口的比例自2005年之后一直下降,2000—2010年间韶关市城镇化水平变化不大,因此,韶关市在今后的发展过程中需要加快城镇化进程,以工业化带动城镇化,提高城镇化水平。

[参考文献]

[1]苏海红.青海省人口与经济社会协调发展问题研究[J].西北人口,2005(1).

[2]田成诗,盖美.关于人口与经济社会协调发展状态的研究[J].统计与信息论坛,2004(4).

人口统计学变量分析例7

二、应用SPSS软件的基本统分析

教学材料第二、三章内容为资料的整理与特征数的计算、概率和概率分布,结合教学内容SPSS上机实验课应设置基本统计分析课程,该部分包括数据汇总报告和描述性统计分析两方面的内容。基本统计分析可通过菜单栏的分析(Analyze)窗口进入,点击分析栏之后,鼠标放置数据汇总报告(Reports)栏,即可显示分层报告(OLAP—OnlineAna-lyticalProcessing)、数据汇总(CasesSummarize)、行汇总报告(ReportSummariesinRows)、列汇总报告选项(ReportSummariesinColumns)。其中分层报告主要用于中位数、最大值、最小值、方差、偏度系数等统计描述;数据汇总可用于对编辑窗口中的数据在结果窗口中罗列出来,以便浏览和打印,同时也可对数据的基本特征进行描述;行汇总报告可罗列原始数据,其格式是以观察单位和统计量为行标目,以报告变量为列标目;列汇总报告主要用来生成按列显示统计量计算结果的报告,同时也可以完成许多统计计算。当鼠标放置描述性统计分析(DescriptiveStatistics)位置后,选中响应的功能即可进入频数分析(Frequen-cies)、描述性分析(Descriptives)、探索性分析(Ex-plore)、多维交叉表分析(Crosstabs)、比值分析(Ratio)窗口从而根据自己的目的进行响应的数据分析。

三、应用SPSS软件的均值比较和方差分析

生物统计学基本知识熟悉之后,在随后在课堂教学中会开始进行统计推断和方差分析部分的内容。SPSS实验课在此部分结合课堂教学相应的设置均值比较和方差分析上机内容。均值比较可通过菜单栏的分析(Analyze)窗口进入,点击分析栏之后,鼠标放置数据均值比较(Com-pareMeans)上即可显示相应分析栏:平均数基本分(Means)可用于定量资料的统计分析,按分组变量计算因变量的描述统计量值,如均值、方差、标准差、偏度、峰度等统计量,并显示结果;单样本T-test(One-SampleTTest)单样本t检验主要用于样本平均数和已知总体平均数的比较;独立样本T-tes(tInde-pendent-SamplesTTest)可用于检验两个独立样本的总体平均数之间是否有显著差异;配对样本T-test(Paired-SamplesTTest)用于配对计量资料的比较,检验配对样本差值的总体均数与0的差异有无显著意义,以及配对样本是否相关方差分析包括单因素方差分析和多因素方差分析。其中单向方差分析(One-WayANOVA)可通过均值比较(CompareMeans)进入,其用于完全随机设计资料的多个样本均数比较和样本均数间的多重比较,也可进行多个处理组与一个对照组的比较。多因素方差分析可通过分析栏里的多因素方差分析(GeneralLinearModel)选项进入,进入之后会设置四个不同要求的选择:单变量多因素方差分析(Univariate)可用于一个因变量受一个或多个自变量影响的方差分析;多因变量方差分析(Multivariate)主要用于多个因变量受一个或多个因素变量或协变量影响的方差分析;多因变量方差分析(Multivariate)对同一因变量进行重复测量的方差分析;混合效应分析(VarianceCompo-nents)用来估计每个随机因素对因变量方差的贡献。在分析过程中可根据不同的需要和要求,选择相应的方差分析。

人口统计学变量分析例8

中图分类号:G434文献标识码:A文章编号:1671-7503(2014)01/03-0140-04

SPSS软件是世界上应用最广泛的专业统计软件之一,在全球约有25万用户,分布于医疗、银行、证券、市场研究和教育科研等多个领域,和SAS并称为当今最权威的两大统计软件。[1]随着产品服务领域的扩大和服务深度的增加,SPSS软件的全称几经变化,从最早的“Sta? tistical Package for the Social Science(社会科学统计软件包)”到“Statistical Product and Service Solution(统计产品与服务解决方案)”,再到“Predictive Analytics Software(PASW)Statistics”,直至被IBM公司收购后的“IBM SPSS Statistics”,但其风格和基本定位始终未变,一直是广大用户所喜爱的强大统计工具。到目前为止,国内发行的SPSS软件已更新到22.0版。

早在2006年,笔者曾撰文分析SPSS11.5英文版在学生成绩排序、平均分计算、分数段统计等方面的应用,随着软件版本的不断提高,SPSS的数据处理和分析功能也不断增强,这里就结合简单易学、内存容量较小的SPSS17.0中文版,以某高三学生期中考试化学成绩为例(总体为6个班级的学生,各班学生作为样本),进一步分析该软件在教学统计中的应用,供广大教育工作者分享。

一、数据文件的创建

SPSS数据文件有两种形成方式:一是在软件的数据编辑窗口中直接录入数据,得到“*.sav”格式的SPSS类型文件;二是先借助Excel等常用软件的数据输入技巧创建“*.xls”等类型的文件,[2]然后再利用SPSS的文件导入功能获取数据。关于第一种方式,前期已有文献进行了详细阐述,[3]这里只对导入Excel文件的过程进行简单说明。

任务1 :利用Excell文件创建SPSSS数据

例如:现有“高三学生期中考试成绩”的Excel数据文件,其中,包含班级、学号、姓名、物理、化学、生物共6个变量数据,文件第一行为各变量的名称。关闭该Excel文件,打开SPSS17.0中文版,在数据窗口中选择【文件】/【打开】/【数据】菜单,在“打开数据”对话框中,选择文件类型“Excel”,单击选中需导入的文件(如图1);单击【打开】,弹出“打开Excel数据源”对话框(如图2),特别需要注意的是“从第一行数据读取变量名”默认处于勾选状态,表示Excel原文件的第一行将作为SPSS文件的变量名称,真正的数据从第二行读起,用户可以根据自己的需要进行选择,单击【确定】,顺利导入文件,将其保存即得到SPSS数据文件。

二、“率”的计算

日常教学中,经常需要统计某次考试学生的合格率和优秀率,即分数在60分以上和90分以上的学生占总人数的比例。在SPSS软件中,以上两种“率”的计算可以通过频数分析功能得以实现。

任务2 :计算全体学生化学成绩的合格率和优秀率

在SPSS数据窗口中,选择【分析】/【描述统计】/【频率】菜单项,出现“频率”对话框,选中左边框中需要分析的变量“化学”,点击,使其进入“变量”空白框中(如图3);单击右侧的【格式】按钮进入“频率:格式”对话框,定义输出频数表的格式,在排序方式中选中第二个“按值的升序排序”,单击【继续】返回主对话框,再击【确定】,SPSS结果窗口就会输出学生化学各分数的人数和各种百分数(如图4),最后一列“累积百分比”代表该分数及以上的学生占总人数的比例,即所要求的“率”,从图可知,90分所对应的累积百分比为“9.0%”,即此次考试学生的优秀率,同理,读取60分所对应的累积百分比即可得到合格率。

(二)样本“率”的计算

任务3 :计算各班学生化学成绩的合格率和优秀率

关于各班“率”的计算,基本思路是:先通过拆分文件功能将其分为不同的班级,然后再进行频数分析,具体操作为:在SPSS窗口,选择菜单【数据】/【拆分文件】,在“分割文件”对话框中,选中“按组织输出”单选框,将“班级”变量通过选入“分组方式”框中(如图5),单击【确定】,数据窗口的右下角即出现“拆分条件班级”的字样(如图6),表明文件正处于以班级为单位的被拆分状态。再重复任务1的操作,即可得到各班“化学”的合格率和优秀率。

需要注意的是,文件拆分一旦设定,就将在后续的分析中一直有效,而且会被储存,直至重新定义拆分方式。因此,拆分状态要及时取消,方法为:在“分割文件”对话框中,重新选择“分析所有个案,不创建组”的单选框,确定即可。

三、样本平均分的计算

任务4 :计算各班“化学”的平均分

计算各班级样本的平均分方法众多,最常见的思路和任务2类似——先将其拆成不同的班级,然后,执行常规的描述统计功能,就可以得到各班的化学平均成绩,前期的文献对此已有详细分析,[3]这里不再赘述。但这种方法需分两步进行,不够简捷,在SPSS软件中,同时计算样本描述性统计量还有以下更简便的方法。

(一)比较均值法

在SPSS窗口中,选择【分析】/【比较均值】/【均值】菜单项,在“均值”对话框中,将需要计算的变量“化学”选入“因变量列表”空白框中,分类变量“班级”选入下方的“自变量列表”框中(如图7);单击右侧的【选项】按钮进入“均值:选项”对话框,通过中间的箭头可以自主选择需要计算的统计量,“单元格统计量”框中默认的有个案数、均值和标准差,单击【继续】返回,再单击【确定】,结果窗口就会输出各班的人数、化学平均分和标准差的表格。

(二)个案汇总法

在SPSS窗口中,选择【分析】/【报告】/【个案汇总】菜单,在“摘要个案”对话框中,将“化学”选入“变量”框中,“班级”选入“分组变量”框中,并去掉“显示个案”前面的“√”(如图9);单击【统计量】按钮进入“摘要报告:统计量”对话框,通过将“均值”选入“单元格统计量”框中,单击【继续】返回,单击【确定】,结果窗口即输出各班的人数和化学平均分(如图10)。

(三)分类汇总

Excel软件也有分类汇总功能,但操作没有SPSS简单,特别是同时对各样本进行汇总。在SPSS窗口中,选择【数据】/【分类汇总】菜单,在“汇总数据”对话框中,将“班级”选入“分组变量”框中,“化学”选入“汇总变量”中,“变量摘要”框中立即出现“化学_mean=MEAN(化学)”的函数等式(如图11),表示将得到一个名为“化学_mean”的新变量,其值等于“化学”平均分,教师也可通过点击下方的“函数”按钮修改汇总函数;勾选“个案数”,并在后面的“名称框”中输入“各班人数”;最后,在“保存”栏目中选中“创建只包含数据变量的新数据集”,并输入数据集名“平均分”,单击【确定】,即出现一个名为“平均分”的新数据集,其中,包含班级、化学_mean和各班人数三个变量(如图12)。图12分类汇总输出结果

以上三种途径都能快速得到各样本的平均分等描述性统计量,教师可以根据自己的实际需要灵活选择操作方法。

四、分数段人数的统计

任务5 :确定全体学生的化学成绩各分数段人数分布

平时统计成绩时,教师还经常需要观测各分数段的学生人数分布,SPSS软件可以通过重新编码和频数分析两个操作完成该工作,[3]而在17.0版本中还可以用一项新的功能——“可视化离散”代替“重新编码”来实现。可视化离散过程用在可以直接观察到的界面下,使用标准差范围或其他间距方式将连续变量划分为若干组段,直观易用,具体操作如下。

执行【转换】/【可视离散化】菜单项之后,将“化学”、“物理”选入“要离散的变量”对话框,单击【继续】按钮,系统就会对相应的变量进行数据扫描,进入“可视化封装”对话框,在“已扫描的变量列表”中选中“化学”,对话框中立即出现学生化学成绩的最小值、最大值和分布直方图,在“离散的变量”后面的框中输入新变量的名称“化学分段”,在“网格”表的“值”一列中输入各分割点的值“90、80、70、60”,直方图上就会看到相应的分割线,大致显示该变量的分段情况。需要注意的是,“上端点”有两种选择,这里选择“排除”,表示不包含端点,再点击【生成标签】按钮,标签列就会自动填充(如图13)。单击【确定】,弹出“封装规范将创建一个变量”的提示框,再击【确定】,数据窗口的最后一列就会出现“化学分段”的新变量。

分割点除了手动输入外,一些满足特殊条件的分段(如:等间距、等百分位等)还可以通过输入条件自动实现:在图13中点击【生成分割点】按钮,进入“生成分割点”页面,如图14完成设置,单击【确定】回到主对话框,分割“值”一列就会自动生成。

此外,对于多个变量的相同分段处理,只需根据以上操作先设定一个变量(如“化学”),然后利用图13左下侧的“复制块”框组,将设定好的属性复制“到其他变量”,在弹出的“从当前项复制块”对话框中选择目标变量(如“物理”),单击【复制】,就可以轻松实现多个变量的分段设定。

为完成任务5,教师还需对“化学分段”执行频数分析操作,具体过程如任务2,结果如图15。当然,如果要进行各班的分数段人数统计,则只要先分割文件即可。图15化学成绩分段人数统计

SPSS软件功能强大,综合利用某些功能可以快速、

高效地解决日常教学中的许多实际问题,为广大教育教

学工作者提供便利。

参考文献:

[1]张文彤,邝春伟编著.SPSS统计分析基础教程[M].北京:高等教育出版社,2011,11:1.

人口统计学变量分析例9

一、研究意义

当今的时代是知识经济的时代,知识决定竞争的实力,人口素质的高低将影响和决定一个国家或地区的综合竞争实力。为此我国一直实行着控制人口数量,提高人口素质的基本国策。随着经济的发展,杭州市在基本国策的指导下人口素质是否得到了相应的提高,人口素质和产业结构变动之间是否存在一定的关系。本文以杭州市人口普查的资料为例,研究杭州市人口素质的发展情况,并进一步研究人口素质与产业结构变动之间的关系。

二、人口素质定义及评价指标描述

中国对人口素质内涵基础理论问题研究较早的是北京大学的张纯元教授,在《人口理论教程》一书中,把人口素质定义为"人本身具有的认识、改造世界的条件和能力"。在不同的社会生产方式下,人口在质的规定性方面的发展水平,总是体现为人口总体认识和改造世界的条件和能力。人口具有多方面的质的规定性,一般认为包括身体素质、科学文化素质和思想素质三方面的内容"。

从人口素质的外延来看,主要是"三要素"和"二要素"之争。本文作者认为,从社会学的角度来看,"三要素"论比较全面, 思想道德素质有很大的作用,不能忽视;但是如果要从统计研究的角度看,人口素质与产业结构变动的关系研究适宜采用"二要素"论的思想对评价人口素质的各个指标变量进行定量的研究,因为思想道德素质的研究缺乏必要的量化指标,给分析研究带来一定的不便。所以, 在以下的研究中将采用"二要素"的思想。通过人口的身体素质和科学文化素质,同时加入劳动技能素质这个指标,来分析人口素质与产业结构发展的关系。

根据人口素质的构成,遵循科学性、实用性、完备性和可比性的原则,建立人口素质评价指标体系。在身体素质方面,选取以下三个指标:(1)人口平均预期命,(2)出生婴儿死亡率,(3)全市卫生技术人员数。在科学文化素质方面,选取三个指标:(1)高校在校生人数,(2)教育经费占GDP的比重,(3)教职员工数量。最后在劳动技能素质方面,选取了三个指标:(1)全市专业技术干部,(2)劳动生产率,(3)第三产业人口比重(第三产业人口在从业总人口中占的比重)。

三、实证检验与分析

(一)综合人口素质评价

本文研究采用因子分析的方法对杭州市人口素质进行评价。首先对评价人口身体素质的人口平均预期寿命、出生婴儿死亡率、全市卫生技术人员数,三个指标进行因子分析。分析结果显示,可以提取一个公因子,累计方差贡献率为97.167%,这表明,用提取的这一个公因子就可以解释原有三个指标的97%以上的信息,即信息的损失量非常低,足以用该指标表示人口的身体素质。

其次对评价人口科学文化素质的高校在校生人数、教育经费占GDP的比重、教职员工数量,三个指标进行因子分析。分析结果显示,可以提取一个公因子,累计方差贡献率为94.03%,这表明,用提取的这一个公因子就可以解释原有三个指标的94%以上的信息,即信息的损失量非常低,足以用该指标表示人口的科学文化素质。

再次对评价人口劳动技能素质的全市专业技术干部、劳动生产率、第三产业人口比重,三个指标进行因子分析。分析结果显示,可以提取一个公因子,累计方差贡献率为93.449%,这表明,用提取的这一个公因子就可以解释原有三个指标的93%以上的信息,即信息的损失量非常低,足以用该指标表示人口的劳动技能素质。

最后将身体素质、科学文化素质、劳动技能素质的三个公因子进行因子分析。分析的结果显示,可以提取一个公因子,其累计方差贡献率为97.949%,这表明因子分析结果能很好的得出综合人口素质的评价。人口素质综合评价结果显示杭州市人口的身体素质、科学文化素质、劳动技能素质都在不断的提高,从而综合素质也才不断的上升。

从数据调查中显示,杭州市的身体素质、科学文化素质、劳动技能素质、综合素质都从1986的负值,一直平稳的上升为正值,达到现在的2左右。其中在1986年到2000年科学文化素质的发展相对来说是最慢的,而劳动技能素质的提高是最明显的,这说明这段时间杭州市在培养劳动力技、职业教育方面做出来比较大的举措,而在2000年到2010年时劳动技能素质的发展比科学文化素质的发展稍弱,这说明我们现在的劳动素质发展有待进一步提高。身体素质在1986年到1999年的时间里是在平稳上升的,但在1999年到2001年身体素质出现了一个较大的波动,在2000年降到了0.19左右,可能的原因是在这段时间里杭州的经济快速发展,人民的压力不断增加,生态环境加剧恶化,医疗卫生条件却没有与经济同步。同时1999年到2000年出现的传染病比率上升,导致出生婴儿的死亡率提高,而全市的医疗卫生条件还停留在前期的状态没有相应的提高,因此身体素质在1999年急剧下降。浙江省新生儿疾病筛选查是从2000年开始启动,医疗卫生条件也在不断的改进,所以在2000年以后身体素质就快速的回升。最终使得综合素质也在这段时间里出现了起伏比较大的状态。

(二)产业结构变动研究

首先本文采用K值来描述产业结构的变化。K值指标是用来动态考察某一时期内一国三产业结构变动速度,其计算公式如下:

K= │qi,t┈qi,0│

其中qi,t表示第i产业在即期的GDP比率或者就业比率。qi,0表示第i产业在期的GDP比率或者就业比率。K值越大表示产业变动幅度越大, 反之则越小。本文收集了1978年-2010年以来各年的三产业的生产总值,采用K值的计算公式得到了产业结构变动的结果如下图:

图1 K值变动图

从图1中显示,杭州市产业结构的变动幅度总体上比较平稳。1979年到1982年间,三产业的结构几乎没有什么变化,从1982年开始产业结构可是不断的变化。其中变化最明显的时间段是1989年到1994年,以后呈缓慢上升状态。对呈现此种趋势状态的解释是中国正处在经济转型期,技术、需求、收入、贸易等因素的影响导致整个中国的产业结构在这段时间内发生了巨大的变动。当走过这种转型期,中国产业结构的变动幅度会逐年下降,最后趋于平稳状态。在20世纪90年代早期东南部沿海经济迅速发展,外界因素对产业结构的冲击较大,产业结构变动的幅度也相应较大,而杭州就在其中,所以杭州的产业结构变动幅度会出现这样的趋势。

(三)人口素质与产业结构发展关系研究

本研究应用相关分析法对1978-2010年杭州市人口身体素质、科技文化素质、劳动技能素质与产业结构变动进行分析。其中人口身体素质、科技文化素质、劳动素质指标值采用因子分析法所获得的因子得分来衡量。相关分析结果见表1,在0.01水平上,身体素质、科学文化素质、劳动技能素质和综合素质四个方面都与产业结构变动达到显著正相关,其Pearson相关系数分别0.967、0.897、0.965,而人口综合素质的相关系数为0.941。这表明,人口综合素质的提高对产业结构变动具有显著的促进作用,特别是身体素质和劳动技能素质的提高,对产业结构变动会产生更加显著的作用。

表1 人口素质与产业结构变动K值之间关系

最后以综合素质为自变量,产业结构变动K值为因变量,对人口素质和产业结构变动之间进行回归分析,以确定人口素质和产业结构变动之间的关系。

经过分析得到的拟合方程为y=0.125x+0.419,判定系数R2=0.885;方差分析F=177.864,Sig=0.000;回归系数检验:常数项t=45.708,Sig=0.000,参数项t=13.337,Sig=0.000。回归方程总体达到显著程度,即回归方程有效。

四、结论与探讨

1.杭州市人口总体素质在不断提升,且人口总体素质与三产业发展都具有显著的线性相关关系,提升人口总体素质,对实现杭州市产业结构升级具有显著的促进作用。

2.虽然杭州市的人口素质总体在不断的提高,但劳动技能的提高比身体素质和科学文化素质要低。可是劳动技能与产业结构之间的相关关系是非常显著的,是产业结构变动与优化的极大推动力,因此杭州人口的劳动技能还没有完全达到产业结构的需求,杭州市必须采取一定的措施进一步提高劳动力的劳动技能。

3.杭州市的产业结构在稳步的变动发展,并在逐渐趋于平稳,产业结构升级也趋于缓慢,杭州的产业结构优化也有可能停滞不前。所以杭州产业结构升级优化还需借助外部因素的推动。

综上所述为了在提高人口素质的前提下推动产业结构的升级优化,杭州可采取以下措施:首先加强高校教育,使高校学生素质与市场需求接轨,为劳动力市场提供高素质人才,推进产业结构向上的不断升级;完善医疗服务体系、改进基础公共服务设施,为整体人口素质的提高奠定坚实的基础,加快城市化进程,以城市化的外力推动产业结构的变动。再次在确立"就业优先"经济增长模式的前提下,应实施劳动力技能教育与培训的系统工程,从系统的角度加强对劳动力的技能教育与培训,让劳动力的知识、技能、观念、区域分布等适应经济结构变化,与市场需求相匹配,提高劳动技能和素质,为产业结构的升级注入新鲜血液。最后加强三产业吸纳劳动力的能力,三大产业对劳动力就业的吸纳能力各不相同,按强弱顺序排列依次为第三、第二、第一产业。第三产业不仅是目前吸纳劳动力就业最重要的部门,而且随着经济的发展,其吸纳劳动力的能力还将提高。因此,杭州市应当加强目前第二产业的发展,大力促进第三产业的发展,特别是金融、房地产等服务业的发展,这是增加劳动力需求,实现产业结构更加合理的十分重要的途径。

参考文献:

[1]杭州统计局.杭州市统计年鉴[M].中国统计出版社,2011

[2]浙江省统计局.浙江统计年鉴[M].中国统计出版社,2001-2010

[3]杭州统计信息网.http:///web/.

[4]屈云龙;徐燕.人口素质评价体系的构建[J].人口与发展,2011(1).

[5]尹希果;李后建.经济区产业结构变动对经济增长影响的差异性研究[J].宁夏大学学报,2010(9).

人口统计学变量分析例10

【关键词】 SPSS; EXCEL; 相关性分析;口腔护理人员

SPSS (Statistical Product and Service Solutions,统计产品和服务解决方案)是由美国SPSS公司20世纪80年代初开发的大型统计学软件包。它是目前世界上最新、最流行、最受欢迎的统计软件包之一。它包括数据管理、统计分析、图表分析、输出管理等基本功能。SPSS统计分析过程包括统计、均值比较、相关分析、回归分析、聚类分析、数据简化、生存分析、时间序列分析、多重响应等[1]。  EXCEL是美国微软公司推出Office软件系列中的计算机应用软件,它具有强大的数据处理能力和图表输出展示功能,在各行业中均得到普遍的应用。在医疗调查报告中,往往需要对大量冗杂的数据进行详细的计算处理,需要统计数据的算数平均值、不同数据分布的类型、各个调查因子之间的相关性等,因此该过程势必是一项相当繁杂的工作,如果能有效地联合运用SPSS和EXCEL软件,则会大大降低统计工作的工作量。本文就是利用这两个软件对口腔护理人员基本情况调查的数据进行相关的处理[2]。

下面主要对湖北省口腔护理人员在年龄、职称、工作年限、所在单位、岗前培训、岗前培训时间、近5年来参加口腔医疗专业学习班情况、外出学习情况、护理人员对本单位继续教育培训情况的满意度、护理人员对护理培训的兴趣情况、个人订阅杂志情况、近5年内情况、对培训感兴趣的类别13个方面的数据进行具体地应用处理。

1 基本情况

1.1 调查对象

本研究的抽样调查对象包括湖北省的83家医疗单位,发放问卷340份,回收问卷323份,有效率95%。其中口腔专科医院共抽样护士91人,综合医院口腔科抽取229人,口腔门诊3人。中专89人,大专140人,本科90人,硕士4人;年龄20~54岁,平均年龄33.48岁。

1.2 研究方法

采用问卷调查法。问卷是在参考国内外相关文献的基础上,结合口腔专科实际工作自行设计,并请有关专家进行审阅及修改。内容包括3部分,13个方面:①基本资料:年龄、职称、学习经历;②培训情况:岗前培训、近5年来参加口腔医疗专业学习班情况、学习内容、培训内容、外出学习情况;③个人反馈信息:护理人员对本单位继续教育培训情况的满意度、护理人员对护理培训的兴趣情况、个人订阅杂志情况、近5年内情况、对培训是否感兴趣。

1.3 处理方法

为获取真实可靠的调查数据,需要对统计数据进行缺失值、奇异值和极端值的处理。对缺失值采用线形回归法进行估计和替代,对奇异值和极端值采用QQ图提出飞点法。

本研究的数据统计均是在EXCEL2003和SPSS13.0软件中操作的,对于数据相关性的检验是在0.01水平下检测的。

2 数据处理

2.1 剔除异常数据

2.1.1 缺失值处理

缺失值是数据分析中一个非常常见的现象, 此处出现的主要原因有是拒绝回答等,对此应对缺失值的进行检测,SPSS 默认缺失值以黑点表示,可以通过快速浏览数据列表发现, 记录下缺失值所在的变量即数据的列。对于缺失值的处理方式有以下3种:剔除有缺失值的观测单位,即删除SPSS数据列表中缺失值所在的数据行;在SPSS的统计分析程序中,打开options 按钮,便会出现缺失值的处理栏, 可分别选择下列选项:“剔除正在分析的变量中带缺失值的观察单位”、“剔除所有分析变量中带缺失值的观察单位”。虽然这种做法可以为执行许多统计分析命令扫清障碍,但这要求每一步统计分析都联系于特定的有效样本容量,而样本容量不能稳定会给整个分析带来不便。对缺失值进行估计后补上,主要有两种方法:一是根据文献报道等知识经验进行估计;二是用SPSS 提供的工具进行估计。在“transform”菜单下的“replace missing values”列出了5 种替代的方法:① series mean:以列的算术平均值进行替代;② mean of nearly point :以缺失值邻近点的算术平均值进行替代;③ Median of nearly point :以缺失值临近点的中位数替代;④ linear inter pol ation:根据缺失值前后的2 个观察值进行线性内查法估计和替代;⑤ linear trend at poi nt :用线形回归法进行估计和替代[7]。本研究采取的方式为调查单位如果缺失两个以上的变量则剔除该调查单位,否则采用“near inter pol ation”的方法,根据缺失值前后的2 个观察值进行线性内查法估计和替代。

2.1.2 奇异值和极端值的处理

奇异值和极端值是指各变量中与整体数据相距太远的极值, 由于它的夸大作用,常常会歪曲统计结果,导致犯一类和二类错误。通常有4种原因可导致奇异值和极端值的出现:① 数据输入时出错;② 在不同数据格式之间进行转换时,缺失值处的数码代号被当成了实际观测值;③ 出现奇异值的样本并非属于所要考察的总体;④ 考察的样本相对于正态分布有比较多的极值。在描述统计分析菜单下,点击Explore ( 探索性分析) 对话框后把变量选入Variables框中,单击统计量选择描述统计量,单击图可以选择箱形图、茎叶图、直方图与正态检验的QQ 图等检测有无极端值和奇异值[7]。

2.2 基本统计量

经过对有效数据的统计,得出此次调查对象的平均年龄为33.48岁,最小年龄为20岁,最大为54岁,平均工作年限为14.27年;硕士学历的仅占1.18%,本科学历的占26.47%,大专学历的占41.18%,其余的为中专学历;主任护师有0.59%,副主任护师5.59%,主管护师38.24%,护师20.29%,护士34.98%;其中75.59%的人受过岗前培训,岗前培训时间在1周以内的达27.06%,在1个月的达27.94%,2个月的占7.64%,3个月的占20%,半年以上的达到17.36%,近5年内有49.41%的人员接受过培训,护理工作人员中有过出境学习经历的占28.24%,仅仅有0.59%人的不订阅杂志;70%的人员没有发表过论文,仅有7.4%的人员发表3篇以上的论文;67.94%的对护理培训是感兴趣的,仅有2.64%的人对培训是不感兴趣的。

2.3 调查各元素相关性的比较分析[3~6]

此次调查的13个元素之间是否是相关的,存在怎样的相关性,下面将使用SPSS软件处理这一问题。

首先将筛选后的有效数据加载到SPSS界面上,调整为规范数据格式(统一用1表示‘是’,2表示‘否’)。

如图2所示,从菜单中选择AnalyzeCorrelateBivariate,弹出Bivariate Correlations(双变量相关分析)主对话框(图5),选取护理人员的职称、学历两个变量放进variables,点击Options(选项)按钮,弹出Options(选项)对话框,选择Means and standard deviations 和 Exclude cases pairwise, 如图3。

图1 QQ 图演示‘飞点’(略)

图2 双变量相关分析主对话框(略)

图3 相关分析选项对话框(略)

输出结果为:(略)

图4 两变量的基本统计量(略)

图5 Pearson相关分析(参数方法)(略)

图5是Pearson相关分析(参数方法)的结果,“年龄”与“职称”的相关系数r=0.713,P=0.000,两者存在显著相关关系。也就是说在现有的医院里面,护理工作人员的职称是和年龄密切相关的。

按照同样的方法和操作过程,我们可以将本调查中的13个变量分别进行相关性的处理分析,从而找出护理工作人员受训情况。通过SPSS13.0的处理得出个变量之间的相关性如下:

表1 与其他变量间的相关性(略)

由此可以得出护理人员所发表的论文的数目和年龄、工作年限、学历、职称、岗前培训时间、5年内是否受过培训,外出学习情况是显著相关的,因此医疗单位若想要提高护理人员的理论水平,专业水平则需要增加对他们的培训时间和力度,增加外出学习的机会。对于护理人员个人如果要提升个人的业务水平则要提高个人的文化程度,增加工作经验,力争多受到培训、增加外出学习的机会。

3 结论

本研究通过对湖北省口腔护理工作人员的抽样调查数据的统计处理分析得到以下结论:①整个护理工作人员队伍的整体素质不佳,包括平均年龄较高,整体学历较低;②培训情况较差:近5年内仅有不到一半的人员参加受训,科学技术是不断发展的,口腔医疗方面的技术日新月异,工作人员一定要及时的接受新的技术和方法的培训和更新,才能配合医生更好的为病人服务;③培训时间较短:82.64%的护理工作人员接受培训的时间不到半年,较短的时间内她们不能很好的掌握业务知识;④外出学习机会较少;随着我国医疗卫生事业的发展,口腔医疗保健服务不断向国际接轨,应该创造并增加外出机会;⑤学术氛围不佳:70%的人员没有发表过论文,仅有7.4%的人员发表3篇以上的论文,对此,单位应该加强对学术氛围的营造。总之,通过此次调查,可以发现护理人员对培训的兴趣还是很浓厚的,只是需要相关培训方面的加强,缺乏外出学习交流的机会,没有浓厚的学术氛围,单位应该针对这些方面着手制出相应的对策。

参考文献

1 Finkbeiner BL. Fourhanded Dentistry Revisited. J Contemp Dent Pract, 2000, 1(4): 74~86.

2 Torres and Ehrlich. Modern Dental Assisting, 2005,502~504.

3 余薇,刘珊.SPSS软件在建立课堂教学质量评价中的应用.科技广场, 2005,5:76~79.

4 夏传涛,袁秉祥.无空列正交试验的设计与SPSS软件的数据处理.数理医药学杂志, 2006,19(1):93~94.