我们的抽样
民调范围可以是任何地区,民调对象可以是任何群体;只是它需要根据研究设计界定清楚。例如,我们的研究总体可以是一个城市、一个省份,甚至全国,也可以是老人、残疾人、律师或者小商小贩。
经常有人问我们,为什么一个1000人的民调可以代表一个城市上千万人的看法和感受?这是因为我们通过分层抽样、概率比例抽样等抽样技术,确保了样本的代表性,从而可将民调结果推论到一个城市或一个地区。也许,还有很多人难以理解如同“魔术”般的抽样,那么现代社会调查抽样方法的先驱—盖洛普先生进行了解说:假设有7000个白豆子和3000个黑豆子十分均匀地混在一起,装在一只桶里;当你舀出100个时,你大约可以拿到70个白豆和30个黑豆,而且你失误的几率可以用数学的方法计算出来。只要舀出的豆子多于1000个,那么你出错的几率就少于3%。
推论到我们的民调抽样中,其实就是,只要你了解到抽样范围具有广泛性:男性、女性,富有、贫穷,城市、郊区,年少、年老,只要有一部分人代表他们所属的总体,就可以通过访问相对少的一部分人,来反映全部人对其关心问题的态度。研究已证实,通过科学抽样,可以准确地估测出总体,同时,通过抽样进行民调,可节省大量的时间和资源。
以下方面是我们抽样工作中重要管理与操作的事项。
界定调查总体
我们的民调通常是在确定的地域范围内,对特定居住人群进行调查,如对广州市全部居民的调查,或者对广东省城镇居民的调查,又或者是对广东省乡村居民的调查,调查总体在研究设计中进行了确定。
通常,界定调查总体是比较容易进行的,政府统计部门有大量的人口统计资料,可以方便的运用。但是,一些时候也不能照搬这些资料。我们在进行全省农村调查时,就发现乡村居民的人口统计资料是不能照搬使用的,如在深圳市人口统计中,已经没有了乡村居民,在政府统计中,全部均为城镇居民。但是,在深圳仍然有一些地域分布着乡村,其中居民仍然过着乡村生活,进行乡村劳作。因此,我们需要重新进行界定,将在行政概念上转为城镇居民的实际村民,重新界定出来,虽然就全省而言,这是一个很小比例的乡村居民,但我们仍然花了很大的气力进行测算和评估,力求得到准确的数字。类似的情况在广州和省内的一些其他地区也都存在,我们都一一进行了重新界定。
建立抽样框
我们的民调多数是使用电话访问方式,那么,从一个总体中抽取出来的样本具有代表性的关键,在于保证每一个拥有电话的家庭都会进入抽样框。
首先,我们要了解抽样框是什么?样本是从一个抽样框中抽取出来的,抽样框就是对总体特质能够充分反映的抽样范畴的构造。一个好的抽样框必须是完整的,包含每一个成员,排除与总体不相关的个体,而且保证不会有任何一个成员多次列入名单中。由于我们通常进行地域为界限的所有成年人的电话访问,因此建立所在地的电话访问抽样框,对我们十分重要。
那么,对于一个电话访问调查而言,如何获取一个好的抽样框呢?在我们国家,电话本是不提供私人电话的,完全不可能靠电话本建立抽样框。
我们创新了抽样方法,依据各类人口资料,把握总体特征,运用卫星遥感测绘和数字格式化技术进行地域均匀细分界定,再以居委村委为受访电话号码基础单元,生成建立抽样框。我们还通过独创的数字编码体系,使得抽样框信息清晰、易于检索,为抽样和样本数据构造了多样化、多维度空间。这些都有力地提升了大地域调查样本的代表性。
建立抽样框的工作是非常艰难的,也需要耐心细致,有时,我们建立一个抽样框,需要花上数个月的时间,要有十几个人的共同工作。但是,好的抽样来源于好的抽样框,对此,我们坚持不懈,力求完美。
确定调查样本量
我们典型的大城市民调样本量为1000人,如广州地区电话调查。在一些更大地区,比如全省城镇居民电话调查样本为2000人,全省乡村居民电话调查样本至少也在1500人。确定样本量有科学的既定公式,这些都是我们工作的依据。
基于我们的国人还不熟悉民调,因此,我们在确定样本量时,是有意识放大的。在我们的民调经验中,一个单一的大城市调查,样本量在600以后,增加的样本对最终数据的影响不是很大。例如在广州,2004年10月和11月,我们就社会治安分别进行了样本量为1000人和2000人的两次相同问题的调查,其结果非常接近,数据的差异是可以忽略不计的。
进行概率抽样
那么,什么是一个科学的抽样呢?就是在抽取一个样本时,需要确保总体中的任何一个成年人都有被选进样本的机会,也就是我们常常使用的概率抽样。联想到舀豆子,就是要通过什么方法使那些黑白豆子均匀地混在一起,从而每次舀都使每一颗豆子又有选中的机会。换到民调抽样,就是每一个成年人都有一定的机会被抽出来参与调查。
在电话号码库中,我们要给每个电话号码以同样的被抽中的概率,这个程序叫做简单随机抽样。而当这些号码拨通之后,我们通过生日法,也就是生日(生日是随机分布的)最靠近访问当天的成年人接受电话访问,从而确保合条件家庭成员都有被选中的机会。
即使是概率抽样,在一定的统计学原理的计算上,也有误差范围,这种误差范围也可以称之为95%的置信区间。这些理解为假如这个问卷在使用完全相同的程序做100次,这个误差范围就意味着这100次中95次包含“真值”,其余5次是可能出现误差的。在一个规模为1000的样本中,误差范围一般在±3个百分点。
根据研究的需要,有时我们会设计一些针对特定人群如意见领袖,尤其是那些能够参与公共政策制订的意见领袖的民意调查。我们通常会将精英们的意见与大众的观点进行对比,并判断大众意见会否跟随精英意见。我们针对特定人群的调查还有如:残疾人就业评价调查,律师对司法公正的评价,公交车、地铁、出租车乘客评价等。
在2008年开展的环境状况民调中,我们不仅对一般市民进行电话访问,还对知名人士和专家开展访问调查。我们将这个特定群体的总体界定为以知识界为主,企业界和政界为辅;其中知识界包括科技界、教育界、医学界、传媒界和文艺界等。在确定总体和抽样框后,我们根据调查对象的分布,进行分层抽样和实施了问卷访问,最后成功访问了234位知名人士和专家,其中包括钟南山、曾庆洪、陈扬、赵广军、傅家谟等国内知名人士,及20多名环境专家、医生、医学专家30人,传媒人士近40人等。这次民调利用知名人士和专家的阅历、专业知识和预见能力,通过了解他们对环境状况的判断和看法,从而较准确地观察环境问题的舆论走向态势。
重要的是,我们对特定人群调查也遵循概率抽样原则。我们通常会确定特定人群总体的概念与范围,建立抽样框确定样本量,实施抽样。
我们已经知道,一个好的民意调查的关键,是按概率比例随机抽出对目标总体具有代表性的样本。那么,不好的样本有哪些呢?实际上,目前到处可见不好的民调样本,也经常看到这些有缺陷的民调见诸传媒。
不好的样本诸如,在网站上进行的调查,参加调查的人并不符合抽样原则,因而谈不上调查的代表性,只能说是爱好者、兴趣者的冲浪。
在街头、商场进行的调查,同样在于没有建立合理的抽样框,没有随机抽样选择样本,不可能对目标总体有代表性。
以上种种,都是我们拒绝的不好的样本。
我们的抽样,是要花费大量精力和资源的,也是困难重重的。但是,为了得到好的样本,为了保证样本的代表性,为了民调的准确,投放资源和克服困难,都是必不可少的。