百科 | 如何检查清洗数据,提高定量访问的数据质量?


在定量研究中,数据的收集和分析是最重要的环节,作为结论依据的数据,质量的重要性不言而喻。

以往,在市场调研还处于线下模式的时候,一线访问员承担了大部分的数据质量监督工作。现场会有多次被访者的甄别,还会有访问员全程指导被访者,确保他们对题目的理解无误,对选项的理解无误,以及做出尽可能详尽的回答。
 

近年来,随着互联网的普及,以及出于成本和效率的考虑,大部分的定量访问已经转到线上。线上访问大大缩短了时间周期,减少了人力成本,但随之而来的弊端是,数据的质量不再像以前那样有保障。

被访者自己独自答题,有可能存在对问题的误解,也有可能存在虚假回答,比如为了能够参与调研获得奖励,而选择可以继续作答的甄别条件,给出虚假答案。
 
这种情况下,就需要我们在处理定量数据的时候,多长些心眼,学会辨识“假数据”和“弄虚作假的被访者”们。 

 
一般来说,我们清洗数据可以从以下几个方面去进行检查:
 
1. 题目出现异常值
 
异常值指的是正常作答情况下,绝对不会出现的一些答题结果。

比如说,填写年龄的题目,出现三位数,个位数;开放题的回答,出现牛头不对马嘴的情况;答题时间记录,远低于平均答题时间等等。
 
2. 机器人式作答
 
所谓机器人式作答,是指很多类似的题目出现同样的答案,这种情况尤其会出现在量表题,需要做重点关注。

比如,所有打分题都是给同一个分数,那么一般可以认为是随意作答,需要作为废卷处理。一般来说,我们以量表题选择相同数字超过70%作为标准。

 
3. 逻辑紊乱
 
要发现这类问题,需要事先找好问卷中有相互关联的题目或者选项,在清洗数据的时候,重点查看这些关联是否符合逻辑。

比如,前面一道题回答自己的身份是学生,但是后面有一道题问婚姻状况的时候,选择的是已婚有孩,这种情况基本就属于是逻辑紊乱。又比如,年龄25岁以上,还说自己在读高中,个人年收入大于家庭年收入等等。

这里只是举了一些容易理解的例子,可能犯错的被访者不会很多。但实际情况下,当我们问卷达到一定长度,问卷逻辑关联变多,随便作答的被访者就很容易忽略逻辑关联,出现逻辑紊乱问题。那我们只要事先确定好可以互查逻辑的几道题,就能通过答案之间的相互关系找到不合格答卷进行废除。

 
4. 多选题选项个数
 
如果,某个被访者所有多选题的选项都只选1个,尤其是那些明显不是一个答案的选择题,也只选1个的时候,基本可以判定其为随意答题者,可以废除这份答卷。
 
5. IP地址对应
 
在消费者调研中,有些时候区域差异是特别重要的分析维度,因此被访者是否真实选择了自己常住地所在的城市,就非常重要。如果人在三线城市,却胡乱选择了一线城市,那么出来的结果肯定是不对的。

我们在清洗数据的时候,就可以通过检查IP地址的记录,对应被访者所选择的城市,看是否存在不匹配现象,如果存在,则可以视作无效问卷。

 
以上就是一些常见的数据清洗方法。但我们要注意,在清洗数据之前,我们一定要保留好源数据。对于有问题的数据,可以记录好其被访者ID或者编码,以确保在我们清洗数据之后,一旦存在误删除,还可以找到原来的数据填补回来。


END



任务广场免费收集样本数据👇


“阅读原文”进入官网免费使用~
上一篇
下一篇

相关推荐

Demo体验
联系我们
联系我们
信息填写完毕后,我们会在最短的时间内安排专员给您回电