百科 | 如何检查清洗数据，提高定量访问的数据质量？_调研百科

在定量研究中，数据的收集和分析是最重要的环节，作为结论依据的数据，质量的重要性不言而喻。

以往，在市场调研还处于线下模式的时候，一线访问员承担了大部分的数据质量监督工作。现场会有多次被访者的甄别，还会有访问员全程指导被访者，确保他们对题目的理解无误，对选项的理解无误，以及做出尽可能详尽的回答。

近年来，随着互联网的普及，以及出于成本和效率的考虑，大部分的定量访问已经转到线上。线上访问大大缩短了时间周期，减少了人力成本，但随之而来的弊端是，数据的质量不再像以前那样有保障。

被访者自己独自答题，有可能存在对问题的误解，也有可能存在虚假回答，比如为了能够参与调研获得奖励，而选择可以继续作答的甄别条件，给出虚假答案。

这种情况下，就需要我们在处理定量数据的时候，多长些心眼，学会辨识“假数据”和“弄虚作假的被访者”们。

一般来说，我们清洗数据可以从以下几个方面去进行检查：

1. 题目出现异常值

异常值指的是正常作答情况下，绝对不会出现的一些答题结果。

比如说，填写年龄的题目，出现三位数，个位数；开放题的回答，出现牛头不对马嘴的情况；答题时间记录，远低于平均答题时间等等。

2. 机器人式作答

所谓机器人式作答，是指很多类似的题目出现同样的答案，这种情况尤其会出现在量表题，需要做重点关注。

比如，所有打分题都是给同一个分数，那么一般可以认为是随意作答，需要作为废卷处理。一般来说，我们以量表题选择相同数字超过70%作为标准。

3. 逻辑紊乱

要发现这类问题，需要事先找好问卷中有相互关联的题目或者选项，在清洗数据的时候，重点查看这些关联是否符合逻辑。

比如，前面一道题回答自己的身份是学生，但是后面有一道题问婚姻状况的时候，选择的是已婚有孩，这种情况基本就属于是逻辑紊乱。又比如，年龄25岁以上，还说自己在读高中，个人年收入大于家庭年收入等等。

这里只是举了一些容易理解的例子，可能犯错的被访者不会很多。但实际情况下，当我们问卷达到一定长度，问卷逻辑关联变多，随便作答的被访者就很容易忽略逻辑关联，出现逻辑紊乱问题。那我们只要事先确定好可以互查逻辑的几道题，就能通过答案之间的相互关系找到不合格答卷进行废除。

4. 多选题选项个数

如果，某个被访者所有多选题的选项都只选1个，尤其是那些明显不是一个答案的选择题，也只选1个的时候，基本可以判定其为随意答题者，可以废除这份答卷。

5. IP地址对应

在消费者调研中，有些时候区域差异是特别重要的分析维度，因此被访者是否真实选择了自己常住地所在的城市，就非常重要。如果人在三线城市，却胡乱选择了一线城市，那么出来的结果肯定是不对的。

我们在清洗数据的时候，就可以通过检查IP地址的记录，对应被访者所选择的城市，看是否存在不匹配现象，如果存在，则可以视作无效问卷。

以上就是一些常见的数据清洗方法。但我们要注意，在清洗数据之前，我们一定要保留好源数据。对于有问题的数据，可以记录好其被访者ID或者编码，以确保在我们清洗数据之后，一旦存在误删除，还可以找到原来的数据填补回来。

END

任务广场免费收集样本数据👇

戳“阅读原文”进入官网免费使用~

百科 | 如何检查清洗数据，提高定量访问的数据质量？