首页 问卷技巧 百科 | 如何检查清洗数据,提高定量访问的数据质量? 调研工厂 • 2022-12-11 06:30:43 • 问卷技巧 在定量研究中,数据的收集和分析是最重要的环节,作为结论依据的数据,质量的重要性不言而喻。 以往,在市场调研还处于线下模式的时候,一线访问员承担了大部分的数据质量监督工作。现场会有多次被访者的甄别,还会有访问员全程指导被访者,确保他们对题目的理解无误,对选项的理解无误,以及做出尽可能详尽的回答。 近年来,随着互联网的普及,以及出于成本和效率的考虑,大部分的定量访问已经转到线上。线上访问大大缩短了时间周期,减少了人力成本,但随之而来的弊端是,数据的质量不再像以前那样有保障。 被访者自己独自答题,有可能存在对问题的误解,也有可能存在虚假回答,比如为了能够参与调研获得奖励,而选择可以继续作答的甄别条件,给出虚假答案。 这种情况下,就需要我们在处理定量数据的时候,多长些心眼,学会辨识“假数据”和“弄虚作假的被访者”们。 一般来说,我们清洗数据可以从以下几个方面去进行检查: 1. 题目出现异常值 异常值指的是正常作答情况下,绝对不会出现的一些答题结果。 比如说,填写年龄的题目,出现三位数,个位数;开放题的回答,出现牛头不对马嘴的情况;答题时间记录,远低于平均答题时间等等。 2. 机器人式作答 所谓机器人式作答,是指很多类似的题目出现同样的答案,这种情况尤其会出现在量表题,需要做重点关注。 比如,所有打分题都是给同一个分数,那么一般可以认为是随意作答,需要作为废卷处理。一般来说,我们以量表题选择相同数字超过70%作为标准。 3. 逻辑紊乱 要发现这类问题,需要事先找好问卷中有相互关联的题目或者选项,在清洗数据的时候,重点查看这些关联是否符合逻辑。 比如,前面一道题回答自己的身份是学生,但是后面有一道题问婚姻状况的时候,选择的是已婚有孩,这种情况基本就属于是逻辑紊乱。又比如,年龄25岁以上,还说自己在读高中,个人年收入大于家庭年收入等等。 这里只是举了一些容易理解的例子,可能犯错的被访者不会很多。但实际情况下,当我们问卷达到一定长度,问卷逻辑关联变多,随便作答的被访者就很容易忽略逻辑关联,出现逻辑紊乱问题。那我们只要事先确定好可以互查逻辑的几道题,就能通过答案之间的相互关系找到不合格答卷进行废除。 4. 多选题选项个数 如果,某个被访者所有多选题的选项都只选1个,尤其是那些明显不是一个答案的选择题,也只选1个的时候,基本可以判定其为随意答题者,可以废除这份答卷。 5. IP地址对应 在消费者调研中,有些时候区域差异是特别重要的分析维度,因此被访者是否真实选择了自己常住地所在的城市,就非常重要。如果人在三线城市,却胡乱选择了一线城市,那么出来的结果肯定是不对的。 我们在清洗数据的时候,就可以通过检查IP地址的记录,对应被访者所选择的城市,看是否存在不匹配现象,如果存在,则可以视作无效问卷。 以上就是一些常见的数据清洗方法。但我们要注意,在清洗数据之前,我们一定要保留好源数据。对于有问题的数据,可以记录好其被访者ID或者编码,以确保在我们清洗数据之后,一旦存在误删除,还可以找到原来的数据填补回来。 END 任务广场免费收集样本数据👇 戳“阅读原文”进入官网免费使用~ 街头拦访到底靠不靠谱?这三点务必澄清 上一篇 品牌选择代言人之前如何做调研分析? 下一篇 相关推荐 调研报告 调研报告 | 2021年跨境电商产业生态发展趋势 2022-11-24 12:34:09 装饰材料价格波动调研报告 热点解读 2023-09-13 13:50:56 问卷模板 “不吼不叫 正面管教”家庭教育家长调查问卷 2023-03-21 15:05:49 调研知识 百科 | 用户运营新手必看的定义全解(上) 2022-11-24 13:29:02 患者满意度调查问卷 问卷模板 2023-08-14 17:18:24