企业想要保持核心竞争力,就必须比大数据分析做的更多。当发生数据科学错误一次是可以接受的,但是如果这些错误发生在两次以上,则会增加企业成本。
我们需要避免常见的数据科学错误有以下几点:
1. 相关关系和因果关系之间的混乱
大部分数据科学家在处理大数据时假设相关关系直接影响因果关系,使用大数据来理解两个变量之间的相关性通常是一个很好的实践方法,但总是使用“因果”类比可能导致虚假的预测和无效的决定。
要想实现利用大数据的最好效果,数据科学家必须理解相关关系和根源的区别,在数据科学里,这是两个完全不同的事情,但是许多数据科学家往往忽视了它们的区别。
2. 没有选择合适的可视化工具
如果数据科学家不能选择合适的可视化发展模型,监控探索性数据分析和表示结果,那么即使是最好的机器学习模型,它的价值也会被稀释。事实上,许多数据科学家根据他们的审美选择图表类型,而不是考虑数据集的特征。
解决任何数据科学问题的至关重要一步,就是要获得该数据是关于什么的洞察力,通过丰富的可视化表达,可以形成分析基础和建立相应模型。
3. 没有选择适当的模型
许多数据科学家经常忘记或者倾向性地忽视一个事实,就是他们的数据必须在指定的时间间隔进行反复验证。一些数据科学家经常犯的一个普遍性错误:如果和观察到的数据吻合,就认为预测模型是理想的。
为了避免这种情况,数据科学家最好的解决方式就是每个小时都对含有新数据的数据模型进行评分,或者基于模型的关系变化快慢逐日逐月评分。
4. 无计划的分析
数据科学是一个结构化的过程,以明确的目标开始,之后出现一些假设,最终实现目标。数据科学家往往站在数据之上而不考虑那些需要分析回答的问题。数据科学项目必须要有项目目标和完美的建模目标。
大多数数据科学项目最终是回答“是什么”的问题,这是因为数据科学家通过手头的问题作分析而不遵循做分析的理想路径,应该通过整合以前未被整合的数据集,主动分析给与的数据集,回答以前没人解答的问题。
为了避免这种情况,数据科学家应该集中精力获得正确的分析结果,通过明确实验,变量和数据准确性和清晰明白他们想要从数据中获得什么。
5. 仅关心数据
数据科学家常常因为得到来自多个数据源的数据而兴奋,并开始创建图表和可视化来做分析报告,忽视发展所需的商业智慧,还经常给与数据太多决策制定的权力。
应该不仅仅让数据说话,而且善于运用自身的智慧。数据应该是影响决策的因素而不是数据科学项目决策制定的最终声音,企业雇佣的数据科学家应该是可以将领域知识和技术特长结合起来的,这是避免错误的理想情况。
6. 忽视可能性
数据科学家经常倾向性忘记方案的可能性,这将会导致作出更多的错误决策。数据科学家经常犯错,因为他们常认为,企业采取了X操作一定会实现Y目标,对于特定的问题这没有唯一的答案,因此要确认数据科学家从不同可能性中所做的选择。
对指定问题存在不止一个可能性,它们在某种程度是不确定的。情景规划和可能性理论是数据科学的两个基本核心,不应该被忽视,应该用以确认决策制定的准确性频率。
7. 建立一个错误人口数量的模型
如果一个数据项目的目的是建立一个客户影响力模式的模型,但是他们仅仅考虑那些具有高度影响力的客户的行为数据,这不是对的做法。
建立该模型不仅要考虑那些具有高度影响力的客户的行为数据,也要考虑那些不怎么有影响力但是具有潜在影响力的客户的行为数据,低估任何一边人口的预测力量都可能导致模型的倾斜或者一些重要变量的重要性下降。