2.2 数据清理
数据操作:数据清理、数据转换、数据特征提取
数据清理就是清洗掉错误的数据
错误数据的类型:outliers、Rule violations、Pattern violations
下面都是超范围的数据,直接去掉
高于75%线取盒子高的1.5倍
基于规则的检测:自定义一些规则来筛选数据
基于语法、语义模式的数据清理
数据中总是有错误,有几种典型的错误