数据清洗的步骤和技巧

tamoadmin 赛事报道 2024-04-26 12 0

数据清洗的步骤和技巧

数据清洗是数据分析的重要步骤,其目的是发现并纠正数据文件中可识别的错误,包括检查数据一致性、处理无效值和缺失值等。以下是数据清洗的一些基本步骤和技巧。

数据清洗的基本步骤

1.理解数据:整体上理解数据集中的的数据字段意义,需要理解数据集的数据类型:文本型,数值型,逻辑性,错误值。

2.数据清洗:数据清洗也叫做数据预处理,一般进行数据清洗需要通过7个步骤进行处理:选择子集,列名重命名,删除重复值,缺失值处理,一致化处理,数据排序处理,异常值处理。

选择子集:即选择需要进行分析的数据集中的数据列,为避免干扰可对其他不参与分析的数列进行隐藏处理。

列名重命名:若数据集中出现同样列名称,或含义相同的两个列名,为避免干扰分析结果则需要针对某一个数据列的列名进行重命名。

删除重复值:删除数据中的重复数据值,注意只会保留重复数据的第一条数据。

缺失值处理:原始数据中可能会出现数据值缺失,即数据集中存在无数据的数据单元格。可以人工手动一次性补全缺失值:首先通过定位条件查找的方式,查找到缺失值。然后Ctrl选中所有缺失值,在公式输入框输入对应内容,使用Ctrl+Enter可补全选中的缺失值。

一致化处理:数据集中会存在某一个数据列的数据至标准不一致或命名规则不一致的情况,可以使用分列功能将不一致的数据列中的数据值进行拆分。

数据值函数应用:对列数据集中的数据进行筛选排序,升序,降序排列等函数的应用。

异常值处理:即数据处理模式,Split(数据分组)Apply(函数应用)Combine(组合结果)。数据的组合结果,对清洗后的数据进行分析,应用到数据透视表。

数据清洗的技巧

1.工欲善其事必先利其器:需要重视流程和规范,善用技巧,可以减少重复的工作,从繁杂额工作中释放出来。

2.必要的技巧需要结合实操才能掌握:磨刀不误砍柴工。

3.保留原始数据,清洗过程可以追溯:数据清洗前,备份原始数据;数据清洗时,不改变原有数据。

4.PowerQuery数据清洗常用技巧

获取同一文件夹多个工作簿数据:通过“获取数据”——“文件”——“文件夹”——“链接”,选择目标文件夹——确定,进入PQ编辑器。

将第一行用作标题:将Excel数据导入PQ时经常会出现一种情况,Excel的列标题变成了PQ中的第一行数据,这时要在PQ中转换标题。“主页”——“将第一行用作标题”实际上就是将第一行的数值提一级变成列标题。

数据筛选:因为将多个Excel工作簿合并,原列标题变成了PQ的数值,点击“列标题——筛选”即可完成数据筛选。

删除列:“数量”列是各型号列的总和(128G+256G+512G),应该删掉。右击“列标题——删除”。

填充:excel合并单元格变成PQ中的空值。选中“顾客性别”列,“转换”——“填充”——“向下”。

删除空值:excel空值变成PQ中的“null”,用“筛选”删除“null”空值。

删除重复项:数值中存在重复项。

修改数据类型:列标题前面的符号代表了数据类型,点击即可修改数据类型。

替换:将“vivo”全部替换成“VIVO”。选中替换值所在列,“转换”——“替换值”。

删除字符中的空格:“外文名”列中间有很多空格,在品牌名前、中、后都有空格。删除前、后空格:“转换”——“格式”——“修整”。删除中间空格:用“替换”功能。

更改字母大小写:将“外文名”列所有字母转为大写。

拆分列:将“手机”列国家和品牌分开。

数据清洗的步骤和技巧

添加索引列:要给表格增加一个编号:“添加列”——“索引列”,将索引列移动到第一列。

以上步骤和技巧可以帮助你有效地进行数据清洗,但是在实际操作中,还需要根据具体的数据和需求进行调整。