python如何对数据进行归一化,怎么用Python进行数据转换

怎样用Python进行数据转换和归一化

1、概述

实际的数据库极易受到噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源,低质量的数据将会导致低质量的数据分析结果,大量的数据预处理技术随之产生。本文让我们来看一下数据预处理中常用的数据转换和归一化方法都有哪些。

2、数据转换(Data Transfer)

对于字符型特征的处理:转换为字符型。

数据转换其实就是把一些字符型数据转换为计算机可以识别的数值型数据的过程,例如我们有性别这个属性,其中有“男”、“女”这两个元素,那我们就可以用数字0代表“男”,1代表“女”。

用python代码来实现一下:

import pandas as pd

data = {‘性别’ : [‘男’, ‘女’, ‘男’, ‘女’, ‘女’]}

df = pd.DataFrame(data)

print(df)

python如何对数据进行归一化,怎么用Python进行数据转换

df[u’性别’] = df[u’性别’].map({‘男’: 1, ‘女’: 0})

print(df)

python如何对数据进行归一化,怎么用Python进行数据转换

3、零均值归一化(Z-Score Normalization)

说到零均值归一化,我们就要先来聊聊归一化是什么。

归一化是我们在数据预处理中经常要用到的方法。假设我们通过一个人的身高和体重去判断一个人的胖瘦,有一个人的身高为1.80m体重为80kg,大家都知道胖瘦是由身高和体重共同来决定的,但是此时体重的数值远远大于身高,也就会导致在计算的时候体重被赋予更高的权重,最终导致预测结果不准确,此时我们就会想到把两种属性映射到一个范围内去计算,这种方法就叫做归一化。

了解了归一化,再让我们来了解一下零均值归一化。零均值归一化也叫Z-score规范化(零均值标准化),该方法要求变换后各维特征的均值为0,方差为1,计算方式是将特征值减去均值,再除以标准差。

公式:$z-score = frac{x_i – mu}{sigma}$

注:我们一般会把train和test放在一起做标准化

用python代码来实现一下:

from sklearn.preprocessing import StandardScaler, MinMaxScaler

import pandas as pd

views = pd.DataFrame([1295., 25., 1900., 50., 100., 300.], columns=[‘views’])

print(views)

python如何对数据进行归一化,怎么用Python进行数据转换

ss = StandardScaler()

views[‘zscore’] = ss.fit_transform(views[[‘views’]])

python如何对数据进行归一化,怎么用Python进行数据转换

根据结果我们可以看到,属性views被缩放到了很小的范围内,也成功避免了属性值间差异过大的问题。

4、最大最小归一化(Min-Max Scaling)

归一化的另一种常用方法就是最大最小归一化(线性函数归一化),该方法将所有的数据变换到[0,1]区间内。

公式:$frac{x_i – min(x)}{max(x) – min(x)}$

用python代码来实现一下:

mms = MinMaxScaler()

views[‘minmax’] = mms.fit_transform(views[[‘views’]])

print(views)

python如何对数据进行归一化,怎么用Python进行数据转换

根据结果我们可以看出,最大最小归一化相比于零均值归一化而言映射到了一个更小的空间内,

5、为什么要进行归一化

我们不妨从随机梯度下降的角度来思考一下,假设有两种数值型特征,x1的取值范围是[0,100],x2的取值范围是[0,10],我们就可以构造出一个图1中a的图形。当我们的学习速率相同的时候,很明显x1的更新速度会大于x2的更新速度,也就会导致收敛速度变慢,但是当我们把x1和x2归一化到同一个数值空间时,就会变成图1中b的图形,x1和x2的更新速度保持一致,从而加快了收敛速度。

python如何对数据进行归一化,怎么用Python进行数据转换

图1

6、小结

1、在实际应用中,通过梯度下降法进行求解的模型通常都是需要进行归一化的,例如:线性回归、逻辑回归、支持向量机、神经网络等。而决策树模型中信息增益与数据是否经过了归一化没有关系,此时是不需要进行归一化的。

2、在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,零均值归一化表现的更好。

3、在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用最大最小归一化或其他归一化方法。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 86345@qq.com 举报,一经查实,本站将立刻删除。
(0)
上一篇 2023-09-01 14:48:20
下一篇 2023-09-01 14:51:41

猜你喜欢

  • excel怎么改变柱形图宽窄(excel柱形图如何改变柱子的宽度)

    实例操作马上开始: ①打开表格,选中数据区域,看到矩形图,单击菜单栏–设计–选择数据。 ②弹出选择数据源对话框,单击图例项下面的添加按钮。 ③编辑数据系列,…

    2022-04-12
  • 元宵节祝福文案_元宵节吉利话

    公元2023年2月5日,是兔年元宵节,立春后的第二天,一切都是美好的开始,元宵节祝愿大家一切安好。 元宵节祝福文案 1、元宵节快乐!龙灯闹,好运连,又是一年元宵节,家人团圆多欢乐;…

    2023-02-04
  • 新手用苹果电脑注意事项(买苹果电脑的注意事项)

    当我们要搭建一个苹果电脑工作系统的时候,首先要了解苹果的成套设备的维护。不要认为这对我们的工作无关紧要。相反,如果我们能很好地维护设备,不仅可以事半功倍,还可以避免意想不到的问题。…

    投稿 2022-04-27
  • 个体户如何做财务报表,怎么填写

    现在不少年轻人选择开店,咖啡店、花店、书店……开这些小店的人往往没有财务工作经验,很多方面都不规范。但是不管大店小店,都需要应对年检,提供正规的财务报表。那么,怎么做财务报表呢? …

    投稿 2023-08-19
  • 苹果电脑怎样隐藏文件(苹果电脑怎么显示隐藏文件)

    1.按“Go”进入“电脑”或文件夹,首先进入需要显示隐藏文件的文件夹。 2、按Command苹果键+F,在窗格上会显示搜索栏,然后将第一个下列选择项“种类kind”选择为“其它Ot…

    投稿 2022-04-24
  • 游戏加速器什么原理_游戏加速器的原理与搭建

    背景 一般来讲,国内运营商都有QoS 百度百科:QoS ( Quality of Service,服务质量)指一个网络能够利用各种基础技术,为指定的网络通信提供更好的服务能力,是网…

    2023-03-30
  • 公寓卖出税收标准是多少,卖公寓有哪些流程

    一、公寓卖出税收标准是多少 1、契税:非普通住宅应该交纳成交价或是评估价的3%的契税。 2、营业税:房屋产权取得满五年的免征,未超过五年的按房价5.8%缴纳。卖方承担; 3、土地增…

    2023-10-19
  • excel自定义视图的作用(excel视图如何设置)

    为了保存特定的显示设置(如行高、列宽、单元格选择、过滤器设置和窗口设置等。)和打印设置(如页边距、纸张大小、页眉和页脚以及工作表设置等。)在特定的视图中,用户可以在设置后自定义视图…

    2022-04-17
  • 耳机为何有电流声_耳机有电流声的解决方法

    很多小伙伴会遇到在使用耳机时,偶尔会有微弱的电流声。虽然影响不大,但确实会让心情变得烦躁。想着我花好几百块钱买的耳机,戴上竟然会有电流声,是不是次品呀?这种心情以及疑问,我们非常理…

    2022-05-15
  • 喝奶茶有哪些坏处_喝奶茶的坏处

    奶茶自从台湾问世以来,就越来越受人们的欢迎。现在有很多的青少年都有喝奶茶的习惯。走在大街上,如果感到口渴的话,在奶茶和水之间,大部分的人都会选择奶茶,因为奶茶不仅能够解渴,而且味道…

    2023-03-16

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注