@jk88876594 2017-08-20T04:12:12.000000Z 字数 636 阅读 3361

DataFrame——数据统计

阿雷边学边教python数据分析第3期——pandas与numpy

#示例数据
df = pd.read_csv("pokemon_data.csv",encoding="gbk")

一.简单随机抽样

#简单随机抽样，随机抽取5行数据
df.sample(n=5)

#设置抽样的权重，权重高的更有希望被选取
w = [0.2,0.3,0.5]
df.head(3).sample(n=2,weights=w)

抽样后是否放回，由replace参数控制

#抽样后不放回
df.head(5).sample(n=4,replace=False)

#抽样后放回
df.head(5).sample(n=4,replace=True)

#获得描述性统计信息
df.describe().round(1)

#均值
df["攻击力"].mean()

#标准差
df["攻击力"].std()

#求和
df["攻击力"].sum()

#中位数
df["攻击力"].median()

#最大值或最小值的索引idxmax,idxmin
df["攻击力"].idxmax()

#累计值
df["攻击力"].cumsum()

#频数分布
df["类型1"].value_counts()

#两变量的协方差
df["攻击力"].cov(df["防御力"])

#所有变量间的协方差
df.cov()

#两个变量间的相关系数
df["攻击力"].corr(df["防御力"])

#所有变量间的相关系数
df.corr()

ZHZ}6FI~A`H~9}~CCI)Q5E7.png-258.9kB