@fanxy
2016-09-11T20:48:10.000000Z
字数 1595
阅读 2282
樊潇彦
复旦大学经济学院
中级宏观
data(iris)
class(iris) # 数据类型
dim(iris) # 几行几列
nrow(iris); ncol(iris)
colnames(iris) # 指标名称
attributes(iris) # 数据性质
str(iris) # 数据结构
head(iris); tail(iris) # 前6行和后6行
summary(iris)
data.table, readxl 等
setwd("D:\\...\\Ch02") # 设置工作目录
library(data.table)
gdp_csv=fread("../Ch01/GDP.csv",header=T) # 读取.csv数据
library(readxl)
gdp_xlsx=read_excel("Ch02_Data.xlsx",col_names=T,sheet="gdp_idx") # 读取excel数据
library(foreign)
write.dta(gdp_xlsx, file="gdp.dta") # 另存为.dta
library(readstata13)
gdp_dta=read.dta13("gdp.dta") # 读取stata13数据
library(readr)
netdata=read_csv("http://curiousquant.com/inst/extdata/Indexes.csv") # 下载网络数据
write_csv(netdata, "netdata.csv") # 另存为.csv
tidyr, dplyr
gdp=gdp%>%
select(-varid,-varname)%>% # 选择除varid和varname之外的所有指标
gather(year,value,-var)%>% # 将列指标1952-2015按年整合
mutate(year=as.numeric(year))%>% # 将字符型指标转换为数字型
filter(!is.na(value))%>% # 选取value不为空值的样本
arrange(var,year)%>% # 按var和year排序
spread(var,value) # 按var展开为列指标
head(gdp) # 查看前6个样本
gdpstr=gdp%>%
mutate(sec1=gdp1/gdp)%>%
mutate(sec2=gdp2/gdp)%>%
mutate(sec3=gdp3/gdp)%>%
mutate(con=gdpexpcpri/gdpexp)%>%
mutate(inv=gdpexpi/gdpexp)%>%
mutate(gov=gdpexpcgov/gdpexp)%>%
select(year,sec1:gov)%>%
gather(var,share,-year)
ggplot2
ggplot(gdpstr[gdpstr$var %in% c("sec1","sec2","sec3"),],aes(year,share,color=var))+
geom_line(size=1)+ labs(title="生产法GDP结构",x="",y="")+
scale_colour_discrete(labels = c('第一产业','第二产业','第三产业'))+
guides(color = guide_legend(title = NULL)) + theme_bw()+ theme(legend.position = 'bottom')