@fanxy 2016-09-11T12:48:10.000000Z 字数 1595 阅读 2854

附：R语言入门

樊潇彦 复旦大学经济学院 中级宏观

附：R语言入门
1. 数据类型与结构
2. 数据读取：data.table, readxl 等
3. 数据整理：tidyr, dplyr
4. 数据可视化：ggplot2
5. 常用命令一览

1. 数据类型与结构

基本数据类型

data(iris)
class(iris)                    # 数据类型
dim(iris)                      # 几行几列
nrow(iris); ncol(iris)
colnames(iris)                 # 指标名称
attributes(iris)               # 数据性质
str(iris)                      # 数据结构
head(iris); tail(iris)         # 前6行和后6行
summary(iris)

2. 数据读取：`data.table, readxl 等`

setwd("D:\\...\\Ch02")                                               # 设置工作目录
library(data.table)
gdp_csv=fread("../Ch01/GDP.csv",header=T)                            # 读取.csv数据
library(readxl)
gdp_xlsx=read_excel("Ch02_Data.xlsx",col_names=T,sheet="gdp_idx")    # 读取excel数据
library(foreign)
write.dta(gdp_xlsx, file="gdp.dta")                                  # 另存为.dta
library(readstata13)                                                 
gdp_dta=read.dta13("gdp.dta")                                        # 读取stata13数据
library(readr)
netdata=read_csv("http://curiousquant.com/inst/extdata/Indexes.csv") # 下载网络数据
write_csv(netdata, "netdata.csv")                                    # 另存为.csv

3. 数据整理：`tidyr, dplyr`

数据整理

gdp=gdp%>%
  select(-varid,-varname)%>%                 # 选择除varid和varname之外的所有指标
  gather(year,value,-var)%>%                 # 将列指标1952-2015按年整合
  mutate(year=as.numeric(year))%>%           # 将字符型指标转换为数字型
  filter(!is.na(value))%>%                   # 选取value不为空值的样本
  arrange(var,year)%>%                       # 按var和year排序
  spread(var,value)                          # 按var展开为列指标
head(gdp)                                    # 查看前6个样本
gdpstr=gdp%>%
  mutate(sec1=gdp1/gdp)%>%
  mutate(sec2=gdp2/gdp)%>%
  mutate(sec3=gdp3/gdp)%>%
  mutate(con=gdpexpcpri/gdpexp)%>%
  mutate(inv=gdpexpi/gdpexp)%>%
  mutate(gov=gdpexpcgov/gdpexp)%>%
  select(year,sec1:gov)%>%
  gather(var,share,-year)

4. 数据可视化：`ggplot2`

ggplot2
ggplot_command.jpg-141.5kB

ggplot(gdpstr[gdpstr$var %in% c("sec1","sec2","sec3"),],aes(year,share,color=var))+ 
  geom_line(size=1)+ labs(title="生产法GDP结构",x="",y="")+
  scale_colour_discrete(labels = c('第一产业','第二产业','第三产业'))+
  guides(color = guide_legend(title = NULL)) +  theme_bw()+ theme(legend.position = 'bottom')

附：R语言入门

1. 数据类型与结构

2. 数据读取：data.table, readxl 等

3. 数据整理：tidyr, dplyr

4. 数据可视化：ggplot2

5. 常用命令一览

内容目录

选择主题

2. 数据读取：`data.table, readxl 等`

3. 数据整理：`tidyr, dplyr`

4. 数据可视化：`ggplot2`