@agpwhy
2021-10-27T01:46:35.000000Z
字数 932
阅读 348
正好有朋友拿了一个表格来问,找了GSE158850的数据,然后用了网站上GEO2R的功能分析下载得到一个表格,然后发觉上面没有基因名。
那这上面也没有基因名,查了查这个spot_id也没有网站好直接对应转化呀?那咋整呢?
library(GEOquery)
先翻一下GEO上这个用的是什么芯片,一看是GPL13497,那就
GPL13497 <- getGEO("GPL13497", destdir=".")
然后翻一下这个芯片文件里储存有SPOT_ID和基因名对应的地方。具体怎么翻怎么找要稍微学一下R里的数据结构。
总之我找到了!
在这个里面,注释信息可以看一下在
GPL13497@dataTable@table
那剩下要做的就是要把SPOT_ID和基因名对应了咯?且慢。还有个小小问题。经过观察其中有一些并不是我们需要的数据,是芯片上质控用的,那要删掉。
GPL13497@dataTable@table <- GPL13497@dataTable@table[-1:-11,]
GPL13497@dataTable@table <- GPL13497@dataTable@table[-34172:-34173,]
然后取下我们需要的两列(此处即第二,第七列)。
anno=GPL13497@dataTable@table[,c(2,7)]
library(tidyverse)
dat <- anno %>% inner_join(dat,by="SPOT_ID")
这时候再看看有没有基因名
不就有了吗
其实完全不用上面这么这些步骤,大部分芯片数据只要有GEO号码,完全有更简单的方式去实现一些分析。
而且要注意的是,下游分析去做一些富集之类的,强烈不推荐用DAVID,强烈不推荐用DAVID,强烈不推荐用DAVID!
DAVID引用量固然很高,但上面的数据已经不是这个时代最新的了。在2016年DAVID就被批评过一次,然后他们更新了数据。但是2016年到现在,一次数据上的更新都没有。一次都没有。5年了,你还在想啥呢?
那具体怎么做呢?我们下两期就分开来讲一下如何下载处理芯片数据(适用于大部分);如何计算获得差异基因进行下游分析。