[关闭]
@agpwhy 2021-10-27T01:46:35.000000Z 字数 932 阅读 348

王胖的生信笔记第23期:芯片中id转化为基因名

正好有朋友拿了一个表格来问,找了GSE158850的数据,然后用了网站上GEO2R的功能分析下载得到一个表格,然后发觉上面没有基因名。

image-20211027092055120

那这上面也没有基因名,查了查这个spot_id也没有网站好直接对应转化呀?那咋整呢?

咋整?用R整。

library(GEOquery)

先翻一下GEO上这个用的是什么芯片,一看是GPL13497,那就

GPL13497 <- getGEO("GPL13497", destdir=".")

然后翻一下这个芯片文件里储存有SPOT_ID和基因名对应的地方。具体怎么翻怎么找要稍微学一下R里的数据结构。

总之我找到了!

怀念经典:料理小当家首战,绍安落败会发光的“火焰料理” - 历史资讯(娱乐新闻网)

在这个里面,注释信息可以看一下在

GPL13497@dataTable@table

image-20211027093044931

那剩下要做的就是要把SPOT_ID和基因名对应了咯?且慢。还有个小小问题。经过观察其中有一些并不是我们需要的数据,是芯片上质控用的,那要删掉。

GPL13497@dataTable@table <- GPL13497@dataTable@table[-1:-11,]
GPL13497@dataTable@table <- GPL13497@dataTable@table[-34172:-34173,]

然后取下我们需要的两列(此处即第二,第七列)。

anno=GPL13497@dataTable@table[,c(2,7)]

library(tidyverse)

dat <- anno %>% inner_join(dat,by="SPOT_ID")

这时候再看看有没有基因名

image-20211027093617348

不就有了吗

拿到数据咋用呢?

其实完全不用上面这么这些步骤,大部分芯片数据只要有GEO号码,完全有更简单的方式去实现一些分析。

而且要注意的是,下游分析去做一些富集之类的,强烈不推荐用DAVID,强烈不推荐用DAVID,强烈不推荐用DAVID!

DAVID引用量固然很高,但上面的数据已经不是这个时代最新的了。在2016年DAVID就被批评过一次,然后他们更新了数据。但是2016年到现在,一次数据上的更新都没有。一次都没有。5年了,你还在想啥呢?

那具体怎么做呢?我们下两期就分开来讲一下如何下载处理芯片数据(适用于大部分);如何计算获得差异基因进行下游分析。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注