国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

TCGA_聯(lián)合GTEx分析1_得到表達矩陣.tpm

2年前作者：老實人謝耳朵分類：Toy博客閱讀(15)違法舉報

這篇具有很好參考價值的文章主要介紹了TCGA_聯(lián)合GTEx分析1_得到表達矩陣.tpm。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

GTEx數(shù)據(jù)庫獲取表達矩陣.tpm

一、下載數(shù)據(jù)

共要下載三個數(shù)據(jù)，分別為表達矩陣、樣本信息、注釋信息

進入網(wǎng)站：UCSC Xena

TCGA_聯(lián)合GTEx分析1_得到表達矩陣.tpm

點擊“Launch Xena”，選擇“DATA SETs”

TCGA_聯(lián)合GTEx分析1_得到表達矩陣.tpm

點擊“GTEX（11 datasets）”

TCGA_聯(lián)合GTEx分析1_得到表達矩陣.tpm

下載框中的兩個數(shù)據(jù)，上面一個是表達矩陣，下面一個是樣本信息。還差一個注釋信息，下載地址：https://toil.xenahubs.net/download/probeMap/gencode.v23.annotation.gene.probemap?

需要注意的是：

表達矩陣中數(shù)據(jù)格式為log2（tpm+0.001）

TCGA_聯(lián)合GTEx分析1_得到表達矩陣.tpm

下載完成后，三個文件的文件名分別為：

gtex_RSEM_gene_tpm.gz
GTEX_phenotype.gz
gencode.v23.annotation.gene.probemap

二、載入數(shù)據(jù)

library(data.table) #載入數(shù)據(jù)用

#表達矩陣
exp_gtex.tpm=fread("gtex_RSEM_gene_tpm.gz",header = T, sep = '\t',data.table = F)
rownames(exp_gtex.tpm)=exp_gtex.tpm[,1]
exp_gtex.tpm=exp_gtex.tpm[,-1]

#樣本信息
data_cl=fread("GTEX_phenotype.gz",header = T, sep = '\t',data.table = F)
data_cl=data_cl[,c(1,3)]
names(data_cl)=c('Barcode','Tissue')
data_cl=data_cl[data_cl$Tissue == 'Prostate',] #篩選出Prostate的數(shù)據(jù)

#注釋信息
annotat=fread("gencode.v23.annotation.gene.probemap",header = T, sep = '\t',data.table = F)
annotat=annotat[,c(1,2)]
rownames(annotat)=annotat[,1] #這里沒有選擇刪去id這一列

?View(exp_gtex.tpm)

TCGA_聯(lián)合GTEx分析1_得到表達矩陣.tpm

?View(data_cl)

?樣本信息中有122個barcode來自Prostate組織

TCGA_聯(lián)合GTEx分析1_得到表達矩陣.tpm

View(annotat)

TCGA_聯(lián)合GTEx分析1_得到表達矩陣.tpm

?三、處理數(shù)據(jù)

1 篩選出exp_gtex.tpm中的Prostate組織數(shù)據(jù)，并還原為TPM

#篩選，篩選之后還剩100個barcode
exp_gtex.tpm=exp_gtex.tpm[,colnames(exp_gtex.tpm) %in% data_cl$Barcode]
#還原為TPM
exp_gtex.tpm=2^exp_gtex.tpm-0.001

2 基因注釋，去重復(fù)基因名，讀出表達矩陣

#基因注釋
exp_gtex.tpm=as.matrix(exp_gtex.tpm)
t_index=intersect(rownames(exp_gtex.tpm),rownames(annotat)) #行名取交集，t_index中是能夠進行注釋的probe_id
exp_gtex.tpm=exp_gtex.tpm[t_index,]
annotat=annotat[t_index,]
rownames(exp_gtex.tpm)=annotat$gene

#去除重復(fù)基因名
t_index1=order(rowMeans(exp_gtex.tpm),decreasing = T)
t_data_order=exp_gtex.tpm[t_index1,]
keep=!duplicated(rownames(t_data_order))#對于有重復(fù)的基因，保留第一次出現(xiàn)的那個，即行平均值大的那個
exp_gtex.tpm=t_data_order[keep,]#得到最后處理之后的表達譜矩陣

#讀出
write.csv(exp_gtex.tpm,file = "exp_gtex.tpm.csv",quote = FALSE)

?View(exp_gtex.tpm)

TCGA_聯(lián)合GTEx分析1_得到表達矩陣.tpm

TCGA數(shù)據(jù)庫獲取表達矩陣.tpm

?TCGA_改版后STAR-count處理方法_老實人謝耳朵的博客-CSDN博客

result <- fromJSON(file = "E:/R/PRAD Data Mining/PRAD_data_mining/TCGA/Results/DESeq2差異分析/TP vs NT/GDCdata_star_count_TP&NT/metadata.cart.2022-05-01.json")
metadata <- data.frame(t(sapply(result,function(x){
  id <-  x$associated_entities[[1]]$entity_submitter_id
  file_name <- x$file_name
  all <- cbind(id,file_name)
})))
rownames(metadata) <- metadata[,2]

#獲取raw
t_dir <- 'E:/R/PRAD Data Mining/PRAD_data_mining/TCGA/Results/DESeq2差異分析/TP vs NT/GDCdata_star_count_TP&NT/all/'
t_samples=list.files(t_dir)
sampledir <- paste0(t_dir,t_samples) #各個文件路徑

example <- data.table::fread('E:/R/PRAD Data Mining/PRAD_data_mining/TCGA/Results/DESeq2差異分析/TP vs NT/GDCdata_star_count_TP&NT/all/005d2b9e-722c-40bd-aa5c-bd4e8842cb04.rna_seq.augmented_star_gene_counts.tsv',data.table = F)#讀入一個tsv文件，查看需要的列數(shù)，“unstranded”

raw <- do.call(cbind,lapply(sampledir, function(x){
  rt <- data.table::fread(x,data.table = F) #data.table::fread函數(shù)
  rownames(rt) <- rt[,1]
  rt <- rt[,7]###第7列為“tpm_unstranded”
}))

#替換行名、列名
colnames(raw)=sapply(strsplit(sampledir,'/'),'[',11)###列名,11為文件名005d2b9e-722c-40bd-aa5c-bd4e8842cb04.rna_seq.augmented_star_gene_counts.tsv
rownames(raw) <- example$gene_id ##行名 
raw_t <- t(raw)

t_same <- intersect(row.names(metadata),row.names(raw_t))

dataPrep2 <- cbind(metadata[t_same,],raw_t[t_same,])
rownames(dataPrep2) <- dataPrep2[,1]
dataPrep2 <- t(dataPrep2)
dataPrep2 <-dataPrep2[-c(1:6),] #dataPrep2為未注釋count矩陣

#dataPrep2中數(shù)據(jù)類型為“character”，需要轉(zhuǎn)為“numeric”
puried_data=apply(dataPrep2,2,as.numeric)

#基因注釋
rownames(puried_data)=example[5:nrow(example),'gene_name']

#去除重復(fù)基因名
t_index=order(rowMeans(puried_data),decreasing = T)#計算所有行平均值，按降序排列
t_data_order=puried_data[t_index,]#調(diào)整表達譜的基因順序
keep=!duplicated(rownames(t_data_order))#對于有重復(fù)的基因，保留第一次出現(xiàn)的那個，即行平均值大的那個
exp_tcga.tpm=t_data_order[keep,]#得到最后處理之后的表達譜矩陣

write.csv(exp_tcga.tpm,file = "exp_tcga.tpm.csv",quote = FALSE)

?View(exp_tcga.tpm)

TCGA_聯(lián)合GTEx分析1_得到表達矩陣.tpm 文章來源地址http://www.zghlxwxcb.cn/news/detail-416269.html

到了這里，關(guān)于TCGA_聯(lián)合GTEx分析1_得到表達矩陣.tpm的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

TCGA下載和表達矩陣整理：最適合初學(xué)者的教程
本文首發(fā)于公眾號：醫(yī)學(xué)和生信筆記 “ 醫(yī)學(xué)和生信筆記，專注R語言在臨床醫(yī)學(xué)中的使用，R語言數(shù)據(jù)分析和可視化。主要分享R語言做醫(yī)學(xué)統(tǒng)計學(xué)、meta分析、網(wǎng)絡(luò)藥理學(xué)、臨床預(yù)測模型、機器學(xué)習(xí)、生物信息學(xué)等。這篇推文適合初學(xué)者看，大佬酌情閱讀！從打開網(wǎng)址開始教
2023年04月08日
瀏覽(16)
學(xué)習(xí)GTEx數(shù)據(jù)庫
每個個體的不同的器官組織的基因（Gene）都是相同的，但為什么有的表型為肝臟組織，幫助人類代謝？有的是肌肉組織，幫助人類運動？其原因是，不同的人體組織表達的基因并不相同。（1）GTEx簡介訪問鏈接：Genotype-Tissue Expression Project (GTEx) (genome.gov) GTEx（ G enotype- T is
2024年02月05日
瀏覽(16)
生存分析存活分析 survival analysis 基因的高低表達生存分析按照基因表達量的高低做生存分析批量基因批量生存分析做生存分析，已經(jīng)不需要正常樣本的表達矩陣了，所以需要過濾
survival analysis only for patients with tumor. 數(shù)據(jù)準(zhǔn)備： 1.phe 臨床信息 dataframe格式。行名順序要與表達矩陣樣本順序一致， #####至少包括是否死亡event 生存時間time 以及分類標(biāo)準(zhǔn)（基因高低腫瘤分期是否轉(zhuǎn)移等） 2.表達矩陣臨床信息 meta信息給感興趣的指標(biāo)進行賦值畫另外一個基
2024年02月06日
瀏覽(19)
使用正則表達式移除 HTML 標(biāo)簽后得到字符串
在上述代碼中，stripHTMLTags 函數(shù)使用正則表達式 /[^]+/g 來匹配所有的 HTML 標(biāo)簽，并使用空字符串進行替換，從而將 HTML 標(biāo)簽移除。最后，返回移除 HTML 標(biāo)簽后的字符串。
2024年02月14日
瀏覽(24)
tpm2-tools源碼分析之tpm2_rsadecrypt.c（2）
接前一篇文章：tpm2-tools源碼分析之tpm2_rsadecrypt.c（1）本文對tpm2_rsadecrypt.c中的tpm2_tool_onstart函數(shù)進行詳細(xì)解析。先再次貼出該函數(shù)源碼： tpm2_options結(jié)構(gòu)的
2024年02月04日
瀏覽(15)
tpm2-tools源碼分析之tpm2_create.c（2）
接前一篇文章：tpm2-tools源碼分析之tpm2_create.c（1）本文對tpm2_create.c中的tpm2_tool_onstart函數(shù)進行詳細(xì)解析。先再次貼出該函數(shù)源碼：
2023年04月18日
瀏覽(27)
matlab-采用For循環(huán)，將每次計算得到的矩陣，依次放進一個新的矩陣
運算結(jié)果如下：
2024年02月11日
瀏覽(34)
離散數(shù)學(xué)---判斷矩陣：自反性，反自反性，對稱性得到矩陣的自反閉包，對稱閉包。
目錄 1-自反性，反自反性，對稱性 2--矩陣的自反閉包，對稱閉包題目:從鍵盤輸入集合A的元素值，鍵盤輸入A到A 關(guān)系矩陣M。判斷該關(guān)系矩陣M是否具有（1）自反性、（2）反自反性、（3）對稱性、輸出以上各性質(zhì)的判定結(jié)果。 ? ?? ?那么對于這個程序的執(zhí)行，我們想法是
2024年01月20日
瀏覽(25)
Bug小能手系列(python)_14: pd.concat得到的矩陣錯誤
今天在運行 pd.concat (pd指的是 pandas 庫)，需要將兩個DataFrame數(shù)據(jù)（數(shù)據(jù)分別為 5*4 的矩陣）進行列合并時，突然發(fā)現(xiàn)得到的矩陣是 10*8 的，而不是我想要的 5*8 的?。?！雖然是個小問題，但是感覺網(wǎng)上給出的內(nèi)容一直沒把這個問題介紹清楚，這里就專門寫一篇文章幫助大家理解
2024年01月17日
瀏覽(28)
【線性代數(shù)】通過矩陣乘法得到的線性方程組和原來的線性方程組同解嗎？
如果你進行的矩陣乘法涉及一個線性方程組 Ax = b，并且你乘以一個可逆矩陣 M，且產(chǎn)生新的方程組 M(Ax) = Mb，那么這兩個系統(tǒng)是等價的；它們具有相同的解集。這是因為可逆矩陣的乘法可以視為一個可逆的線性變換，不會改變方程解的存在性或唯一性。換句話說，如果你將原
2024年02月03日
瀏覽(26)