国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

蛋白質(zhì)功能預(yù)測中PSSM矩陣的生成

這篇具有很好參考價值的文章主要介紹了蛋白質(zhì)功能預(yù)測中PSSM矩陣的生成。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一、蛋白質(zhì)功能預(yù)測

蛋白質(zhì)功能預(yù)測

??近年來高通量實驗方法快速發(fā)展,隨之產(chǎn)生大量新型蛋白質(zhì),發(fā)現(xiàn)的蛋白質(zhì)數(shù)量與其功能注釋之間的差距越來越大,蛋白質(zhì)功能預(yù)測成為分子生物學(xué)研究領(lǐng)域的核心問題。傳統(tǒng)的蛋白質(zhì)功能預(yù)測方法耗時且昂貴,依靠單一數(shù)據(jù)源的特征信息表達不全面,因此如何選用合適的機器學(xué)習(xí)方法,構(gòu)建有效的模型來融合多種生物數(shù)據(jù),對預(yù)測蛋白質(zhì)功能具有重要意義。

??蛋白質(zhì)功能預(yù)測通常被視為多標(biāo)簽分類問題,當(dāng)前用于蛋白質(zhì)功能預(yù)測的最新方法是使用機器學(xué)習(xí)技術(shù)來訓(xùn)練分類器,這些技術(shù)是基于大量網(wǎng)絡(luò)、序列和基因表達等多種數(shù)據(jù)源進行預(yù)測。機器學(xué)習(xí)模型的應(yīng)用離不開數(shù)據(jù)和算法,但是原始數(shù)據(jù)往往不能直接應(yīng)用在模型中進行訓(xùn)練,通常需要特征向量化。受到受到氨基酸序列排列順序及其折疊形成的空間結(jié)構(gòu)影響,蛋白質(zhì)蘊含不同的理化性質(zhì),體現(xiàn)出復(fù)雜多樣的生物學(xué)功能,進而影響生命活動機制。

??研究人員挖掘氨基酸特性的角度存在多樣化,故能從序列中得到的生物信息也不同。近些年的研究表明,序列特征表示方法大多從氨基酸組成、氨基酸理化性質(zhì)、進化信息等生物本質(zhì)或者深度學(xué)習(xí)的角度提取想要的信息。本文主要介紹位置特異性打分矩陣 (Position-Specific Scoring Matrix, PSSM)是 Gribskov 等人首次在實驗中采用的序列特征表示方法。對比其他序列特征提取方法,一級結(jié)構(gòu)的進化信息借助PSSM得到有效表達,使得蛋白質(zhì)分配功能注釋、預(yù)測蛋白質(zhì)結(jié)構(gòu)、蛋白質(zhì)結(jié)合位點預(yù)測等多類生物學(xué)研究取得一定的進步。PSSM通過序列相似性比對生成,將氨基酸的保守性信息包含在矩陣中。

二、PSSM矩陣

??PSSM矩陣全稱是“position-specific scoring matrix”,翻譯為中文是“位置特異性打分矩陣”,也被稱為“位置權(quán)重矩陣”(position weight matrix,PWM)、“位置特定權(quán)重矩陣”(position-specific weight matrix,PSWM),是生物序列中基序(模式)的常用表現(xiàn)形式。對于氨基酸和核苷酸,矩陣的形式不太一樣,根據(jù)維基百科的解釋,DNA(或RNA)序列對應(yīng)的PSSM矩陣的行數(shù)為4,對應(yīng)著四種不同的核苷酸;蛋白質(zhì)序列的PSSM矩陣的行數(shù)為20,對應(yīng)著二十種氨基酸。不過二者的PSSM的列數(shù)均為序列長度。(注:在使用軟件生成的PSSM矩陣中,恰好相反,列數(shù)分別為固定的4或20,行數(shù)為序列長度。)如下圖所示:

pssm,python,人工智能

??圖中所示的就是一個具體的蛋白質(zhì)序列生成的PSSM矩陣,通常來說我們只關(guān)注紅框中的內(nèi)容,后面的內(nèi)容不做過多關(guān)注。紅框中的內(nèi)容是一個L*20維的矩陣,L代表著蛋白質(zhì)序列的長度(圖中綠色部分),20代表著20中氨基酸(圖中藍色部分)。

??對于其中的數(shù)字,十分常見的一個解釋是:對于PSSM中的一個元素Pij,其數(shù)值表示序列第i個位置上的氨基酸在進化過程中突變成第j個氨基酸的可能性,若值為正,就表示可能性越大;反之則表示可能性越小。

??接下來介紹使用BLAST軟件生成PSSM矩陣的過程,推導(dǎo)過程可看這篇文章:PSSM(一)-什么是PSSM – Ayanokouji Monki的博客

三、生成PSSM矩陣

生成序列文件

??在UniPort網(wǎng)頁中搜索蛋白質(zhì)名稱,并從中下載包含序列等信息的fasta文件,只讀取其中的序列并生成單獨的序列文件。(在使用BLAST軟件生成PSSM時,文件中只能包含一條序列)

pssm,python,人工智能

fasta文件格式

pssm,python,人工智能

下載與安裝BLAST

??在Windows下下載適合的BLAST版本并配置相應(yīng)的環(huán)境變量。下載地址為:Index of /blast/executables/blast+/LATEST (nih.gov)。我的主頁提供了已經(jīng)下載好的2.13.0版本的BLAST,下載完成后雙擊進行安裝。

pssm,python,人工智能

??安裝完成后需要配置環(huán)境變量,在系統(tǒng)變量下方“Path”添加變量值,路徑寫到安裝BLAST軟件的bin目錄下。例如E:\BLAST\blast-BLAST_VERSION+\bin。

??若想要查看是否安裝成功,可以點擊window的“開始”菜單,輸入cmd,打開DOS命令行模式,輸入psiblast -version命令來查看安裝的版本信息,若能查詢到,則代表成功安裝。

pssm,python,人工智能

構(gòu)建BLAST本地數(shù)據(jù)庫

??我們需要首先下載數(shù)據(jù)庫并對其解壓,數(shù)據(jù)庫的下載地址為:Index of /blast/db (nih.gov)。通常情況會選擇SwissProt數(shù)據(jù)庫、nr數(shù)據(jù)庫等,但nr數(shù)據(jù)庫是一個非冗余的蛋白質(zhì)序列數(shù)據(jù)庫,整個nr數(shù)據(jù)庫大約上百G,構(gòu)建本地數(shù)據(jù)庫非常耗時,故通常選擇SwissProt數(shù)據(jù)庫。

pssm,python,人工智能

??下載好數(shù)據(jù)庫后,在blast文件夾下創(chuàng)建一個db文件夾,存放解壓后的數(shù)據(jù)庫文件。解壓后在DOS命令行運行格式化數(shù)據(jù)庫的命令:makeblastdb -in swissprot -dbtype prot -title “swissprot” -out sp。這樣就完成了本地數(shù)據(jù)庫的建立。(最新下載下來的數(shù)據(jù)庫文件解壓后好像可以直接使用,不用在DOS命令行執(zhí)行操作,大家可以跳過此步。)

??①-in:后面跟要格式化的數(shù)據(jù)庫

??②-dbtype:后跟所格式化的序列的類型,nucl指的是核酸,prot指的是蛋白質(zhì)

pssm,python,人工智能

生成PSSM

??應(yīng)用PSI-BLAST讀取每個蛋白質(zhì)對應(yīng)的氨基酸序列,生成相應(yīng)的位置特異性打分矩陣。此命令是:psiblast -query 蛋白質(zhì)序列所在位置 -db 數(shù)據(jù)庫所在位置 -evalue 0.001 -num_iterations 3 -out_ascii_pssm 輸出pssm文件的位置。注意:當(dāng)文件路徑中出現(xiàn)空格時,一定要用雙引號將路徑引起來。例如:

psiblast -query "F:\Protein Prediction SVM\Data\aa.fasta" -db E:\BLAST\blast-BLAST_VERSION+\db\swissprot -evalue 0.001 -num_iterations 3 -out_ascii_pssm C:\Users\DELL\Desktop\ttttt.pssm

??參數(shù)列表:

????①-query:后面跟需要比對的序列位置,文件必須為fasta格式

????②-num_iterations:迭代次數(shù),一般選擇3次

????③-db:后面跟本地數(shù)據(jù)庫的位置

????④-out_ascii_pssm:如果需要生成PSSM矩陣,則需要輸入此參數(shù),參數(shù)后面跟pssm矩陣的名字,可任意取名

????⑤-evalue:期望閾值,一般選擇0.001

??經(jīng)過以上的步驟,便可以生成一個L*20維的PSSM,但是通過DOS命令行的方式,一次只能為一條蛋白質(zhì)序列生成PSSM,效率非常底下,故可以選擇使用Python程序來實現(xiàn)自動為任意條序列生成PSSM的工作。

四、Python實現(xiàn)批量生成PSSM矩陣

??先放代碼,然后解釋。(本人Python不是特別熟悉,故實現(xiàn)時沒有考慮效率問題,大家如果有什么建議,還請發(fā)表在評論區(qū)相互學(xué)習(xí))

import os
import re
import codecs #或者io,使用哪種包無所謂
import pandas as pandas

def Get_PSSM(species_id):
    
    df = pandas.read_excel(r'../Data/'+str(species_id)+'.xlsx', engine='openpyxl')

    for i in range(0, df.shape[0]) :
        f = open(r'../Data/Temporary.fasta', 'w')
        f.write(df.values[i][1])
        f.close()

        os.system('psiblast -query "F:\Protein Prediction SVM\Data\Temporary.fasta"' + ' -db E:\BLAST\\blast-BLAST_VERSION+\db\swissprot -evalue 0.001 -num_iterations 3' + ' -out_ascii_pssm "F:\Protein Prediction SVM\Data\\'+str(species_id)+'\\' + str(df.values[i][0]) + '.pssm"')
    print("step_1:所有PSSM矩陣構(gòu)建成功")

??我是將一個物種的所有蛋白質(zhì)名稱及序列利用爬蟲技術(shù)獲取到以后,存在一個名為該物種ID的Excel表格中,然后依次讀取表格中的每一行內(nèi)容,將序列數(shù)據(jù)放到一個臨時的fasta文件中,然后生成該序列對應(yīng)的PSSM,每一個PSSM的名稱都是對應(yīng)序列的蛋白質(zhì)的名稱。

注意事項

??①一些過短的蛋白質(zhì)序列是沒有辦法在swissprot數(shù)據(jù)庫中完成搜索,并生成PSSM的,一般長度在15以下就無法生成了,可以選擇更換nr數(shù)據(jù)庫進行嘗試。

??②使用PSI_BLAST生成的PSSM是一個L*20維的矩陣,并不是一個固定長度。但是基于機器學(xué)習(xí)或其他方法,通常是需要使用相同長度的特征向量進行訓(xùn)練,所以還需要對不同大小的PSSM矩陣進行信息提取和歸一化處理,大家可以上網(wǎng)搜索相關(guān)的論文。

??如何生成PSSM矩陣就介紹到這里啦,大家有什么問題可以在評論區(qū)討論!文章來源地址http://www.zghlxwxcb.cn/news/detail-787596.html

到了這里,關(guān)于蛋白質(zhì)功能預(yù)測中PSSM矩陣的生成的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Nat. Mach. Intell 2020 | drugVQA+:準(zhǔn)VAQ系統(tǒng)預(yù)測藥物-蛋白質(zhì)相互作用

    Nat. Mach. Intell 2020 | drugVQA+:準(zhǔn)VAQ系統(tǒng)預(yù)測藥物-蛋白質(zhì)相互作用

    論文標(biāo)題: Predicting drug–protein interaction using quasi-visual question answering system 論文地址: Predicting drug–protein interaction using quasi-visual question answering system | Nature Machine Intelligence 代碼:GitHub - prokia/drugVQA: Predicting Drug Protein Interaction using Quasi-Visual Question Answering System 一、問題 目前

    2024年02月11日
    瀏覽(25)
  • PSP - 蛋白質(zhì)與核酸(RNA\DNA)復(fù)合物結(jié)構(gòu)預(yù)測 RoseTTAFoldNA 算法框架

    PSP - 蛋白質(zhì)與核酸(RNA\DNA)復(fù)合物結(jié)構(gòu)預(yù)測 RoseTTAFoldNA 算法框架

    歡迎關(guān)注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/134208615 Paper: Accurate prediction of nucleic acid and protein-nucleic acid complexes using RoseTTAFoldNA GitHub: RoseTTAFold2NA 蛋白質(zhì)-核酸復(fù)合物 (Protein - Nucleic Acid Complexes),在生物學(xué)中發(fā)揮著關(guān)鍵作用。 盡管蛋白質(zhì)

    2024年02月22日
    瀏覽(19)
  • PAM(Point Accepted Mutation)矩陣是一種用于比較蛋白質(zhì)序列相似性的矩陣

    PAM(Point Accepted Mutation)矩陣是一種用于比較蛋白質(zhì)序列相似性的矩陣

    PAM(Point Accepted Mutation)矩陣是一種用于比較蛋白質(zhì)序列相似性的矩陣。它是根據(jù)蛋白質(zhì)序列的進化關(guān)系和突變概率來構(gòu)建的。 PAM矩陣的構(gòu)建過程基于以下假設(shè):在蛋白質(zhì)序列的進化過程中,突變的概率是相對穩(wěn)定的。因此,通過比較現(xiàn)有蛋白質(zhì)序列的差異,可以推斷出它們

    2024年03月14日
    瀏覽(34)
  • 利用深度蛋白質(zhì)序列嵌入方法通過 Siamese neural network 對 virus-host PPIs 進行精準(zhǔn)預(yù)測【Patterns,2022】

    利用深度蛋白質(zhì)序列嵌入方法通過 Siamese neural network 對 virus-host PPIs 進行精準(zhǔn)預(yù)測【Patterns,2022】

    病毒感染可以導(dǎo)致多種組織特異性損傷,所以 virus-host PPIs 的預(yù)測有助于新的治療方法的研究; 目前已有的一些 virus-host PPIs 鑒定或預(yù)測方法效果有限(傳統(tǒng)實驗方法費時費力、計算方法要么基于蛋白結(jié)構(gòu)或基因,要么基于手動特征工程的機器學(xué)習(xí)); DL在PPIs預(yù)測中的應(yīng)用愈

    2024年02月11日
    瀏覽(23)
  • 比最優(yōu)技術(shù)快 8 倍:浙大侯廷軍等人提出 ResGen,基于蛋白質(zhì)口袋的 3D 分子生成模型

    比最優(yōu)技術(shù)快 8 倍:浙大侯廷軍等人提出 ResGen,基于蛋白質(zhì)口袋的 3D 分子生成模型

    作者:彬彬 編輯:李寶珠,三羊 浙江大學(xué)與之江實驗室研究團隊提出了一種基于蛋白質(zhì)口袋 (protein pocket) 的 3D 分子生成模型——ResGen,與以往最優(yōu)技術(shù)相比,速度提升 8 倍,成功地生成了具有更低結(jié)合能和更高多樣性的類藥物分子。 過去,創(chuàng)新藥物的發(fā)現(xiàn)往往依賴于古早配

    2024年01月22日
    瀏覽(24)
  • 學(xué)術(shù)速運|通過劑量和時間分辨的蛋白質(zhì)組學(xué)來解密藥物作用和蛋白質(zhì)修飾

    學(xué)術(shù)速運|通過劑量和時間分辨的蛋白質(zhì)組學(xué)來解密藥物作用和蛋白質(zhì)修飾

    ?題目:Decrypting drug actions and protein modifications bydose- and time-resolved proteomics 文獻來源:10.1126/science.ade3925 (2023) (Science) 代碼:無 簡介:雖然大多數(shù)癌癥藥物通過改變翻譯后修飾(PTMs)來調(diào)節(jié)細胞通路的活性,但令人驚訝的是,關(guān)于藥物調(diào)節(jié)的PTMs的程度和時間和劑量反應(yīng)特征,我

    2023年04月17日
    瀏覽(30)
  • 蛋白質(zhì)深度學(xué)習(xí)

    本文主要面向兩類目標(biāo)讀者: 一類是想使用機器學(xué)習(xí)的生物學(xué)家,一類是想進入生物學(xué)領(lǐng)域的機器學(xué)習(xí)研究者。如果你不熟悉生物學(xué)或機器學(xué)習(xí),仍然歡迎你閱讀本文,但有時你可能會覺得有點讀不太懂!如果你已經(jīng)熟悉這兩者,那么你可能根本不需要本文 —— 你可以直接跳

    2024年02月03日
    瀏覽(25)
  • ESM蛋白質(zhì)語言模型系列

    ESM蛋白質(zhì)語言模型系列

    第一篇《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 》ESM-1b 第二篇《MSA Transformer》在ESM-1b的基礎(chǔ)上作出改進,將模型的輸入從單一蛋白質(zhì)序列改為MSA矩陣,并在Transformer中加入行、列兩種軸向注意力機制,對位點分別計算第個序列和第個

    2024年02月07日
    瀏覽(32)
  • ESM2蛋白預(yù)訓(xùn)練模型 蛋白質(zhì)、氨基酸向量表示

    參考: https://github.com/facebookresearch/esm https://huggingface.co/facebook/esm2_t33_650M_UR50D https://esmatlas.com/resources?action=fold 直接輸入Fasta 氨基酸序列格式就行;第一次下載esm2_t33_650M_UR50D模型有點慢,有2個多G大

    2024年02月15日
    瀏覽(101)
  • Top 15 開源3D分子蛋白質(zhì)建模與渲染軟件

    Top 15 開源3D分子蛋白質(zhì)建模與渲染軟件

    如今,WebGL 是一種趨勢技術(shù),因為它允許開發(fā)人員使用現(xiàn)代瀏覽器作為客戶端來創(chuàng)建復(fù)雜的 3D 交互式圖形、游戲,而無需安裝額外的插件、擴展或軟件。 WebGL允許瀏覽器直接與GPU(圖形處理單元)一起工作。 推薦:用 NSDT編輯器 快速搭建可編程3D場景 有多種 JavaScript 框架旨

    2024年02月09日
    瀏覽(29)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包