国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<thead id="d8rn2"><strong id="d8rn2"><mark id="d8rn2"></mark></strong></thead>

<thead id="d8rn2"></thead>

<tfoot id="d8rn2"><div id="d8rn2"><sup id="d8rn2"></sup></div></tfoot>

<track id="d8rn2"><pre id="d8rn2"></pre></track>

<thead id="d8rn2"></thead>

蛋白質(zhì)功能預(yù)測中PSSM矩陣的生成

2年前作者：愛吃零食的苦學(xué)僧分類：Toy博客閱讀(22)違法舉報

這篇具有很好參考價值的文章主要介紹了蛋白質(zhì)功能預(yù)測中PSSM矩陣的生成。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

一、蛋白質(zhì)功能預(yù)測

蛋白質(zhì)功能預(yù)測

??近年來高通量實驗方法快速發(fā)展，隨之產(chǎn)生大量新型蛋白質(zhì)，發(fā)現(xiàn)的蛋白質(zhì)數(shù)量與其功能注釋之間的差距越來越大，蛋白質(zhì)功能預(yù)測成為分子生物學(xué)研究領(lǐng)域的核心問題。傳統(tǒng)的蛋白質(zhì)功能預(yù)測方法耗時且昂貴，依靠單一數(shù)據(jù)源的特征信息表達不全面，因此如何選用合適的機器學(xué)習(xí)方法，構(gòu)建有效的模型來融合多種生物數(shù)據(jù)，對預(yù)測蛋白質(zhì)功能具有重要意義。

??蛋白質(zhì)功能預(yù)測通常被視為多標(biāo)簽分類問題，當(dāng)前用于蛋白質(zhì)功能預(yù)測的最新方法是使用機器學(xué)習(xí)技術(shù)來訓(xùn)練分類器，這些技術(shù)是基于大量網(wǎng)絡(luò)、序列和基因表達等多種數(shù)據(jù)源進行預(yù)測。機器學(xué)習(xí)模型的應(yīng)用離不開數(shù)據(jù)和算法，但是原始數(shù)據(jù)往往不能直接應(yīng)用在模型中進行訓(xùn)練，通常需要特征向量化。受到受到氨基酸序列排列順序及其折疊形成的空間結(jié)構(gòu)影響，蛋白質(zhì)蘊含不同的理化性質(zhì)，體現(xiàn)出復(fù)雜多樣的生物學(xué)功能，進而影響生命活動機制。

??研究人員挖掘氨基酸特性的角度存在多樣化，故能從序列中得到的生物信息也不同。近些年的研究表明，序列特征表示方法大多從氨基酸組成、氨基酸理化性質(zhì)、進化信息等生物本質(zhì)或者深度學(xué)習(xí)的角度提取想要的信息。本文主要介紹位置特異性打分矩陣 (Position-Specific Scoring Matrix, PSSM)是 Gribskov 等人首次在實驗中采用的序列特征表示方法。對比其他序列特征提取方法，一級結(jié)構(gòu)的進化信息借助PSSM得到有效表達，使得蛋白質(zhì)分配功能注釋、預(yù)測蛋白質(zhì)結(jié)構(gòu)、蛋白質(zhì)結(jié)合位點預(yù)測等多類生物學(xué)研究取得一定的進步。PSSM通過序列相似性比對生成，將氨基酸的保守性信息包含在矩陣中。

二、PSSM矩陣

??PSSM矩陣全稱是“position-specific scoring matrix”，翻譯為中文是“位置特異性打分矩陣”，也被稱為“位置權(quán)重矩陣”（position weight matrix，PWM）、“位置特定權(quán)重矩陣”（position-specific weight matrix，PSWM），是生物序列中基序（模式）的常用表現(xiàn)形式。對于氨基酸和核苷酸，矩陣的形式不太一樣，根據(jù)維基百科的解釋，DNA（或RNA）序列對應(yīng)的PSSM矩陣的行數(shù)為4，對應(yīng)著四種不同的核苷酸；蛋白質(zhì)序列的PSSM矩陣的行數(shù)為20，對應(yīng)著二十種氨基酸。不過二者的PSSM的列數(shù)均為序列長度。（注：在使用軟件生成的PSSM矩陣中，恰好相反，列數(shù)分別為固定的4或20，行數(shù)為序列長度。）如下圖所示：

pssm,python,人工智能

??圖中所示的就是一個具體的蛋白質(zhì)序列生成的PSSM矩陣，通常來說我們只關(guān)注紅框中的內(nèi)容，后面的內(nèi)容不做過多關(guān)注。紅框中的內(nèi)容是一個L*20維的矩陣，L代表著蛋白質(zhì)序列的長度（圖中綠色部分），20代表著20中氨基酸（圖中藍色部分）。

??對于其中的數(shù)字，十分常見的一個解釋是：對于PSSM中的一個元素P_ij，其數(shù)值表示序列第i個位置上的氨基酸在進化過程中突變成第j個氨基酸的可能性，若值為正，就表示可能性越大；反之則表示可能性越小。

??接下來介紹使用BLAST軟件生成PSSM矩陣的過程，推導(dǎo)過程可看這篇文章：PSSM（一）-什么是PSSM – Ayanokouji Monki的博客

三、生成PSSM矩陣

生成序列文件

??在UniPort網(wǎng)頁中搜索蛋白質(zhì)名稱，并從中下載包含序列等信息的fasta文件，只讀取其中的序列并生成單獨的序列文件。（在使用BLAST軟件生成PSSM時，文件中只能包含一條序列）

pssm,python,人工智能

fasta文件格式

pssm,python,人工智能

下載與安裝BLAST

??在Windows下下載適合的BLAST版本并配置相應(yīng)的環(huán)境變量。下載地址為：Index of /blast/executables/blast+/LATEST (nih.gov)。我的主頁提供了已經(jīng)下載好的2.13.0版本的BLAST，下載完成后雙擊進行安裝。

pssm,python,人工智能

??安裝完成后需要配置環(huán)境變量，在系統(tǒng)變量下方“Path”添加變量值，路徑寫到安裝BLAST軟件的bin目錄下。例如E:\BLAST\blast-BLAST_VERSION+\bin。

??若想要查看是否安裝成功，可以點擊window的“開始”菜單，輸入cmd，打開DOS命令行模式，輸入psiblast -version命令來查看安裝的版本信息，若能查詢到，則代表成功安裝。

pssm,python,人工智能

構(gòu)建BLAST本地數(shù)據(jù)庫

??我們需要首先下載數(shù)據(jù)庫并對其解壓，數(shù)據(jù)庫的下載地址為：Index of /blast/db (nih.gov)。通常情況會選擇SwissProt數(shù)據(jù)庫、nr數(shù)據(jù)庫等，但nr數(shù)據(jù)庫是一個非冗余的蛋白質(zhì)序列數(shù)據(jù)庫，整個nr數(shù)據(jù)庫大約上百G，構(gòu)建本地數(shù)據(jù)庫非常耗時，故通常選擇SwissProt數(shù)據(jù)庫。

pssm,python,人工智能

??下載好數(shù)據(jù)庫后，在blast文件夾下創(chuàng)建一個db文件夾，存放解壓后的數(shù)據(jù)庫文件。解壓后在DOS命令行運行格式化數(shù)據(jù)庫的命令：makeblastdb -in swissprot -dbtype prot -title “swissprot” -out sp。這樣就完成了本地數(shù)據(jù)庫的建立。（最新下載下來的數(shù)據(jù)庫文件解壓后好像可以直接使用，不用在DOS命令行執(zhí)行操作，大家可以跳過此步。）

??①-in：后面跟要格式化的數(shù)據(jù)庫

??②-dbtype：后跟所格式化的序列的類型，nucl指的是核酸，prot指的是蛋白質(zhì)

pssm,python,人工智能

生成PSSM

??應(yīng)用PSI-BLAST讀取每個蛋白質(zhì)對應(yīng)的氨基酸序列，生成相應(yīng)的位置特異性打分矩陣。此命令是：psiblast -query 蛋白質(zhì)序列所在位置 -db 數(shù)據(jù)庫所在位置 -evalue 0.001 -num_iterations 3 -out_ascii_pssm 輸出pssm文件的位置。注意：當(dāng)文件路徑中出現(xiàn)空格時，一定要用雙引號將路徑引起來。例如：

psiblast -query "F:\Protein Prediction SVM\Data\aa.fasta" -db E:\BLAST\blast-BLAST_VERSION+\db\swissprot -evalue 0.001 -num_iterations 3 -out_ascii_pssm C:\Users\DELL\Desktop\ttttt.pssm

??參數(shù)列表：

????①-query：后面跟需要比對的序列位置，文件必須為fasta格式

????②-num_iterations：迭代次數(shù)，一般選擇3次

????③-db：后面跟本地數(shù)據(jù)庫的位置

????④-out_ascii_pssm：如果需要生成PSSM矩陣，則需要輸入此參數(shù)，參數(shù)后面跟pssm矩陣的名字，可任意取名

????⑤-evalue：期望閾值，一般選擇0.001

??經(jīng)過以上的步驟，便可以生成一個L*20維的PSSM，但是通過DOS命令行的方式，一次只能為一條蛋白質(zhì)序列生成PSSM，效率非常底下，故可以選擇使用Python程序來實現(xiàn)自動為任意條序列生成PSSM的工作。

四、Python實現(xiàn)批量生成PSSM矩陣

??先放代碼，然后解釋。（本人Python不是特別熟悉，故實現(xiàn)時沒有考慮效率問題，大家如果有什么建議，還請發(fā)表在評論區(qū)相互學(xué)習(xí)）

import os
import re
import codecs #或者io，使用哪種包無所謂
import pandas as pandas

def Get_PSSM(species_id):
    
    df = pandas.read_excel(r'../Data/'+str(species_id)+'.xlsx', engine='openpyxl')

    for i in range(0, df.shape[0]) :
        f = open(r'../Data/Temporary.fasta', 'w')
        f.write(df.values[i][1])
        f.close()

        os.system('psiblast -query "F:\Protein Prediction SVM\Data\Temporary.fasta"' + ' -db E:\BLAST\\blast-BLAST_VERSION+\db\swissprot -evalue 0.001 -num_iterations 3' + ' -out_ascii_pssm "F:\Protein Prediction SVM\Data\\'+str(species_id)+'\\' + str(df.values[i][0]) + '.pssm"')
    print("step_1：所有PSSM矩陣構(gòu)建成功")

??我是將一個物種的所有蛋白質(zhì)名稱及序列利用爬蟲技術(shù)獲取到以后，存在一個名為該物種ID的Excel表格中，然后依次讀取表格中的每一行內(nèi)容，將序列數(shù)據(jù)放到一個臨時的fasta文件中，然后生成該序列對應(yīng)的PSSM，每一個PSSM的名稱都是對應(yīng)序列的蛋白質(zhì)的名稱。

注意事項

??①一些過短的蛋白質(zhì)序列是沒有辦法在swissprot數(shù)據(jù)庫中完成搜索，并生成PSSM的，一般長度在15以下就無法生成了，可以選擇更換nr數(shù)據(jù)庫進行嘗試。

??②使用PSI_BLAST生成的PSSM是一個L*20維的矩陣，并不是一個固定長度。但是基于機器學(xué)習(xí)或其他方法，通常是需要使用相同長度的特征向量進行訓(xùn)練，所以還需要對不同大小的PSSM矩陣進行信息提取和歸一化處理，大家可以上網(wǎng)搜索相關(guān)的論文。

??如何生成PSSM矩陣就介紹到這里啦，大家有什么問題可以在評論區(qū)討論！文章來源地址http://www.zghlxwxcb.cn/news/detail-787596.html

到了這里，關(guān)于蛋白質(zhì)功能預(yù)測中PSSM矩陣的生成的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Nat. Mach. Intell 2020 | drugVQA+：準(zhǔn)VAQ系統(tǒng)預(yù)測藥物-蛋白質(zhì)相互作用
論文標(biāo)題： Predicting drug–protein interaction using quasi-visual question answering system 論文地址： Predicting drug–protein interaction using quasi-visual question answering system | Nature Machine Intelligence 代碼：GitHub - prokia/drugVQA: Predicting Drug Protein Interaction using Quasi-Visual Question Answering System 一、問題目前
2024年02月11日
瀏覽(25)
$PSP - 蛋白質(zhì)與核酸(RNA\DNA)復(fù)合物結(jié)構(gòu)預(yù)測 RoseTTAFoldNA 算法框架$
PSP - 蛋白質(zhì)與核酸(RNA\DNA)復(fù)合物結(jié)構(gòu)預(yù)測 RoseTTAFoldNA 算法框架
歡迎關(guān)注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/134208615 Paper: Accurate prediction of nucleic acid and protein-nucleic acid complexes using RoseTTAFoldNA GitHub: RoseTTAFold2NA 蛋白質(zhì)-核酸復(fù)合物 (Protein - Nucleic Acid Complexes)，在生物學(xué)中發(fā)揮著關(guān)鍵作用。盡管蛋白質(zhì)
2024年02月22日
瀏覽(19)
PAM（Point Accepted Mutation）矩陣是一種用于比較蛋白質(zhì)序列相似性的矩陣
PAM（Point Accepted Mutation）矩陣是一種用于比較蛋白質(zhì)序列相似性的矩陣。它是根據(jù)蛋白質(zhì)序列的進化關(guān)系和突變概率來構(gòu)建的。 PAM矩陣的構(gòu)建過程基于以下假設(shè)：在蛋白質(zhì)序列的進化過程中，突變的概率是相對穩(wěn)定的。因此，通過比較現(xiàn)有蛋白質(zhì)序列的差異，可以推斷出它們
2024年03月14日
瀏覽(34)
利用深度蛋白質(zhì)序列嵌入方法通過 Siamese neural network 對 virus-host PPIs 進行精準(zhǔn)預(yù)測【Patterns，2022】
病毒感染可以導(dǎo)致多種組織特異性損傷，所以 virus-host PPIs 的預(yù)測有助于新的治療方法的研究；目前已有的一些 virus-host PPIs 鑒定或預(yù)測方法效果有限（傳統(tǒng)實驗方法費時費力、計算方法要么基于蛋白結(jié)構(gòu)或基因，要么基于手動特征工程的機器學(xué)習(xí)）； DL在PPIs預(yù)測中的應(yīng)用愈
2024年02月11日
瀏覽(23)
比最優(yōu)技術(shù)快 8 倍：浙大侯廷軍等人提出 ResGen，基于蛋白質(zhì)口袋的 3D 分子生成模型
作者：彬彬編輯：李寶珠，三羊浙江大學(xué)與之江實驗室研究團隊提出了一種基于蛋白質(zhì)口袋 (protein pocket) 的 3D 分子生成模型——ResGen，與以往最優(yōu)技術(shù)相比，速度提升 8 倍，成功地生成了具有更低結(jié)合能和更高多樣性的類藥物分子。過去，創(chuàng)新藥物的發(fā)現(xiàn)往往依賴于古早配
2024年01月22日
瀏覽(24)
學(xué)術(shù)速運|通過劑量和時間分辨的蛋白質(zhì)組學(xué)來解密藥物作用和蛋白質(zhì)修飾
?題目：Decrypting drug actions and protein modifications bydose- and time-resolved proteomics 文獻來源:10.1126/science.ade3925 (2023) (Science) 代碼:無簡介：雖然大多數(shù)癌癥藥物通過改變翻譯后修飾（PTMs）來調(diào)節(jié)細胞通路的活性，但令人驚訝的是，關(guān)于藥物調(diào)節(jié)的PTMs的程度和時間和劑量反應(yīng)特征，我
2023年04月17日
瀏覽(30)
蛋白質(zhì)深度學(xué)習(xí)
本文主要面向兩類目標(biāo)讀者: 一類是想使用機器學(xué)習(xí)的生物學(xué)家，一類是想進入生物學(xué)領(lǐng)域的機器學(xué)習(xí)研究者。如果你不熟悉生物學(xué)或機器學(xué)習(xí)，仍然歡迎你閱讀本文，但有時你可能會覺得有點讀不太懂！如果你已經(jīng)熟悉這兩者，那么你可能根本不需要本文 —— 你可以直接跳
2024年02月03日
瀏覽(25)
ESM蛋白質(zhì)語言模型系列
第一篇《Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences 》ESM-1b 第二篇《MSA Transformer》在ESM-1b的基礎(chǔ)上作出改進，將模型的輸入從單一蛋白質(zhì)序列改為MSA矩陣，并在Transformer中加入行、列兩種軸向注意力機制，對位點分別計算第個序列和第個
2024年02月07日
瀏覽(32)
ESM2蛋白預(yù)訓(xùn)練模型蛋白質(zhì)、氨基酸向量表示
參考： https://github.com/facebookresearch/esm https://huggingface.co/facebook/esm2_t33_650M_UR50D https://esmatlas.com/resources?action=fold 直接輸入Fasta 氨基酸序列格式就行；第一次下載esm2_t33_650M_UR50D模型有點慢,有2個多G大
2024年02月15日
瀏覽(101)
Top 15 開源3D分子蛋白質(zhì)建模與渲染軟件
如今，WebGL 是一種趨勢技術(shù)，因為它允許開發(fā)人員使用現(xiàn)代瀏覽器作為客戶端來創(chuàng)建復(fù)雜的 3D 交互式圖形、游戲，而無需安裝額外的插件、擴展或軟件。 WebGL允許瀏覽器直接與GPU（圖形處理單元）一起工作。推薦：用 NSDT編輯器快速搭建可編程3D場景有多種 JavaScript 框架旨
2024年02月09日
瀏覽(29)

<tbody id="wsfqo"><var id="wsfqo"></var></tbody><kbd id="wsfqo"></kbd>