您所在的位置:首頁 > 腫瘤科醫(yī)學進展 > 科學家發(fā)布人類蛋白質組草圖里程碑成果
日前,兩個國際小組均在《自然》雜志上公布了人類蛋白質組第一張草圖,這些在大部分非患病人體組織和器官中表達的精選蛋白,為更好的理解疾病狀態(tài)下發(fā)生的機體變化,奠定了堅實的基礎。這兩項最新研究揭示了人類基因組的更多復雜性,并從之前認為屬于非編碼區(qū)域的基因組中發(fā)現了新蛋白。
波士頓兒童醫(yī)院蛋白質組學主任Hanno Steen(未參與這項研究)表示:“雖然之前其它一些大型蛋白質組數據集也收集了接近上萬個蛋白數據,但是這兩項成果確實是真正的突破性成果,全面覆蓋了超過80%的人類預期蛋白質組,其中還有一些之前未曾被發(fā)現的蛋白。這些成果清楚地表明,想要達到這樣的蛋白覆蓋率深度,就需要探索許多不同的組織類型。”
在第一篇文章中,來自約翰霍普金斯大學的蛋白質組研究員Akhilesh Pandey,與來自印度生物信息學研究所等處的研究人員合作,分析了30種不同的組織類型,編撰了由84%所有預期編碼蛋白的人體基因翻譯得到的蛋白。
這項研究識別出17, 294個蛋白編碼基因,并通過表達分析證明了組織和細胞特異性蛋白的存在,并且研究人員還通過從注解的假基因、非編碼RNA和未翻譯的區(qū)域識別翻譯的蛋白,表明了“蛋白基因組”分析的重要性。
研究人員在線公布了這些人類蛋白質組圖譜發(fā)現,相關數據將很快可以通過美國生物技術信息數據中心(the National Center for Biotechnology Information database)查詢得到,Pandey說。
同時另外一篇文章中,來自德國研究人員慕尼黑工業(yè)大學的Bernhard Küster等人創(chuàng)新性的推出了一個搜索性公共數據庫:ProteomicsDB,這一數據庫公布了18, 097個基因獲得的蛋白,占目前預計人類蛋白總數(19, 629)的92%。這種數據能用于識別數百個翻譯的lincRNAs,對藥物敏感的標記,以及用于發(fā)現mRNA和組織中的蛋白水平之間的定量關系等。
這兩個研究組都利用了質譜方法分析人類組織,Pandey研究組分析的是全新的數據,針對了多種不同健康人體組織的數據,其中包括七種胎兒組織和六種血細胞類型。
而Küster研究組則采用了稍微有些不同的方法,他們匯集了已有質譜分析數據,以及同事的一些成功,這些大約占據ProteomicsDB數據的60%。為了填補這些數據間的空白區(qū)域,Küster實驗室構建了自己的質譜數據,分析了60個人類組織體液,13個體液,以及147個的癌細胞系。Küster表示,他們只挑選了高分辨率的公共數據,這些數據具有嚴格的計算過程,高質量控制標準。
“這兩項研究可以互補”,加拿大多倫多Lunenfeld-Tanenbaum研究院的 Anne-Claude Gingras(未參與該項研究)評價道,“前者霍普金斯大學的研究真正發(fā)現了之前蛋白質組學的缺陷所在,從單一來源進行了人體蛋白質的研究,有助于通過他們的數據進行簡單比對”,而后者ProteomeDB的研究,則將新內容與原有蛋白質組數據聯(lián)系在了一起,正如Küster所說,就是發(fā)展和完善原有數據庫,進一步從蛋白研究中匯集更多資源。
此外Küster實驗室通過比較每個蛋白與mRNA水平的比例,發(fā)現翻譯比例對于每種mRNA轉錄來說是一個恒定特征。“這是一個令人驚訝的發(fā)現,具有重要意義”Gingras說。
Steen表示贊同,“如果這個觀點正確的話,那么將會給原有的法則提出新的內容。之前研究人員發(fā)現轉錄組合蛋白質組數據好似一個硬幣的兩面,”他說,“但這一分析又進一步表明,至少在穩(wěn)定狀態(tài)下,一旦一對mRNA/蛋白比例被計算出來,那么蛋白水平就能從特定的mRNA水平中估算出來。”
這兩項研究提出的證據表明之前被認為不能翻譯的DNA區(qū)域其實能進行翻譯,這其中包括Küster 研究組發(fā)現的400多個基因間非編碼RNAs(lincRNAs),以及Pandey研究組發(fā)現的193個新蛋白。但是這些新發(fā)現的蛋白質的生物學意義還不清楚。
“目前的基因組注釋主要基于計算運算法則,”約翰霍普金斯大學研究員,人類蛋白質組圖譜作者之一Min-Sik Kim說,“這些預測可能并不完全準確,這就是為什么需要直接分析蛋白的原因。”
Pandey研究組目前正在分析進一步分析胎兒蛋白質組,以及將蛋白質翻譯后修飾數據添加到數據庫中。這一研究組還希望能深入探索人腦器官,這一部分是目前公布的蛋白質組圖譜中不包含的部分。
“我們一般認為,信息的傳遞是從基因組到轉錄組,再到蛋白質組。這些最新研究卻表明,這其實是一個雙向的途徑——蛋白質組也可以用于注釋基因組。其重要性在于利用這些數據集,我們能進一步注釋基因組,改進預測轉錄和翻譯的運算法則”,Steen說,“基因組學領域將從蛋白質組學數據中獲益良多。”