構建迄今規模最大的小鼠多器官N -糖蛋白組數據庫。聚焦小鼠四個關鍵腦區開展時空維度糖蛋白組學研究,揭示糖基化在衰老及神經退行性疾病中的變化規律,并搭建在線數據庫 NGlycoMiner,為相關研究提供數據支持。
《Nature Communications》(簡稱 “Nat Commun”)是自然科研(Nature Research)旗下的國際頂級開放獲取(Open Access)綜合性學術期刊,2010年正式創刊,旨在發表自然科學領域(涵蓋生物、化學、物理、地球科學、醫學等)具有重要科學意義、但未達到《Nature》主刊突破性高度的原創研究成果,填補了頂級主刊與專業子刊間的發表空白。
出版周期: Bimonthly;
影響因子:2024-2025最新影響因子為15.7,五年影響因子為17.2;
ISSN:2041-1723;
發文量:2024 年發文量為10749篇;
版面費:$6790.00/篇;
一、研究背景
蛋白質糖基化作為廣泛存在的關鍵蛋白質翻譯后修飾,其聚糖結構具有多樣性、復雜性與動態性,對蛋白質功能影響深遠,在生理與病理過程中均發揮核心作用。N-糖蛋白由聚糖連接多肽鏈特定天冬酰胺殘基形成,其合成受多種因素調控,識別糖蛋白并表征位點特異性聚糖,對解析健康與疾病機制至關重要。但基于質譜的N-糖蛋白質組學面臨諸多挑戰,如異質性、糖肽豐度低、富集不完全,且質譜圖質量差、復雜,導致光譜識別率低、假發現率高。雖科研人員優化樣品制備、改進技術與開發軟件,仍未達理想識別深度與精度。此前用pGlyco 2.0構建的小鼠數據集,已無法滿足當前AI算法對糖肽光譜研究的高質量訓練數據需求,成為領域瓶頸。
二、關鍵技術總結
樣本處理:選取小鼠多種組織(腦、肺、腎、肝、心臟)及疾病模型腦區樣本,采用含蛋白酶抑制劑的裂解緩沖液勻漿組織,經DTT還原、IAA烷基化、丙酮沉淀處理蛋白質,再用胰蛋白酶單獨消化或與Lys-C、Glu-C組合消化蛋白質,最后通過Sep-Pak C18柱脫鹽。
糖肽富集:采用ZIC-HILIC和Sepharose CL-4B兩種方法。ZIC-HILIC法將肽段加載到含 ZIC-HILIC介質的微柱,經多步洗滌后梯度洗脫;Sepharose CL-4B法讓肽段與介質振蕩結合,洗滌后孵育回收糖肽。
液相色譜-質譜分析:常規組織樣本用Orbitrap Fusion質譜儀結合Proxeon EASY-nLC II液相色譜泵,以特定流動相和梯度洗脫;疾病模型腦區樣本用配備FAIMSpro接口的Orbitrap Exploris 480質譜儀與Easy-nLC 1200系統聯用,采用不同梯度洗脫,均通過HCD fragmentation獲取MS/MS數據。
數據處理與分析:從UniProt下載小鼠蛋白質數據庫,用pGlyco3、StrucGP、MSFragger-Glyco、Glyco-Decipher四種軟件進行數據庫搜索;基于XIC面積定量,采用總強度歸一化處理數據;通過Python和R進行生物信息學分析,包括二級結構分布分析、PCA、層次聚類、Pearson相關分析、GO和KEGG通路富集分析,以及WGCNA構建共調控網絡。
驗證與數據庫構建:用Western blot 分析驗證糖蛋白表達,通過PNGase F處理去除N - 糖鏈輔助驗證;基于Django Web框架、MySQL數據庫、Python后端及HTML/CSS/JavaScript 前端,結合Nginx和uWSGI構建N-GlycoMiner 數據庫,整合實驗數據與文獻數據。
三、主要研究成果
選取了五種小鼠組織進行深度分析,包括腦、肺、腎、肝和心臟;使用了三種酶解方案以最大化肽段覆蓋度:Trypsin(胰蛋白酶)、Trypsin + Lys-C、Trypsin + Glu-C;Trypsin + Glu-C;采用ZIC-HILIC(親水相互作用色譜)和Sepharose CL-4B(基于凝集素的富集)兩種糖肽富集策略以捕獲更廣泛的糖肽;共進行了154次 LC-MS/MS運行,總耗時 936小時(39天),最終獲得了685萬張 包含氧鎓離子的糖肽質譜圖(Glyco-spectra)。
使用四款主流糖蛋白組學軟件(pGlyco3, StrucGP, MSFragger-Glyco, Glyco-Decipher)對數據進行聯合搜索和鑒定,以評估各軟件性能并提高鑒定可信度。展示了不同組織中鑒定到的糖肽數量,證明了數據集的深度。分析了同一糖基化位點上連接不同聚糖的現象。通過圖表對比,直觀顯示了糖基化模式在不同組織間的顯著差異。
對阿爾茨海默病(AD)、帕金森病(PD)、衰老和年輕對照組的小鼠海馬體、前額葉皮層、紋狀體、和黑質進行了時空分析。旨在揭示糖基化在腦老化與神經退行性疾病中的時空特異性變化。
構建了一個名為 N-GlycoMiner 的在線數據庫平臺(www.NGlycoMiner.com)。用戶可查詢本研究中所有鑒定到的糖蛋白、糖基化位點和糖型的詳細信息。網站提供理論糖基化分析功能,用戶可上傳FASTA文件,自動預測潛在的N-糖基化位點和生成模擬糖肽。整合了AlphaFold2預測的蛋白結構,并在結構上標注已鑒定的糖基化位點。
核心結果是通過一個極其全面和深入的工作流程,整合了多維度的實驗設計、多軟件的數據分析、疾病時空模型以及一個強大的數據庫資源,成功構建了迄今為止最大、最深度的小鼠N-糖蛋白組圖譜,為揭示糖基化在生物學中的復雜作用提供了強大的數據基礎和研究平臺。
2、多軟件鑒定結果的綜合評估與數據質量驗證
鑒定數量差異:四款軟件(pGlyco3, StructGP, MSFragger-Glyco, Glyco-Decipher)共鑒定出約104萬個糖肽譜圖匹配(GPSMs),但各軟件鑒定數量存在顯著差異。在前體、糖型層次上,各軟件鑒定數量排名一致(Glyco-Decipher > MSFragger-Glyco > pGlyco3 > StructGP);但在糖基化位點、糖蛋白層次上,排名出現變化,揭示了不同軟件的設計偏好和局限性。僅有 160,928個GPSMs(占總GPSMs的15.5%) 被所有四款軟件一致鑒定為相同的糖肽前體,被視為高可信度數據。基于軟件間的一致性,提出了一個四級可信度系統:
高可信度 (High-confidence): 四款軟件一致 (15.5%);中可信度 (Moderate-confidence): 至少兩款軟件一致 (37.7%);低可信度 (Low-confidence): 僅一款軟件鑒定 (38.7%);模糊鑒定 (Ambiguous): 不同軟件給出完全不同結果 (8.1%);其中,pGlyco3表現出最高的一致性(最可靠),而MSFragger-Glyco雖然靈敏度高(鑒定數量多),但與其他軟件的不一致性也最高。
圖2、多軟件鑒定綜合分析結果
使用不同可信度的數據集重新訓練了DeepGP和DeepGlyco等AI模型,使用中高可信度數據合并訓練的模型,其預測譜圖與實驗譜圖的余弦相似度中位數高達0.95,性能優于文獻中已報道的模型,使用中高可信度數據訓練的模型,在保留時間(IRT)預測上也表現出更高的準確性(皮爾遜相關系數更高),5折交叉驗證表明,基于高可信度數據訓練的DeepGlyco模型預測結果極其穩定且準確(點積中位數>0.986)。
去除模糊鑒定后,最終構建的數據集包含:91,972個 唯一前體糖肽,62,216個唯一糖型,8,939個糖基化位點,4,563個糖蛋白;本研究鑒定到的糖蛋白和糖基化位點數量遠超UniProt數據庫中的記錄,分別多出2,847個糖蛋白和5,177個位點,極大地擴展了已知的小鼠N-糖蛋白組圖譜。盡管投入巨大,但總譜圖的鑒定率僅為11.6%,仍有88.4%的譜圖未被鑒定,凸顯了當前糖蛋白組學技術在譜圖解析能力上的巨大挑戰和未來改進空間。
研究通過多軟件交叉驗證,構建了一個具有可信度分級的、超大規模且高質量的小鼠N-糖蛋白組數據集。該數據集不僅本身規模空前,而且能顯著提升AI模型的預測性能,為糖蛋白組學領域的算法開發和生物學發現提供了寶貴的資源。同時,結果也客觀地揭示了當前技術仍存在解析度不足的局限性。
3、小鼠N-糖蛋白組的綜合分析
質譜分布分析結果表明,完整糖肽分子量主要分布在 2000-6000 Da 范圍內,而去糖基化肽段質量多在 1000-2500 Da 之間,與理論預測(所有含N-X-S/T/C序列的肽段)的分布相比,揭示了質譜技術在可檢測質量范圍上的局限性。腦組織中的聚糖整體上明顯小于其他組織,這表明大腦擁有獨特的糖基化譜,提示其糖基化功能可能與其他器官不同。利用AlphaFold2和DSSP分析了糖蛋白的二級結構。結果顯示,N-糖基化位點更多地位于Coil(無規卷曲)和 Bend(彎曲)區域,其次是 β-strand(β-折疊) 和 Turn(轉角) 區域。構建了三維氣泡圖來可視化糖蛋白的異質性,三個維度分別為:X軸,糖蛋白;Y軸,每個蛋白上的糖基化位點數量;Z軸,每個蛋白上的糖型總數;平均每個蛋白有 ~2個 糖基化位點,每個位點有 ~7種 不同的糖型(微觀異質性)。腦組織的糖蛋白表現出最高的微異質性,而心臟組織的最低。某些蛋白在不同組織中表現出截然不同的糖基化模式,如CD36(血小板糖蛋白4)在大腦中僅檢測到1個糖基化位點(N417)和2種糖型。而在心臟和肺中檢測到全部7個 理論位點,其中心臟中有多達 258種 糖型。蛋白質印跡(Western Blot)驗證實驗結果與質譜數據一致,心臟和肺中糖基化CD36的蛋白表達量遠高于大腦。使用PNGase F酶去除N-糖鏈后,條帶發生遷移,證實了CD36的修飾主要是N-糖基化。這表明,不同組織間CD36糖基化水平的差異主要源于其蛋白表達水平本身的高低。CD36在心臟和脂肪組織中負責脂肪酸攝取,并與肺癌發展有關。其糖基化的組織特異性暗示了糖基化對于調控CD36在不同組織中執行特定功能至關重要。
圖3、小鼠N-糖蛋白組的綜合分析結果
研究利用超深度數據集,全面描繪了小鼠N-糖蛋白組的整體特征,揭示了糖基化修飾在分子大小、蛋白結構偏好和異質性程度上的規律。最重要的是,它通過令人信服的數據(包括對CD36的生化驗證)證實了糖基化具有顯著的組織特異性,這種特異性不僅體現在糖型種類上,更與底層蛋白的表達水平和器官的功能需求密切相關。這部分分析為后續探索大腦等特定器官在衰老和疾病中的糖基化變化奠定了堅實的基礎。
系統揭示了小鼠五種組織中N-糖基化的高度特異性及其功能關聯。主成分分析顯示,腦組織的糖基化譜與其他組織截然不同,腎臟也展現出獨特的聚糖模式。無監督聚類識別出四個聚糖表達簇:腦富集簇以巖藻糖化和NeuAc唾液酸化修飾為特征;心/肝簇富含NeuGc唾液酸;腎簇高巖藻糖但低唾液酸。對應地,糖蛋白表達譜聚類出五大組織特異性簇,其功能與器官生理完美契合:腦特異性糖蛋白主導神經發育與突觸功能;肝、心、腎和肺的糖蛋白分別富集于代謝、機體穩態、物質運輸和結構發育過程。共調控網絡分析進一步發現,跨組織保守的糖蛋白顯著參與ECM-受體相互作用、鞘脂代謝等通路,并鑒定出β-己糖胺酶亞基α(Hexa)為核心樞紐分子。這些結果表明,糖基化修飾并非隨機,而是精確調控并支撐著組織的特異性功能。
研究通過多維度生物信息學分析,將糖基化數據與生物學功能直接聯系起來。它系統地證明了N-糖基化修飾具有高度的組織特異性,這種特異性不僅體現在聚糖和糖蛋白的表達量上,更與其所在組織的核心生理功能完美契合(如神經功能、代謝、運輸等)。同時,網絡分析揭示了跨組織保守的糖基化調控通路和核心分子(如Hexa),為理解糖基化在系統生物學中的調控作用提供了新視角。
圖4、小鼠跨組織的聚糖組成與糖蛋白的綜合分析結果
研究分析了小鼠大腦N-糖基化在衰老與神經退行性疾病中的時空動態變化。結果表明,年齡是驅動糖基化變化的首要因素,其影響遠超疾病狀態,老年組(9個月)相比年輕組(3個月)多個腦區普遍出現糖基化水平下降。研究發現了顯著的腦區與疾病特異性:阿爾茨海默病(AD)、帕金森病(PD)和衰老過程在不同腦區(如海馬、紋狀體、黑質)均引發獨特的糖基化修飾改變。共表達網絡分析(WGCNA)進一步識別出多個功能協同的糖基化模塊,例如:模塊M5(與軸突發生相關)在PD中上調;模塊M6(與神經發育相關)在AD和衰老中下調;模塊M8(溶酶體功能)在AD中上調。聚糖模塊分析同樣發現,高度唾液酸化的聚糖在AD和PD中均顯著減少。
研究不僅證實了腦部N-糖基化具有強烈的區域特異性,更重要的是揭示了年齡是驅動其變化的最強因素,其影響甚至超過疾病本身。通過共表達網絡分析,研究發現了多個與特定腦區、衰老及神經退行性疾病(AD, PD)密切相關的糖基化功能模塊,并將這些變化與諸如突觸功能、細胞粘附和溶酶體過程等關鍵生物學通路聯系起來。這為理解糖基化在腦老化及神經退行性疾病中的分子機制提供了前所未有的時空動態視角和大量潛在的調控靶點。
6、N-GlycoMiner數據庫的構建和功能
研究構建了綜合性N-糖蛋白組學資源平臺 - N-GlycoMiner (www.NGlycoMiner.com)。平臺整合了本研究產生的大規模實驗數據與近十年60篇文獻中的公共數據,構建了迄今最全面的物種特異性N-糖蛋白組數據庫。其核心內容包含:小鼠數據(31萬種糖型、1.2萬種糖蛋白、3.8萬個糖基化位點)和人類數據(10.7萬種糖型、8007種糖蛋白、1.7萬個位點)。平臺提供四大功能:1)本研究數據查詢,可檢索組織特異性表達、鑒定可信度等詳細信息;2)文獻數據整合,涵蓋多種樣本類型與疾病模型;3)生物學見解,聚焦神經疾病、癌癥等病理中失調的糖基化模式;4)理論預測功能,支持用戶上傳蛋白序列,自動預測糖基化位點、生成模擬糖肽并分析其理化性質。該平臺代表了當前該領域最全面的數據資源,旨在成為糖生物學研究領域的核心工具,為揭示糖基化在生理和疾病中的功能提供不可或缺的數據基礎。
圖5、N-GlycoMiner (www.NGlycoMiner.com) 的核心架構與功能展示
四、研究的意義
研究通過技術上的極致創新,產生了前所未有深度和高質量的數據,并以此為基礎構建了支撐未來研究的平臺資源,最終揭示了糖基化在生理和病理狀態下前所未有的復雜性和功能性。這不僅極大地推動了糖蛋白組學領域本身的發展,更為神經科學、衰老研究和精準醫學等多個相關領域提供了強大的新工具和深刻的新見解,具有里程碑意義。
參考文獻:
Fang P, Yu X, Ding M, Qifei C, Jiang H, Shi Q, Zhao W, Zheng W, Li Y, Ling Z, Kong WJ, Yang P, Shen H. Ultradeep N-glycoproteome atlas of mouse reveals spatiotemporal signatures of brain aging and neurodegenerative diseases. Nat Commun. 2025 Jul 1;16(1):5568. doi: 10.1038/s41467-025-60437-6. PMID: 40593524; PMCID: PMC12215503.