

01

研究背景
該研究是基於對細胞組織的多尺度理解的需求,尤其是如何將這種組織與生物學功能及疾病聯絡起來。傳統的細胞對映技術,如全細胞電子顯微鏡和蛋白質免疫熒光染色,已經開始揭示蛋白質的亞細胞定位。然而,這些技術通常是分開應用的。透過整合多種資料模式,研究人員能夠在物理尺度上穩健地結合生物結構資訊,從而更全面地理解細胞的亞細胞組織。此外,該研究還展示瞭如何利用自監督的多模式資料整合方法來系統性地繪製亞細胞裝配體,並驗證其在結構生物學、蛋白質功能註釋和癌症基因組解釋等領域的應用。
在這篇發表於《Nature》的研究中,美國的科研團隊致力於構建人類細胞亞細胞結構的全球地圖,以更好地理解細胞內的多尺度組織及其與生物功能和人類疾病的關係。儘管細胞結構的許多方面仍未被探索,但透過整合多種資料模式,如蛋白質免疫熒光(IF)成像和生物物理相互作用資料,該研究提供了一種系統性繪製細胞架構的策略。研究中,研究人員在U2OS骨肉瘤細胞中對超過5100種蛋白質進行了分析,生成了一個包含275個分子裝配體的細胞地圖,並透過整合大語言模型(LLM)進行註釋。
02

研究發現
研究團隊構建了一個人類細胞亞細胞結構的全球地圖,透過對U2OS骨肉瘤細胞中超過5100種蛋白質的生物物理相互作用和免疫熒光影像進行聯合測量。透過自監督的多模態資料整合,研究人員解析了275個分子元件,範圍從10^-8到10^-5米,並透過全細胞尺寸排阻色譜法系統驗證這些元件。該地圖揭示了975種蛋白質的意外功能,包括C18orf21在RNA加工中的角色和DPP9在干擾素訊號傳導中的作用。此外,研究還識別了具有多重定位或細胞型別特異性的元件,並解碼了兒科癌症基因組,識別出21個反覆突變的元件和102種新的癌症蛋白。
透過整合蛋白質的生物物理相互作用和亞細胞定位資料,研究團隊建立了一個全球細胞生物學參考地圖,涵蓋了人類亞細胞元件的廣泛範圍。該地圖不僅為結構生物學提供了新的視角,還為蛋白質功能註釋、細胞型別特異性分析、多重定位研究以及癌症基因組的解釋提供了指導。研究還開發了一個細胞視覺化門戶和對映工具包,為結構和功能細胞生物學提供了一個參考平臺。透過這種多模態分析,研究揭示了許多蛋白質的新功能和潛在的癌症驅動因子,推動了生物學發現的程序。
03

臨床意義
蛋白質元件的識別和驗證:研究透過整合生物物理資料和成像資料,識別出275個不同的蛋白質元件,並透過全細胞尺寸排阻色譜(SEC-MS)進行系統驗證。 結構生物學的應用:透過研究,構建了111個異二聚體複合體的結構模型,並擴充套件了Rag–Ragulator組裝體的結構。這些結構資訊為理解蛋白質的功能提供了基礎。 癌症相關蛋白質元件:在兒童癌症基因組中,研究發現了21個反覆突變的元件,並指出了與癌症相關的新蛋白,為癌症的分子機制研究提供了新的見解。 工具和平臺的開發:研究還開發了一個細胞視覺化門戶和對映工具包,為結構和功能細胞生物學提供了參考平臺,促進了相關領域的進一步研究。 這項研究透過多模態資料的整合,為人類細胞的結構和功能圖譜繪製提供了新的方法和視角,不僅在基礎研究領域具有重要意義,也為臨床應用和疾病治療提供了潛在的方向。
04

實驗策略
1. 多模態資料獲取:研究團隊在U2OS骨肉瘤細胞中,透過蛋白質免疫熒光(IF)成像和生化蛋白質組學技術(如AP-MS等)同時測量了5100多種蛋白質的生物物理相互作用和亞細胞定位。
2. 資料整合和嵌入:採用自監督機器學習的方法將蛋白質的AP-MS和IF資料嵌入到一個統一的低維空間中,生成了一個全球細胞生物學參考地圖,涵蓋了275種不同的蛋白質複合體。
3. 系統驗證和註釋:透過全細胞排阻色譜-MS(SEC-MS)在相同的U2OS細胞環境中驗證這些複合體。使用大語言模型(LLMs)系統地對這些複合體進行註釋。
4. 應用探索:研究探索了在結構生物學上,如何利用該地圖指導三維結構建模。透過蛋白質功能註釋,揭示了975種蛋白質的新功能,包括在RNA加工和干擾素訊號傳導中的角色。此外,研究還透過分析兒童癌症基因組,識別出21個反覆突變的複合體和102個新驗證的癌症蛋白。
5. 多模態細胞圖譜工具:開發了一個細胞視覺化門戶和對映工具包,為結構和功能細胞生物學提供了參考平臺。
05

資料解讀
圖1:研究概述
Figure 1 展示了研究的整體流程,包括蛋白質的純化、相互作用的測定和亞細胞分佈的分析。 A. 為了研究蛋白質的生物物理相互作用,作者從全細胞生化提取物中純化蛋白質,並使用AP-MS(親和純化-質譜)技術進行測定。 B. 為了確定蛋白質的亞細胞分佈,作者透過免疫熒光(IF)技術對蛋白質進行標記,並使用高解析度共聚焦成像技術進行觀察。 結論:透過整合免疫熒光成像資料和生物物理相互作用資料,研究者構建了一個多模式細胞圖譜,並在五個生物學應用案例中進行了探索,同時提供了一個互動式視覺化門戶。

圖2:U2OS細胞的多尺度綜合圖譜
Figure 2 展示了U2OS細胞中蛋白質的多尺度整合圖譜,透過整合AP-MS和成像資料,揭示了亞細胞結構的層次關係和蛋白質的空間分佈。 A. 透過整合AP-MS和成像資料,使用UMAP方法將蛋白質的多模態嵌入降維到二維空間。圖中的點代表蛋白質,顏色和註釋基於可以解析的頂級蛋白質群體。右側放大圖聚焦於內膜系統群體及其子結構。 B. 展示了U2OS細胞圖譜中亞細胞組裝體的多尺度層次檢視。節點代表組裝體,邊緣表示較小組裝體(下層)被較大組裝體(上層)包含。節點大小與估計的奈米級尺寸成比例,節點顏色基於與已知亞細胞成分的重疊類別(在餅圖中定義)。虛線框標註了文中和圖中描述的組裝體。 C. 校準細胞圖譜中組裝體的尺寸(蛋白質數量)與已知結構的物理直徑(奈米級)之間的關係。 D. 展示了GPT-4在為細胞圖譜中的組裝體生成資訊性名稱時的自信度,針對B中標註的組裝體類別和隨機組裝體(灰色)進行展示。信心水平的分佈以小提琴圖顯示,粗黑線表示每個類別中的中位數信心水平。使用單側Mann-Whitney U檢驗計算分佈間差異的顯著性。 結論:透過多模態資料整合和分析,作者構建了U2OS細胞的多尺度圖譜,揭示了亞細胞結構的層次關係和蛋白質的空間分佈,並評估了自動生成資訊性名稱的準確性。

圖3:使用SEC–MS對複合體進行全域性分析
Figure 3 展示了透過SEC–MS技術對蛋白質複合體進行全域性分析的結果,旨在揭示蛋白質複合體的組成和相互作用。 A. 圖A展示了SEC–MS實驗的概述。該實驗透過尺寸排阻色譜-質譜聯用技術(SEC–MS)分析蛋白質複合體的組成和相互作用,提供了蛋白質複合體的全域性檢視。 B. 圖B展示了代表性細胞圖譜複合體中蛋白質的洗脫分數。行表示蛋白質,列表示洗脫分數。顏色強度代表每個蛋白質在所有分數中的相對丰度,範圍為[0–1]。圖中以紫色字型標示了先前未記錄的複合體。 C. 圖C展示了SEC–MS中複合體中蛋白質對之間的Pearson相關性分佈,分別顯示了小型複合體、中型複合體和隨機蛋白質對的相關性。透過單側Wilcoxon秩和檢驗確定了與隨機蛋白質對的顯著差異。 D. 圖D展示了基於SEC驗證顯著性的細胞圖譜複合體。複合體的顏色表示透過單側Wilcoxon秩和檢驗確定的假髮現率(FDR),比較了該複合體中蛋白質對的SEC共洗脫譜與根目錄下不共存於任何複合體中的蛋白質對。 結論:透過SEC–MS技術的全域性分析,揭示了蛋白質複合體的組成和相互作用,提供了關於蛋白質複合體的新見解,並驗證了複合體的顯著性。

圖4:使用細胞圖譜推動細胞結構和功能研究
Figure 4 展示了該研究如何運用細胞圖譜來推動細胞結構和功能的研究,並提供了具體的例項分析。 結構建模:圖4的前幾部分探討了如何利用AlphaFold-Multimer進行蛋白質複合物的三維結構建模。在圖4a中,展示了從U2OS細胞圖譜中小蛋白質複合物預測的異質二聚體複合物的AlphaFold結構結果,並強調了其中111對是未被記錄過的新結構。 例項分析: 圖4b和4c展示了DPYSL2與DPYSL3之間的異質二聚體,透過SEC-MS共同洗脫分析得到驗證,並且使用AlphaFold-Multimer預測生成了高置信度的三維結構。 圖4d和4e描述了TARS3和EPRS1蛋白間的相互作用。而圖4f和4g則展示了ERH和CCDC9B之間的結構,說明這些蛋白質之間存在的可能作用介面。 Rag-Ragulator複合物的建模: 圖4h和4i提供了Rag-Ragulator複合物的細胞免疫熒光影像與生物物理互動資料,展示了這些蛋白在細胞內的分佈情況。 圖4j則是Rag-Ragulator複合物的整合結構模型,包括新的意外組分BORCS6和ITPA的加入,強調透過資料驅動的圖譜來揭示新的蛋白組分。 功能揭示: 圖4k到4m展示了C18orf21在RNase MRP複合物中的功能定位,以及CRISPR敲低試驗後的轉錄變化,進一步確認了其在該複合物中的功能角色。 這些分析和案例說明了如何透過資料驅動的細胞圖譜來挖掘新的蛋白質功能和結構,相對傳統的腫瘤生物標誌物分析亦顯示出更多可能性。整體來看,Figure 4展示了細胞圖譜在細胞生物學、結構生物學和功能研究中的重要應用。

圖5:蛋白質元件為兒童癌症突變的聚集點
Figure 5 分析了兒童癌症中的蛋白質元件,並探討了這些元件如何成為突變的聚集點,提供了識別這些元件在癌症演變過程中的作用的線索。 蛋白質突變頻率: 圖5a展示了兒童癌症泛癌佇列中550個蛋白質的突變頻率。結果表明,在兒童癌症中,個別基因的突變相對罕見,僅有6個基因在超過2%的兒童腫瘤中發現突變。 蛋白質元件突變頻率: 圖5b顯示了98個癌症蛋白質元件在相同癌症佇列中的突變頻率。發現了一些元件的突變頻率顯著高於單個蛋白質,這表明這些元件在癌症中可能受到正選擇壓力。例如,SMARCA4 SWI-SNF轉錄啟用因子雖然單獨在2.5%的兒童腫瘤中發生變化,但當考慮SWI-SNF複合物的所有13個蛋白質時,突變頻率增加到6.0%。 特異性和普遍性的元件: 圖5c詳細說明了某些元件在特定癌症型別中表現出高特異性突變,而其他元件則在多種癌症中表現出普遍的選擇壓力,例如,發現B細胞淋巴母細胞性淋巴瘤中細胞連線的突變,以及核孔在多種型別腫瘤中的突變。 整體突變元件分析: 圖5d總結了在兒童癌症患者佇列或個別腫瘤型別中受到突變壓力的元件,展示了總共有21個符合這一特徵的元件。 圖5e提供了這些元件的尺寸分佈,顯示出突變元件集中於小於50個蛋白質的小型複合物。 Figure 5揭示了雖然個別基因突變稀少,但在癌症中,蛋白質元件的突變聚集現象加劇了它們在腫瘤演變中的作用。透過分析突變頻率及其在元件中的聚集,該研究提供了一種新方法來理解癌症基因組的複雜性和識別癌症的新治療靶點。

06

主要結論
這項研究透過結合生物物理相互作用和免疫熒光成像資料,構建了人類細胞亞細胞結構的全球地圖,涵蓋了超過5,100種蛋白質。研究表明,透過多模態資料整合可以識別275種分子組裝,併成功驗證這些組裝,透過揭示蛋白質的多樣化功能,並發現21種與癌症相關的重複突變組裝。該研究還開發了細胞視覺化門戶和對映工具包,為結構和功能細胞生物學提供了參考平臺。
07

討論總結
該研究展示了多模態資料整合在揭示細胞結構和功能方面的強大潛力。透過整合蛋白質生物物理相互作用和成像資料,研究團隊不僅構建了覆蓋廣泛的人類亞細胞成分的參考地圖,還揭示了許多蛋白質的新功能。這種多模態分析方法顯著提高了亞細胞元件識別的靈敏度和穩健性,並且為結構生物學、蛋白質功能註釋及癌症基因組解析提供了新的視角。研究結果強調了多模態資料在推動生物學發現和解碼人類遺傳學中的關鍵作用,並建議這種方法適用於其他細胞型別和疾病狀態的研究。

—END—
