近日,計(jì)算機(jī)學(xué)院尚學(xué)群教授團(tuán)隊(duì)在單細(xì)胞與空間轉(zhuǎn)錄組數(shù)據(jù)整合分析方面取得新研究進(jìn)展,研究成果以“stSCI:一種用于整合分析單細(xì)胞與空間轉(zhuǎn)錄組數(shù)據(jù)的多任務(wù)學(xué)習(xí)框架(stSCI: A multi-task learning framework for integrative analysis of single-cell and spatial transcriptomics data)”為題,于2025年12月3日在線(xiàn)發(fā)表于《The Innovation》期刊?!禩he Innovation》是由中國(guó)科學(xué)院青年創(chuàng)新促進(jìn)會(huì)百余會(huì)員與Cell Press(細(xì)胞出版社)于2020年5月共同創(chuàng)辦的開(kāi)放獲取英文期刊,覆蓋自然科學(xué)全領(lǐng)域, 2025年5-year IF=40.2。計(jì)算機(jī)學(xué)院直博生舒涵為論文第一作者,西北工業(yè)大學(xué)尚學(xué)群教授、汪濤副教授、復(fù)旦大學(xué)原致遠(yuǎn)研究員為論文共同通訊作者。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S2666675825004230。

圖1. stSCI方法總體框架
在生命醫(yī)學(xué)研究中,精確解析細(xì)胞在組織中的空間分布與功能聯(lián)系對(duì)于理解器官結(jié)構(gòu)及疾病演進(jìn)至關(guān)重要。單細(xì)胞轉(zhuǎn)錄組學(xué)(single-cell transcriptomics, SC)測(cè)序技術(shù)雖能描繪單個(gè)細(xì)胞的基因表達(dá)全貌,但導(dǎo)致原始空間位置信息丟失;而空間轉(zhuǎn)錄組學(xué)(spatial transcriptomics, ST)測(cè)序技術(shù)能夠保留細(xì)胞的空間信息,卻面臨測(cè)序分辨率低或檢測(cè)基因數(shù)量受限的固有技術(shù)限制。如何有效整合兩者的技術(shù)優(yōu)勢(shì),克服現(xiàn)有測(cè)序數(shù)據(jù)的局限性,是當(dāng)前計(jì)算生物學(xué)亟待解決的難題。為了解決這些挑戰(zhàn),尚學(xué)群教授團(tuán)隊(duì)提出了基于多任務(wù)優(yōu)化策略的深度神經(jīng)網(wǎng)絡(luò)框架(stSCI,圖1)。該方法通過(guò)設(shè)計(jì)異構(gòu)數(shù)據(jù)融合模塊,利用共享圖注意力網(wǎng)絡(luò)作為編碼器,將多源異構(gòu)的SC和ST數(shù)據(jù)投射到統(tǒng)一的、經(jīng)批次校正的低維嵌入空間中。通過(guò)這種特征融合機(jī)制,模型在有效消除異構(gòu)數(shù)據(jù)間技術(shù)差異與噪聲干擾的同時(shí),最大程度地保留了細(xì)胞間真實(shí)的生物學(xué)差異與拓?fù)浣Y(jié)構(gòu)特征。實(shí)驗(yàn)結(jié)果表明,模型在空間域識(shí)別、三維組織結(jié)構(gòu)解析、細(xì)胞類(lèi)型反卷積及單細(xì)胞空間位置重構(gòu)等多個(gè)關(guān)鍵任務(wù)中,綜合性能均優(yōu)于現(xiàn)有主流方法。通過(guò)將該方法應(yīng)用于沙門(mén)氏菌感染的小鼠結(jié)腸模型測(cè)序數(shù)據(jù),研究團(tuán)隊(duì)不僅成功識(shí)別出關(guān)鍵的淋巴組織區(qū)域,還精準(zhǔn)捕捉到該區(qū)域在感染過(guò)程中表現(xiàn)出的“延遲激活”動(dòng)態(tài)響應(yīng)模式,這一發(fā)現(xiàn)與已知的感染免疫動(dòng)力學(xué)高度吻合。該工作為解析復(fù)雜組織微環(huán)境、理解疾病演進(jìn)機(jī)制等生物學(xué)研究提供了高效的人工智能方法模型。
尚學(xué)群教授團(tuán)隊(duì)長(zhǎng)期致力于“AI for Science”研究。論文第一作者舒涵為尚學(xué)群教授指導(dǎo)的2023級(jí)直博生,其研究工作聚焦于單細(xì)胞及空間組學(xué)數(shù)據(jù)分析方法開(kāi)發(fā),已發(fā)表基于深度圖神經(jīng)網(wǎng)絡(luò)模型的多切片空間轉(zhuǎn)錄組整合方法(stMSA,Genome Research,2025,一作),基于圖對(duì)比學(xué)習(xí)模型的空間域識(shí)別方法(stCluster,Briefings in Bioinformatics,2024,一作;MAEST,Briefings in Bioinformatics,2025,共一)等。論文主要作者來(lái)自于計(jì)算機(jī)學(xué)院大數(shù)據(jù)管理與分析團(tuán)隊(duì)。該團(tuán)隊(duì)近年來(lái)面向國(guó)家重大需求,圍繞大數(shù)據(jù)存儲(chǔ)、管理及領(lǐng)域化大數(shù)據(jù)分析等開(kāi)展科學(xué)研究和技術(shù)研發(fā),承擔(dān)了多項(xiàng)國(guó)家和行業(yè)重大重點(diǎn)科研項(xiàng)目,獲陜西省自然科學(xué)一等獎(jiǎng)1項(xiàng)、陜西省科學(xué)技術(shù)一等獎(jiǎng)1項(xiàng)、教育部科技進(jìn)步獎(jiǎng)一等獎(jiǎng)2項(xiàng)等,先后研制了大型對(duì)象-關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)、金融分布式數(shù)據(jù)庫(kù)、生物網(wǎng)絡(luò)分析平臺(tái)等,為推動(dòng)大數(shù)據(jù)管理和分析的技術(shù)進(jìn)步和產(chǎn)業(yè)發(fā)展提供了重要支撐。
(文字:舒涵;圖片:無(wú);審核:尚學(xué)群)