18歲天才高中生獨登頂刊,AI解鎖150萬新天體!斯坦福連夜發offer

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 新智元
編輯 | 編輯部 JZYH

在NASA的2000億條資料中隱藏著150萬個未知天體,而揭開它們神秘面紗的,竟是一位美國高中生!  
他就是Matteo Paz,來自加州南帕薩迪納高中的天才少年。
基於加州理工學院的研究,Matteo挖掘了美國國家航空航天局(NASA)某項任務「沉睡的資料」,並以獨著身份在天文學頂級期刊發文。
憑藉這項成果,他直接拿下了Regeneron科學人才搜尋競賽的25萬美元獎金。
2025年3月11日,Matteo Paz與加州理工學院院長Thomas F. Rosenbaum在Regeneron科學人才探索獎頒獎典禮上的合影。
目前,這項研究已於去年11月發表在《The Astronomical Journal》上,並在文中作了詳細闡述。
不過,該論文中並未提及的是,唯一作者只有18歲。

150萬潛在天體,18歲拿下25萬美元獎金

近日,來自美國加州的18歲高中生Matteo Paz,憑藉將機器學習與天文學巧妙融合的卓越研究,在2025年Regeneron科學人才搜尋競賽(Regeneron Science Talent Search,簡稱Regeneron STS)中力壓群雄,斬獲一等獎。
2025年Regeneron科學人才搜尋競賽獲獎者,中間為Matteo Paz
Regeneron科學人才搜尋競賽始於1942年,被譽為美國「歷史最悠久、最具聲望的高中生科學與數學賽事」,最初名為西屋科學天才搜尋(Westinghouse Science Talent Search),旨在表彰並賦能那些有潛力的年輕科學家。
他利用AI,處理了來自NASA的2000億條資料,揭示了150萬個先前未知的潛在天體
在2013年12月,NEOWISE發現的第一顆近地小行星的執行軌跡,紅色點表示移動路徑
接受採訪時,Matteo Paz坦言:「能參與競賽已是榮幸,從闖入前十到最終奪冠,驚喜接踵而至,至今仍覺得像在做夢。」
Matteo Paz站在後排,對自己獲得第一名的成績感到震驚
在贏得25萬美元獎金後,Paz的下一個征途是大學。
他表示,自己已被斯坦福大學錄取。
就在參加頒獎典禮的幾周前,Paz在帕薩迪納的家中醒來,透過窗戶看到外面烈焰翻騰。
伊頓山火(Eaton Fire)蔓延得極快,以至於他未收到任何官方警報。
伊頓山火(Eaton Fire)於2025年1月7日傍晚爆發,在天氣影響下,火勢迅速蔓延,共造成至少18人死亡,摧毀了9,000多座建築,成為加州歷史上死亡人數第五高、破壞程度第二嚴重的野火
在疏散和數日的火情之後,他的家最終倖免於難。
這讓他有了新的視角。
現在,他正在思考是否有可能將一臺紅外望遠鏡送入地球軌道——這次是為了監測地球本身的新發火災。
不過,眼下他更希望利用他在NEOWISE資料中的研究成果,探索宇宙從大爆炸以來的神秘膨脹速度,幫助科學家解開宇宙學中最大謎題之一。
「這項工作要麼能幫助解決當前研究中一個極具爭議的問題,要麼將揭示一些關於宇宙起源的真正基礎性的東西。」

「追星」路上,偶得名師

早在小學時期,Paz對天文學的熱愛便已萌芽。
那時,母親常帶他參加加州理工學院的公眾觀星講座(Stargazing Lecture Series),璀璨星空就此在他心中種下探索的種子。
2022年夏天,他走進加州理工學院,在Andrew Howard教授領銜的行星探測器學院(Caltech Planet Finder Academy),系統學習天文學與相關計算機科學知識,開啟了更深入的學術探索之旅。
天文學教授:Andrew Howard
2023年,他參與了加州理工學院為期六週的暑期研究計劃(Summer Research Connection,SRC)。
該專案由教學、學習和推廣中心運營,旨在為當地高中生匹配校園實驗室導師,支援學生開展科研實踐。
加州理工學院2023年Kirkpatrick小組SRC專案彙報
天文學家和IPAC高階科學家Davy Kirkpatrick擔任Paz的導師。
在過去的五年裡,除了本科生、公民科學家和來訪的研究員之外,Kirkpatrick還指導過高中生。
天文學家:Davy Kirkpatrick
Paz很幸運地遇到了導師Davy,Davy給予了他充分的自由和支援。他回憶道:
我記得在我們第一次交談時,我提到自己的目標是發表論文,這個目標遠遠超出了六週專案的週期。他非但沒有勸阻,反而欣然回應:「好的,那我們來談談吧」 。
在研究過程中,他為Paz提供了充分的自主探索空間,而正是這種自由,使Paz在科研道路上得以迅速成長。
Kirkpatrick成長於田納西州的農業社群,在九年級化學與物理老師Marilyn Morrison的助力下,圓了天文學家之夢。
Morrison老師向他和母親點明其天賦,並悉心指導升學所需課程,為大學深造鋪路。
如今,Kirkpatrick希望將老師當年的指引傳遞下去,他表示:「一旦發現別人的潛力,我一定會全力幫助他充分發揮出來。」
2025年Regeneron科學天才搜尋一等獎得主Matteo Paz手持獎盃
但Kirkpatrick希望從NEOWISE(近地天體廣域紅外探測器)專案中獲取更多有價值的資訊。

巡天功臣,澤被後代

NEOWISE是NASA已退役的紅外望遠鏡。
在服役的十多年間,它不間斷地掃描整片天空,專注搜尋地球附近的小行星及其他天體。
NEOWISE在2024年底重返大氣層並安全燒燬
雖然NASA的NEOWISE望遠鏡以觀測小行星為主要任務,但在執行期間,它還敏銳捕捉到遙遠宇宙物體的熱量變化。
這些天體有的會發出強烈閃光或脈動,有的在相互遮掩時會出現亮度衰減,反映出宇宙天體運動過程中的多樣性和複雜性。
天文學家將這些亮度變化的現象統稱為變星,其中一些型別如類星體、超新星和互相遮掩的雙星系統,因其變化不易捕捉而尤為複雜。
模擬的雙星系統亮度變化
然而,這些關於變星的資料尚未得到充分利用。
如果NEOWISE團隊能夠識別這些天體並向天文界公開相關資料,由此生成的變星目錄將有助於人類深入理解宇宙天體隨時間演化的規律。
當時,團隊已積累超十年的探測資料,總資料量接近2000億行。
2024年,NEOWISE團隊公佈了專案的最終資料和未發現影像
Kirkpatrick的設想是:
在夏天先選取一小塊天空進行分析,看看能否從中找到一些變星。 
然後,我們再向天文界展示這些成果,告訴他們「這是我們親自發現的新事物,想象一下整個資料集蘊含的巨大潛力吧!」

AI下場,大顯身手

面對NEOWISE近2000億行的海量資料,Paz並未選擇手動篩選,而是憑藉在校積累的知識另闢蹊徑。
在一門融合了程式設計、理論計算機科學和數學的選修課上,他對AI產生了濃厚的興趣。
他深知,AI在大規模有序資料集上訓練效果最好,而導師Kirkpatrick提供的資料恰好滿足這一條件。
幸運的是,他完成了AP微積分(Advanced Placement Calculus)BC課程,具備了開發機器學習模型所需的數學能力。
基於這些優勢,Paz開始構建機器學習模型,對資料集進行系統性分析,精準識別潛在的變星候選體。
2014―2018年天文學中應用深度學習的論文研究主題和各主題數量趨勢
在那六週裡,他開始構建AI模型,該模型初見成效
研究期間,Paz常向Kirkpatrick請教天文學與天體物理學知識。
談及這段經歷,他總是難掩喜悅:
每次和Davy見面,我們只有10%的時間在討論工作,剩下90%的時間都在閒聊。能有這樣一個人可以一起暢談科學,真是太棒了!
Kirkpatrick還將Paz介紹給了加州理工學院的天文學家Shoubaneh Hemmati、Daniel Masters、Ashish Mahabal和Matthew Graham。
他們在天文學中的機器學習應用,以及不同時間尺度下變星的研究方面,為Paz提供了寶貴的專業知識。
Paz與Kirkpatrick意識到,NEOWISE的觀測方式存在侷限性,難以有效檢測和分類那些快速閃爍或緩慢變化的天體。
夏天結束後,還有很多工作要做。
第二年也就是2024年,Paz和Kirkpatrick再次合作。
現在,Paz已經改進了AI模型,用於處理來自NEOWISE觀測的全部原始資料,並分析了結果。
該模型在包含真實紅外變星的驗證資料集上進行測試,在四類變星識別任務中取得了0.91的F1分數。
此外,從NEOWISE資料中,模型成功識別並分類出約150萬個潛在的變星候選體。
在這項研究之前,從未有人嘗試利用這張包含2000億行的資料集,去識別和分類其中所有重要的變異性現象。
Matteo Paz於2023年的研討會上展示了他的初步研究成果
加州理工學院的研究人員已經開始使用Paz編制的潛在變星體目錄——VarWISE,用於研究雙星系統。
首個完整的紅外變異性巡天專案VarWISE,共識別並分類了190萬個變星體,劃分為10個類別
在2025年,Paz和Kirkpatrick計劃釋出包含NEOWISE資料中亮度變化顯著的天體的完整目錄。

AI+天文學:全新方法

Matteo Paz設計了一套處理流程,從NEOWISE資料中提取變星候選體。
論文連結:https://iopscience.iop.org/article/10.3847/1538-3881/ad7fe6
以前的方法在檢測週期性訊號方面非常有效,但它們在處理WISE如此大規模資料(高達數十千億行)時速度極慢,幾乎無法在實際中使用。
而Paz採用的全新機器學習模型,卻能在現實可行的時間範圍內解決這一問題!
它的目標就是,分析天空中任意天體的光變曲線,並將其分類為靜態源、新星/明亮瞬變源、雙星系統或脈動光源。
具體來說,Paz採用卷積操作和變換技術來提取高細節特徵,讓模型能夠有效檢測到週期性和非週期性的亮度變化。
為此,他專門設計了VARnet模型,能夠快速識別天體時間序列資料中的真實變異性。
對於每條約含2000個數據點的光變曲線,在一張22GB視訊記憶體的GPU上,VARnet處理速度大於53微秒/天體。
但訓練VARnet需要大量訓練資料。為此,Paz專門為每類目標光源開發了一個精準的合成光變曲線生成器,以便為這一複雜模型提供無限量的訓練樣本。
生成一條完整的合成光變曲線樣本的步驟如下:
1. 構造一個基礎亮度函式f(t) 
2. 按照WISE的觀測節奏(取樣間隔)對該函式進行取樣
3. 加入高斯噪聲  ,其中噪聲方差為亮度函式的某種函式形式
虛擬碼詳見演算法2。
這一方法論(見圖1)實現了極快的執行速度,並在測試集上表現出高精度和強效能,最終生成了高質量的異常目標列表。
原文圖1:異常檢測流程示意圖
整個流程如下:
(1)收集並預處理資料
採用基於密度的方法,對單次曝光源目錄中的天體顯現(apparitions)進行空間聚類,以及一系列資料變換,提高資料質量。
(2)設計並訓練訊號處理模型VARnet,能夠快速識別天體時間序列資料中的真實變異性。
VARnet使用一維小波分解來最大限度地降低異常資料對分析結果的影響,並對離散傅立葉變換(DFT)進行了創新性的改進,從而快速檢測週期性並提取時間序列特徵。
VARnet將這些特徵分析整合,利用機器學習實現對天體型別的預測,主要依賴卷積神經網路。
VARnet模型的完整結構
VARnet模型的完整結構如上圖所示。
整個模型統一採用ReLU啟用函式,開始包含三個卷積層,用於處理訊號,並將其壓縮為三通道,送入傅立葉特徵提取模組。在模型實際執行中,最終的輸出向量會經過softmax操作,使預測結果可以被解釋為機率形式,並按置信度進行排序。
(3)利用VARnet識別出新的異常天體並人工檢查預測結果。
他還驗證出,VARnet對已知及新發現的變星源均具有高度的敏感性與準確性。
果然,VARnet產生了一些有趣的探測結果!
首先,它以極高的置信度,恢復了許多已知物體。
比如,食變星V* V1403 Ori就被成功識別出來了,置信度超過0.99。
另一個被精妙識別出來的,就是食雙星系統CRTS J054306.5−024247。
而且,VARnet還發現了全新的天體。
位於J2000赤經/赤緯1.53483°,−59.08751°的天體,就被VARnet標記為變星候選體。經檢索發現,該天體在現有文獻或任何星表中均無相關記錄。
甚至,模型還發現了一顆超新星
在J2000赤經/赤緯31.40235°,−61.05673°處,模型標記了一個天體為瞬變活動源,經比對,該天體對應星表中記錄的星系LEDA 358365。
2023年6月,該天體曾出現快速變亮的現象;而在WISE的下一次觀測中,其亮度又恢復至平均水平(見下圖)。
在對瞬變事件目錄進行檢索後,可以發現,該事件與AT 2023lkp的觀測記錄相符。
考慮到該事件的持續時間及其起源於該星系的事實,Paz等人判斷:這很可能是一顆超新星。
如果對具體的細節感興趣,不妨參閱原文。
參考資料:
https://iopscience.iop.org/article/10.3847/1538-3881/ad7fe6/pdf
https://www.caltech.edu/about/news/exploring-space-with-ai
https://www.businessinsider.com/teen-wins-cash-award-ai-discovery-space-objects-nasa-2025-3

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章