科學匠人|桂曉凡,兼具“抽象派”與“現實主義”的應用科學家

(本文閱讀時間:8分鐘)
編者按:人工智慧技術與產業深度融合需要幾步?微軟亞洲研究院應用科學家桂曉凡用她的親身經歷給出了答案。
自2021年加入微軟亞洲研究院以來,桂曉凡深度參與了多項人工智慧技術的應用研究,從英語教育平臺到電信行業,從近即時的全球碳預算到電池能源領域,她憑藉紮實的技術能力和敏銳的資料洞察力,透過鑽研跨領域知識以及與不同領域的專家深度合作,成功推動了人工智慧技術在多個行業的落地。
如今人工智慧正以前所未有的速度改變著世界,但讓人工智慧技術真正走出實驗室進入現實產業的過程並非一蹴而就。這不僅需要強大的技術支撐,更需要對行業痛點有深刻的洞察,以及持續的跨領域深度合作。
在微軟亞洲研究院,有這樣一群科學家,他們奔走在技術與產業的交匯點之上,積極探尋人工智慧與現實世界的深度融合,桂曉凡便是其中的代表之一。作為一位兼具“抽象派”思維與“現實主義”精神的應用科學家,桂曉凡與同事們站在技術創新應用的前沿,不斷開拓人工智慧與現實世界結合的廣闊前景。
微軟亞洲研究院應用科學家桂曉凡
技術的真正價值在於解決實際問題
本科計算機專業畢業後,桂曉凡先加入了一家創業公司,主要負責校園二手書交易平臺的開發。這段經歷讓她意識到,創新技術的真正價值在於解決實際問題,但技術落地的過程往往充滿挑戰。為了進一步提升自己,她考入北京大學軟體與微電子學院,攻讀軟體工程方向的碩士學位。
在北大的校園裡,桂曉凡迎來了一個改變她職業軌跡的契機。一門與微軟亞洲研究院有著密切交流的課程吸引了她。在課堂上,她瞭解到微軟亞洲研究院不僅在進行基礎創新,還在積極利用創新技術解決現實問題,這讓她對研究院心生嚮往。憑藉紮實的專業知識和出色的表現,桂曉凡順利透過面試,開始了在微軟亞洲研究院的實習生涯,與同事們一起將前沿技術轉化為產品,幫助解決使用者面臨的實際問題。
桂曉凡參與的第一個專案是英語學習訓練平臺的開發,主要是將微軟亞洲研究院的創新演算法轉化為實際應用。實習期間,她深切體會到微軟亞洲研究院始終專注於透過技術創新來應對現實世界中的各種挑戰,從而更加堅定了加入研究院的決心。“微軟亞洲研究院擁有強大的技術實力,同時多元包容的企業文化讓研究氛圍更舒服、友好。”桂曉凡說。
碩士畢業後,她正式加入微軟亞洲研究院機器學習組,先後參與了多個產業合作專案,包括利用機器學習技術為日產汽車預測電池健康狀態,運用人工智慧技術探索全球碳預算的有效路徑,以及透過人工智慧預測模型幫助電信公司進行惡意網站和橫向移動檢測等。三年來,桂曉凡與同事們始終踐行著“用技術解決實際問題”的承諾,推動人工智慧技術與產業場景的深度融合。
AI與產業融合第一步:抽象問題形成演算法
人工智慧技術在產業中的落地遠非“構建一個模型”那麼簡單。第一步就是要與行業的具體場景緊密結合,將行業需求和問題抽象成可訓練的演算法任務,才能真正為產業帶來價值。
“每個行業場景就像一個獨特的謎題,需要我們去找出背後的規律,進而設計或選擇最適合的演算法。”作為應用科學家,桂曉凡的核心工作是把抽象後的問題轉化為實用的演算法模型,並確保模型在應用時具有可解釋性。
與清華大學及法國原子能署氣候與環境科學實驗室(Laboratoire des Sciences du Climat et de l' Environnement)共同推進的海洋碳匯研究中,桂曉凡和同事們結合海洋生物地球化學知識和資料驅動模型,設計了全新的機器學習模擬器。此前,海洋碳預算主要有兩種方法。一種是數值模擬,但存在滯後性;另一種是依靠海洋中航行的船隻,透過將船隻底部感測器收集的資料與衛星監測資料結合,構建機器學習模型,然而航測資料是由散點觀測擴充套件至整個全球觀測,這種以點代面的方法無法保證結果的準確性。
桂曉凡(右一)與法國原子能署氣候與環境科學實驗室研究員 Philippe Ciais (中間)合影
針對這一挑戰,桂曉凡先將海洋碳預算問題抽象為一個多源資料融合任務,結合數值模擬與航測資料的優點,構建了一個能夠動態學習並適應不同海洋區域特徵的模型。然後透過引入海洋生物地球化學知識,進一步最佳化模型的引數與結構,使其更貼合實際的海洋環境變化。“人工智慧技術的落地應用不僅依賴於精確的演算法,更需要對行業知識的深刻理解。只有當演算法與行業任務緊密結合時,才能確保其為現實世界帶來真正的價值。”桂曉凡說。
AI解決現實主義難題:將資料處理變成一門工藝
在搭建演算法的同時,高質量的資料同樣至關重要。桂曉凡對資料高度敏感,並善於在看似枯燥的工作中發現樂趣,也深知資料處理絕不僅僅是清洗和填充,而是一門需要精雕細琢的“工藝”。
桂曉凡將資料處理大致分為以下幾個步驟:資料標準化、資料異常檢測、資料填充、資料關聯性分析和特徵提取,最終挖掘出資料中蘊含的價值。
日產汽車電池健康狀態預測專案是桂曉凡在資料處理方面的一次重要實踐。電池的充放電迴圈資料複雜且稀少,如果像處理海量資料那樣大範圍清洗,很可能丟失關鍵資訊。在獲得日產汽車的電池資料後,桂曉凡首先統一了資料格式,以便確保後續工作的一致性。
接下來,桂曉凡會檢測資料中的異常點。例如,一個迴圈中出現斷電現象,會被視為異常電池資料。此時,她還需要確認這些異常點是否也被行業專家認可,以確保資料清洗的準確性。如果資料不完整或過於稀少,桂曉凡還會透過查詢公開資料集或利用歷史和鄰近的電池資料來增強或充實資料量。
針對清洗後的資料,桂曉凡會進行資料分析,尋找變數之間的關聯性,並提取有價值的特徵。為了確保方法的科學性,她會提前閱讀大量相關文獻,明確行業領域對特徵的普遍共識。例如,在電池的充放電迴圈中,電壓與容量的曲線會隨著充放電迴圈次數的增加而變化。如果電池在100次迴圈內容量就明顯衰退,那麼其壽命可能較短;反之,電池壽命則較長。
基於這種方法處理的資料,微軟亞洲研究院的研究員們設計了一系列特徵,只用前50個迴圈資料,就能預測電池在800個迴圈時的健康狀態,讓日產汽車的電池監測與管理更高效、智慧。
電信公司的惡意網站檢測則是另一種截然不同的場景。惡意網站的分類眾多,資料量龐大,且涉及多種型別的資料,例如,釣魚網站的域名變化頻繁且常涉及跳轉;汙損的網站域名看似和大部分內容一樣正常,但實際上嵌入了惡意廣告或修改了部分內容,傳統檢測方法難以發現這些問題。
對此,桂曉凡採用了分類處理方法:針對釣魚網站,她設計了基於內容和域名的匹配檢測演算法,透過檢測網站內容與域名的匹配度,並提取網站商標資訊,追溯其所屬公司及域名,更準確地識別釣魚網站;針對被汙損的網站,透過對比網站內容的一致性與快取內容,結合駭客攻擊的語料庫,可以更精準地識別出可能被汙損的部分。
在桂曉凡看來,看似單調的資料處理,其實是探尋行業奧秘的過程。“當為了理清電池衰退機理而深入瞭解電池化學反應機制,或者為了識別惡意網站而研究駭客攻擊手段時,我都會獲得一種源於學習新知且探究問題根源的滿足感。每次攻克一個看似枯燥的細節,成就感就會倍增。”
跨領域合作:敢於邁出第一步,世界就會開啟
推動人工智慧技術落地的另一個關鍵要素,是與不同行業、不同領域的專家並肩作戰。“人工智慧要發揮真正的價值,離不開多學科的協同配合。很多棘手的問題都涉及多種專業領域,只有集合各領域的視角與思路,才能找到最優解。這種跨領域的差異正是合作的魅力所在。”
跨領域研究往往面臨溝通成本和理解壁壘。但在桂曉凡看來,只要對某個領域有好奇心,就應該大膽向前邁出第一步——主動與該領域的專業人士交流、研讀相關文獻、理解並尊重他們的思路。無論是廣泛探索還是深入鑽研,持續的溝通與交流都將為個人成長提供強大助力。
“跨領域的研究需要勇氣和好奇心。”桂曉凡說,“只要你敢於開口、敢於踏入陌生領域,就會發現世界比想象中更廣闊,也充滿更多可能。”
你也許還想看:

相關文章