“諦聽”地震學數據集落戶地震大模型創(chuàng)新應用聯(lián)合實驗室
近日,由北京白家疃地球科學國家野外科學觀測研究站、中國科學院地質與地球物理研究所和中國地震局多家單位聯(lián)合發(fā)布的專用于人工智能模型訓練的“諦聽”地震學數據集落戶地球所和成都超算中心共建的地震大模型創(chuàng)新應用聯(lián)合實驗室,這是領域專業(yè)數據和大規(guī)模算力深度融合的新嘗試。
面對未來海量的地震監(jiān)測數據,智能化的數據處理、分析和解釋,離不開高質量、規(guī)范化的專業(yè)數據集,諦聽數據集2.0版本在1.0版本基礎上擴充之后,是目前已公開的全球規(guī)模最大,樣本標注質量最高、標簽類別最為齊全的地震學標注數據集之一。
相比目前國內外大多數同類數據集,諦聽數據集有三大特色:1.波形數據采用了更加適用于存儲和處理大規(guī)??茖W和工程數據的HDF5格式,元數據采用Json格式,具有讀寫快速、數據類型靈活、跨平臺支持等優(yōu)點;2.增加了非天然地震類別數據,包括爆破、疑爆、塌陷、其他等類型;3. 制作了單獨的噪聲數據集,并由多個小組共同完成人工復核,確保其可靠性。
諦聽數據集落戶成都超算地震大模型創(chuàng)新應用聯(lián)合實驗室將極大地促進人工智能算法在地震學領域的開發(fā)、測試、應用,并推動人工智能算法在地震監(jiān)測預報業(yè)務中的進一步落地應用。這些任務都需要高性能算力,成都超算中心23.7萬核CPU、2.5萬片DCU、60PB分布式存儲資源,共計每秒10億億次計算能力,能為“諦聽”系列大模型開發(fā)研究提供算力支撐。地震檢測、震相與初動極性識別、震相關聯(lián)、震級預測、地震定位、震源機制反演等一系列常規(guī)地震數據智能化處理能力將得到進一步提升;有針對性的噪聲集的加入有助于降低模型在實際應用中的誤報率等。
不久前,第二屆“諦聽”訓練營在成都超算中心舉辦。此次訓練營依托地球所白家疃國家野外站數據資源,結合國家超算成都中心算力,研發(fā)地震科學領域相關模型、算法、數據集和開源軟件平臺,為提高研究人員的工作效率和科技創(chuàng)新能力提供平臺環(huán)境保障。



