实验室张利教授团队发布全球最大天文AI训练数据集
发布人:公共大数据国家重点实验室  发布时间:2025-10-24   浏览次数:105

近日,公共大数据智能应用与社会治理创新实践团队天文大数据课题组张利教授成功打造“亿级天文AI训练数据集ADAM”,这是目前全球规模最大、效应最全的天文人工智能训练数据集。该数据集以SKAFAST模拟观测数据为核心,包含图像达6亿1248万张,为全球射电天文研究与科学突破筑牢数据根基。

当前,射电天文观测面临“数据激增”与“效应解析”的双重挑战。海量数据中复杂的观测效应及耦合干扰,给数据解读带来巨大困难。人工智能成为破解难题的关键路径,而超大规模、高质量数据集则是实现技术落地的核心基础。

张利教授团队突破传统单一维度思路,从“多观测效应协同模拟”切入,基于GalaxyZoo的星系观测图像数据,利用射电观测软件OSKAR进行模拟观测,经预处理、观测执行等严谨流程,覆盖四大望远镜阵列与六类关键观测效应及耦合效应,兼具多维度与高保真度。

作为突破性科研成果,ADAM的价值体现在多维度:科研创新方面,它填补了复杂射电天文观测效应AI建模训练数据的空白,支撑“东数西算”工程科研落地,赋能“人工智能+天文”行动,加速技术融合;成果转化方面,助力大科学工程建设优化与AI大模型训练,提升设备数据解析效率,带动数据处理与AI算法研发产业发展,催生复合型人才需求;国际合作方面,构建全球天文大数据生态,为他国提供数据集建设参考,推动数据共享与国际科研协作,成为促进重大科学突破的关键纽带。

未来,张利教授团队将持续迭代ADAM数据集,推进跨领域合作,以数据赋能天文科研,助力多学科融合,为人类探索宇宙贡献“贵大力量”。


图文:张利

审校:李志刚

编审:龙慧云