[AstroCLIP] - AstroCLIP: A Cross-Modal Foundation Model for Galaxies

*AstroCLIP를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요!

AstroCLIP paper: https://arxiv.org/abs/2310.03024

AstroCLIP: A Cross-Modal Foundation Model for Galaxies

We present AstroCLIP, a single, versatile model that can embed both galaxy images and spectra into a shared, physically meaningful latent space. These embeddings can then be used - without any model fine-tuning - for a variety of downstream tasks including

arxiv.org

AstroCLIP github: https://github.com/PolymathicAI/AstroCLIP

GitHub - PolymathicAI/AstroCLIP: Multimodal contrastive pretraining for astronomical data

Multimodal contrastive pretraining for astronomical data - PolymathicAI/AstroCLIP

github.com

1. Simple Introduction

2. Background Knowledge: CLIP

3. Method

4. Result

Simple Introduction

최근 SpaceX가 사람들의 기대감 속에 나스닥에 상장하면서 인류의 마음에 불을 지피고, 우주를 향한 첫걸음을 성공적으로 도약했다.

이러한 흐름 가운데 우주를 이해하기 위해 AI가 정말 다방면으로 도입되고 있고 앞으로도 그럴 것이라고 생각한다.

우주+AI는 정말 다앙한 분야로 접근할 수 있을 것 같다.

엔진 및 연료 최적화, 물리 시뮬레이션, 위성 데이터, 스펙트럼 데이터 등등 내가 모를 정도로 정말 다양하게 활용가능성이 있을 것 같다.

그래서 나도 워낙 물리와 우주를 좋아하는 사람이고, 현재 AI를 다루고 있으니 우주+AI와 관련한 여러 프로젝트나 논문들이 궁금했다.

오늘 가져온 것은, 내가 좋아하는 LLM 기반 멀티모달과 연관될 수 있는 AstroCLIP이라는 논문이다.

AstroCLIP은 특이하게, spectrum과 galaxy image 사이의 관계를 CLIP을 통해 embedding으로 표현할 수 있게 해준 논문이다.

어떤 데이터와 AstroCLIP으로 어떤 tasks를 수행할 수 있는지 중점으로 정리해보겠다!

Background Knowledge: CLIP

CLIP 논문 리뷰: https://kyujinpy.tistory.com/47

[CLIP 논문 리뷰] - Learning Transferable Visual Models From Natural Language Supervision

*CLIP 논문 리뷰를 위한 글입니다. 질문이 있다면 댓글로 남겨주시길 바랍니다! CLIP paper: [2103.00020] Learning Transferable Visual Models From Natural Language Supervision (arxiv.org) Learning Transferable Visual Models From Natu

kyujinpy.tistory.com

Method

논문 자체의 method는 되게 간단한 편이다!

Image Encoder는 vision-transformer 모델을 DINO-V2에서 소개된 self-supervised learning으로 distillation하는 방법을 적용해서 훈련하였고,

Spectrum Encoder는 1D transformer 모델로 훈련이 되었다!

여기서 한가지를 더 짚고 넘어가면, 각각의 encoder의 embedding 차원은 1024, 768이고 shared embedding dimension은 512이다.

특이한 점은 shared embedding space를 구할 때, cross-attention+MLP를 활용한다는 점이다.

자 여기서 우리가 우주+AI를 이해하기 위해서는 spectrum, image를 이용했다는 것이 아니라 이걸 가지고 어떤 tasks를 수행했는지를 중점으로 살펴봐야한다!

Dataset & Tasks

Pre-training & fine-tuning galaxy-spectrum dataset

Image/Spectrum encoder 훈련을 위해, 저자들은 DESI Legacy Survey (DESI-LS) DR9 데이터셋을 활용했다.

DESI는 Dark Energy Spectroscopic Instrument의 약자로, DESI에서는 분광기를 통해 galaxy의 빛을 분해하여 spectrum으로 나타내는 것이다.

그리고 DESI-LS는 galaxy에서 받은 빛을 RGB images처럼 표현하는 것인데, (g,r,z) band가 존재한다.

천문학 쪽에서는 빛에 filter를 씌운다고 이해를 하면 좋은데,

g-band: green 파장 계열

r-band: red 파장 계열

z-band: 적외선 파장 계열이다.

즉 galaxy에서 표현되는 image는 우리가 흔히 아는 RGB가 아닌, GRZ라고 봐야한다(?)

여기서 여러 band를 사용하는 것은 별의 특징 때문이다. 일단 기본적으로 우주는 계속해서 팽창하고 있기 때문에, 별이나 은하에서 나오는 빛/파장이 우리 지구에 도달하면서 적색편이가 발생한다.

여기서 적색편이(redshift)는 멀어지는 물체에서 나오는 빛의 파장이 늘어나 스펙트럼이 붉은색 쪽으로 치우치는 현상이다.

만약 z-band 쪽이 강하다면 redshift가 큰 galaxy라고 이해할 수 있다.

그 외에 별의 특징에 따라 g,r 등 band에서 나타나는 특징이 다르다.

말이 길어졌는데, 일단 기본적인 pre-training을 위해서

- Image Encoder는 DESI-LS DR9

- Spectrum Encoder는 DESI Early Data Release (EDR)

를 활용했다.

그리고 두 encoders를 alignment해서 CLIP으로 만들기 위해, DESI-LS와 DESI에서 galaxy들의 target_id를 cross-matching하여 197,632개의 데이터셋을 확보하여 훈련을 진행했다.

나머지 데이터셋들과 downstream tasks에 대해서 설명해보겠다.

일단 아래는 각 데이터셋들과 downstream tasks를 연결 지은 것이다!

DESI & DESI-LS: Photometric Redshift Estimation

PRObabilisticValue-Added Bright Galaxy Survey (PROVABGS): Galaxy Property Estimation

Galaxy Zoo DECaLS: Galaxy Morphology Classification

DESI 데이터셋에는 redshift에 대한 정보도 담겨 있어서, image/spectrum 정보를 활용해서 galaxy의 redshift를 예측하는 tasks를 수행한다.

PROVABGS는 DESI와 target id를 비교해서 가져왔고, stellar mass (𝑀∗), star formation rate (SFR), mass-weighted stellar metallicity (𝑍𝑀𝑊), and mass-weighted stellar age(𝑡𝑎𝑔𝑒,𝑀𝑊) 와 같은 지표들을 담고 있다.

Galaxy Zoo DECaLS (Dark Energy Camera Legacy Survey)는 galaxy의 형상학적 class 정보를 담고 있어서 morphology classification을 진행한다.

Result

논문에서는 AstroCLIP의 shared embedding space 512-vector를 가지고 평가를 진행한다.

*결과를 보다보면 Photometry MLP라는 것이 있는데 이는 multi-band image와 약간의 차이가 있다:

multi-band images: (g,r,z) 3-channel band

Photometry MLP: (g,r,z) band magnitude ([g_mag, r_mag, z_mag])

각 band의 magnitude는 단순한 공식에 의해서도 계산될 수 있지만, 촬영 장소, galaxy 특징 등등에 따라서 계산식이 달라질 수 있다. 논문에서는 DESI-LS에서 제공된 catalog를 토대로 magnitude 값을 얻었다.

Redshift Estimation with images

Image embedding을 활용해 redshift estimation을 진행한 표이다.

여기서 Unaligned Transformer는 CLIP training을 하지 않은, DINO-v2 기반의 image encoder를 뜻한다.

여기서 중요한 점은 CLIP training으로 얻은 shared embedding space로 redshift를 예측했을 때 성능이 더 좋다는 것이다!

또한 image inputs으로 예측하는 것도 큰 의의가 있다.

Redshift라는 것은 사실 이미지로 정보를 얻기가 힘들고, spectrum based로 보다 정확하게 추정할 수 있다.

하지만 CLIP training을 통해 image와 spectrum 사이의 embedding 정보가 alignment가 되므로 image만으로도 준수한 redshift estimation을 할 수 있다!

Galaxy Property Estimation

Galaxy Property Estimation 결과이다.

Spectra뿐만 아니라 images에서도 준수한 성능을 보인다.

M*: Stellar Mass

Zmw: Matallicity (수소, 헬륨 등을 제외한 원소를 metal이라고 칭함. 즉, 오래된 별 일수록 metal이 많음. 이는 spectrum을 통해 정보를 많이 얻을 수 있음)

SFR: star formation rate / 은하에서 별이 생성되는 개수

sSFR: 현재 은하가 얼마나 별을 활발하게 만드는가?

Galaxy Morphology Classification

Similarity Search

Specturm과 image embedding 토대로 kNN을 활용해서 retreival search를 했을 때,

유사한 galaxy가 나오는 것을 볼 수 있다.

- 2026.06.20 Kyujinpy 작성.

(논문리뷰가 점점 GPT로 딸깍하게 되니.. 수작업 논문리뷰 블로그의 차별점이 없어지는 것 같아서 슬프네요.. 다른 방식으로 블로그를 좀 다뤄봐야되겠어요..!)

'AI > Paper - Theory' 카테고리의 다른 글

[DoRA 논문 리뷰] - Weight-Decomposed Low-Rank Adaptation (0)	2026.01.21
[UniCon 논문 리뷰] - A SIMPLE APPROACH TO UNIFYING DIFFUSION BASED CONDITIONAL GENERATION (0)	2026.01.18
[WAN-Alpha 논문 리뷰] Video Generation with Stable Transparency via Shiftable RGB-A Distribution Learner (0)	2026.01.18
[OmniInsert 논문 리뷰] - Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models (4)	2025.11.07
[FlowAlign 논문 리뷰] - Trajectory-Regularized, Inversion-Free Flow-based Image Editing (1)	2025.08.16

kyujinpy

[AstroCLIP] - AstroCLIP: A Cross-Modal Foundation Model for Galaxies

Contents

Simple Introduction

Background Knowledge: CLIP