*LLaVA-NeXT를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요!
LLaVA-Next Github: https://github.com/LLaVA-VL/LLaVA-NeXT
LLaVA-1.5 paper: https://arxiv.org/abs/2310.03744
LLaVA-Next (1.6) blog: https://llava-vl.github.io/blog/2024-01-30-llava-next/
Contents
2. Background Knowledge: LLaVA
- LLaVA-1.5
- LLaVA-NeXT
5. Furthermore
Simple Introduction
오늘날 LMM (large multi modal)의 관심은 더욱 더 커지고 있습니다!
이에 따라 LMM open-source models이 점점 더 많이 나오고 있는데, 가장 대표적인 모델이 바로 LLaVA 입니다!
LLaVA는 최근 LLaVA-1.5에 이어서 LLaVA-NeXT라는 모델도 공개를 하였는데요..!
LLaVA-1.5는 LLaVA 모델에 비해서 어떤 차별점을 가지는지, 그리고 LLaVA-NeXT (또는 LLaVA-1.6) 모델은 LLaVA-1.5와 훈련 방식이 어떻게 다른지 한번 리뷰해보도록 하겠습니다!
*리뷰 글은 LLaVA와 마찬가지로 크게 어렵지 않습니다! 맘 편히 보셔도 좋을 것 같습니다 ㅎㅎ
Background Knowledge: LLaVA
LLaVA 논문리뷰: https://kyujinpy.tistory.com/156
*LLaVA 논문 리뷰를 하고 오시면, 흐름을 이해하시는데 도움이 됩니다!!
Method
LLaVA-1.5
LLaVA 저자들은 1.5를 만들기 위해서 첫번째로, response format prompting에 집중했습니다!
기존 데이터셋의 QA 형식은 short-form과 long-form의 답변 사이의 적절한 밸런스를 찾지 못할 수도 있다는 문제점이 있었습니다!
그래서, Table1의 (b)에 보이는 Formatting prompt 부분에 Answer the question using a single word or phrase.를 붙입니다!
이러한 prompting을 통해서, LLaVA를 fine-tuning할 때 instruction에 더욱 적절한 답변을 할 수 있다고 언급하고 있습니다!
두번째로는, model과 dataset의 scaling에 집중했습니다!
데이터, 모델, 그리고 이미지 resolution 관점에서 구조와 데이터셋을 변화를 줬습니다!
간단히 정리하면, 아래의 4가지 항목으로 말할 수 있을 것 같습니다.
1. LLaVA에서 활용하던 Vision projection layer를 two-layer MLP로 변화했다. (기존에는 single layer)
2. 데이터셋을 추가했다. (VQA, OCR, region-level perception, 등등)
3. 이미지 resolution을 336x336으로 늘리고, ViT-L-336px encoder를 활용했다.
4. 7B뿐만 아니라, 13B LLaVA 모델도 제작했다.
이렇게 제작된 모델을, 논문에서 LLaVA-1.5라고 부르게 됩니다!
더 나아가서, LLaVA-1.5 모델이 336x336 보다 높은 resolution가지는 이미지를 훈련하기 위해서 새로운 network를 방법을 제안하고 있습니다!
방법론 자체는 되게 simple합니다!
기존에 higher resolution을 다룰 때는, embedding으로 압축하거나 interpolation 등을 통해서 network를 학습했습니다.
하지만, LLaVA-1.5에서는 원본 이미지를 resize를 통해서 작게 만들고 이를 encoding하여서 single large feature로 표현되도록 네트워크를 구성하였습니다!
-> 이를 통해서, data-efficiency와 임의의 resolution에도 강건하게 대응할 수 있는 능력을 LLaVA-1.5가 가질 수 있게 되었습니다!
LLaVA-Next (1.6)
그 다음은, LLaVA-1.6 (NeXT) 모델에 대해서 살펴보겠습니다!
LLaVA-NeXT 모델은 논문이 없는 것 같고, blog로 내용을 전달하고 있습니다.
LLaVA-NeXT 모델이 변화된 점은 크게 3가지가 있습니다! (사진에도 언급되어 있음!)
1. Image resolution을 증가시켰다! (-> 모델 파라미터 수 증가 요인)
2. OCR과 visual reasoning을 보다 잘 수행하기 위해서 instruction tuning dataset을 증가시켰다!
3. 또한 visual conversation과 더 많은 상황을 이해하기 위해서 instruction tuning dataset을 또 증가시켰다!
데이터셋 개수를 정리하면, 기존 LLaVA의 경우 fine-tuning할 때 665K를 활용했지만
LLaVA-NeXT의 경우에는 760K를 활용하고 있습니다!
(더불어서 model size도 증가했네요!)
Result
- 기존 모델들보다 적은 양의 데이터셋으로 pretraining과 fine-tuning을 진행했지만, 성능은 SOTA를 달성하고 있다는 것을 보여주고 있다.
- 이를 통해서, 오픈소스 LMM을 보다 쉽게 다룰 수 있는 기반이 된 방법론이 아닐까..생각해봅니다!
Furthermore
LLaVA-OneVision: https://kyujinpy.tistory.com/159
*LLaVA 시리즈 다음으로, image을 넘어 video와 multi-image도 학습한 훈련한 LLaVA-OneVision 모델을 리뷰해보도록 하겠습니다!
- 2024.10.11 Kyujinpy 작성.
*광고 수익은 연말에 기부를 할 생각입니다!
(*가독성을 위해서, 광고를 상-하단에만 설정했는데 광고가 많이 노출되면 알려주세요!!)