본문 바로가기

Kyujinpy

(152)
[SigLip 논문 리뷰] - Sigmoid Loss for Language Image Pre-Training *SigLip를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요! SigLip paper: https://arxiv.org/abs/2303.15343 Sigmoid Loss for Language Image Pre-TrainingWe propose a simple pairwise Sigmoid loss for Language-Image Pre-training (SigLIP). Unlike standard contrastive learning with softmax normalization, the sigmoid loss operates solely on image-text pairs and does not require a global view of the pairwise simarxiv.or..
[Skip-DiT 논문 리뷰] - Accelerating Vision Diffusion Transformers with Skip Branches *Skip-DiT를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요! Skip-DiT paper: https://arxiv.org/abs/2411.17616 Accelerating Vision Diffusion Transformers with Skip BranchesDiffusion Transformers (DiT), an emerging image and video generation model architecture, has demonstrated great potential because of its high generation quality and scalability properties. Despite the impressive performance, its practical depl..
[취미 기록] - Chopin Ballade No.1 연주 영상 (아마추어; 악보 PDF) 안녕하세요! Kyujinpy입니다 ㅎㅎ갑자기 코딩/논문 블로그에 피아노 영상이 올라와서 많이 놀라셨죠(?) 학교를 졸업하고 대학원에 들어가기 전, 6개월 동안 여러 버킷리스트를 이루고 싶었습니다!❎ 해외 여행 다니기! (진행중)❎ 논문 1편 쓰기 (Accept까지!; 진행중)❎ Chopin Sonata No.3 4th movement (할 예정)✅ Chopin Ballade No.1✅ Liszt Consolation No.3 제가 가장 좋아하는 피아니스트인 쇼팽(chopin)의 곡인 ballade 입니다!1번부터 4번까지 곡이 구성되어 있는데 너무나 좋아하는 곡입니다.4번을 연습하고 싶었지만, CODA에서 3도화성의 미친듯한 스케일은(?) 아마추어인 제가 감히 넘볼 수 없는... 영역인 것 같습니다(조성..
[다양한 한국어 LLM 벤치마크 평가 코드🍚] - 단 하나의 코드로 N개의 LLM 벤치마크 구현하기 한국어 LLM 벤치마크 올인원 Github Link: https://github.com/Marker-Inc-Korea/KoLLM_Eval GitHub - Marker-Inc-Korea/KoLLM_Eval: 한국어 벤치마크 평가 코드 통합본(?)한국어 벤치마크 평가 코드 통합본(?). Contribute to Marker-Inc-Korea/KoLLM_Eval development by creating an account on GitHub.github.com Gukbap-Series-LLM: https://huggingface.co/collections/HumanF-MarkrAI/gukbap-series-llm-66d32e5e8da15c515181b071 Gukbap-Series-LLM - a HumanF-..
[Gukbap-LLM🍚] - 오픈소스 LLM으로 자체 데이터셋 생성해서 SOTA 달성하기 Gukbap Models🍚HumanF-MarkrAI/Gukbap-Qwen2-7BHumanF-MarkrAI/Gukbap-Mistral-7BHumanF-MarkrAI/Gukbap-Gemma2-9BIntroduction오픈소스 LLM만으로 데이터를 생성하여 GPT-4를 넘어 한국어 최고 레벨을 달성🔥안녕하세요! 오랜만에 LLM 프로젝트로 인사드리는 kyujinpy 입니다🤗작년에 무수히 많은 일들이 있었는데요..! 마커 AI는 자체 데이터셋과 LLM을 만드는데 집중을 하고 있는 중입니다!🤔저희가 가장 심각하게 보고 있는 문제는 바로, 'OpenAI 의존성' 입니다! 오늘날 수많은 여러 SOTA 모델들은 해왜/국내를 모두 포함하여 private model (ChatGPT, GPT4 등)을 활용하여 생성한 ..
RuntimeError: Error(s) in loading state_dict for Model - [LoRA fine-tuning 코드 직접 제작 꿀팁(에러 해결)] - 간혹가다가, fine-tuning할 때 기존 Pre-trained weight에 없는 가중치(LoRA와 같은)를 추가하고 싶을 때 어떻게 해야할까요?? 그냥 model class에 추가하면 새롭게 trainable layers를 추가하면:RuntimeError: Error(s) in loading state_dict for Model:에러를 마주칩니다! 이때 단순하게, load_state_dict에 strict=False를 추가하면 아주 쉽게 해결 완료!self.dit3d.load_state_dict(ckpt['model_state'], strict=False)# DiT-3D 예시
[MoH 논문 리뷰] - MULTI-HEAD ATTENTION AS MIXTURE-OF-HEAD ATTENTION *MoH를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요!  MoH paper: [2410.11842] MoH: Multi-Head Attention as Mixture-of-Head Attention (arxiv.org)  MoH: Multi-Head Attention as Mixture-of-Head AttentionIn this work, we upgrade the multi-head attention mechanism, the core of the Transformer model, to improve efficiency while maintaining or surpassing the previous accuracy level. We show that multi-head attentio..
[Dense Connector 논문 리뷰] - Dense Connector for MLLMs *Dense Connector를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요! Dense Connector paper: [2405.13800v1] Dense Connector for MLLMs (arxiv.org)  Dense Connector for MLLMsDo we fully leverage the potential of visual encoder in Multimodal Large Language Models (MLLMs)? The recent outstanding performance of MLLMs in multimodal understanding has garnered broad attention from both academia and industry. In the curre..
[LLaVA-Video 논문 리뷰] - VIDEO INSTRUCTION TUNING WITH SYNTHETIC DATA *LLaVA-Video를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요! LLaVA-Video paper: https://arxiv.org/abs/2410.02713 Video Instruction Tuning With Synthetic DataThe development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset ..
[LLaVA-OneVision 논문 리뷰] - LLaVA-OneVision: Easy Visual Task Transfer *LLaVA-OneVision를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요! LLaVA-OneVision paper: https://arxiv.org/abs/2408.03326 LLaVA-OneVision: Easy Visual Task TransferWe present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVisi..
[LLaVA-NeXT 논문 리뷰] - Improved Baselines with Visual Instruction Tuning *LLaVA-NeXT를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요! LLaVA-Next Github: https://github.com/LLaVA-VL/LLaVA-NeXT GitHub - LLaVA-VL/LLaVA-NeXTContribute to LLaVA-VL/LLaVA-NeXT development by creating an account on GitHub.github.com LLaVA-1.5 paper: https://arxiv.org/abs/2310.03744LLaVA-Next (1.6) blog: https://llava-vl.github.io/blog/2024-01-30-llava-next/Contents1. Simple Introduction2. Background Knowl..
[LLaVA 논문 리뷰] - Visual Instruction Tuning *LLaVA를 위한 논문 리뷰 글입니다! 궁금하신 점은 댓글로 남겨주세요!  LLaVA github: https://llava-vl.github.io/ LLaVABased on the COCO dataset, we interact with language-only GPT-4, and collect 158K unique language-image instruction-following samples in total, including 58K in conversations, 23K in detailed description, and 77k in complex reasoning, respectively. Pleasellava-vl.github.ioContents1. Simple Introduction2. Ba..

반응형