본문 바로가기

분류 전체보기

(54)
2025VLM 트렌드에 대한 허깅페이스의 고찰(번역) 두달전 글이긴 하지만 작년부터 이어지는 VLM의 기술 발달에 대해 트렌드 파악에 도움이 많이 되는 글이라서,정독을 하며 번역을 해봤습니다.개발(develop x)로 번역한 부분도 일부 있으니 원문을 참고하며 정독하시는거 추천드립니다.원문 : Vision Language Models (Better, Faster, Stronger)https://huggingface.co/blog/vlms-2025 Vision Language Models (Better, faster, stronger)Fantastic overview of the VLM landscape! One recent development worth noting is the Skywork R1V series, which demonstrates impr..
OpenAI 퇴사자의 이야기 오늘은 오랜만에 좋은 글을 읽고 번역을 해보려고 합니다. 우리가 모두 아는 ChatGPT를 만든 OpenAI에서 근무하던 개발자의 이야기인데, OpenAI라는 회사에서 다니는 게 어떤 느낌인지 간접적으로 볼 수 있어서 저는 읽는 내내 괜히 가슴이 벅차올랐던 것 같네요. AI에 관심이 있는 분들이라면 한 번쯤 읽어보시라고 추천드립니다.원문 : https://calv.info/openai-reflections?utm_source=Nomad+Academy&utm_campaign=fd7ed521a7-EMAIL_CAMPAIGN_2025_07_18&utm_medium=email&utm_term=0_4313d957c9-7ac123137e-357656256 Reflections on OpenAII left OpenAI..
Qwen2.5에 대해서 최근에 VLM에 대해 현업에서 여기저기 검토할 일이 많아졌다.상용 타겟을 하다보니 가벼운 모델에 특히 관심이 많은데, 원래는 Moondream 2B 모델을 갖고 이거저거 실험을 했었다.근데 성능이 제한적이라고 느껴져서,이에 대한 대안을 찾았고 아직 답을 내린 것은 아니지만 좀더 많은 파라미터를 가진 좋은 툴로 쓰기에 Qwen2.5가 좋아보인다고 어느 정도 답을 내렸다. 꽤 간단해보이는 Qwen2.5의 구조도.비전 인코더로 ViT를 사용했고, LLM으로 Qwen2.5 LLM을 사용했다.이런거보면 근래의 비전 인코더는 ViT가 통일한 것처럼 보이기도 하는데, 대안 모델이 언제쯤 나올까?학습은  pretraining -> SFT -> DPO 순이라고 하는데,DPO( Direct Preference Optimi..
로봇에 집중하는 구글과 엔비디아 구글 딥마인드의 제미나이 로보틱스: 가장 발전된 VLAGemini Robotics Gemini Robotics deepmind.googleGemini Robotics: Bringing AI to the physical worldIntroducing Gemini Robotics and Gemini Robotics-ER, AI models designed for robots to understand, act and react to the physical world. Introducing Gemini Robotics and Gemini Robotics-ER, AI models designed for robots to understand, act and react to the physical wIntroduci..
Figure AI의 새로운 로봇을 위한 AI 모델 Helix https://www.figure.ai/news/helix Helix: A Vision-Language-Action Model for Generalist Humanoid ControlFigure was founded with the ambition to change the world.www.figure.ai Figure.ai는 2025년 2월 20일에 Helix라는 새로운 비전-언어-동작(VLA) 모델을 발표했습니다. Helix는 지각, 언어 이해, 학습된 제어를 통합하여 로봇 공학의 여러 오랜 과제를 해결하는 데 목적이 있습니다.Helix의 주요 특징은 다음과 같습니다:상체 전체 제어: Helix는 손목, 몸통, 머리, 개별 손가락을 포함한 인간형 로봇의 상체를 고속으로 연속 제어할 수 있는 최초의 V..
사티아 나델라 인터뷰: AI, 양자 컴퓨팅, 그리고 미래 기술 전망 최근 마이크로소프트(Microsoft) CEO 사티아 나델라가 AI와 양자 컴퓨팅, 그리고 미래 기술에 대한 깊이 있는 인터뷰를 진행했습니다. 그는 AI가 산업 전반에 미칠 영향, 기업 환경의 변화, 그리고 마이크로소프트가 준비하는 차세대 혁신 전략에 대해 이야기했습니다. 이번 포스팅에서는 인터뷰의 핵심 내용을 정리해 보겠습니다.https://www.youtube.com/watch?v=4GLSzuYXh6w 1. AI와 컴퓨팅의 미래: 인프라 변화의 시작나델라는 현재 AI 산업이 과거의 컴퓨팅 혁신과 유사한 흐름을 보이고 있다고 말합니다. 과거 RISC vs. CISC 논쟁, x86 서버의 발전, 그리고 클라우드 컴퓨팅의 등장이 산업을 바꾼 것처럼, 이제는 AI 인프라(컴퓨팅 파워, 저장소, 분산 컴퓨팅 ..
Large World Model의 대표 회사는 어디가 있을까? : Fei Fei Li 교수의 World Labs 그리고 Google DeepMind의 Genie2 지난번 포스팅에서는 NVIDIA의 LWM 기반의 Physical AI 플랫폼인 Cosmos에 대해 알아보았다. 오늘은 그 외에 또 어떤 유수의 회사들이 Large World Model을 위해 개발하고있는지 알아볼 것이다. World Labs를 설명하기 앞서, 창립자인 Fei Fei Li에 대해 간략히 설명하자면, 스탠포드 교수이자 ImageNet 프로젝트의 창시자로서 AI업계에서 이름을 떨쳤다. 그런 그녀가 2024년 4월 'Spatial Intelligence'를 표방하며 세운 회사가 바로 World Labs이다.https://www.worldlabs.ai/ World LabsWorld Labs is a spatial intelligence AI company building Large World Mo..
NVIDIA의 Large World Model, Cosmos의 등장 CES 2025에서 NVIDIA의 World 모델인 Cosmos가 등장했다.https://youtu.be/9Uch931cDx8 Physical AI라고 칭하는 이 모델은 현실세계의 물리법칙에 맞춰서 동작하는 합성 데이터를 생성할 수 있고,이러한 기술을 통해 로봇, 자율주행 등의 시뮬레이션에 유용할거라고 한다.실제로 Cosmos를 최초로 도입한 기업의 리스트에 우버, Figure AI, 애자일 로봇 등이 있다.https://blogs.nvidia.co.kr/blog/nvidia-launches-cosmos-world-foundation-model-platform-to-accelerate-physical-ai-development/ ‘NVIDIA Cosmos WFM 플랫폼’, 물리 AI의 세계로 안내하다 -..