🌐 多模态大模型：视觉语言模型的架构与原理

GPT-4V、Claude 3、Gemini……大模型正在获得「眼睛」。视觉语言模型如何对齐图像和文字的语义空间？CLIP、LLaVA、InstructBLIP的架构差异是什么？