🌐 多模态大模型:视觉语言模型的架构与原理
GPT-4V、Claude 3、Gemini……大模型正在获得「眼睛」。视觉语言模型如何对齐图像和文字的语义空间?CLIP、LLaVA、InstructBLIP的架构差异是什么?
🐸
加载中...
💡
提意见