荷月归

视觉Token"失声"：揭秘多模态大模型为何"睁眼说瞎话"

1. 摘要多模态大语言模型（Multimodal Large Language Models, MLLM）近年来取得了突破性进展，然而其在精细视觉理解任务上的表现仍存在显著瓶颈。本文系统性地梳理了2024-2025年，arXiv上关于MLLM视觉Token监督不足问题的最新研究。研究表明，当前主流MLLM采用的”仅文本监督”训练范式导致视觉路径处于欠监督状态，进而引发视觉注意力退化、表征学习不充分及视觉遗忘等一系列问题[1][2]。本文将现有解决方案归纳为三大类别：训练时方法（辅助损失函数、强化学习）、推理时方法（动态干预、注意力调制）及架构改进方法（特征重采样、模块化设计），并对20余...

2026/03/10

大模型多模态

从QwenVL与InternVL的演进看多模态大模型的范式收敛

本文以 QwenVL 和 InternVL 系列模型为研究对象，探讨多模态大模型的演进路径，重点关注模型架构与训练流程两个维度。通过梳理这两个系列的迭代过程，可以总结出以下关键趋势：在模型架构方面，主流设计逐渐收敛于“VIT-MLP-LLM”的三级架构范式，即视觉编码器（VIT）、轻量级适配层（MLP）与大语言模型（LLM）依次连接，结构趋于统一。在训练流程上，多阶段训练策略成为共识，通常遵循“预训练—指令微调—强化学习”的递进流程。其中，预训练阶段的策略有明显演进：早期方法通常冻结语言模型，仅训练视觉编码器与适配层，随后再解冻语言模型进行整体微调；而近期方法则倾向于直接进行全局参数...

2025/10/16

大模型多模态

大模型工程化实践

近年来，大模型在人工智能领域取得了显著进展。从 ChatGPT 的横空出世到 DeepSeek 的迅速崛起，AI 正在重塑各行各业的未来。其中，DeepSeek凭借低成本、高性能以及开源策略，迅速成为行业焦点。随着其广泛应用，DeepSeek成功破圈，进入更大众的视野，使AI技术逐渐平民化。然而，即便是强如DeepSeek这样的通用大模型，虽然在广泛的任务中表现出色，但在一些特定领域落地应用中，仍面临诸多挑战。例如，在医疗、法律、游戏等高度专业化的领域，通用模型可能无法充分理解复杂的领域知识或满足严格的合规要求，从而限制了其提供更深层次服务的能力。因此，为了在特定场景中实现更好的效果...

2025/03/26

大模型

大模型的应用实践

大模型产品国外大模型产品在前篇文章中，通俗地介绍了大模型的概念原理，本篇将介绍大模型的应用实践。在开始之前，先简单汇总下国内外的大模型产品。目前国外的大模型龙头企业主要有美国的OpenAI，Google，Anthropic和X AI，以及欧洲的Mistral AI。其中，Open AI是全世界最早做出大模型的公司，当前的产品类型也覆盖最广，除了有全球最优的综合类大模型ChatGPT系列外，在图片、音频和视频等领域也都有相应的头部产品。 Anthropic是由部分从Open AI离职的人创建的，旗下的大模型产品Claude 4.0 Opus，在数学和科学领域超越了人类专家水平。其首创的宪...

2025/03/24

大模型

大模型的概念原理

大模型的爆火近年来，大模型在人工智能领域取得了显著进展。从 ChatGPT 的横空出世到 DeepSeek 的迅速崛起，AI 正在重塑各行各业的未来。其中，DeepSeek凭借低成本、高性能以及开源策略，迅速成为行业焦点。随着其广泛应用，DeepSeek成功破圈，进入更大众的视野，使AI技术逐渐平民化。现在去网上搜索与大模型相关的报道，会发现大模型好像无所不能。大模型既可以当医生，也可以开发游戏赚钱，还可以做数据分析和音乐生成，好像是一个全能型选手。然而，实际去使用大模型，又会发现它其实是有所不能的。比如图中画了一个五环，问大模型有几个圆圈，他会数成6个，让他再确认，也还是6个。这里让...

2025/03/22

大模型

dmrookie's Studio.