1. 摘要多模态大语言模型(Multimodal Large Language Models, MLLM)近年来取得了突破性进展,然而其在精细视觉理解任务上的表现仍存在显著瓶颈。本文系统性地梳理了2024-2025年,arXiv上关于MLLM视觉Token监督不足问题的最新研究。研究表明,当前主流MLLM采用的”仅文本监督”训练范式导致视觉路径处于欠监督状态,进而引发视觉注意力退化、表征学习不充分及视觉遗忘等一系列问题[1][2]。本文将现有解决方案归纳为三大类别:训练时方法(辅助损失函数、强化学习)、推理时方法(动态干预、注意力调制)及架构改进方法(特征重采样、模块化设计),并对20余...
本文以 QwenVL 和 InternVL 系列模型为研究对象,探讨多模态大模型的演进路径,重点关注模型架构与训练流程两个维度。通过梳理这两个系列的迭代过程,可以总结出以下关键趋势:
在模型架构方面,主流设计逐渐收敛于“VIT-MLP-LLM”的三级架构范式,即视觉编码器(VIT)、轻量级适配层(MLP)与大语言模型(LLM)依次连接,结构趋于统一。
在训练流程上,多阶段训练策略成为共识,通常遵循“预训练—指令微调—强化学习”的递进流程。其中,预训练阶段的策略有明显演进:早期方法通常冻结语言模型,仅训练视觉编码器与适配层,随后再解冻语言模型进行整体微调;而近期方法则倾向于直接进行全局参数...
近年来,大模型在人工智能领域取得了显著进展。从 ChatGPT 的横空出世到 DeepSeek 的迅速崛起,AI 正在重塑各行各业的未来。其中,DeepSeek凭借低成本、高性能以及开源策略,迅速成为行业焦点。随着其广泛应用,DeepSeek成功破圈,进入更大众的视野,使AI技术逐渐平民化。
然而,即便是强如DeepSeek这样的通用大模型,虽然在广泛的任务中表现出色,但在一些特定领域落地应用中,仍面临诸多挑战。例如,在医疗、法律、游戏等高度专业化的领域,通用模型可能无法充分理解复杂的领域知识或满足严格的合规要求,从而限制了其提供更深层次服务的能力。
因此,为了在特定场景中实现更好的效果...
大模型产品国外大模型产品在前篇文章中,通俗地介绍了大模型的概念原理,本篇将介绍大模型的应用实践。在开始之前,先简单汇总下国内外的大模型产品。目前国外的大模型龙头企业主要有美国的OpenAI,Google,Anthropic和X AI,以及欧洲的Mistral AI。
其中,Open AI是全世界最早做出大模型的公司,当前的产品类型也覆盖最广,除了有全球最优的综合类大模型ChatGPT系列外,在图片、音频和视频等领域也都有相应的头部产品。
Anthropic是由部分从Open AI离职的人创建的,旗下的大模型产品Claude 4.0 Opus,在数学和科学领域超越了人类专家水平。其首创的宪...
大模型的爆火近年来,大模型在人工智能领域取得了显著进展。从 ChatGPT 的横空出世到 DeepSeek 的迅速崛起,AI 正在重塑各行各业的未来。其中,DeepSeek凭借低成本、高性能以及开源策略,迅速成为行业焦点。随着其广泛应用,DeepSeek成功破圈,进入更大众的视野,使AI技术逐渐平民化。
现在去网上搜索与大模型相关的报道,会发现大模型好像无所不能。大模型既可以当医生,也可以开发游戏赚钱,还可以做数据分析和音乐生成,好像是一个全能型选手。然而,实际去使用大模型,又会发现它其实是有所不能的。比如图中画了一个五环,问大模型有几个圆圈,他会数成6个,让他再确认,也还是6个。这里让...