(l)什么是VLM-当任何人不仅“阅读”时, 但也像人类一样“看”这个世界?

我. 什么是视觉语言模型?

视觉语言模型 (视觉语言模型 - VLM) 是多模式AI系统 (多模式AI系统) 通过结合大型语言模型建造 (大型语言模型 - LLM) 带有图像编码套件 (视觉编码器), 帮助LLM有能力“看到”

具有这种能力, VLM可以以许多不同的视频格式处理和理解各种内容, 从中创建自然反馈的照片和文本.

视觉语言模型的应用

与传统的计算机视觉模型不同, VLM不受固定类或特定任务的限制 (分类) 或确定 (检测). VML在描述相同图像或视频的大量数据集上训练 (图像/视频捕获对). 这使VLM可以接受自然语言培训 (自然语言) 并不仅执行传统的视觉任务,还执行创建任务,例如总结内容或视觉问题和答案 (视觉QNA).

ii. 为什么视觉语言模型很重要?

了解视觉语言模型的重要性 (视觉语言模型 - VLM), 首先需要考虑传统的计算机视觉模型 (计算机视觉 - 简历) 工作. 基于神经网络的传统简历模型 (卷积神经网络 - CNN) 经常在固定类集中训练特定任务. 例如:

  • 分类模型 (分类模型) 可以确定图像是否包含猫还是狗.
  • 简历模型标识并读取光学字符 (OCR) 文本可以从图像中提取,但无法以视觉上的视觉了解。.

以前的简历模型只能执行他们接受培训的任务, 无法在没有培训的情况下扩展到其他任务或识别新的类集. 如果使用要求发生变化或需要添加新类, 开发人员必须收集和标记大量图像, 然后重新培训模型 - 非常昂贵且耗时的过程. 除了, 传统的简历模型无法理解自然语言 (自然语言理解).

VLM通过结合平台模型的力量来打开一个新时代 (基础模型) 就像带有大语言模型的剪辑 (LLMS), 帮助他们有能力看和理解语言. 从一开始, VLMS在许多视觉任务(例如视觉问题和答案)上具有令人印象深刻的零拍摄性能 (视觉提问), 分类 (分类) 并确定光学字符 (OCR). 他们也非常灵活, 不限于固定类,但可以通过更改命令将几乎应用于任何情况 (文本提示).

VLM的使用类似于使用LLM. 输入命令并可以附加到图像的人. 系统将处理输入以创建书面反馈. 用户可以提出问题, 摘要要求, 在对话中解释内容或分析图像. 除了, VLM可以集成到视觉剂中 (视觉代理) 自动执行与视觉相关的任务.

iii. 视觉语言模型如何工作??

大多数视觉语言模型 (VLMS VLMS VLM) 遵循架构由三个主要部分组成:

  1. 视觉加密套件 (视觉编码器) 通常是带有变压器体系结构的基于剪辑的模型, 接受了数百万张图像媒体的培训. 多亏了这一点, 它可以将图像链接到语言.
  2. 垫 (投影仪) 扮演将视觉编码器的输出转换为LLM可以理解的形式的作用, 通常是图像令牌 (图像令牌). 该成分可以简单地是线性层 (线性层) 如llava和Vila, 随着对角线注意的层次,或更复杂 (跨注意层) 在骆驼中使用 3.2 想象.
  3. 大语言模型 (大型语言模型 - LLM) - 任何LLM模型都可以用于构建VLM. 目前有数百种VLMS, 通过将许多不同的LLM与Visual编码器相结合而创建.
视觉语言模型的常见三部分结构

iv. 视觉语言模型如何训练?

VLM经过许多阶段的训练, 包括培训 (预处理), 之后,这是监视 (监督微调). 除了, 可以应用有效参数 (参数有效微调 - PEFT) 根据自定义数据在每个字段中创建一个专门的VLM.

1. 训练 (预处理)

此期间的目的是移动视觉编码器集, 垫 (投影仪) 和大语言模型 (法学硕士) , 处理文本和图像时,帮助他们可以“一般可以”. 此过程使用大量数据,包括交替的文本图像对. 当这三个组件很好地对齐时, VLM将继续监视期.

2. 监视 (监督微调)

在此步骤中, VLM经过培训,以发出信号如何响应用户的要求. 输入数据是带有图像/文本和所需反馈的示例语句的集合。. 例如, 可能需要该模型来描述图像中的内容或计算框架中的对象数. 此后, VLM将学会根据上下文解释更准确的图像和反馈.

3. VML训练后如何工作?

经过训练之后, VLM可以用作LLM, 允许用户输入该语句可以附加到图像. 该模型将分析输入数据并以文本形式创建反馈 . Thông thường, VLMS以OpenAI的API休息的形式部署,以轻松整合到应用程序中.

现在, 正在研究更先进的技术以提高VLMS图像处理能力, 包括:

  • 结合许多视觉编码器 获得更好的图像分析.
  • 分割高分辨率图像 分为较小的零件以进行更有效的处理.
  • 增加上下文的长度 帮助VML正确理解长视频.

这些进步正在帮助VLM超过处理单个图像的极限. Giờ đây, 他们可以同时比较和分析许多图像, 更准确地阅读和理解图像中的文本, 长时间的视频处理和更好的空间意识.

v. 视觉语言模型如何评估?

有许多常见的评估标准,例如 mmwanness, 视频 - 梅, Mathvista, Chartaqa, 和docvqa 用于评估视觉语言模型的性能 (VLMS VLMS VLM) 在许多不同的任务上, 包括:

  • 问答 (视觉提问)
  • 论点和逻辑推理 (逻辑和推理)
  • 了解文档的内容 (文档理解)
  • 比较许多图像 (多图像比较)
  • 视频分析和理解 (视频理解)
MMMU评论中使用的VLM的多个选择问题的示例. 来源 (mmwanness)

如何操作评估标准:

这些评估中的大多数包括图像集合,其中包括许多相关问题, 通常以多种选择的形式. 测试格式使评估和比较VLM的性能始终如一. 这些问题旨在检查认知能力, 模型理解和推理.

如何计算VLM的性能得分:

进行评论时, VML将收到包括图像的输入, 问答. 该模型的任务是选择正确的答案. 与多项选择问题的总数相比,VML的准确性是根据正确答案率计算的.

某些标准组还包括需要算术计算模型的问题,并在允许的错误之内给出结果。. 这些测试中的问题和图像通常来自大学级别的学术来源,例如教科书.

vi. 视觉语言模型的应用 (VLMS VLMS VLM)

VLMS由于其灵活的能力和理解自然语言,VLM迅速成为视觉相关任务的领先工具。. 只有书面陈述, VML可以执行许多不同的任务:

  • 问答
  • 图像和视频的摘要
  • 文件识别和分析, 手写文档

前, 处理这些任务, 需要结合许多不同的专业模型. Giờ đây, 单个VLM可以负责.

在教育中的应用

VLM在总结图像内容时特别出色. 例如, 在教育领域, VLM可以识别包含手写问题的图像, 然后使用OCR和理由理解问题, 同时,提供步骤 - 逐步说明来解决课程。, VML还可以根据需要推断和执行特定任务.

AI代理将视频数据转换和视频数据分析为实用信息

在视频分析中应用

每天创建的视频数据量非常大,如果手动完成信息的审查和提取的信息将变得不可能. VLM可以集成到视频航空系统系统中,以确定重要事件。:

  • 在仓库中, VML可以在架子上检测机器人或发出警告)
  • 在交通中, 智能监控系统可以识别并警告诸如倒树之类的风险, 汽车死了或事故.

VMLS的分析并没有停止图像识别, 但也可以分析和创建自动报告, 帮助改善监控和管理绩效.

在长视频分析中应用

VML可以与图形数据库结合 (图数据库) 了解长视频内容, 帮助确定视频中复杂的事件和关系. 因此,它们可以应用于:

  • 优化仓库的操作 (找到瓶颈, 提高运行效率)
  • 分析并创建自动体育评论
  • 多亏了这些进度, VLM不仅在固体图像含量中有效,而且有效, 在许多领域中综合并创建有价值的信息.

vii. 视觉语言模型的挑战 (VLMS VLMS VLM)

尽管增长迅速, VLM仍然遇到了一些限制, 特别是功能 了解空间 (空间理解) 长篇小说的视频处理 (长篇小说视频理解).

1. 限制输入尺寸和较小的详细识别能力

现在,大多数VLMS现在使用基于剪辑的模型作为Visual编码器 (视觉编码器) 资本在输入尺寸224×224或336×336处有限. 这使得模型难以识别小型或复杂的细节.

例如, 视频中的HD 1080×1920框架, 在放入失去许多重要细节的模型之前,需要减少或修剪. 克服, 小支出方法 (冠军) 被研究以将大图像分为小零件以进行更好的处理. 除了, 也有关于使用高分辨率图像的研究

2. 确定对象确切位置的限制

VML难以在图像中提供对象的确切位置. 主要原因是剪辑的训练数据集主要包含图像的简短描述, 如前所述 (标题), 不提供有关对象位置的详细信息. 这降低了理解剪辑和VML“继承”空间的能力。. 现在, 一些研究试图结合多个图像以提高这种能力.

3. 理解长视频的局限性

长时间的视频处理是一个巨大的挑战,因为VML需要长时间考虑图像信息才能进行准确的分析. 类似于LLM, VML在上下文长度方面受到限制, 这意味着只能将某个框架放入模型中来回答问题.

正在研究扩展上下文和训练VML的方法, NHU LONGVILA-专注于长时间视频处理的模型.

4. 专业领域的局限性

对于非常具体的用例,VLM无法接受足够的培训, 例如检测特定生产线中的生产错误.

  • 可以通过调整来克服 (微调)专门数据集的模型以提高准确性.
  • 将VML与上下文学习结合使用 (在文化学习中) 提供示例以在没有培训的情况下快速帮助模型.
  • 有效PEFT参数的应用 (参数有效的微调) 在自定义数据上提高VML的准确性.

来源: Nvidia