清华和字节联合推出的视频理解大模型video-SALMONN（ICML 2024）

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

论文信息

paper：https://arxiv.org/abs/2406.15704
code：https://github.com/bytedance/SALMONN/
AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 | ICML 2024
video-SALMONN：语音增强的端到端视听大语言模型
在这里插入图片描述

论文概要

提出一个端到端的视频理解多模态大模型，可以同时输入视频的语音、音频、视频帧，输出视频描述。
论文框架包含三点设计：1）音视频在时间维度上的对齐模块；2）多分辨率因果Q-Former；3）多样性损失函数和混合未配对音视频数据训练。

摘要翻译

作为使用音频-视觉大型语言模型（av-LLMs）进行视频理解的一个关键但研究不足的方面，语音理解是至关重要的。本文提出了video-SALMONN，这是一个单一的端到端av-LLM，用于视频处理，它不仅能理解视觉帧序列、音频事件和音乐，还能理解语音。为了获得语音理解所需的细粒度时间信息，同时保持对其他视频元素的高效处理，本文提出了一种新颖的多分辨率因果Q-Former（MRC Q-Former）结构，以连接预训练的音频-视觉编码器和骨干大型语言模型。此外，为了避免帧或模态的主导，我们提出了专门的训练方法，包括多样性损失和非成对视听混合训练方案。在引入的语音-视听评估基准（SAVE）上，video-SALMONN在视频QA任务上实现了超过25%的绝对准确率提升，在包含人类语音的视听QA任务上实现了超过30%的绝对准确率提升。此外，video-SALMONN在前所未有的任务上展示了卓越的视频理解和推理能力。我们的训练代码和模型检查点可在https://github.com/bytedance/SALMONN/ 上获得。

技术细节

在这里插入图片描述

输入处理

1）分别采用Whisper编码器（Speech Encoder）和BEATs编码器（Audio Encoder）来对同一音频流中的语音和非语音音频进行编码，采样频率为50Hz
2）采用InstructBLIP中的视觉编码器（Visual Encoder）来对视频中的帧进行独立地编码，视频帧采样频率为2Hz，即1秒2帧

音视频对齐

对应图中灰色块（Temporal Fine-grained Synchronisation）
按照AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 | ICML 2024中的解释，音频编码器每1秒音频对应50个向量，而视频编码器每1秒视频2帧，对应64个向量。
因此，三个序列在时间维度上，以视频帧为基准每0.5秒对齐并拼接一次（temporal fine-grained synchronisation），因为语音音频序列略短于视觉序列，短的部分加上zero padding。

MRC Q-Former

多分辨率因果Q-Former对应上图中绿色块
在这里插入图片描述

1）首先在特征维度上，将三个向量进行拼接，也就是论文中的公式（1）
2）采用不同的步长（即不同的分辨率）对序列进行Q-Former（注意力机制）计算。以图2为例（假设视频的序列长度为100），在高分辨率下，步长k取5，query取2，则会产生一个长度为(100/5)*2=40的向量输出。在低分辨率下，步长k取25，query取10，则最终也会产生一个长度为(100/25)*10=40的向量输出，这对应论文中的公式（2）
3）Q-Former中的注意力机制使用了mask机制，如图3所示，即前面的序列不能看见后面的序列信息
4）对每个不同分辨率Q-Former的输出向量进行一个线性映射后再进行加和，得到最终的一个向量输出，这对应论文中的公式（4）
5）最后将Q-Former输出的向量结合文本prompt一起送入大语言模型中，对应论文中的公式（5）

论文中也解释了这种多分辨率划窗设计的好处：

滑动窗口设计使得输入序列的长度可以根据输入特征序列的长度而变化。因此，与在整个序列上使用单一的Q-Former相比，它在保留信息的程度与计算和存储成本之间实现了更好的平衡。

此外，论文中也提到了不同分辨率的Q-Former的参数是共享的

在应用较小窗口以获得更细粒度的时间尺度时，会使用较少的查询向量来减少信息容量，反之亦然。请注意，尽管对于不同的分辨率保持查询向量的不同，但MRC Q-Former的其余参数在所有分辨率级别上都是共享的，因为模态对齐的任务是相同的。

训练策略

首先提出了一个diversity loss，即论文中的公式（6），该loss的设计目的是使同一个分辨率下Q-Former输出的向量彼此不相近，即作者希望每个输出的向量能表征不同的信息。
原文是这样解释的：

视频问答（video QA）等视频任务的训练数据通常只需要一到两个关键帧，而输出查询往往倾向于重复捕捉相同的信息。因此，提出了一种新颖的多样性损失，以鼓励MRC Q-Former提取输入序列的更多不同方面。
请注意，多样性损失仅在低分辨率级别上需要，因为在这些级别上窗口中有足够的帧来提取多样化的信息。

最后，为了避免出现模态主导的问题，论文采用了部分音视频不配对的训练数据，来迫使模型是视频或者音频中来学习。
原文是这样说的：

此外，为了避免视频中的模态主导现象，除了少量成对的音视频数据外，我们提出了一种混合训练方案，即在训练集中的一部分增加非成对的音视频数据，并在提示中结合音频和视频的原始任务。这样，模型就被强制要求从音频和视频输入中提取信息，而不是依赖于某个主导模态。这种策略改善了不同模态之间的平衡，并是导致音视频理解和共同推理能力的关键因素。