文章目录~ 1.LM4LV: A Frozen Large Language Model for Low-level Vision Tasks2.Disease-informed Adaptation of Vision-Language Models3.VDGD: Mitigating LVLM Hallucinations in Cognitive Prompts by Bridging the Visual Perception Gap4.Composed Image Retrieval fo…
BLIP2——采用Q-Former融合视觉语义与LLM能力的方法 FesianXu 20240202 at Baidu Search Team 前言
大规模语言模型(Large Language Model,LLM)是当前的当红炸子鸡,展现出了强大的逻辑推理,语义理解能力,而视觉作为人…
今天给大家介绍一篇CIKM 2024中的时间序列预测工作,这篇文章针对高维多变量时序预测问题,提出了一种基于Transformer的建模方法。 论文标题:Scalable Transformer for High Dimensional Multivariate Time Series Forecasting
下载地址&…
Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding
论文信息
paper:CVPR 2024 code:https://github.com/PKU-YuanGroup/Chat-UniVi 训练130亿大模型仅3天,北大提出Chat-UniVi…
标题:《Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models》 来源:Glasgow大学;爱丁堡大学 连接:https://arxiv.org/abs/2406.13099 提示:写完文章后,目录可以自动生成,如何…
AGI之MFM:《Multimodal Foundation Models: From Specialists to General-Purpose Assistants多模态基础模型:从专家到通用助手》翻译与解读之视觉理解、视觉生成 目录
相关文章
AGI之MFM:《Multimodal Foundation Models: From Speciali…
AGI之MFM:《Multimodal Foundation Models: From Specialists to General-Purpose Assistants多模态基础模型:从专家到通用助手》翻译与解读之统一的视觉模型、加持LLMs的大型多模态模型 目录
相关文章
AGI之MFM:《Multimodal Foundation…
大家好,今天继续聊聊 AI 开源项目
AI 开源项目
1、DemoFusion
AI 绘画的潜力还没有充分挖掘出来,仍然还有上升的空间。
DemoFusion 就是这么一个开源项目,继续深挖了 AI 绘画在高分辨率图片生成的效果。
提高分辨率,马赛克&a…