FakeShield

基于多模态大语言模型的可解释图像检测与定位

普通产品图像图像检测多模态学习

FakeShield是一个多模态框架，旨在解决图像检测和定位（IFDL）领域中的两个主要挑战：检测原理的黑箱性和在不同篡改方法间的有限泛化能力。FakeShield通过利用GPT-4o增强现有的IFDL数据集，创建了多模态篡改描述数据集（MMTD-Set），用于训练FakeShield的篡改分析能力。该框架包括领域标签引导的可解释检测模块（DTE-FDM）和定位模块（MFLM），能够处理各种类型的篡改检测解释，并实现由详细文本描述引导的定位。FakeShield在检测准确性和F1分数上优于其他方法，提供了一个可解释且优越的解决方案。

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

FakeShield

FakeShield 最新流量情况

FakeShield 访问量趋势

FakeShield 访问地理位置分布

FakeShield 流量来源

FakeShield 替代品

FakeShield — 基于多模态大语言模型的可解释图像检测与定位

OmniTalker — OmniTalker 是一个实时文本驱动的生成谈话头框架。

Argo — 轻松构建自己的大模型，专属智慧，尽在本地。

NotaGen — NotaGen 是一个用于符号音乐生成的模型，采用大语言模型训练范式，专注于生成高质量古典乐谱。

AoT — Atom of Thoughts (AoT) 是一种用于提升大语言模型推理性能的框架。

Spark-TTS — Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。

Level-Navi Agent-Search — Level-Navi Agent是一个无需训练即可使用的框架，利用大语言模型进行深度查询理解和精准搜索。

M2RAG — 用于多模态上下文中的检索增强生成的基准测试代码库。

TableGPT2-7B — TableGPT2-7B 是一款专注于表格数据处理的大语言模型，适用于数据分析和商业智能任务。

MoBA — MoBA 是一种用于长文本上下文的混合块注意力机制，旨在提升大语言模型的效率。

MNN 大模型 Android App — 一款支持多模态功能的全功能大语言模型安卓应用。

Baichuan-M1-14B — 百川智能开发的专为医疗场景优化的开源大语言模型，具备卓越的通用能力和医疗领域性能。

Doubao-1.5-pro — Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型，专注于推理性能与模型能力的极致平衡。

PaSa — PaSa 是一个由大语言模型驱动的先进学术论文搜索代理，能够自主决策并获取准确结果。

VITA-1.5 — VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型

InternVL2-8B-MPO — 多模态大语言模型，提升多模态推理能力

FlagEval — 模型评测平台

ChatHi — 多功能AI智能助手平台

DeepSeek-VL2-Small — 先进的大型混合专家视觉语言模型

MMAudio — MMAudio根据视频和/或文本输入生成同步音频。

InternViT-300M-448px-V2_5 — 基于InternViT-300M-448px的增强版本，提升视觉特征提取能力。

Florence-VL — 视觉语言模型增强工具，结合生成式视觉编码器和深度广度融合技术。

LLaVA-o1 — 视觉语言模型，能够进行逐步推理

卡卡字幕助手 — 基于LLM的智能字幕助手，一键生成高质量视频字幕

PPLLaVA — 视频序列理解的GPU实现模型

Agent S — Agent S：一个开放的代理框架，让计算机像人类一样使用计算机。

awesome-LLM-resourses — 全球大语言模型资源汇总

VirtualWife — 一个支持B站直播的虚拟数字人项目

LLaVA-Video — 视频指令调优与合成数据研究

Open-O1 — 开源大语言模型，匹配专有强大能力。