【AIGC半月报】AIGC大模型启元:2025.01(上)
(1)TangoFlux(NVIDIA语音大模型)
2025.01.03 NVIDIA这两天发布了一个新模型TangoFlux,TangoFlux和Flux采用类似的MMDiT架构,但与Flux不同的是,TangoFlux是用于根据文本来生成与之匹配的音频(Text-to-Audio,TTA)。注意,TTA与文本生成语音(Text-to-Speech,TTS)是两个不同的任务,TTS是根据文本合成口语化的语音,而TTA更复杂,是根据文本内容生成相应的背景音、环境音或者情感表达的音频。TangoFlux模型参数只有515M,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频,而且效果上实现了SOTA,所以是一个又快又好的TTA模型。
参考博客:Flux的“姊妹模型”TangoFlux来了:3.7秒生成30秒高质量音频!
代码:https://github.com/declare-lab/TangoFlux
模型:https://huggingface.co/declare-lab/TangoFlux
技术报告:https://arxiv.org/abs/2412.21037
HuggingFace demo:https://huggingface.co/spaces/declare-lab/TangoFlux
(2)DeepSeek-VL2(DeepSeek多模态大模型)
2025.01.05 DeepSeek-AI推出了DeepSeek-VL2系列,这是新一代开源混合专家(MoE)视觉语言模型,采用动态切片和多头潜在注意力机制等先进技术。该系列包括三种配置:DeepSeek-VL2-Tiny(33.7亿参数)、DeepSeek-VL2-Small(161亿参数)和DeepSeek-VL2(275亿参数),能够在不同的应用需求和计算预算下灵活适应。DeepSeek-VL2在光学字符识别(OCR)和视觉定位等任务中表现出色,显著提高了准确性,并在计算资源使用上比同类模型减少了30%。
参考博客:DeepSeek-AI开源DeepSeek-VL2系列:3B、16B、27B三种模型,混合专家(MoE)架构重新定义视觉语言AI
(3)Vidu 2.0(清华大学文生视频大模型)
2025.01.15 清华大学更新Vidu 2.0模型,生成一个视频的成本低得惊人,每秒视频生成的成本才 4 分钱。号称视频生成界的 DeepSeek V3 。
- 1、Vidu 2.0版本的人物表情特写很细腻,效果很好
- 2、Vidu 2.0版本的参考生视频的性能也大大加强了。
- 3、Vidu 2.0 版本可以通过框选图片中的人物不同位置来完成不同景别镜头的生成。
参考博客:刚刚上线的Vidu2.0,想让所有人都用得起AI视频。
体验地址:https://www.vidu.cn/
(4)MiniRAG(轻量化RAG系统)
2025.01.14 香港大学提出并开源了MiniRAG,这是一种专为极简和高效而设计的新型RAG系统。
MiniRAG引入了两项关键技术创新:(1)一种语义感知的异构图索引机制,将文本块和命名实体结合在一个统一结构中,减少了对复杂语义理解的依赖;(2)一种轻量级的拓扑增强检索方法,利用图结构实现高效的知识发现,而无需高级语言能力。
大量实验表明,MiniRAG在使用SLMs时,性能与基于LLM的方法相当,同时仅需25%的存储空间。此外,还贡献了一个全面的基准数据集LiHua-World,用于评估轻量级RAG系统在现实设备场景下处理复杂查询的能力。
使用准确率(acc)和错误率(err)进行性能评估,以百分比(%)表示。较高的准确率和较低的错误率表明RAG性能更好。结果比较了MiniRAG与各种基线方法在多个数据集上的表现。粗体值表示最佳性。
参考博客:MiniRAG:一个极致简洁、高效的新型RAG系统
论文地址:https://arxiv.org/pdf/2501.06713
开源地址:https://github.com/HKUDS/MiniRAG/tree/main