OpenBayes 一周速览丨3B参数多模态统一模型Ovis-U1-3B开源,实现单一框架完成多模态任务;Magenta RT实时音乐生成,可动态调整乐曲风格

发布于:2025-07-11 ⋅ 阅读:(58) ⋅ 点赞:(0)

公共资源速递  This Weekly Snapshots !

7 个公共教程:

* HealthGPT:AI医疗助手

* Magenta RT:实时音乐生成

* Ovis-U1-3B:多模态理解与生成模型

* Holo1-7B:自然语言精准定位 UI元素

* PlayDiffusion:开源音频局部编辑模型

* Gemma-3n-E4B-it:先进的轻量级开放模型

* 用 Ollama 和 Open WebU 部署 Kimi-Dev-72B-GGUF

访问官网立即使用:openbayes.com

公共教程

1. HealthGPT:AI 医疗助手

HealthGPT 采用创新的异构低秩适应(H-LoRA)技术,将视觉理解与生成任务的知识存储在独立的插件中,避免任务间的冲突。HealthGPT 提供两种版本:HealthGPT-M3(38 亿参数)和 HealthGPT-L14(140 亿参数),分别基于 Phi-3-mini 和 Phi-4 预训练语言模型。模型引入了分层视觉感知(HVP)和三阶段学习策略(TLS),优化视觉特征的学习和任务适应能力。

* 在线运行:

OpenBayes 控制台

项目示例

2. Magenta RT:实时音乐生成

Magenta RT 采用了 MusicLM 的分阶段训练管道,并集成了一个名为 MusicCoCa 的新模块,能够实现实时的语义控制,涵盖音乐流派、乐器选择和风格演变。生成速度达到每 2 秒音频只需要 1.25 秒,实现了接近实时的数据生成(RTF 约为 0.625)。这一突破性发布标志着 Google 在 AI 音乐创作领域的又一重要进展,为音乐创作者和开发者提供了全新的创作工具。

* 在线运行:

OpenBayes 控制台

3. Ovis-U1-3B:多模态理解与生成模型

Ovis-U1-3B 模型集成多模态理解、文本到图像生成和图像编辑三种核心能力,基于先进的架构和协同统一训练方式,实现高保真图像合成和高效的文本视觉交互。在多模态理解、生成和编辑等多个学术基准测试中,Ovis-U1 均取得领先的成绩,展现出强大的泛化能力和出色的性能表现。

* 在线运行:

OpenBayes 控制台

项目示例

4. Holo1-7B:自然语言精准定位 UI 元素

Holo1-7B 旨在像人类用户一样与 Web 界面交互。作为更广泛的代理架构的一部分,Holo1 可以充当策略模型、定位模型或验证模型,帮助代理理解和操作数字环境。

* 在线运行:

OpenBayes 控制台

项目示例

5. PlayDiffusion:开源音频局部编辑模型

PlayDiffusion 模型将音频编码为离散的标记序列,对需要修改的部分进行掩码处理,用扩散模型在给定更新文本的条件下对掩码区域进行去噪,实现高质量的音频编辑。模型能无缝保留上下文,确保语音的连贯性和自然性,同时支持高效的文本到语音合成。PlayDiffusion 的非自回归特性在生成速度和质量上优于传统的自回归模型,为音频编辑和语音合成领域带来新的突破。

* 在线运行:

OpenBayes 控制台

项目示例

6. Gemma-3n-E4B-it:先进的轻量级开放模型

Gemma-3n-E4B-it 旨在为移动设备和边缘计算场景提供高性能、低资源消耗的本地化 AI 能力。能够处理多模态输入,包括文本、图像、视频和音频输入,并生成文本输出。

* 在线运行:

OpenBayes 控制台

项目示例

7. 用 Ollama 和 Open WebU 部署 Kimi-Dev-72B-GGUF

Kimi-Dev-72B 在 SWE-bench Verified 编程基准测试中达到 60.4% 的性能,凭借其仅 72 亿的参数量,一举夺魁,超越了近期发布、参数量高达 671 亿的新版 DeepSeek-R1,成为当前开源模型中的 SOTA。

* 在线运行:

OpenBayes 控制台

项目示例


网站公告

今日签到

点亮在社区的每一天
去签到