华为云Flexus+DeepSeek征文|基于Dify构建AI资讯语音播报工作流

发布于:2025-07-04 ⋅ 阅读:(28) ⋅ 点赞:(0)

一、构建AI资讯语音播报工作流前言

在信息爆炸的时代,高效获取并消化每日AI领域前沿动态已成为开发者和研究者的核心需求。传统手动浏览新闻源的方式效率低下,而定制化爬虫与语音播报系统的开发又面临技术栈复杂(爬虫解析LLM摘要TTS转换)、模块协同成本高等痛点。Dify 可以将AI应用开发从“代码密集型”转化为逻辑可视化过程,其工作流引擎真正实现了“所想即所得”,开发者只需聚焦业务逻辑而非技术胶水代码,这或许就是LLM时代应用开发的新范式。

华为云Flexus X实例作为业界首创的柔性算力云服务器,在搭建大模型应用时展现出以下核心优势,综合解决了传统云服务器资源浪费、性能调优复杂、成本高昂等痛点,大模型推理需高内存而训练需高算力,Flexus X可针对性分配资源,避免冗余。推出的X-Turbo加速技术,针对大模型高并发场景(如LLM推理),通过内核级优化将关键组件吞吐量提升至业界6倍,长时运行仍保持2倍性能优势。

在这里插入图片描述

二、构建AI资讯语音播报工作流环境

2.1 基于FlexusX实例的Dify平台

华为云FlexusX实例提供高性价比的云服务器,按需选择资源规格、支持自动扩展,减少资源闲置,优化成本投入,并且首创大模型QoS保障,智能全域调度,算力分配长稳态运行,一直加速一直快,用于搭建Dify-LLM应用开发平台。

Dify是一个能力丰富的开源AI应用开发平台,为大型语言模型(LLM)应用的开发而设计。它巧妙地结合了后端即服务(Backend as Service)和LLMOps的理念,提供了一套易用的界面和API,加速了开发者构建可扩展的生成式AI应用的过程。

参考:华为云Flexus+DeepSeek征文 | 基于FlexusX单机一键部署社区版Dify-LLM应用开发平台教程

2.2 基于MaaS的模型API商用服务

MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务,支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。

参考:华为云Flexus+DeepSeek征文 | 基于ModelArts Studio开通和使用DeepSeek-V3/R1商用服务教程

在这里插入图片描述

三、构建AI资讯语音播报工作流实战

3.1 配置Dify环境

输入管理员的邮箱和密码,登录基于FlexusX部署好的Dify网站

在这里插入图片描述

将MaaS平台的模型服务接入Dify,这里我们选择的是DeepSeek V3商用服务,需要记住调用说明中的接口信息和 API Key 管理中API Key,若没有可以重新创建即可

在这里插入图片描述

配置Dify模型供应商:设置 - 模型供应商 - 找到OpenAI-API-compatible供应商并单击添加模型,在添加 OpenAI-API-compatible对话框,配置相关参数,然后单击保存

在这里插入图片描述

参数 说明
模型类型 选择LLM
模型名称 填入模型名称。
API Key 填入创建的API Key。
API Endpoint URL 填入获取的MaaS服务的基础API地址,需要去掉地址尾部的“/chat/completions”后填入

3.2 配置Dify工具

Audio

一个用于文本转语音和语音转文本的工具。

打开DIfy - 工具中搜索 Audio ,找到 Audio 并安装它
在这里插入图片描述

安装完成后点击 Audio,后面就可以在Chatflow 和 Workflow 应用程序中添加 Audio 工具节点,提供了 2 种方法,Speech To TextText To Speech

Speech To Text:将音频文件转换为文本,需输入音频文件。
Text To Speech:将文本转换为音频文件,需输入要转换的文本。

在这里插入图片描述

3.3 创建AI资讯语音播报工作流

在 Dify - 工作室,创建空白应用,选择 Chatflow,输入应用名称和图标,点击创建

在这里插入图片描述

删除默认的其他节点,在开始节点后添加参数 count 用于输入新闻数量

count(数字):新闻数量

在这里插入图片描述

添加代码执行节点,这步骤主要使用python 爬取网站内容:https://www.aibase.com/zh/news,直接request.get 然后正则解析数据,解析出AI新闻的标题简介详情页面URL,打开失败时重试 3 次,输入参数为获取新闻条数,输出为新闻列表,代码参考如下

import requests
import re

def main(count: str):
    # 目标网址
    url = "https://www.aibase.com/zh/news"
    # 发送 HTTP 请求获取网页内容
    response = requests.get(url)
    response.encoding = 'utf-8'  # 确保正确处理中文编码
    html_content = response.text
    # 正则表达式提取数据
    pattern = re.compile(
        r'<a class="flex group justify-between.*?href="(?P<url>.*?)".*?>.*?'
        r'<h3 class="line-clamp-2 md:text-xl text-lg text-surface-800">(?P<title>.*?)</h3>.*?'
        r'<div class="text-\[15px\] line-clamp-2 text-surface-500">(?P<summary>.*?)</div>',
        re.S
    )
    # 匹配所有符合条件的内容
    matches = pattern.finditer(html_content)
    # 解析并存储结果
    data_list = []
    for match in matches:
        data = {
            "标题": match.group("title").strip(),
            "简介": match.group("summary").strip(),
            "详情页面URL": "https://www.aibase.com" + match.group("url").strip()
        }
        data_list.append(data)
    data_list = data_list[:count]
    string_list = [str(item) for item in data_list]

    return {
        "result": string_list,
    }

在这里插入图片描述

AIbase 网址的AI新闻资讯参考如下图所示

在这里插入图片描述

再添加LLM节点,这步主要就是让模型给我把详细AI新闻总结摘要,文章要点等信息。模型使用由 Maas 提供的 DeepSeek V3,输入系统提示词,参考如下:

将新闻列表{{#代码执行.result#}}构造成如下格式:
 新闻1:[标题] [简介]
 新闻2:[标题] [简介]
...

要求:
不需要输出其他内容,如:根据您提供的新闻列表,我将按照要求构造格式

在这里插入图片描述

添加节点 - 工具 - Audio - Text To Speech,使用此工具将文本转化为音频文件。输入变量为LLM整理的新闻信息

在这里插入图片描述

配置 Text To Speech 节点,模型选择之前添加的 FunAudioLLM/CosyVoice2- 0.5B

在这里插入图片描述

再选择音色,我这里选择为 Alex 男声,再打开失败时重试 3 次(遇到过失败的情况)

在这里插入图片描述

添加代码执行节点,这步主要目的处理返回结果后生产TTS语言播报markdown 格式。输入变量为 TTS 返回的 File 结果,输出为音频文件的 markdown 格式,代码参考:

def main(arg1: str) -> dict:
    for sub_item in arg1:
        filename = sub_item.get("filename")
        url = sub_item.get("url")
        markdown_result = f"<audio controls><source src='{url}' type='audio/mpeg'>{filename}</audio>"
        return {"result": markdown_result}

在这里插入图片描述

添加直接回复节点,回复内容为:LLM 整理的新闻内容音频

在这里插入图片描述

编排工作流后点击右上角的运行进行测试,输入新闻数量为3,对话框种输入开始,点击发送

在这里插入图片描述

查看完整流程,开始 - 代码执行 - LLM - Text To Speech - 提取音频markdwon格式 - 直接回复

在这里插入图片描述

这里主要查看代码执行节点获取新闻列表输出的结果

{
  "text": "新闻1:通义千问发布多模态统一理解与生成模型Qwen VLo 近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了全面升级。该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。用户现在可以在Qwen Chat(chat.qwen.ai)平台上直接体验这一新模型。\n新闻2:重磅!中国首个海洋开源大模型 “沧渊” 问世,助力海洋智能时代! 中国首个海洋领域的开源大模型 OceanGPT(沧渊)在浙江杭州正式发布。这一创新成果由浙江大学海洋精准感知技术全国重点实验室牵头研发,标志着中国在海洋科技领域迈出了重要一步。OceanGPT 具备基础的海洋专业知识问答能力,能够对声呐图像、海洋观测图等多模态数据进行自然语言解读。这一能力使得 OceanGPT 在处理复杂的海洋数据时,表现出色。该模型还采用了一种领域知识增强的 “慢思考” 推理机制,这意味着它能够有效降低生成错误信息的风险,解决了现有通用大模型常见的 “\n新闻3:未来已来!Hengbot发布 Sirius 机器狗,能跳舞会踢球,还有AI陪聊 Hengbot公司正式推出了其最新的 Sirius 机器狗,这款机器狗不仅在敏捷运动方面表现出色,还集成了 OpenAI 的大语言模型,能够进行语音对话,甚至跳舞和踢足球,真是一位多才多艺的 “宠物”!根据 Hengbot 的介绍,Sirius 机器狗具有 “快速运动” 的能力,它能随着音乐律动而跳舞,还能与主人 “握手”。其腿部和头部内部配备了14个运动轴,以及名为 “Neurocore” 的专属关节,使得它的动作更加自然流畅。不过需要注意的是,这款机器狗主要适合在平坦的室内表面活动,设计上并不适合在楼",
  "usage": {
    "prompt_tokens": 575,
    "prompt_unit_price": "0",
    "prompt_price_unit": "0",
    "prompt_price": "0",
    "completion_tokens": 427,
    "completion_unit_price": "0",
    "completion_price_unit": "0",
    "completion_price": "0",
    "total_tokens": 1002,
    "total_price": "0",
    "currency": "USD",
    "latency": 15.616856717970222
  },
  "finish_reason": "stop"
}

提取音频markdwon格式如下:

<audio controls><source src='/files/tools/714e6c36-4de9-46ff-a561-bf381fd27586.wav?timestamp=1751174008&nonce=65814aa00a56f97831023aa08f2ca198&sign=NCHo08TQ5mM10lso_ZO-afWlYaUCdPFNnPCZPdNR550=' type='audio/mpeg'>b8504005638e46ed9077eea82ce6013e.wav</audio>

在这里插入图片描述

最后LLM格式整理后的内容如下,并提供TTS工具生成语音,点击即可播放

新闻1:通义千问发布多模态统一理解与生成模型Qwen VLo 近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了全面升级。该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。用户现在可以在Qwen Chat(chat.qwen.ai)平台上直接体验这一新模型。

新闻2:重磅!中国首个海洋开源大模型 “沧渊” 问世,助力海洋智能时代! 中国首个海洋领域的开源大模型 OceanGPT(沧渊)在浙江杭州正式发布。这一创新成果由浙江大学海洋精准感知技术全国重点实验室牵头研发,标志着中国在海洋科技领域迈出了重要一步。OceanGPT 具备基础的海洋专业知识问答能力,能够对声呐图像、海洋观测图等多模态数据进行自然语言解读。这一能力使得 OceanGPT 在处理复杂的海洋数据时,表现出色。该模型还采用了一种领域知识增强的 “慢思考” 推理机制,这意味着它能够有效降低生成错误信息的风险,解决了现有通用大模型常见的 “

新闻3:未来已来!Hengbot发布 Sirius 机器狗,能跳舞会踢球,还有AI陪聊 Hengbot公司正式推出了其最新的 Sirius 机器狗,这款机器狗不仅在敏捷运动方面表现出色,还集成了 OpenAI 的大语言模型,能够进行语音对话,甚至跳舞和踢足球,真是一位多才多艺的 “宠物”!根据 Hengbot 的介绍,Sirius 机器狗具有 “快速运动” 的能力,它能随着音乐律动而跳舞,还能与主人 “握手”。其腿部和头部内部配备了14个运动轴,以及名为 “Neurocore” 的专属关节,使得它的动作更加自然流畅。不过需要注意的是,这款机器狗主要适合在平坦的室内表面活动,设计上并不适合在楼

在这里插入图片描述

这里是直接获取网站上的简介内容输出的,可以优化流程为通过新闻详情URL得到详情页面的内容再通过LLM总结归纳为核心信息点,输出给用户。测试完成就可以发布更新到探索页面了,发布后选择运行就可以获得一个在线运行的工作流的网页!

3.4 使用AI资讯语音播报工作流

在探索 - AI资讯语音播报中开启新对话

在这里插入图片描述

输入分镜数量为 5,点击开始对话,输入开始

在这里插入图片描述

最后获取到的5条最新的新闻内容如下,并生成了可播放的音频文件

新闻1:通义千问发布多模态统一理解与生成模型Qwen VLo  近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了全面升级。该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。用户现在可以在Qwen Chat(chat.qwen.ai)平台上直接体验这一新模型。

新闻2:重磅!中国首个海洋开源大模型 “沧渊” 问世,助力海洋智能时代!  中国首个海洋领域的开源大模型 OceanGPT(沧渊)在浙江杭州正式发布。这一创新成果由浙江大学海洋精准感知技术全国重点实验室牵头研发,标志着中国在海洋科技领域迈出了重要一步。OceanGPT 具备基础的海洋专业知识问答能力,能够对声呐图像、海洋观测图等多模态数据进行自然语言解读。这一能力使得 OceanGPT 在处理复杂的海洋数据时,表现出色。该模型还采用了一种领域知识增强的 “慢思考” 推理机制,这意味着它能够有效降低生成错误信息的风险,解决了现有通用大模型常见的 “

新闻3:未来已来!Hengbot发布 Sirius 机器狗,能跳舞会踢球,还有AI陪聊  Hengbot公司正式推出了其最新的 Sirius 机器狗,这款机器狗不仅在敏捷运动方面表现出色,还集成了 OpenAI 的大语言模型,能够进行语音对话,甚至跳舞和踢足球,真是一位多才多艺的 “宠物”!根据 Hengbot 的介绍,Sirius 机器狗具有 “快速运动” 的能力,它能随着音乐律动而跳舞,还能与主人 “握手”。其腿部和头部内部配备了14个运动轴,以及名为 “Neurocore” 的专属关节,使得它的动作更加自然流畅。不过需要注意的是,这款机器狗主要适合在平坦的室内表面活动,设计上并不适合在楼

新闻4:Suno 收购 WavTool,强化 AI 音乐编辑工具 amid 音乐版权争议  AI 音乐公司 Suno 在本周四宣布收购 WavTool,这是一款基于浏览器的 AI 数字音频工作站(DAW)。此举旨在增强 Suno 在歌曲创作和制作方面的编辑能力。WavTool 于2023年推出,提供多种功能,包括音频分离、AI 音频生成和 AI 音乐助手,预计将与 Suno 最新推出的编辑界面相结合。虽然此次收购的具体条款尚未公开,但公司发言人表示,大部分 WavTool 的员工已经加入了 Suno 的产品和工程团队,至于未加入的员工数量则未披露。这一收购的时机颇为微妙,正值 Suno 面临多起法律诉讼之际。本月初,乡村

新闻5:「6月27日AI日报」腾讯开源轻量级混元-A13B模型;可灵AI推“视频音效”功能  欢迎来到AIbase【AI日报】栏目!每天三分钟了解当日AI大事件,助你洞悉AI行业趋势、创新AI产品应用。更多AI资讯访问:https://www.aibase.com/zh1、腾讯开源轻量级混元-A13B模型1张中低端GPU卡即可部署腾讯发布混元大模型家族的新成员混元-A13B模型,采用专家混合(MoE)架构,总参数规模达800亿,激活参数为130亿,大幅降低推理延迟与计算开销,为个人开发者和中小企业提供更具性价比的AI解决方案。该模型在数学、科学和逻辑推理任务中表现出色,支持调用工具生成复杂指令响应。体验入口:https:/

在这里插入图片描述

四、总结

Dify工作流引擎的革新性在于:通过可视化节点编排,将爬虫调度、文本精炼、语音合成等异构技术封装为可拖拽组件,结合其低代码特性与大模型生态,开发者无需深入底层实现即可快速构建端到端AI应用。本工作流以 aibase为数据源,结合精准爬取、LLM摘要生成与TTS语音播报,实现“输入数量→输出语音”的全自动化流水线,展现了Dify在复杂任务编排中的独特优势。

华为云ModelArts Studio(MaaS)平台提供的 DeepSeek-V3 大模型推理服务,在搭建企业级AI应用时展现出多维度优势,综合技术性能、成本效益和部署便捷性,成为开发者及企业快速落地大模型能力的首选方案,支持公共资源池(按需付费)或专属资源池(高性能独享),满足高并发生产需求,专为大规模商用设计,支持高并发请求与弹性扩缩容,保障企业关键业务连续。