大模型日报2024-04-24

发布于：2024-04-24 ⋅ 阅读:(451) ⋅ 点赞:(0)

大模型日报

2024-04-24

大模型资讯

Google DeepMind的RecurrentGemma模型超越变压器模型

摘要: Google DeepMind的最新研究成果RecurrentGemma模型在性能上超过了基于变压器的模型，并且使用的资源更少。这一突破为人工智能领域提供了一个高效的模型选择，有望在处理复杂任务时提高计算效率和降低能耗。

Meta AI发布新模型引领AI领域潮流

摘要: Meta AI最近发布了一个新的人工智能模型，这一举措在AI界引起了巨大关注。这个新模型的推出标志着Meta AI在人工智能技术发展中的重要进步，预示着该公司在AI领域的强势来临。

微软推出迄今为止最小的AI模型Phi-3 Mini

摘要: 微软最新发布了其最小的AI模型Phi-3 Mini，这是微软计划发布的三款小型AI模型中的第一款。这些模型旨在以较低的计算资源需求完成多项AI任务，展示了在AI领域的技术进步和对效率的追求。

增强型非幻觉大型语言模型在医疗信息整合中的应用

摘要: npj Digital Medicine报道，增强型非幻觉大型语言模型作为医疗信息管理员的角色日益凸显。这些模型能够可靠地处理和互联医疗信息，为数字医疗转型奠定关键基础。它们的应用有望改进医疗信息管理，提升医疗服务的质量和效率。

OpenBezoar推出：小型、高性价比开源AI模型族

摘要: OpenBezoar发布了一系列小型、经济实惠的开源人工智能模型，这些模型通过混合指令数据进行训练。这标志着对大型语言模型（LLMs）进行指令微调以适应下游任务的方法取得了显著成效，吸引了广泛关注。OpenBezoar旨在为广大研究者和开发者提供易于使用和成本效益高的AI模型，以促进技术的更广泛应用。

提升非英语大型语言模型的公平性与可及性

摘要: 最新消息指出，通过对越南语大型语言模型（LLMs）的微调与评估，积累的经验有助于扩大模型服务的语种，进而提高非英语使用者对这些模型的访问。这标志着在语言技术领域向多语种平等与普及迈进了一步。

FrugalGPT：大型语言模型成本优化的新范式

摘要: FrugalGPT引领了大型语言模型（LLMs）的成本优化革命。这一创新方法改变了LLMs的部署方式，通过提高效率和降低运营成本，为人工智能领域带来了新的成本效益解决方案。

微软推出小型化语言模型Phi-3，助力企业AI快速应用

摘要: 微软最新发布的Phi-3语言模型，虽然只有30亿参数，但其AI能力强大，体积紧凑。这一创新可能对企业采用人工智能技术产生深远影响，有望提高AI技术在企业中的应用效率和普及率。

尼日利亚推出首个多语种大型语言模型

摘要: 尼日利亚联邦政府通过该国的部门成功推出了尼日利亚首个多语种大型语言模型（LLM）。这项技术突破将有助于促进国内多语言信息处理的发展，提升人工智能在本地语境中的应用，并推动科技创新和语言服务的进步。

2024年苹果公司可能在WWDC大会上展示设备内置的大型语言模型AI

摘要: 据最新消息，苹果公司正忙于在生成式人工智能等领域迎头赶上，预计将在2024年的全球开发者大会（WWDC）上揭晓一种新的设备内置的大型语言模型人工智能技术。这一技术被视为苹果的下一个重大创新。

大模型产品

Radar: 实时新闻通讯赞助源

摘要: Radar是一个AI驱动的实时数据源，专门追踪数千个新闻通讯的赞助情况。它通过Zapier和Make.com集成，为出版商提供针对其受众的独家赞助机会。

体验Meta新AI聊天Llama 3

摘要: Meta推出Llama 3 AI聊天模型，提供在线试用。该模型为开源，允许开发者自定义，且完全免费。

Ayraa洞察：企业搜索AI新境界

摘要: Ayraa洞察通过AI助手，让你能够查询工作成就、会议时长等企业信息，不仅仅是摘要，而是深度洞察。

Sounds Right：自然音乐版税计划

摘要: Sounds Right是一项新的音乐计划，旨在通过创新机制认可自然价值，引发对话，为保护环境筹集资金，并激励粉丝采取行动。

SecBrain AI：智能语音记录与整理

摘要: SecBrain AI是一款AI驱动的语音记录应用，可以轻松捕捉想法，并将录音转化为带标题和标签的优化文本，便于搜索。体验其魔法般的增强生产力功能。

大模型论文

自动电影音频描述生成

摘要: 该论文提出了两种构建音频描述(AD)数据集的方法，并开发了一种基于Q-former的架构，用于处理原始视频并生成AD。同时，作者还引入了新的评估指标，以更准确地衡量AD质量。

SpaceByte：无需分词的语言模型

摘要: 提出SpaceByte，一种新型字节级解码器架构，通过在Transformer模型中间加入大型块来弥补与子词级语言模型间的性能差距。实验证明，在固定计算预算下，SpaceByte在性能上优于其他字节级架构，并可与分词的Transformer架构相媲美。

多语言环境下LLMs毒性评估

摘要: 本文介绍了RTP-LX，这是一个28种语言的有毒提示和输出的人工转创与注释语料库。通过对S/LLMs的测试，发现它们在多语言文化敏感场景中检测有害内容时，尽管准确度可接受，但与人类判断的一致性低，特别是在微妙但有害内容方面。

PARAMANU-GANITA：数学能力语言模型

摘要: 本文介绍了PARAMANU-GANITA，一种拥有2.08亿参数的自回归解码器语言模型，专注于数学领域。该模型在我们精心策划的混合数学语料库上从零开始预训练，其上下文大小为4096。在GSM8k数学基准测试中，PARAMANU-GANITA在体量上远小于其他大型语言模型，但在测试准确率上却显著超越它们，证明了即使参数数量较少，也能实现强大的数学推理能力。

利用大型语言模型优化法规合规自动化

摘要: 本文探讨了现行法规合规自动化方法的局限性，并提出了利用大型语言模型（LLMs）的新策略。这些策略不仅提高了准确性，还能为合规决策提供解释和理由。

大型语言模型自演化研究综述

摘要: 本文综述了大型语言模型（LLMs）的自演化方法。提出了自演化的概念框架，分析了经验获取、精炼、更新和评估的迭代过程，总结了文献中的分类和见解，并探讨了未来的研究方向。

专利审批预测的领域依赖图方法

摘要: 本文研究了专利审批预测任务，发现特定领域的细粒度索赔依赖图比模型扩展更有效。通过构建FLAN图并应用图模型，显著超越了大型语言模型的基线。

Graphist：多模态模型的图形设计

摘要: 本文介绍了Graphist，这是首个基于大型多模态模型的图形布局生成工具。它将层级布局生成问题转化为序列生成问题，通过输入RGB-A图像，输出JSON格式的草图协议，为图形设计领域设立了新的评价标准和强基准。

偏好微调LLMs的策略分析

摘要: 本文分析了多种大型语言模型偏好微调技术，发现使用在策略采样或负梯度的方法优于离线和最大似然目标，提出了模式寻求目标的概念，并给出了数据收集的实用建议。

通过检索和转换改善合成数据

摘要: 针对NLP模型依赖高质量训练数据的问题，本文提出了DataTune方法。该方法通过转换现有公开数据集，生成与目标任务更契合的数据，从而提高了模型的训练效果。

大模型开源项目

利用LLMs将网页结构化的AI项目

摘要: mishushakov是一个Github上的AI项目，可通过大型语言模型(LLMs)将任意网页转换为结构化数据。该项目使用TypeScript编写。

hiyouga：百余LLM高效微调统一

摘要: hiyouga项目，旨在实现超过100种大型语言模型（LLMs）的高效统一微调。该项目使用Python语言编写，为AI研究者和开发者提供便捷的模型优化工具。

Meta Llama 3官方GitHub项目

摘要: Meta Llama 3项目现已开源，在GitHub上引起关注。该项目使用Python语言编写，旨在为开发者社区提供高效的AI工具和框架。

LlamaFamily：中文Llama3模型开源

摘要: LlamaFamily项目，旨在构建并完善中文Llama大模型。提供Llama3在线体验、微调，支持实时更新学习资料，代码已适配Llama3，开源且可商用。

CrazyBoyM: Llama3中文资料集

摘要: CrazyBoyM项目是Llama3的中文仓库，集成了丰富的资源，包括网友和厂商优化的权重版本、训练、推理和部署的教程视频及文档，全部基于Python语言开发。

langgenius：开源LLM应用开发平台

摘要: langgenius是一个开源的大型语言模型(LLM)应用开发平台Dify，提供AI工作流、RAG管道、代理能力、模型管理和可观测性等功能，支持快速从原型制作到生产部署。项目使用TypeScript编写。

C/C++实现的LLM推理项目

摘要: ggerganov项目是一个Github上的AI趋势项目，专注于使用C++语言实现大型语言模型(LLM)的推理功能，旨在提供高效的算法实现。

中文大语言模型开源整理项目

摘要: HqWu-HITCS项目专注于整理开源的中文大语言模型，主打小规模、私有部署友好和低训练成本，涵盖基础模型、专业领域调优及应用，提供相关数据集和教程。

unslothai：提升细调AI效率

摘要: unslothai项目旨在通过Python语言实现对Llama 3, Mistral和Gemma等大型语言模型进行更快速、内存高效的微调，能在保证性能的同时，使训练速度提升2至5倍，同时减少80%的内存消耗。

ollama: 大型语言模型快速部署

摘要: ollama项目，使用Go语言编写，旨在帮助用户快速启动和运行Llama 3、Mistral、Gemma等大型语言模型。