【AIGC半月报】AIGC大模型启元：2024.04（下）-EW帮帮网

AIGC大模型启元：2024.04（下）

(1) Llama-3（Meta LLM）

2024.04.19 全球科技、社交巨头Meta在官网，正式发布了开源大模型——Llama-3。
　　据悉，Llama-3共有80亿、700亿两种参数，分为基础预训练和指令微调两种模型（还有一个超4000亿参数正在训练中）。
　　与Llama-2相比，Llama-3使用了15T tokens的训练数据，在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。
　　此外，Llama-3还使用了分组查询注意力、掩码等创新技术，帮助开发者以最低的能耗获取绝佳的性能。很快，Meta就会发布Llama-3的论文。

推荐文章： 重磅！Llama-3，最强开源大模型正式发布！
开源地址： https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6
Github地址： https://github.com/meta-llama/llama3/
英伟达在线体验Llama-3： https://www.nvidia.com/en-us/ai/#referrer=ai-subdomain

(2) MEGALODON（Meta 上下文长度不受限的神经网络架构）

2024.04.12 来自 Meta、南加州大学、CMU、UCSD 等公司、机构引入了 MEGALODON，一种用于高效序列建模的神经架构，上下文长度不受限制。
　　MEGALODON 继承了 MEGA（带有门控注意力的指数移动平均）的架构，并进一步引入了多种技术组件来提高其能力和稳定性，包括复数指数移动平均（CEMA）、时间步归一化层、归一化注意力机制和具有两个特征的预归一化（pre-norm）残差配置。
　　在与 LLAMA2 的直接比较中，MEGALODON 在 70 亿参数和 2 万亿训练 token 的规模上取得了比 Transformer 更好的效率。MEGALODON 的训练损失达到 1.70，处于 LLAMA2-7B (1.75) 和 13B (1.67) 之间。MEGALODON 相对于 Transformers 的改进在不同任务和模式的一系列基准测试中表现强劲。

推荐文章： Meta无限长文本大模型来了：参数仅7B，已开源
论文地址： https://arxiv.org/pdf/2404.08801.pdf
GitHub地址： https://github.com/XuezheMax/megalodon

(3) Phi-3 Mini（微软-最强小参数大模型）

2024.04.23 Phi-3-mini是微软Phi家族的第4代，有预训练和指令微调多种模型，参数只有38亿训练数据却高达3.3T tokens，比很多数百亿参数的模型训练数据都要多，这也是其性能超强的主要原因之一。
　　Phi-3-mini对内存的占用极少，可以在 iPhone14等同类手机中部署使用该模型。尽管受到移动硬件设备的限制，但每秒仍能生成12 个tokens数据。
　　值得一提的是，微软在预训练Phi-3-mini时使用了合成数据，能帮助大模型更好地理解语言架构、表达方式、文本语义理解、逻辑推理以及特定业务场景的专业术语等。

推荐文章： 微软开源最强小参数大模型—Phi-3 Mini
开源地址： https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
Ollama地址： https://ollama.com/library/phi3
技术报告： https://arxiv.org/abs/2404.14219

(4) 中文版Llama3

2024.04.25 最近，Meta 推出了 Llama 3，为开源大模型树立了新的标杆。和以往的原始 Llama 模型一样，Llama 3 对中文的支持效果欠佳，经常会出现你用中文提问，它用英文或中文+英文回复的现象。因此，要想让国内用户用上该模型，开发者还需对其进行微调。

(5) Qwen1.5-110B（国产Llama3）

2024.04.27 开源界最近属实是太疯狂了，前有Llama3-70B模型开源，后有Qwen1.5开源千亿（110B）级别参数模型。
　　Qwen你真的让我开始捉摸不透了，1.5系列已经从0.5B、1.8B、7B、14B、32B、72B到现在的110B、还有Code系列模型、MOE系列模型，太全了，感觉已经快把中文开源模型市场给垄断了。
　　模型结构与之前模型相似，采用Transformer-Decoder架构，并使用分组查询注意力（Grouped Query Attention，GQA），加速模型推理计算。模型的最大长度为32K，支持英、中、法、西、德、俄、日、韩、越等多种语言。
　　在基础能力上的效果全面领先72B模型，与Llama3-70B模型也是平分秋色。
并且，值得注意的是，110B的模型是Dense的模型，不是虚胖的MOE模型

【AIGC半月报】AIGC大模型启元：2024.04（下）

AIGC大模型启元：2024.04（下）

(1) Llama-3（Meta LLM）

(2) MEGALODON（Meta 上下文长度不受限的神经网络架构）

(3) Phi-3 Mini（微软-最强小参数大模型）

(4) 中文版Llama3

(5) Qwen1.5-110B（国产Llama3）

网站公告

今日签到

热门文章

最新发布