【AIGC半月报】AIGC大模型启元:2024.04(下)

发布于:2024-05-02 ⋅ 阅读:(40) ⋅ 点赞:(0)

(1) Llama-3(Meta LLM)

2024.04.19 全球科技、社交巨头Meta在官网,正式发布了开源大模型——Llama-3。
  据悉,Llama-3共有80亿、700亿两种参数,分为基础预训练和指令微调两种模型(还有一个超4000亿参数正在训练中)。
  与Llama-2相比,Llama-3使用了15T tokens的训练数据,在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。
  此外,Llama-3还使用了分组查询注意力、掩码等创新技术,帮助开发者以最低的能耗获取绝佳的性能。很快,Meta就会发布Llama-3的论文。

推荐文章: 重磅!Llama-3,最强开源大模型正式发布!
开源地址: https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6
Github地址: https://github.com/meta-llama/llama3/
英伟达在线体验Llama-3: https://www.nvidia.com/en-us/ai/#referrer=ai-subdomain

(2) MEGALODON(Meta 上下文长度不受限的神经网络架构)

2024.04.12 来自 Meta、南加州大学、CMU、UCSD 等公司、机构引入了 MEGALODON,一种用于高效序列建模的神经架构,上下文长度不受限制。
  MEGALODON 继承了 MEGA(带有门控注意力的指数移动平均)的架构,并进一步引入了多种技术组件来提高其能力和稳定性,包括复数指数移动平均(CEMA)、时间步归一化层、归一化注意力机制和具有两个特征的预归一化(pre-norm)残差配置。
  在与 LLAMA2 的直接比较中,MEGALODON 在 70 亿参数和 2 万亿训练 token 的规模上取得了比 Transformer 更好的效率。MEGALODON 的训练损失达到 1.70,处于 LLAMA2-7B (1.75) 和 13B (1.67) 之间。MEGALODON 相对于 Transformers 的改进在不同任务和模式的一系列基准测试中表现强劲。

推荐文章: Meta无限长文本大模型来了:参数仅7B,已开源
论文地址: https://arxiv.org/pdf/2404.08801.pdf
GitHub地址: https://github.com/XuezheMax/megalodon

(3) Phi-3 Mini(微软-最强小参数大模型)

2024.04.23 Phi-3-mini是微软Phi家族的第4代,有预训练和指令微调多种模型,参数只有38亿训练数据却高达3.3T tokens,比很多数百亿参数的模型训练数据都要多,这也是其性能超强的主要原因之一。
  Phi-3-mini对内存的占用极少,可以在 iPhone14等同类手机中部署使用该模型。尽管受到移动硬件设备的限制,但每秒仍能生成12 个tokens数据。
  值得一提的是,微软在预训练Phi-3-mini时使用了合成数据,能帮助大模型更好地理解语言架构、表达方式、文本语义理解、逻辑推理以及特定业务场景的专业术语等。

推荐文章: 微软开源最强小参数大模型—Phi-3 Mini
开源地址: https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
Ollama地址: https://ollama.com/library/phi3
技术报告: https://arxiv.org/abs/2404.14219

(4) 中文版Llama3

2024.04.25 最近,Meta 推出了 Llama 3,为开源大模型树立了新的标杆。和以往的原始 Llama 模型一样,Llama 3 对中文的支持效果欠佳,经常会出现你用中文提问,它用英文或中文+英文回复的现象。因此,要想让国内用户用上该模型,开发者还需对其进行微调。

推荐文章: 中文版Llama3开源了!!
GitHub地址: https://github.com/CrazyBoyM/llama3-Chinese-chat
HuggingFace地址: https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat?continueFlag=5a1e5d88eed977ffb39d9b451be2a81d

(5) Qwen1.5-110B(国产Llama3)

2024.04.27 开源界最近属实是太疯狂了,前有Llama3-70B模型开源,后有Qwen1.5开源千亿(110B)级别参数模型。
  Qwen你真的让我开始捉摸不透了,1.5系列已经从0.5B、1.8B、7B、14B、32B、72B到现在的110B、还有Code系列模型、MOE系列模型,太全了,感觉已经快把中文开源模型市场给垄断了。
  模型结构与之前模型相似,采用Transformer-Decoder架构,并使用分组查询注意力(Grouped Query Attention,GQA),加速模型推理计算。模型的最大长度为32K,支持英、中、法、西、德、俄、日、韩、越等多种语言。
  在基础能力上的效果全面领先72B模型,与Llama3-70B模型也是平分秋色。
并且,值得注意的是,110B的模型是Dense的模型,不是虚胖的MOE模型

推荐文章: 中国人自己的Llama:Qwen1.5开源110B参数模型
Blog地址: https://qwenlm.github.io/blog/qwen1.5-110b
HuggingFace地址: https://huggingface.co/Qwen/Qwen1.5-110B-Chat
体验地址: https://huggingface.co/spaces/Qwen/Qwen1.5-110B-Chat-demo