大模型:合成数据、安全挑战与知识注入

发布于:2024-04-28 ⋅ 阅读:(20) ⋅ 点赞:(0)

在如今这个快速发展的AI时代,大语言模型(LLM)的研究论文数量呈指数级增长,几乎到了人力无法一一阅读和消化的地步。然而,对这些研究成果的归纳和总结至关重要,因为它们描绘了LLM领域的未来发展轮廓。在近期的LLM研究中,有三个趋势尤为引人注目:

  1. 合成训练数据 :利用LLM生成它们自己的训练数据一直是一个热门话题。目前这个话题在AI研究界引发了极大的关注,一些重点研究如下:
1. 在"Improving text embeddings with large language models"的论文中,作者们展现了如何 **只通过合成数据和不到1000步的训练步骤,就能得到高品质的文本嵌入模型** ;

2. "Beyond human data: Scaling self-training for problem-solving with language models" - 数学和编程问题可以通过合成数据模式轻松生成并进行验证,进而用这些数据来提升大语言模型的表现;  

![](https://img-
blog.csdnimg.cn/img_convert/96025e7787bcef07b96f43302ad0a3fd.png)

  1. LLM的安全性 :自从 GPT-2 被提出后,安全部署就成为LLM开发中的首要任务(例如出于安全担忧,GPT-2 的模型权重并未公开发布)。虽然现在AI社区似乎更愿意在部署 LLM 时接受一定的风险,但安全问题依然是许多研究实验室的重中之重。最近的研究表明,确保 LLM 安全部署的难度极高:
1. 根据"Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training"这篇论文,即便LLM经过了广泛的安全调教,被提前训练进模型中的后门攻击仍然能留存下来,只是等待被特定的指令触发后就能做出恶意行为,例如生成一段黑客攻击代码。如果用间谍来做类比,就是一个所谓的“沉睡间谍”,普通情况看是一切正常的,直到被指令激活。可以参考下图:  

![图片](https://img-
blog.csdnimg.cn/img_convert/c85148bdfe563985aeb6e06cf1631ecc.png)

2. "Scalable extraction of training data from (production) language models"这篇论文中,通过合适的引导提示词技巧,几乎可以从所有LLM中提取出原本应该是保密的训练数据集(例如个人私隐信息),即便这些模型已经进行了大量的对齐工作;  

![图片](https://img-
blog.csdnimg.cn/img_convert/774f7d8c3206b8f466a7d7579483dd62.png)

  1. 知识注入 :几乎每家企业都对于在他们自有的内部数据上训练LLM表现出浓厚的兴趣(例如 BloombergGPT、EinsteinGPT、ShopAI 等)。但在我们如何能够最有效地将特定领域的知识库信息注入到一个预训练好的 LLM的问题上 ,依旧没有完美的答案:
1. 在"Fine-tuning or retrieval? comparing knowledge injection in LLMs"中,研究者们对微调和检索增强生成(RAG)两种方式进行了深入的比较, **发现通过微调给LLM 灌输新知识极为困难,而RAG 在向LLM注入知识方面展现出了惊人的能力** 。"Retrieval-augmented generation for knowledge-intensive NLP tasks"的研究者们也提出了RAG在处理知识密集型任务时非常有效;  

![图片](https://img-
blog.csdnimg.cn/img_convert/3b75f8162bd3b797ece7123b30ff55be.png)

2. "Lima: Less is more for alignment"这篇论文的研究显示,LLM的知识几乎全部来源于预训练阶段,而在指令优化训练阶段只需要相对较少的数据就能够教会模型产生高质量的输出;

3. "Textbooks Are All You Need"的研究证实,知识丰富的LLM可以通过在更小、经过筛选的数据集上进行训练来实现,例如教科书。  

这些趋势不仅展示了LLM的研究进展,也为我们提供了对未来可能的发展方向的启示。随着AI技术的不断进步,预计将会看到更多关于提高数据质量、加强模型安全性和优化知识注入方法的创新。

题外话

初入计算机行业的人或者大学计算机相关专业毕业生,很多因缺少实战经验,就业处处碰壁。下面我们来看两组数据:

2023届全国高校毕业生预计达到1158万人,就业形势严峻;

国家网络安全宣传周公布的数据显示,到2027年我国网络安全人员缺口将达327万。

一方面是每年应届毕业生就业形势严峻,一方面是网络安全人才百万缺口。

6月9日,麦可思研究2023年版就业蓝皮书(包括《2023年中国本科生就业报告》《2023年中国高职生就业报告》)正式发布。

2022届大学毕业生月收入较高的前10个专业

本科计算机类、高职自动化类专业月收入较高。2022届本科计算机类、高职自动化类专业月收入分别为6863元、5339元。其中,本科计算机类专业起薪与2021届基本持平,高职自动化类月收入增长明显,2022届反超铁道运输类专业(5295元)排在第一位。

具体看专业,2022届本科月收入较高的专业是信息安全(7579元)。对比2018届,电子科学与技术、自动化等与人工智能相关的本科专业表现不俗,较五年前起薪涨幅均达到了19%。数据科学与大数据技术虽是近年新增专业但表现亮眼,已跻身2022届本科毕业生毕业半年后月收入较高专业前三。五年前唯一进入本科高薪榜前10的人文社科类专业——法语已退出前10之列。

“没有网络安全就没有国家安全”。当前,网络安全已被提升到国家战略的高度,成为影响国家安全、社会稳定至关重要的因素之一。

网络安全行业特点

1、就业薪资非常高,涨薪快 2022年猎聘网发布网络安全行业就业薪资行业最高人均33.77万!

img

2、人才缺口大,就业机会多

2019年9月18日《中华人民共和国中央人民政府》官方网站发表:我国网络空间安全人才 需求140万人,而全国各大学校每年培养的人员不到1.5W人。猎聘网《2021年上半年网络安全报告》预测2027年网安人才需求300W,现在从事网络安全行业的从业人员只有10W人。
img

行业发展空间大,岗位非常多

网络安全行业产业以来,随即新增加了几十个网络安全行业岗位︰网络安全专家、网络安全分析师、安全咨询师、网络安全工程师、安全架构师、安全运维工程师、渗透工程师、信息安全管理员、数据安全工程师、网络安全运营工程师、网络安全应急响应工程师、数据鉴定师、网络安全产品经理、网络安全服务工程师、网络安全培训师、网络安全审计员、威胁情报分析工程师、灾难恢复专业人员、实战攻防专业人员…

职业增值潜力大

网络安全专业具有很强的技术特性,尤其是掌握工作中的核心网络架构、安全技术,在职业发展上具有不可替代的竞争优势。

随着个人能力的不断提升,所从事工作的职业价值也会随着自身经验的丰富以及项目运作的成熟,升值空间一路看涨,这也是为什么受大家欢迎的主要原因。

从某种程度来讲,在网络安全领域,跟医生职业一样,越老越吃香,因为技术愈加成熟,自然工作会受到重视,升职加薪则是水到渠成之事。

黑客&网络安全如何学习

今天只要你给我的文章点赞,我私藏的网安学习资料一样免费共享给你们,来看看有哪些东西。

1.学习路线图

行业发展空间大,岗位非常多

网络安全行业产业以来,随即新增加了几十个网络安全行业岗位︰网络安全专家、网络安全分析师、安全咨询师、网络安全工程师、安全架构师、安全运维工程师、渗透工程师、信息安全管理员、数据安全工程师、网络安全运营工程师、网络安全应急响应工程师、数据鉴定师、网络安全产品经理、网络安全服务工程师、网络安全培训师、网络安全审计员、威胁情报分析工程师、灾难恢复专业人员、实战攻防专业人员…

职业增值潜力大

网络安全专业具有很强的技术特性,尤其是掌握工作中的核心网络架构、安全技术,在职业发展上具有不可替代的竞争优势。

随着个人能力的不断提升,所从事工作的职业价值也会随着自身经验的丰富以及项目运作的成熟,升值空间一路看涨,这也是为什么受大家欢迎的主要原因。

从某种程度来讲,在网络安全领域,跟医生职业一样,越老越吃香,因为技术愈加成熟,自然工作会受到重视,升职加薪则是水到渠成之事。

黑客&网络安全如何学习

今天只要你给我的文章点赞,我私藏的网安学习资料一样免费共享给你们,来看看有哪些东西。

1.学习路线图

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

攻击和防守要学的东西也不少,具体要学的东西我都写在了上面的路线图,如果你能学完它们,你去就业和接私活完全没有问题。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己录的网安视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

内容涵盖了网络安全法学习、网络安全运营等保测评、渗透测试基础、漏洞详解、计算机基础知识等,都是网络安全入门必知必会的学习内容。

3.技术文档和电子书

技术文档也是我自己整理的,包括我参加大型网安行动、CTF和挖SRC漏洞的经验和技术要点,电子书也有200多本,由于内容的敏感性,我就不一一展示了。

4.工具包、面试题和源码

“工欲善其事必先利其器”我为大家总结出了最受欢迎的几十款款黑客工具。涉及范围主要集中在 信息收集、Android黑客工具、自动化工具、网络钓鱼等,感兴趣的同学不容错过。

还有我视频里讲的案例源码和对应的工具包,需要的话也可以拿走。

这些题目都是大家在面试深信服、奇安信、腾讯或者其它大厂面试时经常遇到的,如果大家有好的题目或者好的见解欢迎分享。

参考解析:深信服官网、奇安信官网、Freebuf、csdn等

内容特点:条理清晰,含图像化表示更加易懂。

内容概要:包括 内网、操作系统、协议、渗透测试、安服、漏洞、注入、XSS、CSRF、SSRF、文件上传、文件下载、文件包含、XXE、逻辑漏洞、工具、SQLmap、NMAP、BP、MSF…

img

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

如果你对网络安全入门感兴趣,那么你需要的话可以点击这里👉网络安全重磅福利:入门&进阶全套282G学习资源包免费分享!