

自从 ChatGPT 横空出世以来,自然语言处理(Natural Language Processing,NLP)
研究领域就出现了一种消极的声音,认为大模型技术导致 NLP “死了”。在某乎上就有一条热门问答,大家热烈地讨论了这个问题。
有人认为 NLP 的市场肯定有,但 NLP 的研究会遇到麻烦,因为大模型的训练建立在海量数据与超高算力之上,普通研究者难以获取这样的资源,只能做些应用研究;也有人认为大模型为 NLP 打开了一片新天地,NLP 的研究整体上会再上一个新台阶。
看看专家们怎么说,上海交通大学 ACM 班创办人俞勇教授等几位 AI 学界大咖认为,不了解过去,就无法理解当下。NLP 技术的发展历经了几十年,期间经历了多次重大技术革新,如果我们的讨论脱离历史发展,那是没有意义的。
所以俞勇教授等大佬们决心为 NLP 技术编写一本在历史和现代之间更加平衡的教科书——《动手学自然语言处理》
,这本书将为我们讲透 NLP 的经典技术,梳理整个领域的发展脉络,启发我们思考 NLP 的未来。

现在,让我们探究一下 NLP 的发展历程。

NLP 的发展之路充满了探索与创新,2013年前后,基于符号系统和统计学习的方法主导着 NLP 研究的潮流。研究者通过制定复杂的规则和使用统计模型,尽力使计算机能够理解和生成自然语言。
然而,这种方法在处理复杂的语言结构和语义理解上存在着一定的局限性,难以适应不断增长的数据规模和复杂的语言任务。随着深度学习技术的兴起,特别是深度神经网络的发展,NLP 研究迈上了新台阶。
深度学习模型强大的表征学习能力,使得计算机可以更好地理解和处理自然语言,在诸多 NLP 任务上取得了突破性的进展。这一时期,神经网络模型开始成为 NLP 研究的主流,为文本分类、情感分析、机器翻译等任务提供了更加高效和灵活的解决方案。
真正让 NLP 脱胎换骨的是 2018 年,基于 Transfomer 架构的预训练语言模型崛起。预训练模型利用大规模语料库进行无监督学习,为各种 NLP 任务提供了强大的基础。
到 2022 年底,ChatGPT 的发布引发了前所未有的热潮。ChatGPT 不仅拥有惊人的生成能力,而且能够进行有意义的对话和语言理解,自然语言处理进入新时代。
NLP 的快速发展也为专业教学带来考验,一方面是已有教材在技术层面过时了,另一方面是市场上的一些新书只关注神经自然语言处理,不涉及传统技术。《动手学自然语言处理》
就弥补了这两个缺憾,将带领我们温故而知新。
本书的作者团队堪称豪华,我们来认识一下。




本书书课包同步上线,可以点击书课一起购买,更高效哦!

有如此多的名师指点,学透 NLP 只需要走好三步。

在学习本书的内容之前,读者需要具备一些基础知识,包括基本的数学概念和机器学习的基础知识,如概率论、概率图模型、神经网络等。如果你已经准备好了,那我们继续前进。
本书将 NLP 的知识分为三部分,分别是基础、序列、结构
。
从最基础的自然语言处理技术入手,讲解了文本规范化、文本表示、文本分类和文本聚类等内容。通过学习这些基础知识,读者可以了解如何将文本转化为计算机可以理解和处理的形式,以及如何对文本进行分类和聚类,为后续的学习打下坚实的基础。
书中深入探讨了自然语言的序列建模技术,包括语言模型、序列到序列模型、预训练语言模型和序列标注等内容。
通过学习这些内容,读者将了解对文本序列进行概率建模的方法。书中还介绍了预训练语言模型将语言模型和序列到序列模型在大量数据上进行预训练,获取通用语言学知识的过程。
这部分内容是本书的重点
,涵盖了当前应用最广泛的自然语言处理技术。读者可以学习到构成大模型的基础技术,包括循环神经网络、注意力机制、Transformer 模型。书中对这些知识点给出了详尽的代码说明,帮助读者全盘消化掌握。
书中探讨了自然语言文字序列背后更为复杂的结构,包括句法结构、语义结构和篇章结构等内容。
学习这些知识,读者可以了解句子中词语之间的连接关系、文本表达含义的结构化表示,以及多个句子如何组合形成段落和文章,从而更深入地理解和应用自然语言处理技术。
这部分内容曾经是自然语言处理的主流技术,也很有可能是未来自然语言处理的重要发展方向,读者可以在这里探索将来的发展机会。
把这三步走好,读者就摸透了 NLP 技术,可以在工作中大显身手了。

NLP 的研究方法也许会改变,但是 NLP 的应用市场会更加广阔。学习 NLP 不仅要追踪热门技术,也要透彻了解 NLP 发展的来龙去脉,《动手学自然语言处理》就可以很好地帮助读者通盘掌握 NLP。
本书最大的特色就是理论与实践紧密结合,提供了大量的配套学习资源
。我们来看一下究竟可以获得哪些资源:纸书 + 可以扫码观看的理论视频课 + 配套课件方便教学 + 课后习题 + 配套代码(可在线运行也可离线运行)
+ 配套代码实战课 + 针对高校教师的师资培训计划。
这几乎就是背靠一个强大的后勤军团,读者根本不用担心学习中会遇到困难,只要将这些资源善加利用,定能啃透 NLP 技术。
如书名中的“动手学”所示,本书给读者提供了极其便利的学习环境
,每一章都由一个 Python Notebook 组成, Notebook 中包括概念定义、理论分析、方法讲解和可执行代码。读者可根据自己的需要学习理论,或者动手实践。
内容如此精湛的佳作,自然博得学界、业界各位大佬的一片赞誉之声。

凡是对 NLP 原理和应用有兴趣的读者,包括本科生、研究生、教师、企业研究人员及工程师等,都可以从本书中获得自己想要的知识,助力学习工作得到提升。
如果读者对 AI 技术还有更广泛的兴趣,也可以将以下几本“动手学”系列好书
给学起来。
《动手学深度学习(PyTorch版)》
:大神李沐和阿斯顿·张的作品,本书通过经典的 PyTorch 深度学习框架,帮助读者掌握深度学习的精髓。
《动手学强化学习》《动手学机器学习》
:这两本书都是在俞勇教授的指导下,集合交大 ACM 班优秀的学者参与编写的,讲透了强化学习与机器学习的基本概念与关键技术。
这些书同样提供了丰富的配套资源和友好的交互式学习环境。大家还等什么,就从《动手学自然语言处理》
开始,通晓 AI 理论与应用,成为新时代的超级个体吧!
