上QQ阅读APP看书，第一时间看更新

前言PREFACE

本书从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下逐步带领读者熟悉并掌握传统的机器学习算法。

本书内容包括自然语言处理概述、Python语言简述、Python数据类型、Python流程控制、Python函数、Python数据科学、Sklearn和NLTK、语料清洗、特征工程、中文分词、文本分类、文本聚类、评价指标、信息提取和情感分析。附录给出教学大纲。

本书采用基于Python语言的Sklearn平台和NLTK实现，便于学生更快地掌握自然语言处理的基本思想，较为快速地入门。实践是最好的学习方法，本书的所有程序都在Anaconda下调试和运行。本书配有源代码、教学课件、语料集、教学大纲、程序安装包、每章的视频讲解等资料。读者可登录清华大学出版社官方网站下载配套资源；或扫描付费二维码观看视频讲解。在编写过程中，陕西省网络数据分析与智能处理重点实验室的李晓戈、西安邮电大学的贾阳、王红玉、高巍然、孔韦韦、张庆生等阅读了部分手稿，提出了很多宝贵意见。强成宇、吴奕霖、王睿笙等调试了部分代码。本书的编写参阅了大量中英文专著、教材、论文、报告及网络资料，由于篇幅所限，未能一一列出，在此一并表示敬意和衷心的感谢。

本书内容精练、文字简洁、结构合理，实训题目经典实用、综合性强，面向初、中级读者，由“入门”起步，侧重“提高”。特别适合作为高等院校自然语言处理和机器学习入门的本科或研究生教材或参考书，也可供从事计算机应用开发工作的各类技术人员应用参考。

由于作者水平有限，时间紧迫，本书难免有疏漏之处，恳请广大读者批评指正。

编者

2021年5月