HuggingFace自然语言处理详解:基于BERT中文模型的任务实战
上QQ阅读APP看书,第一时间看更新

第3章 使用数据集工具

3.1 数据集工具介绍

在以往的自然语言处理任务中会花费大量的时间在数据处理上,针对不同的数据集往往需要不同的处理过程,各个数据集的格式差异大,处理起来复杂又容易出错。针对以上问题,HuggingFace提供了统一的数据集处理工具,让开发者在处理各种不同的数据集时可以通过统一的API处理,大大降低了数据处理的工作量。

登录HuggingFace官网,单击顶部的Datasets,即可看到HuggingFace提供的数据集,如图3-1所示。

图3-1 HuggingFace数据集页面

在该界面左侧可以根据不同的任务类型、语言、体积、使用许可来筛选数据集,右侧为具体的数据集列表,其中有经典的glue、super_glue数据集,问答数据集squad,情感分类数据集imdb,纯文本数据集wikitext。

单击具体的某个数据集,进入数据集的详情页面,可以看到数据集的概要信息。以glue数据集为例,在详情页可以看到glue的各个数据子集的概要内容,每个数据子集的下方可能会有作者写的说明信息,如图3-2所示。

图3-2 数据集详情页面

不要担心,你不需要熟悉所有的数据集,这些数据集大多是英文的,本书重点关注中文的数据集。出于简单起见,本书只会使用几个简单的数据集来完成后续的实战任务,具体可参看接下来的代码演示。