基于科研关系网络的高校科研管理研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3.2 构建方法

文本挖掘,又称为文本数据挖掘或文本知识发现,是数据挖掘的一个分支,是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在有用模式的过程。它是分析文本数据、抽取文本信息、进而发现文本知识的过程。文本挖掘涉及多个研究领域,如信息检索、信息过滤、自动摘要、数据挖掘、人工智能等,它的出现为文本信息的整理、分析、挖掘提供了有效手段。

文本挖掘的主要目标是获得文本的主要内容特征,如文本涉及的主题、文本主题的类属、文本内容的浓缩等。文本挖掘的具体实现技术主要有:特征抽取、主题标引、文本分类、文本聚类、自动摘要。文本挖掘的主要处理过程是对文本数据进行预处理:分词、特征表示、特征提取;挖掘分析:文本摘要、分类、聚类;知识表示等。本书研究应用文本挖掘技术进行科研主体之间关联关系的揭示。