上QQ阅读APP看书,第一时间看更新
3.3.3 命名实体识别
命名实体识别(Named Entity Recognition, NER)是在给定的非结构化文本中,提取出具体实体或者抽象实体的单词或词组,是实体语义表示、知识结构化和数字化的基础。一般命名实体识别主要是识别出文本中的3大类和7小类。3大类包括数字、时间和实体;7小类包括人名、地名、机构组织名、日期、时间、百分比和货币。而在特殊的领域将需要识别领域内自定义的实体类型。由于汉字中词的边界具有模糊性,且待识别文本中存在许多未登录词,所以实体识别具有较大的难度。现在常用的实体识别方法主要有以下几种。
● 基于规则的方法:主要是依据语言学专家构建的语言规则模板,通过文本与规则模板进行匹配,从而识别实体。这种方法依赖于词典和知识库的建立,可移植性较小、人工成本较高。
● 基于统计的方法:该方法主要将实体识别问题看作为一个序列标注和多分类的问题。在多分类思想中是通过先识别实体边界,再对实体进行分类,常用的方法是SVM、ME等。序列标注是对训练词进行特征标注,然后通过统计方法训练提取模型,常用的方法是HMM、CRF等。
● 基于神经网络的方法:将命名实体识别看作序列标注任务,减少人工特征标注,利用词向量表示词语,以词向量作为特征,通过模型训练得到未知实体,常用的方法有LSTM、Bi-LSTM、LSTM-CRF等。