3.3.3 命名实体识别_智能运维之道：基于AI技术的应用实践-QQ阅读男生玄幻网

上QQ阅读APP看书，第一时间看更新

3.3.3 命名实体识别

命名实体识别（Named Entity Recognition, NER）是在给定的非结构化文本中，提取出具体实体或者抽象实体的单词或词组，是实体语义表示、知识结构化和数字化的基础。一般命名实体识别主要是识别出文本中的3大类和7小类。3大类包括数字、时间和实体；7小类包括人名、地名、机构组织名、日期、时间、百分比和货币。而在特殊的领域将需要识别领域内自定义的实体类型。由于汉字中词的边界具有模糊性，且待识别文本中存在许多未登录词，所以实体识别具有较大的难度。现在常用的实体识别方法主要有以下几种。

● 基于规则的方法：主要是依据语言学专家构建的语言规则模板，通过文本与规则模板进行匹配，从而识别实体。这种方法依赖于词典和知识库的建立，可移植性较小、人工成本较高。

● 基于统计的方法：该方法主要将实体识别问题看作为一个序列标注和多分类的问题。在多分类思想中是通过先识别实体边界，再对实体进行分类，常用的方法是SVM、ME等。序列标注是对训练词进行特征标注，然后通过统计方法训练提取模型，常用的方法是HMM、CRF等。

● 基于神经网络的方法：将命名实体识别看作序列标注任务，减少人工特征标注，利用词向量表示词语，以词向量作为特征，通过模型训练得到未知实体，常用的方法有LSTM、Bi-LSTM、LSTM-CRF等。