用规则做命名实体识别——NER系列（一）

兑现自己上一篇立下的flag，从头开始写这几个月对命名实体识别这个任务的探索历程。这是这个系列的第一篇——用规则来做命名实体识别。

1.什么是命名实体识别

命名实体识别（Named Entity Recognition，简称NER），是一个基本的NLP任务，按照传统，下面是百度百科对它的解释：

一般来说，命名实体识别的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。

当然了，你可以自己定义这个任务，比如识别商品名，也是这个任务范畴。

说得更泛一点，命名实体识别本质上是序列标注问题。

2.为什么要做命名实体识别

第一次接触这个任务的时候，我也问过这个问题，甚至还觉得我直接搞一个数据库，把所有实体都存进去，然后直接匹配不就好了。

事实证明我太天真了。因为，命名实体识别存在以下几个问题：

实体数量巨大，而且在不断增长。举个例子，每年那么多新的机构、公司，要收集起来也是一个头条的问题。
实体组合多。很多实体都是组合词，包括中英文组合也很多。
歧义多。比如拿我的名字举个例，“李鹏飞起来了”，是不是可以识别出两个人名。/坏笑

等等等等，反正，这个任务是有意义的。

3.用规则来做命名实体识别

好了，进入今天的主题了。

先说一句，命名实体识别有非常多的方法，其中基于规则是最古老、最笨的方法，但是为了熟悉这个任务，以及认识到这个方法有多麻烦，我还是进行了探索。

2017CCF BDCI（CCF 大数据与计算智能大赛）有个赛题：《基于机构实体的智能摘要和风险等级识别》，里面有个子任务就是识别机构实体。

我先用规则来做，因为语料集里面大多数的实体，都是有规律的，比如：

上面命名实体都用颜色标注出来了，可以看到，基本上的组成机构是这样的：

若干地名+若干其他成分+若干特征词

其中，特征词指的是诸如公司，有限公司，管理局这些词语。

那么这个基于规则的实体识别算法就呼之欲出了。步骤如下：

1.分词

我用的是jieba分词：https://github.com/fxsjy/jieba

将原始文本进行分词，同时使用jieba的词性标注功能。(这个步骤也可以去停用词，依你的语料集而定)

2.收集特征词词典

将训练文本中的实体取出来，对于每一个实体，进行分词，取最后一个词，存入词典，最后做去重。

如果想把词典做的更细致，可以借助外部词典，比如hanlp的词典，具体他的词典构造，我将在之后写hmm模型的时候作介绍。

3.标注序列

对文本分词后的词语，进行标注。

①如果这个词语的词性为ns（地名），则将这个词标记为S。（如果不想用jieba的词性标注，这里也可以用地名词典来识别，需自己整理）

②如果这个词语在【步骤2】的特征词词典里，则将这个词标记为E。

③其它情况，标记为O。

这样，我们就把输入的句子转化为了标注序列。比如：

我来到北京天安门

就会被标记为：

OOSE

4.正则匹配，识别实体

我们上面说到，对于这个语料集，我们发现实体的组成规律是这样的：

若干地名+若干其他成分+若干特征词

那么，我们只需要对标注后的序列做一个正则表达式的匹配即可。模式为：

S+O*E+

上面表达式的意思是，必须以1个以上地名开头，以1个以上特征词结尾，中间成分，数量就无所谓了。

匹配出符合要求的字符，将其背后的中文组合起来，就是我们要的实体。

你可以任意定义标注和模式，来适应你的规则。

方法很笨很暴力。

但是你不得不说，如果有的任务很简单，很有规律，用规则来提取实体是个不错的选择，因为它不费时，不费力，能解决问题。