正向最大匹配算法过程
排重匹配算法?
排重匹配算法?
逆向最大匹配法通常简称为RMM法。RMM法的基本原理与MM法相同 ,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个 字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。
例子:’我一个人吃饭’
反向最大匹配方式,最大长度为5
个人吃饭
人吃饭
吃饭 ====》得到一个词– 吃饭
我一个人
一个人
个人 ====》得到一个词– 个人
我一
一 ====》得到一个词– 一
我 ====》得到一个词– 我
最后反向最大匹配的结果是:
/我/一/个人/吃饭/
正向最大匹配算法:从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。但这里有一个问题:要做到最大匹配,并不是第一次匹配到就可以切分的。我们来举个例子:
待分词文本: content[]={\
自然语言处理(NLP)包含哪些内容?
目前,NLP的主要研究范围与方向有以下几个方面:
1、信息检索
2、机器翻译
3、文档分类
4、问答系统
5、信息过滤
6、自动文摘
7、信息抽取
8、文本挖掘
9、舆情分析
10、机器写作
11、文本朗读
12、语音合成
13、语音识别
14、自动分词
15、词性标注
16、句法分析
17、自然语言生成
18、信息抽取
另外,自然语言处理的数据为文本数据,主要有以下5种类型的处理:
1、分词:
我们一般处理的自由文本有中文、英文等,词为文本的基本单位,然而分词当然是NLP中最重要的步骤。分词算法分为词典方法和统计方法,其中基于词典和人工规则的方法是按照一定的策略将待分析的词与词典中的词条进行匹配(包括正向匹配、逆向匹配和最大匹配)。统计方法是基本字符串在语料库中出现的统计频率,典型的算法有HMM、CRF等,其中CRF相比HMM有更弱的上下文无相关性假设,理论上效果更好一些。
英文以空格为分割符,因此不需要进行分词的操作(片面看法,特殊情况仍然需要分词操作),例如一些复合词也需要识别。
2、词性标注
对于词性标注,首先需要定义词性的类别:如名词、动词、形容词、连词、副词、标点符号等等。词性标注是语音识别、句法分析、信息抽取技术的基础技术之一,词性标注是标注问题,可以采用最大熵、HMM、CRF等具体算法进行模型的训练。在自动问答系统中,为了提高用户问题匹配后端知识库的召回率,对一些关键词进行过滤,包括连词、副词对于全文检索系统理论上可以通过对用户输入的查询条件进行词性过滤,但由于全文检索是基于词袋的机械匹配,并采用IDF作为特征值之一,因此词性标注的效果不大。
3、句法分析
句法分析的目的是确定句子的句法结构,主谓宾、动宾、定中、动补等。在问答系统和信息检索领域有重要作用。
4、命名实体识别
命名实体识别是定位句子中出现的人名、地名、机构名、专有名词等。命名实体属于标注问题,因此可以采用HMM、CRF等进行模型的训练。基于统计的命名实体需要基于分词、词性标注等技术。实体命名定义了五大类型:设施(FAC)、地理政治实体(GPE)、位值(LOC)、人物(PER)。在实际应用中,可以根据自己的业务需求,定义实体类别,并进行模型训练。
5、实体关系抽取
实体关系抽取是自动识别非结构化文档中两个实体之间的关联关系,属于信息抽取领域的基础知识之一。近年来,搜索领域流行的知识图谱技术是构建实体关系。实体关系抽取有多种方式,包括规则匹配、有监督学习、无监督学习。其中有监督学习需要预先定义实体关系类别,通常将问题建模为分类问题。有监督学习需要预先人工标注语料库。