人工智能（AI） - 自然语言处理

简述

自然语言处理 (NLP) 是指使用自然语言（例如英语）与智能系统进行通信的 AI 方法。

当您希望像机器人这样的智能系统按照您的指令执行时，当您想要听取基于对话的临床专家系统的决定等时，需要处理自然语言。

NLP 领域涉及使计算机能够使用人类使用的自然语言执行有用的任务。NLP 系统的输入和输出可以是 -

演讲
书面文本

NLP 的组成部分

给定 NLP 的两个组成部分 -

自然语言理解 (NLU)

理解涉及以下任务 -

将自然语言中的给定输入映射为有用的表示。
分析语言的不同方面。

自然语言生成 (NLG)

它是从某种内部表征以自然语言的形式产生有意义的短语和句子的过程。

它涉及 -

文本规划− 它包括从知识库中检索相关内容。
句子规划− 包括选择需要的单词、形成有意义的短语、定句。
文本实现− 将句子计划映射到句子结构中。

NLU 比 NLG 更难。

NLU 的难点

NL具有极其丰富的形式和结构。

这是非常模棱两可的。可能有不同程度的歧义 -

Lexical ambiguity− 它处于非常原始的级别，例如单词级别。
例如，将“board”一词视为名词或动词？
Syntax Level ambiguity− 一个句子可以用不同的方式解析。
例如，“他举起了带红帽子的甲虫。” - 他是用帽子举起甲虫还是举起一只有红色帽子的甲虫？
Referential ambiguity− 使用代词指代事物。例如，里玛去了高里。她说：“我累了。” − 到底是谁累了？
一个输入可能意味着不同的含义。
许多输入可能意味着同样的事情。

NLP 术语

Phonology− 系统地组织声音的研究。
Morphology- 它是研究从原始有意义的单位构建单词的研究。
Morpheme− 它是一种语言中的原始意义单位。
Syntax− 指排词造句。它还涉及确定单词在句子和短语中的结构作用。
Semantics− 它关注单词的含义以及如何将单词组合成有意义的短语和句子。
Pragmatics- 它涉及在不同情况下使用和理解句子以及句子的解释如何受到影响。
Discourse− 它涉及前一句如何影响下一句的解释。
World Knowledge− 它包括关于世界的一般知识。

NLP 中的步骤

一般有五个步骤 -

词汇分析− 它涉及识别和分析单词的结构。一种语言的词典是指一种语言中单词和短语的集合。词法分析是将整个文本块划分为段落、句子和单词。
语法分析 (Parsing)- 它涉及分析句子中的单词的语法并以显示单词之间关系的方式排列单词。诸如“The school goes to boy”之类的句子被英语句法分析器拒绝。

语义分析− 它从文本中提取确切含义或字典含义。检查文本的意义。它是通过映射任务域中的句法结构和对象来完成的。语义分析器会忽略诸如“hot ice-cream”之类的句子。
话语整合− 任何句子的含义取决于它之前的句子的含义。此外，它还带来了紧接后句的意思。
语用分析- 在此期间，所说的话被重新解释为它的实际含义。它涉及派生那些需要现实世界知识的语言方面。

句法分析的实现方面

研究人员开发了许多用于句法分析的算法，但我们只考虑以下简单的方法 -

上下文无关语法
自顶向下解析器

让我们详细看看它们 -

上下文无关语法

它是由重写规则左侧带有单个符号的规则组成的语法。让我们创建语法来解析一个句子 -

“鸟啄谷物”

Articles (DET)- 一个 | 一个| 这

Nouns− 鸟 | 鸟| 高分辨率照片| CLIPARTO 粮食| 谷物

Noun Phrase (NP)− 文章+名词 | 冠词+形容词+名词

= 那 N | 它调整 N

Verbs− 啄 | 啄食 | 啄

Verb Phrase (VP)− NP V | VNP

Adjectives (ADJ)− 美丽 | 小| 唧唧喳喳

解析树将句子分解成结构化的部分，以便计算机可以轻松理解和处理它。为了让解析算法构造这个解析树，需要构造一组重写规则，这些规则描述了哪些树结构是合法的。

这些规则说某个符号可以在树中被一系列其他符号扩展。根据一阶逻辑规则，如果有两个字符串名词短语（NP）和动词短语（VP），那么NP后跟VP组合的字符串就是一个句子。该句子的重写规则如下 -

S → NP VP

NP → DET N | DET ADJ N

VP → V NP

Lexocon −

DET → 一个 | 这

ADJ → 美丽 | 栖息

N → 鸟 | 鸟| 高分辨率照片| CLIPARTO 粮食| 谷物

V → 啄 | 啄| 啄食

解析树可以如图所示创建 -

现在考虑上面的重写规则。由于 V 可以同时替换为“peck”或“peck”，因此“The bird peck the grains”之类的句子可能会被错误地允许。即主谓一致错误被批准为正确。

Merit− 最简单的语法风格，因此被广泛使用。

Demerits −

它们的精度不高。例如，“The grains peck the bird”，根据 parser 在语法上是正确的，但即使没有意义，parser 也会将其视为正确的句子。
要带出高精度，需要准备多套语法。它可能需要一组完全不同的规则来解析单复数变体、被动句等，这可能导致创建大量无法管理的规则。

自顶向下解析器

在这里，解析器从 S 符号开始，并尝试将其重写为与输入句子中单词的类别匹配的终端符号序列，直到它完全由终端符号组成。

然后将这些与输入句子一起检查以查看它是否匹配。如果不是，则使用一组不同的规则重新开始该过程。重复此过程，直到找到描述句子结构的特定规则。

Merit− 实施简单。

Demerits −

这是低效的，因为如果发生错误，则必须重复搜索过程。
工作速度慢。