语言学基础

自然语言处理(NLP)作为人工智能的重要分支,其核心是让计算机理解、解释和生成人类语言。要掌握NLP,首先需要了解支撑人类语言运作的基本原理 - 这就是语言学基础。

语言学基础为 NLP 提供了理论框架和分析工具,主要包括以下几个关键方面:

  1. 语音学(Phonetics):研究语言的声音系统
  2. 音系学(Phonology):研究声音如何组合形成有意义的语言单位
  3. 形态学(Morphology):研究词的内部结构
  4. 句法学(Syntax):研究句子结构
  5. 语义学(Semantics):研究语言的意义
  6. 语用学(Pragmatics):研究语言在语境中的使用


语音学与音韵学(Phonetics & Phonology)

语音学(Phonetics)

语音学研究语音的物理特性和产生机制,关注语音的声学和生理特征。

发音器官与发音方式

  • 发音器官
    • 肺部:提供气流
    • 喉头:声带振动产生浊音
    • 口腔:舌头、牙齿、嘴唇调节气流
    • 鼻腔:产生鼻音

辅音分类
按照发音方式和发音部位分类:

  • 发音方式

    • 塞音:/p/, /b/, /t/, /d/, /k/, /g/
    • 擦音:/f/, /v/, /s/, /z/
    • 塞擦音:/ts/, /tʃ/
    • 鼻音:/m/, /n/, /ŋ/
    • 边音:/l/
    • 颤音:/r/
  • 发音部位

    • 双唇音:/p/, /b/, /m/
    • 唇齿音:/f/, /v/
    • 舌尖音:/t/, /d/, /n/
    • 舌根音:/k/, /g/, /ŋ/

元音分类
按照舌位和唇形分类:

  • 舌位高低:高元音/i/, /u/,中元音/e/, /o/,低元音/a/
  • 舌位前后:前元音/i/, /e/,央元音/a/,后元音/u/, /o/
  • 唇形:圆唇音/u/, /o/,不圆唇音/i/, /e/, /a/

汉语语音特点

  • 声调语言:声调具有区别意义的作用
    • 普通话四个基本声调:阴平、阳平、上声、去声
    • 例:妈(mā) 麻(má) 马(mǎ) 骂(mà)
  • 音节结构:声母+韵母的结构
    • 声母:21个基本声母
    • 韵母:39个基本韵母

音韵学(Phonology)

音韵学研究语音系统的结构和规律,关注语音在特定语言中的功能。

音位(Phoneme)

  • 具有区别意义功能的最小语音单位
  • 例:英语中/p/和/b/是不同音位(pit vs bit)
  • 汉语中声调是音位的组成部分

音位变体(Allophone)

  • 同一音位在不同环境中的语音实现
  • 例:英语/p/在不同位置的送气程度不同

音韵规则

  • 描述语音在特定环境中的变化规律
  • 例:汉语的"一"字变调规律
  • 英语的复数形式语音变化:cats /s/, dogs /z/, horses /ɪz/

在NLP中的应用

  • 语音识别:将声音信号转换为文本
  • 语音合成:将文本转换为语音
  • 音字转换:拼音到汉字的转换
  • 韵律分析:诗歌韵律的计算分析

形态学(Morphology)

形态学研究词的内部结构和构词规律,是词汇层面分析的基础。

基本概念

词素(Morpheme)

  • 语言中最小的有意义的语法单位
  • 自由词素:可以独立使用的词素,如"书"、"run"
  • 粘着词素:必须附着在其他词素上,如前缀、后缀

词根、词缀和词干

  • 词根(Root):词的核心意义承载者
    • 例:在"unhappiness"中,"happy"是词根
  • 词缀(Affix)
    • 前缀(Prefix):un-, re-, pre-
    • 后缀(Suffix):-ness, -tion, -ly
    • 中缀(Infix):较少见,如他加禄语
  • 词干(Stem):去掉屈折词缀后的形式

构词方式

派生(Derivation)

  • 通过添加派生词缀改变词性或词义
  • 例:
    • happy → unhappy(添加否定前缀)
    • happy → happiness(名词化后缀)
    • teach → teacher(施事后缀)

复合(Compounding)

  • 将两个或多个词根结合成新词
  • 英语例子:
    • blackboard(black + board)
    • laptop(lap + top)
  • 中文例子:
    • 电脑(电 + 脑)
    • 手机(手 + 机)

屈折(Inflection)

  • 改变词的语法形式但不改变基本词义
  • 英语动词变位:walk, walks, walked, walking
  • 名词复数:book → books, child → children
  • 中文的屈折变化相对较少

中文形态学特点

词的概念

  • 中文词的边界相对模糊
  • 字、词、短语的界限不如英文明确
  • 例:"研究生"可以是一个词,也可以分析为"研究"+"生"

构词方式

  • 复合为主

    • 偏正式:火车(火+车)
    • 动宾式:司机(司+机)
    • 主谓式:地震(地+震)
    • 并列式:朋友(朋+友)
  • 重叠构词

    • 动词重叠:看看、走走
    • 形容词重叠:红红的、慢慢地
    • 名词重叠:人人、事事

词类活用

  • 同一个字或词可以充当不同词性
  • 例:"水"可以是名词(喝水)或动词(水稻田)

在NLP中的应用

词干提取(Stemming)

  • 将词汇还原到词干形式
  • Porter算法:将"running", "runs", "ran"都还原为"run"

词形还原(Lemmatization)

  • 将词汇还原到词典形式(引理)
  • 考虑词性信息,更准确

中文分词

  • 由于中文词间无空格分隔,需要进行分词处理
  • 基于词典、统计或神经网络的方法

词性标注

  • 确定每个词的语法类别
  • 为句法分析提供基础信息

句法学(Syntax)

句法学研究句子的结构和组织规律,是理解语言语法的核心。

基本概念

短语结构

  • 名词短语(NP):以名词为中心的短语
    • 例:那本有趣的书
  • 动词短语(VP):以动词为中心的短语
    • 例:快速地跑步
  • 介词短语(PP):以介词为中心的短语
    • 例:在桌子上
  • 形容词短语(AP):以形容词为中心的短语
    • 例:非常美丽

句子成分

  • 主语(Subject):动作的执行者
  • 谓语(Predicate):描述主语的动作或状态
  • 宾语(Object):动作的承受者
  • 定语(Attributive):修饰名词的成分
  • 状语(Adverbial):修饰动词、形容词的成分
  • 补语(Complement):补充说明的成分

句法分析方法

短语结构文法(Phrase Structure Grammar)

  • 用重写规则描述句子结构
  • 例:
    S → NP VP
    NP → Det N
    VP → V NP
    Det → the, a, an
    N → cat, dog, book
    V → chase, read
    

依存文法(Dependency Grammar)

  • 以词与词之间的依存关系为核心
  • 每个词依存于一个中心词(除了根节点)
  • 例:在"小猫追老鼠"中:
    • "追"是根节点
    • "小猫"依存于"追"(主谓关系)
    • "老鼠"依存于"追"(动宾关系)
    • "小"依存于"猫"(定中关系)

树形表示

        追
       /  \
     小猫   老鼠
     /
    小

中文句法特点

语序特点

  • 基本语序:主-谓-宾(SVO)
  • 修饰语在被修饰语前:的字结构
  • 例:那个穿红衣服的美丽女孩

特殊结构

  • 把字句:把+宾语+动词
    • 例:我把书放在桌子上
  • 被字句:主语+被+施事者+动词
    • 例:书被我放在桌子上
  • 存现句:表示存在或出现
    • 例:桌子上放着一本书

语法化程度

  • 中文的语法化程度相对较低
  • 词序和语境在表达语法关系中起重要作用
  • 缺乏丰富的形态变化

句法分析的挑战

歧义问题

  • 结构歧义:一个句子可以有多种句法分析
  • 例:"我看见了拿着望远镜的人"
    • 分析1:我用望远镜看见了人
    • 分析2:我看见了一个拿着望远镜的人

长距离依赖

  • 句子成分之间的依赖关系可能跨越很大距离
  • 例:在问句"什么书你昨天买了?"中,"什么"与"买"之间存在依赖关系

省略现象

  • 中文经常省略主语或其他成分
  • 例:(我)昨天看了电影,(电影)很好看

在NLP中的应用

句法分析器

  • 基于规则:使用手工编写的语法规则
  • 统计方法:基于标注语料库的概率模型
  • 深度学习:使用神经网络进行端到端学习

句法树库

  • Penn Treebank(英文)
  • 中文树库(CTB)
  • 为句法分析提供训练和评估数据

应用任务

  • 机器翻译:理解源语言句法结构
  • 信息抽取:基于句法模式抽取信息
  • 问答系统:理解问句的句法结构

语义学(Semantics)

语义学研究语言的意义,是自然语言理解的核心。

基本概念

词汇语义

  • 词义:词汇所表达的概念或意义
  • 多义性:一个词有多个相关意义
  • 同义关系:不同词汇表达相同或相似意义
  • 反义关系:词汇间的对立关系
  • 上下位关系:概念间的包含关系

语义关系

  • 同义词(Synonyms)
    • 完全同义:较少见
    • 近义词:快乐-高兴,大-巨大
  • 反义词(Antonyms)
    • 互补反义:死-活,男-女
    • 等级反义:冷-热,大-小
    • 关系反义:老师-学生,买-卖
  • 上下位词
    • 上位词:动物、颜色
    • 下位词:狗、猫(动物的下位词)

句子语义

命题(Proposition)

  • 句子所表达的基本语义内容
  • 例:句子"小明在图书馆看书"表达的命题:
    • 施事者:小明
    • 动作:看
    • 受事者:书
    • 地点:图书馆

语义角色(Semantic Roles)

  • 施事者(Agent):动作的执行者
  • 受事者(Patient):动作的承受者
  • 工具(Instrument):完成动作所使用的工具
  • 地点(Location):动作发生的地点
  • 时间(Time):动作发生的时间
  • 方式(Manner):动作的方式

论元结构(Argument Structure)

  • 动词所要求的语义参与者
  • 例:动词"给"要求三个论元:
    • 给予者(施事)
    • 接受者(与事)
    • 给予物(受事)

语义表示

逻辑表示

  • 使用逻辑公式表示语义
  • 一阶逻辑:∃x (人(x) ∧ 高兴(x))
  • 例:句子"有人很高兴"的逻辑表示

框架语义学(Frame Semantics)

  • 基于认知框架理解语义
  • FrameNet项目:构建基于框架的语义资源
  • 例:商业交易框架包含买方、卖方、商品、价格等要素

概念图

  • 使用图结构表示概念和关系
  • 节点代表概念,边代表关系
  • 适合表示复杂的语义网络

语义歧义

词汇歧义

  • 一词多义:银行(金融机构/河岸)
  • 同音异义:他们/它们

结构歧义

  • 修饰歧义:"漂亮的女孩的衣服"
  • 范围歧义:"所有学生都不及格"

语用歧义

  • 需要上下文才能确定意义
  • 例:代词指代、省略成分的恢复

在NLP中的应用

词汇语义资源

  • WordNet:英文词汇语义网络
  • HowNet:中文词汇语义知识库
  • 同义词词林:中文同义词分类体系

语义分析任务

  • 词义消歧:确定多义词在特定上下文中的含义
  • 语义角色标注:识别句子中的语义角色
  • 语义相似度计算:计算词汇或句子间的语义相似度

应用领域

  • 问答系统:理解问题的语义意图
  • 机器翻译:保持翻译的语义一致性
  • 信息检索:基于语义进行相关性匹配

语用学(Pragmatics)

语用学研究语言在具体交际情境中的使用,关注语境对意义的影响。

基本概念

语境(Context)

  • 语言语境:上下文信息
  • 情景语境:交际的具体情境
  • 文化语境:社会文化背景

言语行为理论(Speech Act Theory)

  • 言内行为:说话行为本身
  • 言外行为:通过说话要达到的目的
  • 言后行为:说话产生的效果

言外行为类型

  • 断言类:陈述事实,如"今天下雨了"
  • 指令类:要求行动,如"请关门"
  • 承诺类:承诺未来行动,如"我明天来"
  • 表达类:表达态度,如"恭喜你"
  • 宣告类:改变现状,如"我宣布会议开始"

语用现象

指示语(Deixis)

  • 依赖语境才能确定所指的语言成分
  • 人称指示:我、你、他
  • 时间指示:现在、昨天、明天
  • 空间指示:这里、那里、上面
  • 语篇指示:如上所述、综上所言

预设(Presupposition)

  • 说话者假定听话者已知的信息
  • 例:"小明的妻子很漂亮"预设小明已婚

含义(Implicature)

  • 会话含义:通过违反合作原则产生的隐含意义
  • 例:A:"你知道几点了吗?" B:"知道。"
    • B的回答违反了量准则,暗示不愿透露时间

合作原则(Cooperative Principle)

  • 量准则:提供适量信息
  • 质准则:说真话
  • 关系准则:说相关的话
  • 方式准则:表达清楚

中文语用特点

礼貌策略

  • 中文非常注重礼貌原则
  • 使用委婉语和敬语
  • 例:请问、麻烦您、不好意思

高语境文化

  • 依赖语境理解意义
  • 话语含蓄,不直接表达
  • 例:中文的拒绝常常是间接的

面子理论

  • 积极面子:被认可的需要
  • 消极面子:不被打扰的需要
  • 影响言语行为的选择

在NLP中的应用

对话系统

  • 意图识别:理解用户的真实意图
  • 槽位填充:提取对话中的关键信息
  • 对话管理:控制对话流程

情感分析

  • 隐含情感:识别间接表达的情感
  • 反讽检测:理解反话的真实含义

机器翻译

  • 语用等价:保持原文的语用功能
  • 文化适应:考虑目标语言的文化特点

中文语言特点

中文作为汉语系的代表,具有独特的语言特点,这些特点为中文NLP带来了特殊的挑战和机遇。

分词的必要性

无空格分隔

  • 中文词与词之间没有明显的分界符
  • 例:「我爱北京天安门」需要分解为「我/爱/北京/天安门」
  • 与英文等语言的天然分词不同

词的概念复杂

  • 字、词、短语的界限模糊
  • 例:「研究」可以是一个词,「研究生」也可以是一个词
  • 上下文影响分词结果

分词歧义

组合歧义

  • 同一字符序列可以有不同的分词方式
  • 例:「结婚的和尚未结婚的」
    • 错误分词:结婚的/和尚/未结婚的
    • 正确分词:结婚的/和/尚未/结婚的

交集歧义

  • 相邻的分词方案有重叠
  • 例:「长春市长春药店」
    • 方案1:长春市/长春/药店
    • 方案2:长春/市长/春药店

真歧义

  • 不同分词结果都在语法和语义上合理
  • 例:「乒乓球拍卖完了」
    • 方案1:乒乓球拍/卖完了
    • 方案2:乒乓球/拍卖/完了

分词方法

基于词典的方法

  • 最大匹配算法(正向、逆向、双向)
  • 优点:简单高效
  • 缺点:无法处理歧义和未登录词

基于统计的方法

  • N-gram语言模型
  • 隐马尔可夫模型(HMM)
  • 条件随机场(CRF)

基于深度学习的方法

  • 双向LSTM + CRF
  • BERT等预训练模型
  • 字符级神经网络

汉字、词汇与语法结构

汉字特点

方块字结构

  • 汉字具有方形的视觉特征
  • 每个字占据等宽的空间
  • 字形、字音、字义的统一

象形表意特征

  • 象形字:日、月、山、水
  • 指事字:上、下、本、末
  • 会意字:明、休、信
  • 形声字:占汉字的80%以上,如:江(氵+工)

多音多义现象

  • 一字多音:行(xíng/háng)、长(cháng/zhǎng)
  • 一字多义:「打」有击打、购买、制作等多种含义

词汇特点

构词方式丰富

  • 单纯词:不能拆分,如:桌子、葡萄
  • 合成词:由两个或多个语素组成
    • 复合式:电脑、手机
    • 附加式:第一、老师

词汇语义透明度高

  • 从组成汉字可以推测词义
  • 例:「洗衣机」= 洗 + 衣 + 机
  • 有助于理解新词和术语

词类转换灵活

  • 同一词汇可以充当不同词性
  • 例:「水」
    • 名词:喝水
    • 动词:水田
    • 形容词:水平很水(口语)

语法结构特点

语序相对固定

  • 基本语序:主-谓-宾(SVO)
  • 定语在中心语前:红色的花
  • 状语在谓语前:慢慢地走

语法手段多样

  • 语序:改变词序表达不同意思
  • 虚词:的、地、得、了、着、过等
  • 重叠:看看、走走、红红的

语法化程度低

  • 缺乏丰富的词形变化
  • 动词无时态、语态的形态变化
  • 名词无格变、数的一致性要求

中文NLP的特殊挑战

文本预处理挑战

分词困难

  • 歧义消解需要语义理解
  • 新词识别困难
  • 专业领域词汇识别

简繁转换

  • 一简对多繁:后(後/后)
  • 一繁对多简:髮(发/髪)
  • 地区用词差异:计算机/电脑

编码问题

  • 多种编码方式:GB2312、GBK、UTF-8
  • 编码转换可能导致信息丢失

语言变体处理

方言差异

  • 语音、词汇、语法的地区差异
  • 例:北京话的"倍儿"、上海话的"阿拉"
  • 影响语音识别和文本理解

文体差异

  • 古文与现代文
  • 正式语体与口语
  • 网络用语和流行语

港澳台用语

  • 用词习惯不同:的士/出租车、巴士/公交车
  • 语法结构差异:有冇(有没有)
  • 外来词处理:音译vs意译

语义理解挑战

语境依赖性强

  • 代词指代复杂
  • 省略现象频繁
  • 需要更多上下文信息

文化内涵丰富

  • 成语、典故的理解
  • 文化特有概念:面子、关系
  • 传统文化背景知识

语言使用灵活

  • 语序变化:把字句、被字句
  • 表达方式多样:委婉、含蓄
  • 语用原则的文化特色

文本的层次结构

文本作为语言的载体,具有多层次的结构特征。理解这些层次结构对于设计有效的NLP系统至关重要。

字符层面(Character Level)

基本单位

字符定义

  • 文本的最小视觉单位
  • 包括字母、汉字、数字、标点符号等
  • Unicode编码系统的基本单元

字符类型

  • 字母字符:A-Z, a-z
  • 数字字符:0-9
  • 汉字字符:Unicode范围4E00-9FFF
  • 标点符号:。,!?;:""''
  • 特殊字符:@#$%^&*等

字符级处理

编码处理

  • ASCII编码:适用于英文
  • Unicode编码:支持多语言
  • UTF-8编码:变长编码,广泛使用

字符序列模型

  • 字符级RNN:直接处理字符序列
  • 卷积神经网络:提取字符级特征
  • Transformer:自注意力机制处理字符

应用场景

  • 拼写检查:检测字符级错误
  • 文本生成:字符级语言模型
  • 低资源语言:缺乏词汇资源时的备选方案

词汇层面(Word Level)

词汇定义

词的概念

  • 具有完整意义的语言单位
  • 语法分析的基本单元
  • 在语音上具有相对独立性

词汇类型

  • 实词:名词、动词、形容词、副词
  • 虚词:介词、连词、助词、叹词
  • 功能词:the, a, is, have等高频功能性词汇
  • 内容词:承载主要意义的词汇

词汇表示

独热编码(One-hot Encoding)

  • 每个词用一个向量表示
  • 向量长度等于词汇表大小
  • 只有对应位置为1,其他为0
  • 缺点:维度高,无法表示语义相似性

词向量(Word Embeddings)

  • Word2Vec:基于神经网络的词向量
    • CBOW:根据上下文预测中心词
    • Skip-gram:根据中心词预测上下文
  • GloVe:基于全局词汇统计信息
  • FastText:考虑字符级信息的词向量

上下文词向量

  • ELMo:双向LSTM生成的上下文敏感表示
  • BERT:基于Transformer的双向编码器
  • 同一词在不同上下文中有不同表示

词汇关系

语义关系

  • 同义关系:快乐-高兴
  • 反义关系:大-小
  • 上下位关系:动物-狗

形态关系

  • 词根关系:run-running-ran
  • 派生关系:happy-happiness
  • 复合关系:black + board → blackboard

分布关系

  • 具有相似上下文分布的词汇往往语义相关
  • 例:"医生"和"护士"常在相似语境出现
  • 是词向量学习的基础假设

词汇级处理

词汇规范化

  • 大小写处理:将文本统一为小写或大写
  • 词形还原:将词汇还原为词典形式(lemma)
  • 词干提取:去除词缀得到词干(stem)

停用词过滤

  • 移除高频低信息量词汇
  • 中文停用词:的、了、是、在、和等
  • 英文停用词:the, a, an, is, are等

低频词处理

  • 替换为统一标记(如<UNK>)
  • 提高模型泛化能力
  • 减少词汇表规模

应用场景

  • 信息检索:建立倒排索引
  • 文本分类:特征提取与表示
  • 机器翻译:词汇对齐与替换

短语层面(Phrase Level)

短语定义

基本概念

  • 由多个词组成的语法单位
  • 具有内部结构和外部功能
  • 围绕一个中心词展开

短语类型

  • 名词短语(NP):以名词为中心
    • 例:一本有趣的书
  • 动词短语(VP):以动词为中心
    • 例:正在认真阅读
  • 介词短语(PP):以介词为中心
    • 例:在桌子上
  • 形容词短语(AP):以形容词为中心
    • 例:非常漂亮

短语识别

基于规则的方法

  • 使用语法规则模板
  • 例:NP → (Det) (Adj) N
  • 依赖人工编写的语法规则

基于统计的方法

  • 使用n-gram模型识别常见短语
  • 基于互信息、卡方检验等统计量
  • 例:"纽约时报"作为固定短语

基于深度学习的方法

  • 序列标注模型(如BiLSTM-CRF)
  • 端到端的短语检测
  • 预训练语言模型(如BERT)

短语表示

词向量组合

  • 简单平均:取组成词向量的平均值
  • 加权平均:根据词重要性分配权重
  • 递归神经网络:考虑词序的组合

短语嵌入

  • 直接学习短语级别的向量表示
  • Skip-phrase模型:类似Skip-gram
  • 短语类比任务:中国:北京::法国:巴黎

应用场景

  • 信息抽取:识别关键短语
  • 查询理解:处理搜索引擎查询
  • 情感分析:识别评价对象短语

句子层面(Sentence Level)

句子定义

基本概念

  • 表达完整意思的语言单位
  • 具有语法独立性
  • 包含主语和谓语的基本结构

句子类型

  • 陈述句:表达事实或观点
  • 疑问句:提出问题
  • 祈使句:表达请求或命令
  • 感叹句:表达强烈情感

句子表示

词向量组合

  • 词袋模型(BoW):忽略词序的简单加和
  • TF-IDF加权:考虑词的重要性
  • 序列模型:RNN/LSTM考虑词序信息

句子嵌入

  • Skip-Thought:预测上下文句子
  • InferSent:基于监督任务的表示
  • Sentence-BERT:基于BERT的句子表示

句法结构表示

  • 依存树:表示词间依存关系
  • 成分树:表示短语结构关系
  • 图表示:结合多种关系

句子级处理

句子分割

  • 将连续文本分割为句子
  • 中文难点:句号的多功能性
  • 方法:基于规则、机器学习

句子压缩

  • 保留核心信息的简化
  • 删除冗余成分
  • 应用于摘要生成

句子改写

  • 保持语义的句式变换
  • 主动被动转换
  • 应用于数据增强

应用场景

  • 机器翻译:句子级对齐与生成
  • 文本摘要:关键句子抽取
  • 问答系统:问句理解与答案生成

篇章层面(Discourse Level)

篇章结构

基本概念

  • 由多个句子组成的连贯整体
  • 具有主题一致性和逻辑连贯性
  • 包括引言、主体、结论等结构

衔接手段

  • 指代:代词、指示词
  • 连接词:因为、所以、但是
  • 词汇衔接:重复、同义、上下位
  • 省略:承前或蒙后省略

篇章关系

  • 因果关系:因为…所以…
  • 转折关系:虽然…但是…
  • 并列关系:一方面…另一方面…
  • 时序关系:首先…然后…最后…

篇章分析

指代消解

  • 确定代词或名词短语的指代对象
  • 例:"小明迟到了。他很抱歉。"中"他"指代"小明"
  • 方法:基于规则、机器学习、深度学习

主题建模

  • LDA:潜在狄利克雷分配
  • 发现文本的潜在主题分布
  • 应用于文本聚类和分类

情感轨迹分析

  • 跟踪篇章中情感的变化
  • 识别情感转折点
  • 应用于评论分析和文学研究

篇章表示

全局向量

  • 平均所有句子向量
  • 加权平均(如TF-IDF权重)
  • 层次化组合

图表示

  • 节点表示句子或概念
  • 边表示关系
  • 应用于摘要生成

记忆网络

  • 存储和检索篇章信息
  • 处理长距离依赖
  • 应用于问答系统

应用场景

  • 自动摘要:提取核心内容
  • 问答系统:多句推理
  • 文本生成:保持篇章连贯

语言模型与概率语法

语言模型基础

基本概念

语言模型定义

  • 计算词序列概率的模型
  • 评估句子的流畅度和合理性
  • 形式化描述:P(w₁,w₂,…,wₙ)

应用领域

  • 语音识别:选择最可能的词序列
  • 机器翻译:评估翻译候选
  • 文本生成:预测下一个词

N-gram模型

马尔可夫假设

  • 当前词只依赖前n-1个词
  • 简化概率计算:P(wᵢ|w₁,…,wᵢ₋₁) ≈ P(wᵢ|wᵢ₋ₙ₊₁,…,wᵢ₋₁)

模型训练

  • 最大似然估计
  • 计数与归一化
  • 平滑技术(加一、Good-Turing等)

局限性

  • 数据稀疏问题
  • 长距离依赖难以捕捉
  • 上下文信息有限

神经网络语言模型

前馈神经网络模型

基本结构

  • 输入层:前n-1个词的one-hot表示
  • 嵌入层:学习词向量
  • 隐藏层:非线性变换
  • 输出层:预测下一个词的概率分布

优势

  • 分布式表示缓解数据稀疏
  • 自动学习特征组合
  • 更好的泛化能力

循环神经网络模型

RNN结构

  • 循环处理变长序列
  • 隐藏状态传递历史信息
  • 应用于语言建模

LSTM/GRU

  • 解决梯度消失问题
  • 长距离依赖建模
  • 更稳定的训练过程

Transformer模型

自注意力机制

  • 全局上下文建模
  • 并行计算优势
  • 位置编码处理词序

预训练语言模型

  • BERT:双向上下文表示
  • GPT:自回归生成模型
  • 强大的迁移学习能力

概率语法模型

概率上下文无关文法

基本概念

  • 为CFG规则赋予概率
  • P(X → γ)表示规则应用概率
  • 句子的概率是推导路径概率的乘积

参数估计

  • 从树库中计数规则应用
  • 最大似然估计
  • 平滑处理稀疏规则

应用

  • 句法分析
  • 句子概率评估
  • 歧义消解

依存语法模型

概率依存文法

  • 为依存关系赋予概率
  • 基于词汇共现统计
  • 考虑距离和语法约束

解析算法

  • 基于图的算法(Eisner算法)
  • 基于转移的算法
  • 神经网络解析器

语言资源与标注

语料库资源

通用语料库

英文语料库

  • Brown Corpus
  • British National Corpus (BNC)
  • Corpus of Contemporary American English (COCA)

中文语料库

  • 北京大学现代汉语语料库
  • 国家语委现代汉语平衡语料库
  • 中文维基百科语料

标注语料库

词性标注语料

  • Penn Treebank
  • 中文树库(CTB)

句法树库

  • Penn Treebank
  • Chinese Dependency Treebank

语义标注语料

  • PropBank(语义角色)
  • FrameNet(框架语义)
  • Semeval(语义关系)

词汇语义资源

英文资源

WordNet

  • 同义词集合(synset)
  • 词汇关系网络
  • 广泛用于NLP研究

FrameNet

  • 基于框架语义学
  • 标注语义角色
  • 丰富的例句资源

中文资源

HowNet

  • 中英文概念词典
  • 义原分析系统
  • 语义关系网络

同义词词林

  • 中文同义词分类
  • 层次化组织结构
  • 词汇扩展资源

评估数据集

标准任务数据集

分词与词性标注

  • PKU标注语料
  • MSRA标注语料

句法分析

  • Chinese Treebank
  • CTB 5.1/6.0/7.0

语义分析

  • Chinese PropBank
  • NLPCC评测数据

应用任务数据集

文本分类

  • THUCNews
  • Fudan Corpus

情感分析

  • ChnSentiCorp
  • Weibo Sentiment Corpus

问答系统

  • NLPCC QA数据集
  • WebQA

语言学与NLP的交叉研究

计算语言学

研究领域

语音技术

  • 语音识别
  • 语音合成
  • 语音转换

语法分析

  • 自动句法分析
  • 文法归纳
  • 树库构建

语义计算

  • 词义消歧
  • 语义角色标注
  • 语义相似度

认知语言学与NLP

语言习得建模

儿童语言习得

  • 词汇增长模型
  • 语法发展模拟
  • 认知启发的NLP

神经认知模型

  • 大脑语言处理模拟
  • 神经符号系统
  • 多模态学习

语言进化建模

计算模拟

  • 词汇形成
  • 语法涌现
  • 文化传播

多智能体系统

  • 交流系统演化
  • 符号接地问题
  • 语言游戏模型

社会语言学与NLP

语言变异处理

方言识别

  • 语音特征分析
  • 词汇差异建模
  • 方言机器翻译

社会语言特征

  • 年龄、性别识别
  • 教育水平预测
  • 地域方言分析

语言政策支持

语言资源建设

  • 少数民族语言
  • 濒危语言保护
  • 多语言技术开发

语言教育技术

  • 计算机辅助学习
  • 自动作文评分
  • 个性化教学系统