在线av. 汉语篇章连合研究综述

1 小序 东谈主们连合天然语言普通是在篇章级进行的.作为天然语言处理的一个中枢任务, 篇章分析(discourse analysis)的主要任务即是从举座上分析出篇章结构过头组成单元之间的语义关系, 并利用潦倒文连合篇章.凭证不同的篇章分析目的, 篇章单元过头关系可以暗示为不同的篇章基本结构.篇章结构可以是篇章里面关系的不同结构化抒发体式, 主要包括修辞结构、话题结构、指代结构、功能结构、事件结构等鸿沟[1].从语言学角度讲, 这些不同的结构抒发体式从不同的角度对篇章进行态状; 从计算打算的角度...


1 小序

东谈主们连合天然语言普通是在篇章级进行的.作为天然语言处理的一个中枢任务, 篇章分析(discourse analysis)的主要任务即是从举座上分析出篇章结构过头组成单元之间的语义关系, 并利用潦倒文连合篇章.凭证不同的篇章分析目的, 篇章单元过头关系可以暗示为不同的篇章基本结构.篇章结构可以是篇章里面关系的不同结构化抒发体式, 主要包括修辞结构、话题结构、指代结构、功能结构、事件结构等鸿沟[1].从语言学角度讲, 这些不同的结构抒发体式从不同的角度对篇章进行态状; 从计算打算的角度来看, 它们可用线性序列、树和图等数据结构进行抽象暗示.跟着词法、句法分析工夫的不停闇练在线av., 篇章分析已成为制约天然语言处剃头展的一个瓶颈.

作为篇章分析的基本观念, 篇章(discourse)又称为语篇或文本, 是由一系列一语气的词、短语、子句、句子或段落组成的语言举座单元[1].这里, 词被以为是天然语言中稀奇念念真谛的最小单元, 接踵可以组成短语、子句和句子, 句子又可以组成段落, 并最终组成篇章.需要强调的是, 篇章不是其组成单元的无序堆砌, 只好当构建的举座单元潦倒连贯相互关联, 所含信息举座一致, 抒发完竣的念念想和意图, 能力具有明确的真谛真谛, 从而称为篇章.以图 1给出的两个例子进行对比说明.在例1中, 尽管每个独处子句语义正确, 句法完竣, 但是按序阿谀在一齐并不简略组成一个篇章.原因在于, 这些子句所抒发的真谛真谛相互没酌量联, 难以形成一个举座, 也无法抒发明确的主题.与此比拟, 例2中, 尽管有些子句的句法因素缺失(例2所示的段落由6个基本篇章单元组成, 基本篇章单元分别用(a)~(f)暗示; ⟨⟩扩起的内容暗示篇章关系中缺省的阿谀词; []暗示对应子句在该位置短少关系的句法因素), 然则借助于句子之间的真谛真谛关联, 可以构建形成一个以“李四”作为中心话题的语言举座, 因而组成了一个篇章.

Fig. 1 Chinese discourse examples 图 1 篇章示例

篇章一般围绕某个话题伸开.篇章信息的一致性(篇章信息性)和篇章意图的举座性(篇章意图性)普通阐扬为一个话题, 该话题的完竣性从体式和内容两方面分别体现为篇章的两大基本脾气, 即篇章连贯性(coherence)和篇章衔尾性(cohesion).篇章衔尾性和篇章连贯性分别从内容和体式两个方面保证了篇章所要抒发的意图性, 即作家所要抒发话题的正确性和可连合性, 二者相互依赖, 相互补充.

具体而言:一方面从篇章连贯性角度, 话题在体式上的完竣性常常体现为某种篇章基本组成单元通过递归组合, 基于不同层面的逻辑关捆绑合, 形成一种修辞上的档次化结构, 即篇章修辞结构.如图 2所示, B和C之间组成比肩关系, B和C皆是中心, BC的组合和A组成递进关系, ABC的组合和DEF的组合之间组成更正关系, DEF的组合为中心.各基本篇章单元组合后形成高一级篇章单元, 进而通过再组合形成更高一级篇章单元, 如斯层层组合, 最终可以暗示成一棵篇章修辞结构树.各层篇章单元赖以组合的原因在于其间存在一些为数未几的、反复出现的修辞结构关系(如比肩、递进等), 这些修辞结构关系巧合以阿谀因素作为体式标记(如例2中的“既…又…”), 巧合则澈底隐含(如例2中的缺省阿谀词, “⟨而且⟩”).

Fig. 2 Discourse rhetorical structure of the second example shown in Fig. 1 (the EDUs indicated by arrows are nuclearities) 图 2 图 1中例2对应的篇章修辞结构(箭头所指为主要篇章单元)

上述篇章修辞结构的分析驱散对篇章话题连合相等重要.举例, 在自动问答系统中, 通过例2中的因果关系, 可以较容易地自动抽取出关系问题的谜底:“指导相等器重他”的原因是“非论作念啥事情, 他皆进展负责”.又比方, 对于自动文摘而言, 凭证图 2中最高层的“更正”关系, 可以得出“基本篇章单元DEF的组合”比“基本篇章单元ABC的组合”更重要; 而对于次一级“因果”关系而言, “基本篇章单元F”可能比“基本篇章单元DE的组合”更重要; 如斯层层激动, 最终可以得到该段篇章的中枢话题, 即为“基本篇章单元F”.天然, 上述激动流程的达成, 主要依赖于篇章关系传递性及中心指向原则.

另一方面, 从篇章衔尾性角度来看, 话题在内容上的完竣性常常体现为念念维的发射性与抒发的线性之间的有机酌量.这里所谓“念念维的发射性”是指一个话题(或称主题)由多少子话题(或称小主题)组成, 而“抒发的线性”则是指各分话题的排序应合适念念维的逻辑性和顺序性, 两者一齐组成篇章话题结构.

比方仍然以例2作为分析对象, 对于自动问答系统而言, 咱们简略利用图 2所示的篇章修辞结构为问答系统提供为什么“指导相等器重他”的谜底(即回话“Why”问题), 但是, 如果需要提供“‘他’是谁?”这么的问题谜底(即回话“Who”问题)时, 图 2所示的篇章基本结构就显过劲不从心了.这时, 需要咱们构建如图 3所示的篇章话题指称结构来惩处该问题.通过其所含的指称衔接关系, 咱们就简略回话问题“‘他’是谁?”中的“他”即指“李四”.不外, 与上述篇章修辞结构类似, 图 3中的单一篇章指称结构也只简略惩处“Who”这一类问题, 对“Why”问题窝囊为力.

Fig. 3 Discourse anaphor structure of the second example shown in Fig. 1 (the mentions indicated by arrows are the antecedents) 图 3 图 1中例2对应的篇章指代结构(箭头所指为先行词)

不同篇章基本结构过头关系的研究可以提供不同层面的篇章连合.赫然, 篇章修辞结构和篇章话题结构这两者相互依赖, 相互补充.对于需要惩处包含5W1H问题(Who, Why, Where, When, What, How)的篇章连合而言, 垂死需要结伴不同类型的篇章结构共同惩处不同类型的篇章连合问题.

2 国表里关系研究

篇章连合是天然语言连合的最终主张.领略科学家和语言学家对这个问题的研究, 始于20世纪70年代.其中, 观念依存(concept dependency)表面[2]开启了篇章连合研究的先河, 剧本(script)要领紧随后来, 用于分析连合某种具体的场景“故事”.通过对内容的简化处理, 类似剧本要领的工夫念念想照旧在信息抽取(information extraction)领域得到奏效应用.然则, 剧本要领的颓势在于对领域所在场景存在过度依赖, 导致剧本的构建需要随时同步场景变化.这对于有些无法暗示为场景的篇章而言, 很难剿袭该类要领加以分析连合, 因而进一步需要发现更为通用及灵通的结构来暗示篇章.为达到此目的, 通过探寻篇章的基本特征来寻求惩处之谈不失为可行要领.

篇章的7个基本特征[1]已被天然语言处理领域的研究者广为接受, 其中, 前4个基本特征, 即连贯性(coherence)、衔尾性(cohesion)、信息性(informativity)及意图性(intentionality)更是有劲地促进了天然语言处理研究的发展[3-9].通过分析篇章的衔尾性和连贯性, 可以发现篇章上层的体式暗示; 而通过分析篇章的信息性和意图性, 则可以挖掘篇章的语义特征.同期, 后两者的分析流程需要夙昔两者为基础关联起来概述谈判.举例, 从内容暗示角度, 篇章的信息性注重新旧信息的变化激动, 强调在合适衔尾和连贯的特质下, 怎么合理、适合地向读者传递新信息.比拟于传递新信息的篇章信息性, 篇章意图性更热心作家通过传递新信息后所产生的某种欲望影响, 这也反馈了读者对篇章的连合进度.因此, 篇章的信息性和意图性与篇章连合存在着密切的深层关系.

不管西方语言或者汉语, 篇章的衔尾性和连贯性皆是最需要热心的两个问题, 是篇章的两个最基本特征[1].连贯体现篇章的举座性, 是篇章中句子级的关联, 剿袭句子间的语义阿谀来暗示篇章的关联.而衔尾是一种词汇级的关联, 剿袭词汇(或短语)之间的语义关联来暗示篇章中各语言单元之间的关联.从抒发和内容两个角度, 通过篇章的连贯性和衔尾性的共同作用, 篇章的信息性和意图性得以体现, 即作家所要抒发话题的正确性和可连合性得到保证.

可以看到, 篇章的信息性和意图性的研究是以篇章的衔尾性和连贯性研究为基础的, 当今, 篇章分析的研究主要聚会在衔尾性和连贯性的研究方面, 底下分别从篇章结构分析的表面研究、资源开发、计算打算模子这3个方面, 要点探讨篇章修辞结构(体现篇章连贯性)和话题结构(体现篇章衔尾性)这两种结构, 从而充分展现国表里研究近况.

2.1 表面研究

篇章结构表面主要有浅层衔尾表面[10]、Hobbs模子[4, 5]、修辞结构表面(rhetorical structure theory)[6, 7]、宾州篇章树库表面(Penn discoursetreebank)[11, 12]、意图结构表面(intentional structure theory)[8]、主述位结构表面[13]、主位激动表面(thematic progression theory)[14, 15]、句群表面[16]、复句表面[17, 18]、基于阿谀依存树的汉语篇章结构(connective-drivendependency tree)表面[19, 20]、广义话题结构表面[21-23]等.

2.1.1 篇章修辞结构表面体系

触及篇章修辞结构表面体系的表面主要包括Hobbs模子、修辞结构表面、宾州篇章树库表面、汉语句群表面、汉语复句表面、基于阿谀依存树的汉语篇章结构表面等.

(1) Hobbs模子

Hobbs模子[4, 5]提议篇章单元和篇章单元间的阿谀关系是组成篇章结构的基本部分.其中, 篇章单元可以是子句、句子、句群, 致使是篇章自身, 而阿谀关系是指篇章单元间的语义关联性.Hobbs界说了12类关系, 包括:胪陈、比肩、驱散、配景和时机等.

(2) 修辞结构表面

修辞结构表面(RST)[6, 7]是一种基于树状模子的修辞结构表面, 早期应用于计算打算机文本自动生成, 当今主要作为篇章结构和功能态状研究的表面基础.RST与Hobbs模子具有很大的相似性, 共界说了4大类、25小类修辞关系, 每个关系可阿谀两个或多个篇章单元.如果修辞关系阿谀的篇章单元间存在主次, 那么中心信息单元称作“核(nucleus)”, 传达撑抓信息的其他单元称作“卫星(satellite)”.当修辞关系阿谀的单元无主次之分时, 则称其为“多核”关系.与Hobbs模子比拟, RST更防御句子里面的结构, 篇章单元可以小到短语或语块.RST以为功能语块是最基本的篇章单元(elemental discourse unit, 简称EDU), EDU间的语义关系具有灵通性和可推行性.在RST构造出来的树形结构中, 叶节点、非叶节点、曲线和垂直线分别暗示EDU单元、一语气文本块、修辞关系和中枢语块.这里的“中枢”与RST中的3个基本观念之一, 中枢地酌量.中枢地是指篇章由提拔单元和中枢单元组成, 具有分歧称性.RST的另外两个观念分别是“制约因素”和“效果”, 前者暗示提拔篇章单元及中枢篇章单元至少有一个具有制约脾气, 从而标明命题存在的必要性; 后者暗示篇章关系的证明机制, 即可以用关系达到的效果反向证明关系自身.

(3) 宾州篇章树库表面

宾州篇章树库(PDTB)[11, 12]表面将源自修辞结构表面的篇章修辞关系作了纠正, 将其离别红3层, 其中, 第1层共4大类, 第2层16类, 第3层23类.比拟RST, PDTB体系突显了篇章修辞关系中阿谀词的作用, 它以阿谀词为中枢, 凭证有无显式的阿谀词将篇章关系区分为显式和隐式关系, 并对隐式关系东谈主工添加了可暗示现时语义关系的阿谀词, 在此基础上再标注关系的篇章单元.另外, PDTB体系中的篇章单元不再谈判短语级, 将从句作为最小篇章单元, 从而大幅度增多了实用性.

(4) 汉语复句表面

汉语复句表面肇端于19世纪末, 盛大以为是以1898年马建忠的《马氏文通》出书为标志[24], 创建了汉语复句表面.《马氏文通》是最早参议到复句问题、初度把复句问题引入汉语语法表面领域的语法文章.然则, 另外也有东谈主以为《马氏文通》在分析句子因素时使用的是我方的一套“句读论”, 天然照旧分析出了许多基本复句类型, 但并未明确提议“复句”的观念, 是“有实无名”.实在首先提议汉语复句系统之“名”的是严复的《英文汉诂》.

复句由两个或两个以上真谛真谛关系、结构上互不作为句子因素的分句组成.分句是结构上类似单句而莫得完竣句调的语法单元.复句中的各个分句之间一般有停顿, 书面上用逗号、分号或冒号暗示; 复句前后有挫折性语音停顿, 书面上用句号或问号、叹号暗示.语法上是指能分红两个或两个以上很是于单句的分段的句子.合并复句里的分句, 说的是酌量系的事.一个复句只可有一个句终语调, 不同于一语气几个单句[17, 18].

(5) 汉语句群表面

句群也叫句组, 由前后连贯共同暗示一个中心真谛的几个句子组成.如同分句组成复句, 句子组合成为句群一样的意思[16].语法学对句群的研究最早始于黎锦熙等东谈主[25], 在我国汉语语法研究史上初度详细地回报句群, 并提议了“句群是介乎复式句和段落之间的一种语言单元”的界说.

从组成因素来看, 句群是句子的组合, 至少需要有两个句子组合而成的语言单元能力叫作句群.从语义酌量上看, 组成句群的句子之间要有紧密的逻辑关系, 它们必须共同领有一个中心念念想.从组合口头来看, 几个句子诓骗一定的口头组合在一齐成为一个句群, 组合口头有两种:语义组合和关联组合.

句群的分类角度有好多, 举例:凭证句群中句子的结构关系分类, 可以将其分为“比肩关系”“连贯关系”“递进关系”等12种类别.从句群的功能角度来看, 则可将其分为主题句群、过度句群和插入句群三大类.句群分类大皆是鉴戒句子和复句的分类要领, 分类要领繁多, 还未形成结伴的表率.

(6) 基于阿谀依存树的汉语篇章结构表面

苏州大学天然语言处理实验室结合PDTB体系中阿谀词驱动政策和RST体系中篇章树形暗示结构的上风, 同期结合汉语复句和句群表面, 提议了一种基于阿谀依存树(connective-driven dependency tree, 简称CDT)的汉语篇章结构暗示体系[19, 20, 26].该表面对完竣的篇章结构(包括篇章单元、阿谀词、篇章结构、篇章关系、篇章主次)进行了系统的界说和态状.在该基于阿谀依存树的篇章结构中, 叶子节点暗示基本篇章单元(elementary discourse units, 简称EDUs), 里面节点为阿谀词(connective), 由阿谀词阿谀的基本篇章单元组合称为篇章单元(discourse units, 简称DUs).各子句之间通过阿谀词形成更高一级的篇章单元, 档次组合直至形成一棵完竣的篇章结构树.阿谀词既可以暗示篇章单元档次, 也可以暗示篇章单元之间的逻辑语义关系, 一个阿谀词可以阿谀两个或多个篇章单元, 篇章单元凭证在篇章中的重要进度可分为主要篇章单元和次要篇章单元.

2.1.2 篇章话题结构表面体系

触及篇章话题结构表面体系的主要包括浅层衔尾表面[10]、主述位结构及激动模式表面[13-15]、意图结构表面[8]、话题链表面[27-32]、广义话题结构[21-23]、微不雅话题结构表面[33, 34]等.

(1) 浅层衔尾表面

浅层衔尾表面是最早研究篇章衔尾关系的表面体系.浅层衔尾表面[10]指出, “当篇章中的某个因素的证明依赖于篇章中另一个因素的证明时, 这两个因素之间就产生了衔尾关系”; 衔尾口头普通分为语法衔尾和词汇衔尾两大类, 其中语法衔尾办段包括指称、不祥、替代和(逻辑)阿谀, 阿谀又离别为增补型(additive)、更正型(contrastive)、原因型(causal)、时候型(temperal)4类, 词汇衔尾办段包括词汇的访佛和搭配.

Grimes在深化Halliday的浅层衔尾表面时谈判了非词汇化的命题关系, 给出了更详细的衔尾关系类别.此外, Grimes初度提议了衔尾关系的论元有主次之分, 并明确指出, 比肩(paratactic)关系的论元同等重要, 而主从(hypotactic)关系的论元有主次之分.

(2) 主述位表面

主述位表面中的主位、述位两个观念, 最早来自于布拉格门户提议的功能语句不雅表面框架[13-15].Mathesius从功能语句不雅的角度提议主位、述位信息表面, 用于态状句子所传递的信息结构.主位是指在既定语境中已知或至少是赫然的信息, 是语言东谈主信息的起点; 述位是话语的中枢, 是语言东谈主对主位的阐发.

Mathesius对主位的界定触及3个方面的内容:句首性(sentence-initialness)、关系性(aboutness)、信息的新旧性(informational status).随后, Firbas又从“交际能源”的角度对主位作了进一步阐释:他提议主位是已知信息, 所承载的交际能源低; 述位是新信息, 所承载的交际能源高; 主位-述位的激动更迭推动了篇章交际能源的动态传递.

而后, 以Halliday(1994年)为代表的系统功能语言门户以为布拉格门户对主位的界定有些含混, 故区分了主位研究的两个档次:句法档次上的主位-述位结构和语意档次上的信息结构.主位-述位结构是从篇章产生的角度来界定的, 隆起小句或话语的起始, 而信息结构(已知/未知信息)是从篇章接受的角度来界定的, 侧重篇章解读者对信息的处理.

从篇章功能的角度来看, 每个小句和小句复合体的第1个句法因素是主位, 其余因素是述位.从系统功能语法学角度来看, 主位和述位一齐组成一则信息, 主位是信息的起始, 是小句组合的基础; 述位是对主位的阐释和发展.

(3) 意图结构表面

意图结构表面由Grosz和Sidner最早提议[8], 他们以为篇章是包含意图的, 原因在于篇章的作家即是怀有抒发自身意图的目的运行写稿的.是以, 篇章意图的证明应该和篇章内容一样纳入篇章结构表面的研究鸿沟, 因而意图结构澈底可以成为篇章结构表面的基础.在他们提议的篇章结构中, 包括3个方面, 分别是语言结构(linguistic structure)、意图结构(intentional structure)、焦点状态(attentional state).

凭证Grosz和Sidner对篇章结构的界说, 篇章意图(discourse purpose, 简称DP)由篇章段意图(discourse segment purpose, 简称DSP)瓦解和抒发, 显现出篇章意图的档次性特质.合并个意图层, 如果DSP1有助于抒发DSP2, 则DSP2占主导地位, 称为独揽(dominance)关系, 独揽关系与修辞结构表面中的“中枢-卫星”结构相似, 因此可以看作是主次关系在篇章意图层上的界说.

Moser和Moore的研究标明, 意图结构表面和修辞结构表面之间存在共性, 如意图结构中的独揽和修辞结构表面中的核相对应.

(4) 话题链表面

曹逢甫[27]最早提议了汉语话题链(topic chain)的观念, 精采地分析了话题在限度小句阿谀方面的作用.话题链的形成主要依赖各式指代回指(anaphor)体式, 即零形回指(zero anaphor, 简称ZA)、代词回指(pronoun anaphora, 简称PA)和名词回指(nominal anaphor, 简称NA)的给与要领.曲承熹[28]总结了前东谈主的研究恶果, 提议了操作性较强的话题链界说“一组以零回指ZA体式的话题阿谀起来的小句”.

刘礼进[29]使用东谈主工标注的小规模汉英篇章对比语料库, 深刻分析了话题链在汉英篇章的宏不雅语义结构态状功能上的互异情况; 孙坤[30]对英汉篇章组织模式进行了对比研究; 王开国[31]把话题链的态状作用从句子拓展到句群和篇章, 重新界说话题链为“由合并话题勾引的系列语句”, 并深刻分析了话题链在汉英篇章中的不同态状特质; 周强[32]引入话题链态状体式, 想象不同类型的话题评述关系集, 构建了以话题链为主, 交融然则语和其他连贯体式的态状机制.

话题链是指由各个话题阿谀而成的链条.凭证话题疏通与否以及是否包含不同话题, 话题链可分为“同题链”“异题链”和“包题链”3种基本类型.同题链是疏通的话题形成的话题链; 异题链是由不同的话题形成的话题链; 包题链是由有包容关系的话题形成的话题链.在现实的篇章中, 同题链、异题链、包题链层层相套, 相互交错, 交汇形成话题网, 共同激动篇章的发展(生成).

(5) 广义话题结构表面

宋柔等东谈主针对汉语篇章话题结构进行了比较深刻的研究, 凭证汉语篇章的特质, 以标点句为基础, 给出了广义话题结构的观念和相应的暗示要领, 提议了“话题的不可穿越性”和“话题句的成句性”两个广义话题结构性质; 态状了汉语的话题结构和话题句特征, 给出了话题句动态堆栈模子[21-23].这一研究恶果是汉语篇章分析领域的一项始创性责任.但同期, 广义话题表面的动态堆栈模子, 强音调句语法因素的完竣性, 在分析层面态状粒渡过细, 在操作层面也靠近可计算打算问题.

(6) 微不雅话题结构表面

苏州大学天然语言处理实验室在分析话题结构关系表面的基础上提议了基于主述位表面的篇章微不雅话题结构暗示体系[33, 34].该体系从篇章视角诞生基本微不雅话题单元, 将该单元暗示成包含主位和述位的实体体式化暗示模式, 并基于主位激动表面搭建基本微不雅话题的潦倒文关联模式, 再交融实体和潦倒文关联形成完竣的汉语篇章话题结构暗示体系.

户外内射 2.2 资源开发

当今篇章结构的资源开发主要与上述篇章修辞结构(篇章连贯性)和篇章话题结构(篇章衔尾性)表面体系关系, 代表性资源包括修辞结构篇章树库(rhetorical structure theory discourse treebank, 简称RST-DT)[35]、宾州篇章树库(Penn discourse treebank, 简称PDTB)[36]、ACE(automatic content extraction)评测语料[37]、ARRAU[38]、OntoNotes[39]和篇章图库(GraphBank)[40]等.

2.2.1 篇章修辞结构资源开发

当今与篇章修辞结构酌量的英文资源主要包括宾州篇章树库PDTB[36]和修辞结构篇章树库RST-DT[35].

(1) PDTB:由好意思国宾夕法尼亚大学、意大利托里诺大学和英国爱丁堡大学结伴标注, 并由LDC(linguistic data consortium)于2006年正经发布.2008年PDTB 2.0发布, 它是当今规模最大的英文篇章语料库, 共标注了40 600个关系, 其中, 包括18 439个显式篇章关系, 16 224个隐式篇章关系, 624个由非阿谀词暗示的篇章关系, 5 210个通过实体访佛或共指暗示的关系, 还有254个相邻句子不存在所界说的关系.

(2) RST-DT:由好意思国南加州加利福尼亚大学标注, 并由LDC于2002年正经发布.RST-DT选用宾州树库的文章构建二叉修辞结构树.RST-DT对EDU进行了严格的界说, 章程主语或宾语从句不属于EDU, 充任主要动词的补语的从句也不属于EDU.此外, 统共词汇或句法标记的起状语作用的从句属于EDU, 定语从句、后置的名词修辞短语或将其他EDU分割开的从句或非谓语动词短语为内置语篇单元.RST-DT完成了85篇文章的标注, 共标注了53种单中枢关系和25种多中枢关系, 这78种关系又分红16个组别, 每组皆具有疏通的修辞功能.标注的文章内容触及到财政报谈、营业新闻、文化点评、读者来信等多种话题.

比拟英语, 汉语篇章修辞结构的资源构建主要剿袭4种要领.

(1) 基于RST的标注

乐明[41]以RST为指导, 参考汉语复句和句群表面, 进行了篇章结构标注的尝试.他界说了12类47种汉语修辞关系, 以句号、问号、叹号、分号、冒号、破折号、不祥号及段落驱散符等为标记界说汉语基本篇章单元, 完成97篇财经驳斥文章的修辞结构标注, 探索了中语篇章分析中剿袭RST的可行性.陈莉萍[42]试图剿袭RST标注汉语篇章, 其基本篇章单元以标点分割, 如“当今, …”中的“当今”也会作为基本篇章单元.他们的研究皆标明RST的好多篇章关系无法在汉语中找到与之对应的关系.

(2) 基于PDTB体系的标注

Zhou和Xue[43]尝试使用PDTB体系标注汉语, PDTB体系以阿谀词为谓词标注其论元结构, 结合汉语自身的特质对PDTB体系进行了纠正, 并以此为参考从中语树库(Chinese Treebank, 简称CTB)中选取了98篇新闻语料进行了标注.2015年, Zhou和Xue[44]进一步将该语料扩大到164篇, 并最终提交LDC对外进行发布.但汉语中阿谀词大皆缺省, PDTB体系阐扬出很大的不顺应; 又由于阿谀词并不行遮掩每一个篇章单元, PDTB体系普通不行构建一个完竣的篇章结构, 这对篇章结构分析而言赫然短少了很重要的内容.张牧宇等东谈主[45]在英文篇章关系研究的基础上分析了中英文的互异, 总结了中语篇章语义分析的特质, 提议一套面向中语的档次化篇章关系体系, 并进行了标注实行, 当今发布了哈尔滨工业大学中语篇章关系语料(HIT-CDTB), 该语料选取LDC发布的OntoNotes 4.0中的525篇汉语文本按照PDTB体系进行了分句、复句和句群3个档次的篇章关系的标注.标注内容包括显式篇章关系的关系阿谀词、关系元素和关系类别信息; 以及隐式关系的可插入的阿谀词和篇章关系类别信息.他们将篇章关系分为时序、因果、条目、比较、推广和比肩这6类, 标注的关系阿谀词共1 472类.

(3) 剿袭汉语原土复句和句群表面标注

参考邢福义的汉语复句研究恶果[17], 华中师范大学标注了汉语复句语料库[46], 当今已收有标复句658 447句, 约44 395 000字, 语料开头以《东谈主民日报》和《长江日报》为主.但汉语有标复句只占汉语复句的30%驾驭, 这就使得该语料库的应用受到很大限度.而且该语料库仅热心复句里面关系, 莫得触及句子过头以上篇章单元的结构问题, 这赫然不行得志篇章结构分析的需求.清华汉语树库(Tsinghua Chinese Treebank, 简称TCT)[47]是从大规模的经过基本信息标注的汉语均衡语料库中提真金不怕火出100万汉字规模的语料文本, 经过自动断句、自动句法分析和东谈主工校对, 形成的高质料汉语句法树库语料.TCT中标出了复句内各分句之间的关系信息, 复句分类剿袭比较常用的比肩关系、连贯关系、递进关系、给与关系、因果关系、目的关系、假定关系、条目关系、更正关系分类要领.但清华汉语树库中莫得标注特定复句关系所对应的复句关系词, 也莫得标注句子之间的关系.

(4) 基于阿谀依存树的篇章结构资源开发

苏州大学天然语言处理实验室结合PDTB和RST体系的上风, 提议了使用阿谀依存树(CDT)暗示汉语篇章修辞结构的决策, 并基于该决策, 选取宾州汉语树库6.0版(Penn Chinese TreeBank, CTB 6.0)上的500篇文章进行了篇章修辞结构的标注, 构建了汉语阿谀词驱动的篇章语料库(CDTB)[19, 20], 每个段落标注为一棵阿谀依存树, 共有用标注2 342个篇章(段落), 标注信息包括基本篇章单元、阿谀词、篇章结构、篇章关系和主次篇章单元.

表 1给出了篇章修辞结构的4种中枢体系的对比情况, 从中可以看出, CDT鉴戒了RST、PDTB和汉语的复句、句群表面, 一方面明确了EDU和篇章树结构, 谈判汉语中的复句, 以标点句作为EDU判别的基本依据; 另一方面兼顾了阿谀词在篇章关系中的地位, 以阿谀词为关系类别判断的基点, 可达成关系不同分类体系的挪动.

Table 1 Comparison of several important architectures of discourse rhetorical structure 表 1 篇章修辞结构的中枢体系的对比

表 2给出了3个具有一定影响力的汉语篇章修辞结构语料库的对比情况, 其中, HIT-CDTB和LDC-CDTB皆校服了PDTB体系, 进行了篇章关系的浅层标注, SUDA-CDTB则校服了CDT体系, 进行了篇章树结构的标注.

Table 2 Comparison of Chinese corpora for discourse rhetorical structure 表 2 汉语篇章修辞结构语料库对比 2.2.2 篇章话题结构资源开发

篇章话题结构方面的语料库相对较少, 主要包括面向话题指称结构、面向篇章意图性、汉语篇章广义话题结构和基于主述位表面的汉语微不雅话题语料库资源开发等.

(1) 面向话题指称结构的语料库资源开发

指称结构是一种存在于篇章中前后两个语言单元之间的特殊语义衔尾关系, 而细目两者的流程即称为指称消解.当今主要的语料资源有ACE评测语料[37]、ARRAU语料库[38]、OntoNotes语料库[39].

➢   ACE评测语料

ACE是好意思国政府支抓的天然语言处理重要会议, ACE语料评测肇端于2000年, 自2004年运行引入中语语料.ACE评测语料基于之前的MUC评测语料, 其中的指代信息剿袭指代链的体式标注而成, 每个指代链独处编号并被纪录在文献中, 而疏通指代关系的实体皆位于合并个指代链上.MUC和ACE评测语料为面向衔尾关系的天然语言处理研究提供了重要的语料资源, 但在它们通过指代形成的语料衔尾关系资源中, 只是标注了显式实体指代, 而忽略了对隐式实体(或称为不祥)的指代标注.

➢   ARRAU语料库

由University of Trento(意大利)和University of Essex(英国)针对较难处理的指代问题, 结伴设置的指代标注语料库.该语料包括对话、说明文和新闻报谈, 不仅标注了实体指代, 也标注了抽象指代(如事件、行动指代), 但并不包含汉语部分.

➢   OntoNotes语料库

由BBN Technologies、University of Colorado(好意思国)、University of Pennsylvania(好意思国)和University of Southern California’s Information Sciences Institute(好意思国)相互互助创立.OntoNotes集成了多层面的标注, 包括词汇层面、句子层面和篇章层面的标注, 并不为特定评测劳动.OntoNotes在篇章层面主要包含实体间以及事件的共指关系.OntoNotes中既包含英语, 也包含汉语, 汉语部分还标注了主语位置的零指代信息.

虽然面向话题指称结构的语料库资源相对丰富, 但是对于汉语中相等隆起的零指代问题, 资源却相等匮乏.OntoNotes语料虽然包含了少许的主语位置的零指代信息, 但该语料更多热心的是句法因素的缺失, 面向篇章分析的零指代标注资源极其匮乏.

(2) 篇章意图性资源开发

为克服子句间的多种篇章关系不行被树模子的篇章结构有用抒发这一颓势, Wolf和Gibson提议了通过图结构暗示篇章的要领[40], 并研究了篇章图库(discourse graph bank, 简称DGB)的构建问题.同期, 以该结构标注了135篇文章.该要领主要分为3步:领先, 凭证标点标志将篇章分为基本单元(句子/子句), 称为篇章段(discourse segments); 然后, 再凭证标点标志和话题, 将上述基本单元归并成组(group), 每一个组皆聚会抒发了某个话题; 终末, 细目基本单元、组之间的连贯关系(coherence).

(3) 汉语篇章广义话题结构资源开发

在针对广义话题结构表面的语料资源方面, 宋柔课题组基于他们提议的广义话题结构的观念, 以标点句为基本篇章单元, 开展了汉语篇章的话题结构标注责任[21-23].当今, 已标注了《围城》、《鹿鼎记》和其他语料(触及章回演义、当代演义、百科全书、法律律例、散文、操作说明书等语体), 共约40万字.其中, 《鹿鼎记》第1回的广义话题结构标注过头说明已在网上公开发布().

(4) 基于主述位表面的汉语微不雅话题语料库资源开发

苏州大学天然语言处理实验室提议了基于主述位表面的篇章微不雅话题结构暗示体系[33, 34], 并据此标注形成了500篇文本的微不雅话题结构语料库CDTC(Chinese discourse topic corpus)[48, 49].该语料从CTB 6.0中选取500篇文档标注了基本篇章单元、基本篇章话题的主位(theme)和述位(rheme)、篇章微不雅话题结构(micro-topic scheme)、微不雅话题结合、微不雅话题链等信息, 为微不雅话题结构的自动分析奠定了基础.

2.3 计算打算模子

基于不同的表面体系和相应的语料库, 连年来好多酌量计算打算模子的研究责任连接伸开, 底下咱们就按研究的不同角度分别伸开先容.

2.3.1 篇章修辞结构计算打算模子

(1) 基于RST-DT的研究

基于RST-DT的篇章结构分析主要包含两个子任务:EDU的识别和篇章阿谀关系的生成.其中, EDU的识别负责对文本进行切分, 提真金不怕火出EDU, 即构造生成的修辞结构树的树叶; 阿谀关系的生成则剿袭自底朝上的要领生成修辞结构树中的功能节点, 并为每一节点细目一个最可能的修辞关系.

对于EDU的自动识别研究较多, 驱散也比较理想.其中比较有代表性的研究包括:Soricut等东谈主[50]剿袭基于统计的要领进行识别, EDU识别在自动句法树上取得F1值为83.1%, 在表率句法树上F1值为84.7%.Hernault等东谈主[51]给出了一个基于序列数据标注的篇章分割模子, 使用词汇和句法特征, 剿袭CRF进行学习, 实验驱散标明, 作家的序列篇章分割模子F1值达到94%, 接近于东谈主工篇章分割的F1值98%.综上可知, 当今RST-DT上EDU识别准确率较高, 但进一步擢升的空间不大.

在篇章阿谀关系的生成方面, 驱散则不睬想.Soricut等东谈主[50]利用语法和词法信息进行句子级的篇章结构分析, 他们的算法称为SPADE, 在篇章关系识别时剿袭概率模子计算打算各式篇章关系的概率.篇章结构分析模子剿袭全自动的要领, 识别无标注的篇章关系F1值为70.5%, 剿袭正确的基本篇章单元和正确句法树的驱散是96.2%.但是, SPADE并分歧整篇文本进行篇章关系识别.Huong等东谈主[52]给出了一个文本自动篇章结构生成系统, 该系统分为两个档次:句子级的篇章结构分析和文本级的篇章结构分析.句子级的篇章结构分析使用句法和痕迹词来进行基本篇章单元的识别和篇章结构的生成.对于篇章级别, 为松开篇章结构分析的搜索空间, 加入了文本相邻和文本组织限度.最终在松开搜索空间后, 系统的F1值达到了70.1%, 其污点即是计算打算量较大.Hernault等东谈主[53]在RST上达成了基于SVM的篇章结构分析器HILDA.对篇章切分和关系识别使用SVM进修了分类器, 剿袭霸术的自底朝上的要领构建篇章结构树, 篇章结构树构建的时候复杂度取决于输入文本的长度.HILDA在树构建和篇章关系分析上的效果较好, 结构识别F1值为72.3%, 完竣句法树识别F1值为47.3%.Feng[54]在HILDA的基础上进行了篇章结构树的构建和关系识别, 抽取了更丰富的特征, 性能比HILDA有所擢升.Joty等东谈主[55]给出一种使用动态条目立时场进行句子级篇章分析的要领, 使用东谈主工EDU切分驱散识别18类关系F1值为77.1%. Surdeanu等东谈主[56]利用感知器模子结合逻辑归来算法进行结构创建和关系揣测, 同期, 该分析器还借助预进修的句法依存树获取句法特征.近几年来, 研究东谈主员运行防御用多少篇章中语本的漫衍特征来暗示篇章的里面单元.Braud等东谈主[57]使用档次神经汇注模子(hierarchical bi-LSTM)构建了一个端到端的篇章分析器.Li等东谈主[58]用基于详细力的档次型双向LSTM模子结合CKY算法构建了图篇章解析器.Braud等东谈主[59]使用一种前馈神经汇注模子构建了两种过渡型篇章分析器.Ji和Eisenstein[60]使用支抓向量机结合shift-reduce转化系统构建了DPLP篇章分析器.导致篇章分析驱散较低的主要原因是RST-DT中标注的篇章结构树的数目有限, 模子莫得智商获取深档次的语义信息.

(2) 基于PDTB的研究

宾州篇章语料库(PDTB)的构建, 以及CoNLL 2015和2016年Shared Task的举办, 显赫推动了篇章结构分析的研究, 在篇章计算打算方面受到了极大的热心.

基于PDTB的篇章分析包含论元的抽取、篇章关系的识别和端到端系统的构建这3个方面, 底下分别加以先容.

➢  论元的抽取

代表性的责任包括:Dines等东谈主[61]针对Subordinate类型的阿谀词提议了一种tree subtraction算法来自动完成句内论元的抽取, 但该要领使用了一套具有很强针对性的王法, 对其他类别的阿谀词并不澈底适用.Lin等东谈主[62]鉴戒Dinesh的tree subtraction算法, 借助机器学习要领领先识别遮掩论元的最小子树, 再利用tree subtraction算法在子树中抽取论元.但遮掩论元的最小子树也会包含非论元的部分, 形成后续的抽取不行澈底正确.他们的实验驱散也阐明了这一丝:澈底精准匹配的表率下, Arg1和Arg2同期正确的性能仅为40%, 而在部分匹配的表率下, 这一性能可达到80%以上.Wellner等东谈主[63]提议一种机器学习的要领来细目阿谀词对应论元Arg1和Arg2的head, 但是PDTB语料中并莫得标注论元的head信息, 因而评测上忙活一致的表率.Ghosh等东谈主[64, 65]基于条目立时场模子将论元抽取行为序列标注问题, 给出了一个论元识别决策, 但他们使用了一些来自PDTB的表率信息, 举例语义类别、Arg2信息等, 给出的驱散也只谈判了表率句法树, 未对自动句法分析驱散进行评测.Kong等东谈主[66]鉴戒SRL中的句法树剪辑政策给出了一个论元组成子树的提真金不怕火决策, 并借助ILP进行全局最优, 大大擢升了澈底精准匹配下论元识别的性能.

➢  篇章关系识别

Pitler等东谈主[67]指出, 在PDTB篇章语料库中隐式篇章关系与显式篇章关系简略各占一半.由于显式篇章关系中阿谀词(connective)的存在且歧义较少(简略只好2%), 因此比较容易识别.这使得隐式篇章关系研究成为篇章结构关系分析成败的要害.识别隐式篇章关系的研究可以归纳为3类:基于伪隐式篇章关系语料的研究, 基于纯隐式篇章关系语料的研究和基于伪隐式和纯隐式的篇章关系夹杂语料研究.基于伪隐式关系的研究的代表性责任包括:Marcu和Echihabi[68]初度提议使用无监督的要领识别隐式篇章关系.他们使用一系列文本模式从汇注上自动获取语料资源, 同期去除篇章阿谀词组成一个伪隐式篇章关系语料.他们的实验驱散标明, 使用词对(word-pairs)特征为识别隐式篇章关系提供了匡助.Saito等东谈主[69]推广了他们的责任, 从文本域中提真金不怕火短语模式特征, 实验驱散标明, 一样有助于提高隐式篇章分析的性能.尽管如斯, 咱们以为伪隐式篇章关系并不行从实在真谛真谛上代表纯隐式篇章关系, 因为它们在暗示关系上存在着好多的不同, 比如隐式关系的存在标明潦倒文的酌量填塞强而不需要使用篇章阿谀词来衔尾.

跟着PDTB 2.0的发布, 该语料显式地区分了隐式篇章关系和显式篇章关系, 况兼仅针对段落内相邻句子间的隐式篇章关系进行标注.至此, 好多责任运行侧重研究纯隐式篇章关系识别.这方面具有代表性的责任包括: Pitler等东谈主[67]初度提议使用不同的语言学特征, 比如动词、极性和潦倒文环境等, 识别隐式篇章关系.Lin等东谈主[70]受Pitler等东谈主的启发, 初度提议使用两类句法特征, 即因素句法推导王法和依存句法推导王法, 来识别PDTB中第2层隐式篇章关系.Park和Cardie[71]使用了霸术的特征给与算法细目了识别隐式篇章关系的最优特征子集.他们的实验在第1层4大类关系上取得了最佳的F1值.连年来, 一些研究标明, 样本顽抗衡问题成为了提高隐式篇章分析性能的紧要阻拦.有东谈主提议使用伪隐式和纯隐式关系夹杂的篇章关系来进行分析.关系责任包括:Zhou等东谈主[72]使用语言模子来计算打算困惑度以判断相邻句子间插入阿谀词的合感性.Biran和McKeown[73]使用聚合词对尝试惩处特征疏淡问题, 但他们的实验驱散标明性能擢升很小.为了惩处隐式关系标注样本短少的问题, Lan等东谈主[74]提议使用多任务学习的要领引入伪隐式篇章关系来提拔隐式篇章关系的识别.Zhou等东谈主[75]提议一种基于信息检索的无监督要领识别隐式篇章关系, 他们利用Web上的资源提真金不怕火大皆的伪隐式关系提拔识别隐式篇章关系.

近几年, 越来越多的研究东谈主员运行寻求用神经汇注的要领来完成隐式篇章关系识别的任务.同期, 为了缓解有标数据短少带来的问题, 好多传统算法和神经汇注算法皆借助莫得标注的数据, 提拔完成隐式篇章关系识别.Lan等东谈主[76]提议了一种基于多任务详细力机制的神经汇注来惩处隐式篇章关系的暗示和识别问题, 并取得了现时最佳的性能.

➢  端到端的篇章结构分析

Lin[77]研究如安在PDTB上进行篇章结构分析, 对于难度较大的隐式篇章关系识别, 剿袭潦倒文、词对、句法特征、依存树特征进行识别.统共这个词系统包括阿谀词识别、论元识别、显式关系分类、隐式关系分类、属性标注, 这是第一个端到端的PDTB分析责任.而后, 跟着CoNLL 2015和2016年Shared Task以端到端的篇章逻辑语义分析为任务, 大皆责任随之伸开, 主要可以分红3类:一是奴才Lin等东谈主的责任, 进一步完善各个模块; 二是借助ILP、Structured Perceptron等全局优化政策对系统进行全局优化; 三是引入神经汇注、深度学习框架对平台中影响性能的论元识别和隐式关系识别进行纠正.

(3) 汉语篇章修辞结构分析

由于语料忙活, 这部分研究受到了制约.代表性的责任包括:张牧宇等东谈主[78]在哈尔滨工业大学中语篇章关系语料(HIT-CDTB)上进行显式篇章句间关系和隐式篇章句间关系识别, 并给出初步的实验驱散, 但其所口号料参考英语PDTB体系, 不行进行澈底的篇章结构分析, 只可进行部分篇章分析.CoNLL 2016的Shared Task中以Zhou和Xue[44]标注的、LDC发布的CDTB V0.5为语料, 引入了汉语浅层篇章修辞结构分析的任务, 使得汉语浅层篇章修辞结构分析得到了一定的热心, 但大部单干作皆选择用英文一致的体系进行.涂眉等东谈主[79]在TCT上进行了基于最大熵的汉语篇章结构自动分析要领, 实验驱散标明, 篇章语义单元自动切分的F1值能达到89.1%, 当篇章语义结构树高度不逾越6层时, 篇章语义关系标注的F1值为63%.Kong等东谈主[80]基于苏州大学的CDTB语料剿袭活水线的口头构建的端到端的中语篇章解析器, 该平台包括子句识别、阿谀词识别与分类、隐式篇章关系识别、篇章单元主次识别等部件, 最终输出构建完成的篇章结构树.在CDTB上的结构性能的F1值达到了46.7%, 但若再概述进篇章树中的每个关系的具体属性, 统共这个词分析器的F1性能只好20.0%.Jia等东谈主[81]利用转化系统和深度学习的要领, 给出了一个完竣的从平文本到树形结构的篇章结构自动解析框架, 在英文RST和苏州大学的CDTB语料上皆取得了较好的性能.孙成等东谈主[82]给出了一个完竣的基于转化系统的篇章结构树的生成框架, 并参考RST上关系评价体系给出了完竣的汉语篇章结构树的评价体系.

2.3.2 篇章话题结构计算打算模子

受限于表面体系的可计算打算性和相应语料资源的匮乏, 当今酌量篇章话题结构的计算打算模子研究主要聚会在指代结构的研究, 而指代结构的研究又分别从实体指代、事件指代和零指代3方面伸开.

(1) 实体指代消解研究

作为信息抽取的中枢组成部分之一, 指代消解一直皆是天然语言处理领域的一个研究热门.早期指代消解要领均剿袭启发式王法要领, 从20世纪90年代运行, 跟着各样指代消解标注语料的不停发布以及一些有影响力的天然语言处搭理议和公开评测的召开, 举例MUC(Message Understanding Conf.)[83, 84]、ACE(automatic content extraction)[37]、CoNLL shared task[85, 86]等, 指代消解的研究要点也转向了数据驱动的指代消解要领研究.当今主流的要领有:

●  基于王法的要领:2010年, Raghunathan等东谈主[87]提议了一个基于多重过滤框架的共指消解模子.这个框架是由7个消解模块组成, 这些模块按照精度从高到低进行胪列, 每一层的输入以上一层输出的实体聚类体为基础.该框架通过分享属性传递全局信息保证了强属性信息的功能要优于弱属性, 也使得过滤模子作念出共指判断时能使用统共的属性信息.2011年, Lee等东谈主[88]基于Raghunathan的念念想进行了推广, 通过添加过滤器, 增多候选先行语的抽取和细目以及全局优化, 使得系统在CoNLL-2011 Shared Task测评中取得最高的准确率.

●  基于统计的要领:1999年, Cardie等东谈主[89]提议通过聚类要领进行名词短语的同指消解, 其基本念念想是收罗篇章中的基真名词短语, 凭证短语的特征对名词短语聚类, 判断两个名词是否属于合并个类.

●  基于分类的要领:1995年, McCarthy[90]把判断先行语的问题颐养因素类问题, 通过分类器判断指代语与每个先行词候选之间是否存在指代关系.这一念念想为日后指代消解的研究开辟了一条全新的谈路.Soon等东谈主[91]则给出了详细且完竣的达成关节, 并开发出实用的系统.在此基础上, 许多研究者进行了不同进度的推行和纠正, 主要包含3类:(1)抽取强而有劲的平面特征以及篇章中结构化信息支抓学习模子.举例, 2012年, 孔芳等东谈主[92]提议基于树核函数的中英文消解要领; (2)单一模子向多重模子交融逐步演变, 并以此增强分类器效果.举例, 2012年, Xu等东谈主[93]提议交融基于王法与基于分类的要领用于指代消解; (3)优化共指链的形成.2012年, Belder等东谈主[94]提议一种新的要领优化二元分类后共指链衔接问题, 把共指衔接问题行为是一个线性谋略问题, 并提议用列生成的要领获取最优解以此达到准确消解的目的.

●  深度学习要领:深度学习是通过模拟东谈主脑神经元和突触处理感知信号的流程, 构建含多个隐层的机器学习模子.其主要上风在于能自动地学习数据中比浅层特征愈加抽象的高层特征暗示.Wiseman[95]提议利用轮回神经汇注来学习潜在的、全局的实体聚类的特征暗示, 利用霸术搜索算法达成实体-实体抒发模子.Clark[96]使用增强学习要领结合神经汇注对实体抒发排序模子进活动直优化, 并提议了两种优化算法:增强政策梯度算法和奖励重调最大化算法, 后者达成了更好的性能.Lee[97]利用轮回神经汇注对实体抒发的潦倒文信息进行编码, 结合单词的漫衍式抒发, 利用详细力机制形成mention的有用暗示, 然后最大化得分函数来进修神经汇注, 在CoNLL 2012任务上取得了最佳的驱散.

上述研究主要针对英文.比拟英文指代消解, 当今汉语指代消解的研究要少好多, 主要属于跟进型研究.代表责任包括:王厚峰等东谈主[98-100]分别从领域和语义等学问开拔, 提真金不怕火王法进行了指代消解的研究; 李国臣等东谈主[101]将英文平台的类似作念法移植到中语指代消解中, 剿袭决策树要领对中语东谈主称代词的消解进行了研究.周俊生等东谈主[102]提议了一种基于图离别的无监督的汉语指代消解算法, 其性能与监督的汉语指代消解性能很是; 杨勇等东谈主[103]给出了一个基于机器学习的指代消解平台, 并对指代消解中各样距离特征对指代消解性能的影响进行了深刻的探索; 王海东等东谈主[104]探索了语义变装对指代消解性能的影响, 他们的研究标明, 语义变装信息的引入简略显赫提高指代消解的性能; 李渝勤等东谈主[105]针对基于机器学习的中语共指消解中不同类别号词短语特征向量的使用互异, 提议一种基于特征分选政策的要领, 提高了共指消解的性能.张牧宇等东谈主[106]提议一种利用中心语信息的新要领.该要领领先引进一种基于绵薄平面特征的实例匹配算法用于共指消解.在此基础上, 又引入了先行语与照看语的中心语字符串作为新特征, 并提议一种竞争模式, 将中心语敛迹交融进实例匹配算法, 擢升了消解效果.Song等东谈主[107]提议一种基于马尔可夫逻辑网的共指消解模子.

(2) 零指代研究

除上述名词短语的指代消解外, 零指代表象在中语中普通出现, 连年来, 中语零指代成为研究热门.代表性的责任有:Zhao等东谈主[108]给出一个完竣的基于机器学习的中语零指代消解决策, 并提议一套有用的适用于中语零指代任务的特征聚合.但是他们的责任东要热心零指代的消解子任务, 对零指代项的识别仅给出一个保证高调回率的王法要领.他们的实验驱散也标明, 过低的零指代项识别准确率会严重影响后续消解的性能.Kong等东谈主[109]给出一个中语零指代消解的完竣框架, 将中语零指代消解明晰地离别红零元素识别、零待消解项识别和零元素消解3个子任务, 并剿袭基于树核函数的要领分别给出每一个子任务适用的结构化特搜集.但是, 他们仅热心平台的结伴性, 只给出了表率句法树上平台的性能, 未给出澈底自动景况下要领有用性的考据.Chen等东谈主[110]初度给出完竣的端到端的全自动景况下的中语零指代消解平台, 并提议一组更有用的句法和潦倒文特征.Chen等东谈主[111]给出一个无监督要领的生成式模子, 并借助它进行中语零指代消解.基于这一责任, Chen等东谈主[112]进一步在生成式模子中基于概率将零待消解项识别和消奉命务进行结伴学习, 取得了一定性能的擢升.Chen等东谈主[113]又进一步在该平台中引入深度学习要领, 取得了更好的性能.Sheng等东谈主[114]在传统零指代消解平台中谈判了篇章修辞结构信息, 从篇章修辞树结构中提真金不怕火各样篇章级的信息来匡助中语零指代, 并通过一系列实验考据了修辞结构信息的引入简略擢升中语零指代的性能.Kong和Zhou[115]参考普通名词短语消解平台的研究进展, 提议了一种全新的链到链的中语零指代消解决策, 其基本念念想是将普通名词短语的指代消解驱散看作对中语零元素的先行词候选的一种过滤, 并以指代链为单元进行中语零指代消解, 实验取得了当今最佳的性能.Yin等东谈主[116]提议了一个借助深度挂念汇注将零元素的潦倒文信息向量化, 从而自动学习关系的语义信息来匡助零指代.Zhang等东谈主[117]给出了一种深度神经汇注要领, 通过对零元素的潦倒文和可能的先行词候选过头潦倒文进行高效的向量化表征来擢升零指代的性能.Liu等东谈主[118]为了惩处零指代标注语料不及这一问题提议了一种自动生成大规模伪进修语料的要领, 使用这些伪语料, 借助神经汇注要领擢升汉语零指代消解的性能.进一时事, Yin等东谈主[119]在神经汇注平台中引入强化学习政策, 进一步擢升了汉语零指代消解的性能.

(3) 事件指代消解研究

受限于标注语料及任务的复杂度, 比拟实体指代消解而言, 事件指代消解的关系研究刚刚起步, 大多参考实体指代消解的惩处念念路.主要的代表性责任有:2006年, Ahn[120]通过构建事件对, 计算打算事件对之间的相似度来判断事件的同指关系.跟着机器学习要领的激动, 事件指代消奉命务的研究转向通过东谈主工构建事件的特征来计算打算事件之间的“距离”, 进而判断同指关系.Chen等东谈主[121]利用最大熵模子设置事件指代消解系统, 并在各项评测方针下评估了系统的性能.Bejan和Harabagiu[122]诓骗无监督的非参贝叶斯模子将词汇特征和WordNet中的语义相似度引入事件指代消奉命务中.2015年, Araki等东谈主[123]初度提议一种结伴学习模子, 行将事件抽取任务和事件指代消奉命务同期研究.随后Lu和Ng[124]也构建了一个基于一元二元以及三元特征交融的结伴学习模子.连年来, 神经汇注在天然语言处理的各个领域皆取得可以的研究恶果, Nguyen[125]通过非一语气卷积模子在KBP[126]语料上完成事件指代消奉命务的研究.同庚, Krause等东谈主[127]也搭建了卷积神经汇注模子, 并在ACE和ACE++语料进行了关系任务研究.在中语事件指代消解方面, 受限于语料, 当今只好少许责任, 代表性责任包括:Lu和Ng[124]构建的平台不仅讲演了英文事件指代消解的性能, 也讲演了KBP中语语料上的性能; 滕佳月等东谈主[128, 129]基于ACE中语语料进行了中语事件指代消解的研究, 并提议了基于全局优化进行性能改善的政策.

除指代外, 针对篇章意图性的计算打算模子的研究很少, 代表性责任是Pustejovsky等东谈主[130]在GraphBank上的关系责任, 他们对GraphBank进行了分析, 以为篇章阿谀词和两个句子间的跨度距离是高效识别显式和隐式篇章关系的要害因素.

2.4 存在的问题和研究趋势

从上述国表里研究近况的分析中咱们可以看到, 比拟英语, 汉语的篇章研究刚刚起步, 汉语篇章阅读连合研究鲜有见诸文献.当今汉语篇章连合还存在如下一些主要问题.

(1) 适用于汉语篇章阅读连合的篇章结构表面体系很不完善.有必要鉴戒英语的关系篇章表面, 并结合汉语特质和复句、句群、广义话题结构等原土表面, 慢慢设置汉语篇章结构表面体系.

(2) 适用于汉语篇章阅读连合的篇章结构大规模标注资源相等忙活.虽然有一些研究者, 或基于英语篇章表面体系, 或基于汉语的复句、句群和广义话题结构等表面, 对汉语篇章结构资源库伸开了研究, 但关系研究比较分散, 大多属于探索性责任, 有待进一步深刻、系统地进行研究.

(3) 适用于汉语篇章阅读连合的篇章结构分析要害工夫十分匮乏.由于适用于汉语篇章结构分析的表面体系尚未有用设置, 关系标注资源忙活, 因此很难大规模有用地进行要害工夫研究.

(4) 篇章连合需要触及不同视角、不同档次的篇章结构分析驱散, 各式结构间也存在赫然的互补关系, 构建结伴体系(包括表面体系和资源)进行多视角、多档次的结伴分析研究, 有待进一步深刻.

2.5 机器阅读连合的关系研究

虽然适用于汉语篇章阅读连合的篇章结构分析研究处于起步阶段, 机器阅读连合的关系研究却招引了繁多研究者.当今, 机器阅读连合方面照旧开展了一些责任, 具体包括:Hermann等东谈主[131]借助爬虫工夫从CNN和逐日邮报新闻网页爬取数据, 构建了一个完形填空类型(cloze-style)的阅读连合数据库CNN and Daily Mail.2016年, 斯坦福大学通过亚马逊众包平台设置了一个新的阅读连合数据集SQuAD[132], 它包含536篇维基百科文章, 100 000多个问题, 而且每篇文章皆是经过东谈主工阅读, 提议问题并给出谜底片断.微软公司选取了100 000多名用户通过Bing搜索引擎提议的问题, 每一个问题皆会对应简略10篇关系的从网页抽取的文章, 关系东谈主员会凭证10篇文章给出问题的谜底, 以此构建了MS MARCO[133]语料库.跟着这些语料的正经发布, 各式机器学习要领、深度神经汇注要领和attention机制皆不停被提议并被应用到这一任务中[134-142].此外, Cui等东谈主[143]发布了第一个中语cloze-style阅读连合语料People Daily News数据集和Children’s Fairy Tale(CFT)数据集.从2017年于今, “讯飞杯”中语机器阅读连合评测照旧奏效举办两届, 从第1届以填空型阅读连合问题为主, 到第2届热心基于篇章片断抽取的阅读连合, 评测会议发布了东谈主工标注的中语填空型和篇章片断抽取型阅读连合的数据集[144], 好多的关系研究也在这些数据集上有所伸开.但本色上, 这些责任只是把篇章看作一个词标志序列, 忙活实在真谛真谛上的篇章连合.天然, 从另一层面而言, 这些研究也大大推动了东谈主们对篇章连合的热心和爱重.举例, NSFC最近几年就批准了多个汉语篇章连合处所的要点状貌和东谈主工智能济急要点状貌, 包括哈尔滨工业大学刘挺主抓的篇章级中语语义分析表面与要领, 中国科学院自动化研究所宗成庆主抓的汉语多档次语篇分析表面要领研究与应用, 苏州大学张民主抓的面向多档次篇章语义的机器翻译表面、要领与达成, 北京理工大学黄河燕主抓的中语语义深度计算打算与阅读连合, 以及苏州大学周国栋主抓的话题驱动的汉语篇章机器阅读连合等.

3 总结

总而言之, 在天然语言处理领域, 与词法分析、句法分析等研究比拟, 篇章结构分析研究相对滞后.终点是适用于汉语篇章阅读连合的篇章结构分析研究还处于起步阶段, 尚未形成一套有用的表面体系, 相应语料库资源开发薄弱在线av., 要害工夫研究严重滞后.相应地, 机器阅读连合的关系研究也刚刚起步, 当今主淌若基于检索工夫的关系片断抽取, 忙活实在真谛真谛上的篇章连合.人所共知, 与英语等西方语言比拟, 汉语不管是篇章结构和信息意图抒发口头, 如故事件态状口头和话题表述口头等方面皆有较大的互异.这就垂死需要进一步完善适用于汉语篇章阅读连合的篇章结构表面体系, 设置一定例模的适用于汉语篇章阅读连合的汉语篇章结构资源库, 并在此基础上设置汉语篇章结构分析的计算打算模子, 达成高性能的汉语篇章结构分析和篇章深度连合平台, 为天然语言连合和篇章级应用提供基础撑抓.



相关资讯