您好、欢迎来到现金彩票网!
当前位置:2019全年免费资料大全 > 统计语言学 >

第1讲统计自然语言处理概论ppt

发布时间:2019-05-31 05:14 来源:未知 编辑:admin

  登录成功,如需使用密码登录,请先进入【个人中心】-【账号管理】-【设置密码】完成设置

  简介:本文档为《第1讲统计自然语言处理概论ppt》,可适用于高等教育领域

  *若权利人发现爱问平台上用户上传内容侵犯了其作品的信息网络传播权等合法权益时,请按照平台侵权处理要求书面通知爱问!

  爱问共享资料拥有大量关于第1讲统计自然语言处理概论.ppt的实用类文档资料,所有文档由知名合作机构以及专业作者提供,线上总资料超过两个亿,保证满足您的需求。

  统计自然语言处理与信息检索孙越恒天津大学网络智能信息计算研究所Email:yhstjueducn目录概述NLP的概念、历史与现状NLP的研究内容NLP研究的困难NLP方法论之争统计方法示例本课的主要内容抛砖引玉一、NLP的概念什么是自然语言以语音为物质外壳由词汇和语法两部分组成的符号系统。《新华词典》语言是人类交际的工具是人类思维的载体是约定俗成的有别于人工语言(程序设计语言)语言的产生什么是自然语言处理–NLP,NaturalLanguageProcessing–用机器处理人类语言的理论和技术–研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。NLP要研制表示语言能力和语言应用的模型建立计算框架来实现这样的语言模型提出相应的方法来不断完善这样的模型并根据语言模型设计各种实用系统以及对这些系统的评测技术。BillManaris,《从人机交互的角度看自然语言处理》其它名称–自然语言理解(NaturalLanguageUnderstanding)–计算语言学(CL,ComputationalLinguistics)–人类语言技术(HumanLanguageTechnology)图书的分类、圣经抄写过程中的编码和校检从智能接口到知识处理•智能接口–功能:•把现实世界中的语言信息送入电子世界–主要成果•拼音输入、手写输入、语音识别•知识处理–功能:•对于已进入电子世界中的语言信息进行加工处理获得知识–主要研究内容•媒体的加工和管理、语言信息处理微软的输入法siriibmvoice机器能够理解人的语言吗?很难但是没有证据表明不行什么是“理解”–结构主义:机器的理解机制与人相同•问题在于谁也说不清自己理解语言的步骤–功能主义:机器的表现与人相同•图灵测试:如果通过自然语言的问答一个人无法识别和他对话的是人还是机器那么就应该承认机器具有智能有用否?能用否?•NLP有用吗?–据统计日常工作中的信息来源于语言–文本是人类知识最大的存储源并且文本的数量在不停地增长•电子邮件、新闻、网页、科技论文•NLP能用吗?–并非每一样语言处理的应用都需要深层理解–中间产品陆续产生–成功应用的实例•word中英文自动校对•搜索引擎•Google在线翻译NLP的性质•NLP需要的知识非常复杂语言学、计算机科学、数学、逻辑学、认知科学等•理解语言的过程是动态的不是静态的•NLP需要的知识大多是归纳的不是演绎的•存在UpperBound(上限)•对歧义的限制和系统的覆盖率矛盾•领域词典不充分WhileNLP的历史•世纪年代起步–机器翻译•年代采用模式匹配的方法–年代衰落•年代采用面向受限域的深入理解的方法•年代至今统计方法占主流–随着互联网的发展而复苏–互联网为NLP提供了市场需求和试验数据年代ibm语音识别统计语言模型年的争论缺乏数据的支持分组会议NLP现状•仍然缺乏理论基础•词汇句法方面的问题尚未解决已开始挑战语义、知识等深层课题•语音识别中采用的统计语言模型推动了NLP的发展目前的统计模型在向语言深层发展•Ontology受到普遍重视•开放域处理时起时落•一切才刚刚开始……二、NLP的研究内容自然语言处理的科学内容•语言学的任务–刻画和解释语言现象•人类是如何获取和理解语言的•理解语言和世界的关系•理解语言在通讯时的结构和内在含义•人们在说些什么–覆盖语言结构的各个方面•人们说的事情和世界怎样联系在一起NLP的不同层次基础研究()词法分析词法分析的主要目的是找出词汇的各个词素从中获得语言学信息。词法分析是很多中文信息处理任务的必要步骤。自动分词(中文分词)词性标注短语识别分词:中文词与词之间没有明显的分隔符使得计算机对于词的准确识别变得非常困难。因此分词就成了中文处理中所要解决的最基本的问题分词的性能对后续的语言处理如机器翻译、信息检索等有着至关重要的影响。随着对中文处理关注程度的增加国际计算语言联合会(ACL)下设的汉语特别兴趣(SIGHAN)研究组每年举办国际汉语分词评测大赛。()句法分析句法分析是对句子结构进行分析如句子的形式结构:主语、谓语、宾语等。句法分析是语言学理论和实际的自然语言应用的一个重要桥梁。一个实用的、完备的、准确的句法分析将是计算机真正理解自然语言的基础。句法分析的一个例子小王和小李的妹妹结婚了。两种分析结果:()语义分析语义分析的研究如词义排歧和语义归纳、推理等尚处于萌芽期并将逐步走向前台成为下一阶段计算语言学研究的一个亮点。计算机本身没有智能自然语言的语义分析和内容信息的理解离不开相应的语义知识库的支持它是帮助计算机“了解”人类语言的一个媒介和桥梁也是让计算机逐渐“聪明”起来的一个物质前提。语义分析主要研究基于语义知识库的语义相似度的计算方法、语义知识库的自动构建等内容。语义:语言和世界的映射关系符号之间的变换关系“语义”就是一个单词或者一个语言成分的含义的解释。而其解释通常不止一种。在自然语言中一个词语的新语义往往是通过流行的新的用法而产生的。一个词语或单词在句子中有多种解释取哪一个呢?语用:符号或者语言成分和它们的使用者之间的关系通俗解释:说话双方按照该单词或者语言成分所在的“语境”来确定应该选择其中哪一种释义或含义。“语境”的范围可以变化很大:从一个句子一段话到整篇文章乃至文章作者的身份和处境所在的时代的文化背景。()语用分析例:有两组不同背景的人在一起开会。其中一组人正在讨论社会上流感问题有人在说话中提到了“病毒”他们是在医学的语境下指称“生物性病毒”。另一组人正在讨论计算机安全问题有人在说话中提到了“病毒”他们是在计算机安全这一话题的语境下指称“计算机病毒”。评论:这是同一词语在不同的“语境”中具有不同“语义”的典型例子。例:设想例中正在讨论“计算机病毒”和“生物病毒”的这两组人正在一起开会目的是为领导机关拟定某某年度科研项目申报提纲中的最后一个项目的名称。由于主管机关所掌握的经费的限制允许申报的只剩下最后一项而且必须在中午点以前将申请书上报过期作废。可以想象这两组人将互相争执不下达不成共识。但是为了避免因为上报时机延误而使双方都落空最后决定先写出一个“表述一致但是各持自己理解”的申请书:《关于建立“病毒”检测与预防机制的研究》。至于是那种病毒留待今后进一步申述。评论:这是一个假想的例子但是他显示了许多外交文件的实质。自然语言的含糊性在此显示出它伟大的功能。句法、语义和语用是语言的三个主要层面三者之间可能存在如下关系:•句法结构相同语义不同–“吃苹果”“吃食堂”•句法:动宾结构•语义分别为:动作对象关系动作地点关系•语义相同句法结构不同–“吃了苹果””苹果吃了”•语义:动作对象•句法分别为:动宾关系和主谓关系•语义相同语用有别•你真讨厌(男生对女生说)•你真讨厌(女生对男生说)统计语言模型是自然语言处理的主流技术之一。研究的主要内容包括各种语言模型的构建、改进以及应用Ngram模型隐马尔科夫(HMM)模型最大熵模型依存语言模型朴素贝叶斯模型条件随机场()统计语言模型NLP系统的主要任务•知识表示–产生式–谓词逻辑–语义网络–概念从属理论(CD理论)•知识控制策略–知识的冲突•知识集成–从多个知识源获取的不同层面不同性质的知识如何融合在一起•知识获取–机器学习一个NLP的例子:英汉机器翻译•输入英文句子:MissSmithputtedtwobooksonthisdiningtable•形态分析(MorphologicalAnalysis)MissSmithput(ed)twobooksonthisdiningtable句法分析(SyntacticAnalysis)•词汇转换Miss⇒小姐Smith⇒史密斯put(ed)⇒放Two⇒两books⇒书on⇒在…上面this⇒这diningtable⇒餐桌•短语转换小姐史密斯放两书在上面这餐桌史密斯小姐放两书在这餐桌上面•生成–模拟人类写作的过程生成符合逻辑的连贯的文本–史密斯小姐放两书在这餐桌上面–史密斯小姐(把)两(本)书放在这(张)餐桌上面•最终翻译结果–英文:MissSmithputtwobooksonthisdiningtable–中文:史密斯小姐把两本书放在这张餐桌上面语言处理的步骤•文本预处理•句子切分•形态分析(MorphologicalAnalysis)•分词•词性标注(PartofSpeechTagging)•句法分析•词义消歧(WordSenseDisambiguation)•语义关系分析•指代消解(AnaphoraResolution)•逻辑形式(LogicForm)三、NLP研究的困难歧义(ambiguity)病构(illformedness)复述(paraphrasing)歧义()注音歧义–快乐(le)的单身汉–火红的第五乐(yue)章()分词歧义–交集型歧义•研究生命的起源•研究生命的起源–组合型歧义•他从马上下来•他从马上下来–和未登录词绞在一起•刘挺拔出宝剑•刘挺拔出宝剑–多交集字段的歧义•结合成分子时–有的歧义无法在句子内部解决•乒乓球拍卖完了()短语歧义–咬死猎人的狗–咬死猎人的狗()句法歧义Ourcompanyistrainingworkers()语义歧义词义歧义–打玩乒乓球–打编织毛衣–打通讯电话–……()语用歧义–“你真讨厌!”病构•真实文本的语言现象非常复杂不规范不干净–未登录词(UnknownWords)–已知词的新用法•例子:Pleasexeroxacopytome–不合乎语法的句子•例子:他非常男人。(名词不能受程度副词修饰)–不合乎语义约束的搭配•例子:Mycardrinksgasolinelikewater–由于作者疏忽造成的错误–真实的语言是非常脏的复述•举例–出生于年–出生在年–诞生于年–同志是年出生的–毛主席生于年–生于光绪年(虚拟的)四、NLP方法论之争理性主义和经验主义•理性主义者(Rationalist)–:理性主义是主流–他们的信念•乔姆斯基•先天语言能力•对于语法的描述–形成基于规则的传统语言处理技术•句法规则的确抓住了语言的主要模式•什么是语言中最普遍的模式呢是否需要量化?理性主义的问题•基于规则的方法需要大量的人工操作人类总结的规则不完备、不一致规则多了相互冲突难以对抗复杂的语言现象•语言的变化是渐变的–比如:“打”电话究竟从那一天开始“打”被赋予了通讯的意义呢的真实语句几万条语法规则GRE经验主义者•信念–孩子的大脑只能做一些普通的操作:联想、模式识别、一般化。孩子从丰富的信号输入中学习到了语言的结构•设定一个语言模型推导出参数值–形成今天的基于统计的语言处理技术–对每一种语言现象均给出统计量化指标•意义:“观其伴知其意”经验主义•我们生活在一个充满不确定和不完整信息的世界里•人类的认知是一个随机现象•语言也是一个随机现象•对没有见过的语言现象进行估计•复杂的概率模型理性主义和经验主义的差别•它们描述了不同的事情•理性主义试图去描写人脑中的模型–结构主义者•经验主义试图去描写实际出现的语言–功能主义者•外部语言是内部语言的非直接的事实进一步探讨•从九十年代初期开始统计方法开始成为自然语言处理的主流•规范的语言和非规范的语言之间没有明确的界限•统计还是非统计界限也比较模糊•追求纯净还是实用•自然语言处理尚不存在统一的数学基础–概率模型、信息论和线性代数语言工程•近来人们更有兴趣解决工程实际问题•人们处理真实世界中的语料并客观地比较不同方法的优劣•面向真实文本的评测使科学研究和技术开发进一步统一起来。–年初的汉语分词系统仍未考虑“未登录词”问题那时已经宣称分词结果达到以上其实只是解决了部分歧义问题。年代中后期才开始面向真实文本的处理。五、统计方法示例从语料库中学习•语料库(Corpus,Corpora)–按照一定的原则组织在一起的真实的自然语言数据(包括书面语和口语)的集合主要用于研究自然语言的规律特别是统计语言学模型的训练以及相关系统的评价和测试。•可以是原始的文本(生语料库)•也可以是带标记的文本(熟语料库)•语料库是统计NLP的知识来源语料库标注或加工对电子语料(包括书面语和口语)进行不同层次的语言学分析并添加相应的“显性”的解释性的语言学信息过程。与不同层次的自然语言分析相对应语料库的加工主要包括词性标注、句法标注、语义标注和语用标注等由于汉语书写的特殊性汉语的语料加工还包括分词。语料库示例语料库资源•BrownCorpus–带词性标记一百万词–布朗大学–平衡语料库–美国英语–ss•LancasterOsloBergen(LOB)–BritishEnglishoftheBrowncorpus•Susannecorpus–Brown语料库的子集万词LexicalResources•PennTreebank(宾州树库)–美国宾西法尼亚大学开发–取材华尔街日报–以开发中文树库但规模有限•CanadianHansards–加拿大议会双语文本•WordNet–语义词典免费使用•HowNet–中文语义词典•北京大学语法词典•北大富士通《人民日报语料库》–半年的《人民日报》–带词性标注举例•一篇短篇小说–作者:MarkTwain–小说名:TomSawyer–词数(Wordtokens)•,–词形数(Wordtypes)•differentthingspresent•,–平均每个词形出现:次最高频率的词汇•English–the–and–a–to–of•Chinese–的一些结果•词频:具有该词频的词的数目•一些结果–最高频的个词覆盖了全部词汇出现次数的一半–一半的词汇在语料库中只出现一次–的词形出现次或更少•很难预测那些很少出现或者干脆在语料库中从未出现的词的行为齐普夫定律•讲者和听者试图使用最小的力气–讲者希望:使用最少的词汇没有标点空格–听者希望:使用较多的词汇丰富的标记•什么是齐普夫定律?–在一个大的语料库中统计词频然后将词按照词频从高到低的顺序排列成一张表–一个词的词频f和它在表中的序号r之间存在如下关系:f∝rorf⋅r=k,k是一个常数数据词频的分布•齐普夫定律是对人类语言词频分布的一个粗糙而有用的描述:•非常常用的词很少•中频词的数量中等•大量低频词•从语料库中我们能够观察到少数高频词的丰富的信息而对大量低频词却观察不到足够数量的信息词义和词频的关系一个词的词义的数量和该词词频排序的平方根成反比关系词频和词长•词频和词长是反比例关系•短词经常被使用–“in”,“of”,…–“的”“了”•这符合通讯编码理论搭配•搭配(Collocations)–复合词(diskdrive)–短语动词(makeup)–其它固定短语(baconandeggs)二元搭配•例子:–ofthe–inthe–tothe–onthe–forthe–andthe对搭配进行过滤•根据词性过滤掉一些搭配例如虚词从而获得真正有意义的搭配•最高频的搭配模式是:–动词名词–形容词名词–名词名词有意义的搭配•例子:–NewYorkAN–UnitedStatesAN–LosAngelesNN–lastyearAN–SaudiArabiaNN–lastweekAN–vicepresidentAN搭配知识•在一个窗口中抽取的搭配知识可以影射深层的句法关系•例子:–维护国家的利益•VP(VN)deNorVNP(NdeN)–在语料库中有:•维护我们的利益,维护中国的利益,…•国家利益不容侵犯,损害国家的利益,……微软英文词语的搭配牛成的工作红楼梦前回与后回的统计分析•预备知识–导论–数学基础–语言学基础–语料库•词汇–搭配–统计推理–词义消歧–词汇知识获取六、本课的主要内容•语法–马尔科夫模型–词性标注–概率上下文无关文法–概率句法分析器•应用–机器翻译–聚类和分类–信息检索参考书•ChristopherDManning,HinrichSchutze–FoundationsofStatisticalNaturalLanguageProcessing,MITPress,•DanielJurafsky,JamesHMartin–SpeechandLanguageProcessing,PrenticeHall,•宗成庆–统计自然语言处理清华大学出版社NLP领域的学术会议•主要国际会议–ACL•AssociationofComputationalLinguistics–Coling–IJCNLP–EACL(EuropeanChapterofACL)–ANLP(AppliedNLP)–SIGIR(SIGInformationRetrieval)–TREC(TextREtrievalConference)•主要国内会议–JSCL(全国计算语言学联合学术会议)NLP领域主要学术机构•国外–美国•CMULTI(LanguageTechnologyInstitute)•南加州大学ISI(InformationScienceInstitute)•宾西法尼亚大学–日本•ATR–加拿大阿尔博塔:林德康•国内外企和港台–微软研究院:周明、李沐、高剑峰–香港城市大学:黄锦辉–台湾:苏克毅、陈克俭、简立峰国内研究机构•北京–清华:孙茂松、周强–北大:俞士汶、孙斌–中科院自动化所:徐波、赵军–声学所:黄曾阳–北京语言大学:宋柔、荀恩东•京外–复旦:吴立德、黄萱菁–交大:王永成–东北大学:姚天顺、朱靖波–厦门大学:史晓东–哈工大:。。。。七、抛砖引玉基于搜索引擎的自动术语翻译目标:不借助于任何辞典工具而从Web中自动挖掘出术语的翻译方法:模拟用户借助搜索引擎查找术语翻译的行为并将其自动化原理:Web上存在大量的部分平行语料如:该课程是机器学习(MachineLearning)的导论课程。这门课提供了机器学习中许多技术及算法的概观。系统实现:系统的初始查询界面本地词典结果显示界面基于搜索引擎的术语翻译界面基于搜索引擎的术语查询结果在“翻译包含”中输入过滤词语输入过滤词语后新的显示界面哼歌系统背景:在搜索某首歌时不知道是谁唱的也不知道歌曲名称和歌词只知道歌曲的调儿怎么查找这样的歌曲呢?语音识别的一个典型应用。语音识别最典型的模型:隐马尔可夫模型课后思考如果做一个信息过滤项目(比如垃圾广告过滤)那么应如何进行?谢谢!yhstjueducn语言的产生图书的分类、圣经抄写过程中的编码和校检微软的输入法siriibmvoiceWhile年代ibm语音识别统计语言模型年的争论缺乏数据的支持分组会议的真实语句几万条语法规则GRE微软英文词语的搭配牛成的工作

  专题包括语文、数学、英语、物理等中学各科课堂教案与教学课件模版,方便教学,使您的教学过程更加生动有趣。

http://linkzoo.net/tongjiyuyanxue/157.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有