自然语言理解语料库..课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《自然语言理解语料库..课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 理解 语料库 课件
- 资源描述:
-
1、语料库第1页,共52页。什么是语料库 n语料库是语言材料的集合n语料库的特点n必须是真实语言环境中出现过的语言材料n必须是以电子计算机为载体n必须经过一定的分析、加工和处理第2页,共52页。语料库的类型1 n按来源分类n口语语料库n书面语语料库n按语言分类n单语语料库n双语语料库n按加工分类n生语料库n熟语料库第3页,共52页。语料库的类型2n按加工方式分n单语n原始语料库n切分标注语料库n句法树库n语义标注语料库nn双语n篇章对齐语料库n句子对齐语料库n词语对齐语料库n结构对齐语料库n第4页,共52页。语料库研究的历史n第一代(197080年代)n百万词级n以语言研究为导向n第二代(1980
2、90年代)n千万词级n词典编纂应用导向n第三代(1990年代)n超大规模(上亿词级)n标准编码体系n深度标注/多语种nNLP应用n第四代(?)n互联网作为语料库第5页,共52页。第一代语料库1 nBrown语料库n始建于1960年代初nW.N.Francis和H.Kucera发起n美国Brown大学建立n世界上第一个根据系统性原则采集样本的标准语料库n主要代表当代美国英语n规模100万词次第6页,共52页。第一代语料库2nLOB语料库n始建于1970年代初n由英国Lancaster大学著名语言学家Geoffrey Leech倡议n挪威Oslo大学StigJohansson主持完成n安装在挪威B
3、ergen大学挪威人文科学计算中心n规模于Brown语料库相当n主要代表当代英国英语第7页,共52页。第一代语料库3nLLC语料库n1960年代初,由Randolph Quirk主持n收集2000小时的谈话和广播等口语素材并整理成书面材料n由瑞典Lund大学J.Svartvik主持全部录入计算机n1975年建成第8页,共52页。第二代语料库1nCOBUILD语料库n建于1980年代n以词典编撰为应用背景n有英国Birminghan大学与Collins出版社合作完成n规模达2000万词次n基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评第9页,共52页。第二代语料
4、库2 nLongman语料库n建于1980年代n包括三个语料库nLLELC语料库(Longman/Lancaster英语语料库)nLSC语料库(Longman口语语料库)nLCLE(Longman英语学习语料库)n目标是编撰英语学习词典,为外国人学习英语服务n词典规模达5000万词次第10页,共52页。第三代语料库2 nPennTreeBank(宾州大学树库)n美国Pennsylvania大学1980年代末开始发起n由该校计算机系M.Marcus主持n1993年,完成了对近300万英语词的句子语法结构标注n2000年完成了中文树库(第一版):10万词次,4185个句子第11页,共52页。第三代
5、语料库1 nACL/DCI语料库n美国ACL倡议发起n收集语料范围广泛n华尔街日报nCollins英语词典nBrown语料库nPennTreeBankn一些双语或多语文本等n既有已标注的语料,也有未标注语料n制定了语料库文件的格式标注n采用统一的SGML标注语言n语料标注依照TEI(Text Encoding Initiative)标准 第12页,共52页。语料库的收集、整理和应用 第13页,共52页。语料的选取 nSummers,Longman/Lancaster English Corpus:Criteria and Design,Harlow:Longmann精品原则n有影响力原则n随机
6、挑选原则n高流通度原则n典型性原则n易于获得原则n具有统计样本意义原则n符合语言规范原则n平衡性:主观性强第14页,共52页。语料库的加工n语料库标注(Annotation)n1)词性标记(Part-of-speech tagging)n2)句法层次和范畴标记(Grammatical parsing)n3)词义标记(Word sense tagging)n4)篇章指代标记(Anaphoric annotation)n5)韵律标记(Prosodic annotation)第15页,共52页。语料库加工工具 n分类工具名称功能描述nA.文件处理工具n文本过滤器将不同的文件格式转成为纯文本文件格式n
7、文本分类器自动判别文本领域n语料库辅助校对工具及一致性检查工具按照语料库加工规范,对语料质量进行管理nB.语言处理工具n分词与词性标注工具对语料进行词语识别,词性标记处理n词义标注工具 对词义进行标注n浅层分析工具对语块(chunk)进行标注n句法分析工具对句子进行完全句法分析n双语语料对齐工具对双语语料进行各个层级(段落、句子、小句、词的对齐加工第16页,共52页。双语语料库(Bilingual Corpora)加工 n段落对齐n句子对齐n词对齐n短语对齐第17页,共52页。双语句子对齐 n基于长度(length-based)的对齐方法Gale&Church(1993)n纯粹基于句子的长度来
8、估计对齐可能性资源要求少,算法效率相对较高n基于词(word-based)的对齐方法n一般要依赖词典资源,算法效率相对较低 第18页,共52页。人民日报语料库1 n北京大学、富士通公司、人民日报社共同开发n含人民日报1998年上半年全部文本(约1千7百万字)n完整的词语切分和词性标注信息n高准确率第19页,共52页。人民日报语料库2n样例历史/n 将/d 铭记/v 这个/r 坐标/n:/w 北纬/b/m 度/q、/w 东经/b/m 度/q;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n:/w 年/t 月/t 日/t 时/t 分/t。/w 中国/ns 政府/nnt 顺利/ad 恢复/
9、v 对/p 香港/ns 行使/v 主权/n,/w 并/c 按照/p“/w 一国两制/j”/w、/w“/w 港人治港/l”/w、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an。/w第20页,共52页。London-Lund英语口语语料库1 what a_bout a cigarette#./*(4 sylls)*/*I wont have one th/anks#*-/arent you.going to sit d/own#-/m#-/have my _coffee in p=eace#-/quite a nice.room to!sit in
10、(actually)#/*isnt*it#/*y/es#*-/n转引自Tony McEnery&Andrew Wilson,1996,Corpus Linguistics,p55,第21页,共52页。London-Lund英语口语语料库2 第22页,共52页。语料库的编码体系 n冯志伟,标准通用置标语言SGML及其在自然语言处理中的应用,载当代语言学1998年第4期。nSGML(标准置标语言)http:/www.w3.org/MarkUp/SGML/nXML(可扩展的置标语言)http:/www.w3.org/TR/REC-xmlnTEI(文档编码计划)http:/www.tei-c.org/
11、nCES(语料库编码标准)http:/www.tei-c.org/Applications/index-co02.html 第23页,共52页。语料库检索 n通常倒排表实现词语到文本的快速检索n演示:语料库检索和集列(concordance)第24页,共52页。语料库检索(Demo)第25页,共52页。语料库应用 n支持自然语言处理应用系统开发n支持语言学研究和语言教学研究第26页,共52页。语料库对NLP的支持 n基于大规模语料库的语音识别;n基于大规模语料库的音字转换技术(中文输入);n基于大规模语料库的自动文本校对技术;n利用语料库训练HMM模型进行分词,词性标注,词义标注,等等;n基于
展开阅读全文