语料库制作和应用课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《语料库制作和应用课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语料库 制作 应用 课件
- 资源描述:
-
1、2014.7.14 语料库的基本特征 语料抽样:理论与抽样操作 语料文本的基本处理:主要处理方式和实现方式 双语语料的对齐:方式和方法 语料检索:基本检索和高级检索(普通、正则和term list)双语语料检索:基本检索和高级检索 语料数据后续处理:z-score;log-likelihood;factor analysis;correlation;keyness 微型教学语料库的创建和使用 翻译课堂教学用双语语料的制作和应用Computer-readable:txt,xml,html,doc,pdfConsistency:ohis mother;his mother;hisnmotherAn
2、notation:o我们_r;我们/r;我们;我们Header:o有关文本的元信息,涉及文本的作者、文体、出版时间等oChineseEnglishMeiGuoShiWeiYeChou13GShangwuyinshuguan1929B23052相对完整的语料文件范本 语料库可以视为结构合理的语料文件的集合。往往以数据库形式存在(如文件夹)。这是语料库建库工作中最重要的部分,也是最耗时费力的部分。语料数据库建成之后,就可以从库中提取信息,称为检索。检索效果高低要看能否充分运用检索手段,但最终依赖语料库本身能提供多少可能性。检索结果的处理需要技巧,事关处理的质量和效率。有代表性、结构合理的语料文本集
3、合,但不是任意搜集的文本数据库,也不是越大越好,而是“finite-sized body of machine-readable text”,语料库通常有抽样框架。一般说来,处于研究的需要,语料宜尽量平衡,这样就不能照单全收,需要考虑从中抽取一部分。抽取多少,如何抽取,这个问题可以说众说纷纭。oBrown/LOB:分层抽样,大小一致;分层抽样如文学中小说占35%,散文占8%,戏剧占2%。2nd generation corpora:The Corpus di Italiano Scritto oBNC:大小不一(max:40,000 words);25%/75%(lit./inf.)oENPC
4、:40%/60%(non-lit/lit);S.Johansson Size:2.6 million words Language:English,Norwegian;Number of texts/samples:100 orig.,100 transl.Period:19751995 抽样字数及分配 语料取样计算 语料的最常用存储方式是纯文本,纯文本顾名思义就是只有文字,不支持任何其他字符格式,如粗体、斜体、下划线、表格框,等等。语料以这种方式存储占用空间极小,且几乎所有检索软件都支持。将语料以这种方式存储只是检索的操作,更重要的是让存储的文本内容规范,格式尽量一致,而且没有乱码,不必要的
5、空格和软回车、硬回车,等等文本噪音。要做到这些,就需要对语料进行按部就班的处理。使用Microsoft Word可以对文本进行处理。Word中的替换、Macro的使用 其他语料文本处理工具的使用(Editplus)规范语料文件的生成:无噪音、符合预期的加工规范(标记充分)。Header|POS 存储格式(txt|xml)辅助软件的使用:通常会包含包含文本除噪程序的headadder,txtmarker。其实除噪是执行一些替换性的操作(see next slide)$line=s/sn/n/g;#matching and replacing all$line=s/(.)n/$1/g;#match
6、ing and replacing all$line=s/rn/#/g;#matching and replacing all$line=s/*/g;#matching and replacing all$line=s/s*$/g;#matching and replacing all$line=s/s0,/s/g;#matching and replacing all$line=s/sn/n/g;#matching and replacing all$line=s/Zn/#/g;#matching and replacing all$line=s/+/g;#replace more whit
展开阅读全文