基于众包训练数据的中文实体标注研究-课件.pptx

上传人（卖家）：三亚风情

文档编号：3496255

上传时间：2022-09-07

格式：PPTX

页数：37

大小：10.28MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《基于众包训练数据的中文实体标注研究-课件.pptx》由用户（三亚风情）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于训练数据中文实体标注研究课件

资源描述：: 1、基于众包训练数据的中文实体标注研究陈文亮苏州大学人类语言技术研究所(SUDA-HLT)2017-12知识图谱知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept)，边代表实体/概念之间的各种语义关系。知识图谱规模庞大本报告涉及内容新数据KG数据融合新关系语言分析知识获取信息抽取NER主要内容噪音训练数据众包NER数据基于众包数据的NER研究进展总结噪音训练数据 NLP系统构建给定一个NLP任务通常需要训练语料，理想是100%正确语料专家语料 LDC分词语料/北大分词语料一致性都低于99%常见人工语料一致性更差场景1：多快糙省多快糙省构建人工语料
2、任务：新领域/新任务例子：互联网文本处理文本种类多、数量大微博、微信。论坛帖子，如百度贴吧、水木社区用户评论文本博客。场景1：多快糙省多快糙省构建人工语料在处理互联网文本面临的挑战现有语言分析工具性能下降的很快互联网文本通常没有人工标注语料专家标注代价高，速度慢在新领域中，有时候不得不标一些新语料少、慢、好、贵众包数据非专家标注员快速完成语料标注，包含大量噪音多、快、糙、省场景2：现有一个列表，如何构建新系统任务：有一个实体表/KB关系表，构建能识别类似实体的系统例子：识别歌名，现有一个歌名表，要求识别句子中的歌名问题：一般都缺乏标注语料远程监督数据使
3、用现有KB自动生成训练语料，也包含大量噪音NER系统构建场景研究课题有一定规模的人工标注训练语料常见领域：新闻领域常见类别：人名、地名、组织机构名等目标：构建在测试集上表现很好的系统实际应用新领域：电商领域、对话领域、金融领域等新类别：产品、品牌、歌名等目标：构建在新领域里面还算能用的系统问题：通常无人工标注训练语料招人，标语料标注数据专家标注员（适用于不计成本的主）对标注规范了如指掌，且有耐心标注优点：标注质量高缺点：难找且贵普通标注员（适用于精打细算的主）对标注规范粗通（能花15分钟阅读规范就是好标注员）优点：数量多，便宜缺点：标注质量较低标注数据有些缺钱但
4、希望拥有高质量语料的研究者中间路线：N名普通标注员+12名专家完美结合：专家负责解决难题，普通人解决简单题预算合适：一群便宜的+几位贵的标注速度：应该是很快的多、快、好、省为了这个美好路线，苏大设计SNAP系统SNAP标注系统苏州大学SNAP标注系统任务类型：分类任务、序列标注任务和句法标注任务序列标注任务：NER、分词、词性浏览器模式：支持多人同时标注质量控制：随机多人普通标注员标注专家审核标注不一致投诉机制权威专家确定答案标注员评价地雷审核反馈学习专家意见SNAP标注系统（Demo）数据标注：理想 VS 现实理想：句子-普通标注员-偶尔求助专家标注员-完
5、美收工待标句子待标句子普通标注员专家标注员数据标注：理想 VS 现实现实：普通标注员不停的问专家各种问-专家崩溃待标句子待标句子普通标注员专家标注员X专家崩溃后。普通标注员按照自己的理解标注完任务领着报酬，愉快地走了留下众包标注数据数据规模是很大的有些标注挺好的，但有很多是有冲突的专家对这些结果是不满意的例子（差别很大）研究者的想法三个臭皮匠可以抵得上一个诸葛亮钱已经花了，留下了众包数据果断抛弃专家，直接用众包数据从众包数据学习一个可用中文NER系统学习众人取得的共识信息消解一些相互冲突的标注噪音 IBM的Jelinek：“每当我解雇一个语言学家，语音识别系统的性
6、能就会改善一些。”(“Every time I fire a linguist the performance of the recognizer improves”.)某些研究者：当我解雇所有标注专家，在群众帮助下NER系统依然可以改善一些。简单方法-直接使用假装这个数据是专家标注的直接使用LSMT-CRF训练简单方法-投票对众包语料采用少数服从多数原则再处理小白小白，我们玩个成语接龙吧！你说谢谢的诗意哥哥吗？简单方法-投票得到投票后的训练语料直接使用CRF或者LSTM-CRF训练但是效果不好LSTM-crowd 把每个标注员都表示为向量问题：测试时无法获得标注员信息方案一方案
7、二(Nguyen et al.,2017)普通标注员的“特点”快速看实体定义规范（15分钟），比如电商的产品和自己脑海里面的产品概念进行拟合直接开工可以快速标注句子每个人由于背景/知识面不同，对规范理解会不同标注员的共性有些人对鞋子了解的多一些有些人对衣服了解的多一些。我们专注的对象对抗网络适用任务跨语言(Cross-Lingual)跨领域(Domain Adaptation)多任务(Multi-task)通过对抗网络学习学习不同语言共性学习不同领域共性学习不同任务共性跨语言两种语言的语料两种语言的共性表示分类器分不出输入语言任务相关模块跨领域两种领域的语料两种领域的共
8、性表示分类器分不出输入领域任务相关模块众包数据学习对抗学习：学习共性步骤1：输入各个标注员标注的语料步骤2：学习出来的标注员的“共性”步骤3：分类器分不清是谁标注的困难不同领域、不同语言的特征明显如何区别标注员呢？ALCrowd框架LSTM-CRF共享特征2共享特征1标注员分类器语料实体标注NER相关特征优化目标数据数据1：DL-PS 狗尾草公司对话数据 16948句子标注类别：人名和歌名 43名标注员，每个句子3名标注员数据2：EC-MT/UQ 阿里电商Title和Query 2337句Title和2300句Query 类别：品牌、产品、型号、材料、规格 5名标注员，每个句
9、子2名标注员无标注数据：5M互联网用户生成数据实验结果：DL-PS+7.2 众包数据直接用也是可以的 ALCrowd效果明显(+1.1)实验结果：EC 众包数据直接用也是可以的 ALCrowd效果明显(+1.2 +2.4)+11.57+4.51预先训练的Embeddings的作用 Pre-trained Embeddings还是很有用的分析封闭测试（train-train）ALCrowd可以较好综合普通标注员的标注结果结束语专家标注数据质量高，但是不好搞少慢好贵普通标注员可以快速得到大规模标注数据多快糙省在众包数据上可以构建较好的NER系统如何充分利用众包数据还有很长的路要走谢谢

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：基于众包训练数据的中文实体标注研究-课件.pptx
链接地址：https://www.163wenku.com/p-3496255.html

三亚风情

内容提供者

实名认证

联系作者