基于众包训练数据的中文实体标注研究-课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《基于众包训练数据的中文实体标注研究-课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 训练 数据 中文 实体 标注 研究 课件
- 资源描述:
-
1、基于众包训练数据的中文实体标注研究陈文亮苏州大学人类语言技术研究所(SUDA-HLT)2017-12知识图谱 知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。知识图谱规模庞大本报告涉及内容新数据KG数据融合新关系语言分析知识获取信息抽取NER主要内容 噪音训练数据 众包NER数据 基于众包数据的NER研究进展 总结噪音训练数据 NLP系统构建 给定一个NLP任务 通常需要训练语料,理想是100%正确语料 专家语料 LDC分词语料/北大分词语料一致性都低于99%常见人工语料 一致性更差场景1:多快糙省多快糙省构建人工语料
2、 任务:新领域/新任务 例子:互联网文本处理 文本种类多、数量大 微博、微信。论坛帖子,如百度贴吧、水木社区 用户评论文本 博客。场景1:多快糙省多快糙省构建人工语料 在处理互联网文本面临的挑战 现有语言分析工具性能下降的很快 互联网文本通常没有人工标注语料 专家标注 代价高,速度慢 在新领域中,有时候不得不标一些新语料 少、慢、好、贵 众包数据 非专家标注员快速完成语料标注,包含大量噪音 多、快、糙、省场景2:现有一个列表,如何构建新系统 任务:有一个实体表/KB关系表,构建能识别类似实体的系统 例子:识别歌名,现有一个歌名表,要求识别句子中的歌名 问题:一般都缺乏标注语料 远程监督数据 使
3、用现有KB自动生成训练语料,也包含大量噪音NER系统构建场景 研究课题 有一定规模的人工标注训练语料 常见领域:新闻领域 常见类别:人名、地名、组织机构名等 目标:构建在测试集上表现很好的系统 实际应用 新领域:电商领域、对话领域、金融领域等 新类别:产品、品牌、歌名等 目标:构建在新领域里面还算能用的系统 问题:通常无人工标注训练语料招人,标语料标注数据 专家标注员(适用于不计成本的主)对标注规范了如指掌,且有耐心标注 优点:标注质量高 缺点:难找且贵 普通标注员(适用于精打细算的主)对标注规范粗通(能花15分钟阅读规范就是好标注员)优点:数量多,便宜 缺点:标注质量较低标注数据 有些缺钱但
4、希望拥有高质量语料的研究者 中间路线:N名普通标注员+12名专家 完美结合:专家负责解决难题,普通人解决简单题 预算合适:一群便宜的+几位贵的 标注速度:应该是很快的 多、快、好、省 为了这个美好路线,苏大设计SNAP系统SNAP标注系统 苏州大学SNAP标注系统 任务类型:分类任务、序列标注任务和句法标注任务 序列标注任务:NER、分词、词性 浏览器模式:支持多人同时标注 质量控制:随机多人普通标注员标注 专家审核标注不一致 投诉机制 权威专家确定答案 标注员评价 地雷审核 反馈学习专家意见SNAP标注系统(Demo)数据标注:理想 VS 现实 理想:句子-普通标注员-偶尔求助专家标注员-完
展开阅读全文