试题标注结果统计及分析-南京大学课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《试题标注结果统计及分析-南京大学课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 试题 标注 结果 统计 分析 南京大学 课件
- 资源描述:
-
1、试题标注结果统计及分析南京大学-nlp组2015.06.07标注体系 试题及选项 求解目标:以题为单位,answer type 多实体、单实体、判断、流程、其他 问句模式: 以选项为单位,question type 事实、因果、比较、关联、图表计算、其他 时间 地点 术语 课本知识点 思维导图知识点 图片类型(可选)标注样例03.2014北京市朝阳区高考文综地理二模试题(附答案)(11)_2.xls标注结果及分析 南大10人参加标注 28套北京高考及各区模拟试题 共515道选择题,515*4=2060个选项求解目标标注结果统计 判断 386 单实体 83 多实体 36 流程 9 其它 1多实体
2、流程单实体其它判断求解目标标注结果分析 与题面的关联分析(基于lasso特征选择模型的关键字提取算法)问句模式标注结果统计 事实:349 因果:120 比较:100 图表计算:32 关联:19 其他:2事实因果比较图表计算关联其它问句模式(标注错误) 问句模式为“其它”的题: 按照约定,上述题面不需要单独标问句模式,这里应该是误标问句模式标注结果分析 与题面的关联分析:时间词标注 数量:251 我们将时间词整理为9类,识别优先级如下: cycle:周期类 period:时间段 season:季节(包括部分节气) timep:不同粒度的时间点 cond:有条件的时间 stage:某期间或某时期
3、frame:一天中的某时段 ref:虚拟指代的时间 other:其他timepperiodseasonothercondstageframerefcycle时间词分析 cycle 规则: 表达式中包含每 数量:5 例子:时间词分析 period 规则: 数量:42 例子:时间词分析 season 规则: 表达式中包含春“夏”“秋”冬中的至少一个 数量:29 例子: 夏季,春,秋冬,春季,冬季,秋冬季 特殊: 夏至日 冬夏之交时间词分析timep 规则: 表达式中包含年“月”“日”中至少一个,并且有数字(中文或阿拉伯数字) 包含“时”,并且前一个字符为数字 包含“点”,并且前一个字符为数字 包含
4、“:”或:(时分秒) 包含/(年月日) 数量:116 例子: 特殊: 年复一年 此日后20天 3、4月 近20年来 2300万年前时间词分析 cond 规则: 表达式以“时”或“后”结束 数量:11 例子: 特殊: 2小时后 此时时间词分析stage 规则: 数量:10 例子: 特殊: 图示时期 甲时期 (上述两个是否应该算入ref虚拟指代时间词中?)时间词分析 frame 规则: 表达式包含这些词中的某一个: u傍晚,u早晨,u昼,u夜,u上午,u中午,u下午,u晚上,u夜晚,u黎明,u深夜,u午间,u日出,u日落 数量:9 例子:时间词分析 ref: 规则: 表达式包含“某”“该”“当”“
5、此”中的一个 数量:6 例子:时间词分析 other 没有被分到上述8类的其它时间表达式 数量:23 例子: 地点词统计 数量:1019 8类,识别优先级如下: lonlat:包含经纬度的地点 ref:虚拟指代的地点 adregion:行政区域,国家、省、市、县等等 station:XX站 special:XX平原、高原等,包括特例公园 area:XX区 direction:包含方位词 other:其它adregionrefspecialotherdirectionarealonlatstation地点词分析 lonlat 规则: 包含或者“北纬”“南纬”“东经”“西经” 数量:36 例子:
6、90E 乌鲁木齐(44N,88E) (20, 127) 北纬3540 西经170附近 北纬50地点词分析 ref 规则: 包含“甲”“乙”“丙”“丁”中至少一个 或,包含中至少一个 或,包含字母 或,包含“某”“图示”“该”“此”“图中”“图+”中至少一个 数量:215 例子:地点词分析adregion 规则: 以“省”“市”“国”“县”“自治区”结尾 一个手工编辑的地名过滤列表(仅适用于目前收集的地名) 数量:322 例子: 海口 北京市 江苏省 荷兰 特殊: 苏、皖、浙、闽四省 我国 江苏省和陕西省 两省 各省 我国部分城市地点词分析 station 规则: 以“站”结尾 数量:11 例子
展开阅读全文