一种数据驱动的Wrapper自动生成与维护方法课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《一种数据驱动的Wrapper自动生成与维护方法课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 数据 驱动 Wrapper 自动 生成 维护 方法 课件
- 资源描述:
-
1、一种数据驱动的一种数据驱动的Wrapper自动自动生成与维护方法生成与维护方法xxx中国人民大学WAMDM实验室1谢谢你的阅读2019年10月292大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍谢谢你的阅读2019年10月293Deep Web 介绍 World Wide WebCIDR07 目前可访问的网页超过550 billion 目前主流搜索引擎只索引了超过1billion的页面Web的划分(按照数据“深浅”程度)Surface Web -通过超链接可以被传统搜索引擎索引到的页面的集合。Deep Web -无法被传统的搜索引擎索引到的那部分内容
2、。谢谢你的阅读2019年10月294Deep Web的主要特点 规模 2001年7月BrightP:Web数据库的数量超过4万个 2004年UIUC统计:Web数据库超过45万个 2007年CIDR:Web数据库超过2500万个 是Surface Web的500多倍 结构化程度 75%主题分布 覆盖了现实世界的各个主题(商业、新闻媒体、娱乐)自治性和异质性谢谢你的阅读2019年10月295研究动机 原有的数据抽取方法 基于DOM树分析Y.Zhai,B.Liu.Web data extraction based on partial tree alignment.In:WWW,2005.76-8
3、5.D.Hu and X.Meng:Automatically extracting data from data-rich web pages.In:DASFAA 2005,pages828-839,Beijing,China,April 17-20,2005.Lecture Notes in Computer Science 3453,Springer.基于视觉的抽取H.Zhao,W.Meng,Z.Wu,V.Raghavan,C.T.Yu.Fully automatic wrapper generation for search engines.In WWW,pages 66-75,200
4、5.K.Simon,G.Lausen.ViPER:Augmenting Automatic Information Extraction with Visual Perceptions.In CIKM,pages 381-388,2005.W.liu,X.Meng,W.Meng.Vision-based Web Data Records Extraction.In:Proceedings of the 9th SIGMOD International Workshop on Web and Databases(SIGMOD-WebDB2006),June 30,2006谢谢你的阅读2019年1
5、0月296原有抽取方法的缺陷(1)SL05 K.Simon,G.Lausen.ViPER:Augmenting Automatic Information Extraction with Visual Perceptions.In CIKM,pages 381-388,2005.ViNTs(MDR-2)CH07 S.-L.Chuang,K.C.-C.Chang,and C.Zhai.Context-Aware Wrapping:Synchronized Data Extraction.In:VLDB 2007.699-710数据集1数据集2数据集3查全率97.6%98.7%(52.8%)89.
6、2%查准率98.1%98.7%(87.7%)93.5%音乐图书汽车LineSpliter65%67%40%RoadRunner90%62%80%ExAlg91%85%81%TreeAlign88%65%85%领域方法谢谢你的阅读2019年10月297原有抽取方法的缺陷(2)特征驱动的方法:严重依赖于网页的结构及特征 准确率波动现象准确率不同的领域/不同的页面集合(失效)(较好)(较差)(一般)谢谢你的阅读2019年10月298大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍谢谢你的阅读2019年10月299Deep Web查询结果页面 查询结果列表(l
展开阅读全文