基于web搜索引擎的问答系统架构课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《基于web搜索引擎的问答系统架构课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 web 搜索引擎 问答 系统 架构 课件
- 资源描述:
-
1、李方涛2008.11.15问答系统介绍2/4/2023Question AnsweringFangtao Li问答系统介绍背景介绍问答系统的历史问答系统分类相关系统介绍自动问答系统框架及相关研究未来可能研究方向总结2/4/2023Question AnsweringFangtao Li10月12日 英国图灵测试艾尔博特12日与12个陌生人交谈,力图让他们相信“它”是“人”,骗过3人2/4/2023Graphic Models-Shilin DING7月1日,微软收购PowerSet微软以1亿美金收购语义搜素引擎PowerSet2/4/2023Graphic Models-Shilin DING
2、背景介绍互联网信息增长2023-2-4全球手机用户今年底将达40亿人国际电信联盟 手机用户日渐增多0204060801001202002.12 2003.12 2004.12 2005.12 2006.12 2007.122007年中国互联网络信息资源数量调查报告 中国互联网络信息中心(CNNIC)网页数量(亿)背景介绍搜索引擎技术的缺陷基于关键词,无法精确表达用户需求Books for childrenBooks by children返回的不是精确知识,而是相关文档列表查找相关文档获得知识,费时费力过多冗余信息不利于手机用户获取web知识屏幕小网速慢2023-2-4背景介绍自动问答系统基于
3、自然语言的搜索引擎输入的是以自然语言表示的句子输出的是问题的精确答案能更方便,快捷的满足用户的需求2023-2-4问答系统的历史Some of the early AI systems were QAs(1960s)BASEBALL:answered questions about the US baseball league over a period of one year.LUNAR:W.Woods研制成功的基于知识的自然语言理解系统.LUNAR用于查询月球地质数据,协助地质 学家查询分析阿波罗11号在月球采集的岩石标本的成分,回答用户的问题。该系统的数据库中有13000条化学分析规则和
4、10000条文献论题索引.1971 测试,答对90%以上的问题The common feature of all these systems is that they had a core database or knowledge system that was hand-written by experts of the chosen domain2/4/2023Question AnsweringFangtao Li问答系统的历史ELIEA:1968年J.Weizenbaum在美国麻省理工学院设计的基于模式匹配的自然语言系统中最有名的一个。ELIEA模拟一位心理治疗医生(机器)同一位患者
5、(用户)进行交谈.用的是模式及关键字匹配和置换的方法,没有发展成一套系统的技术。例如,假设有关键字me和句型模式:(*you*me),而且还有一个与该模式对应的置换规则:(what makes you think I*you),那么,当输入句为“Yesterday you hurt me.”时,输出为“What makes you think I hurt you?”。ELIZA另外一个明显的弱点是:一旦发现用户输入中的一个关键字(词),便马上寻求答案,而不继续寻找用户句子中其它的关键字(词),这样使得一些优先级别比较低的模式几乎永远不会被匹配到。2/4/2023Question Answer
6、ingFangtao LiA:It is certain I am a person B:How long have you been a person?A:More than 20 years B:Say,do you have any psychological problems?A:m.how about consciousness?B:Are such questions on your mind often?A:yes B:I understand.A:tell me how are you thinking about the consciousness.问答系统的历史1999年开
7、始,为鼓励QA的发展,TREC 设立了QA 任务,揭开了近年来开放领域自动问答系统研究的序幕2008年,又引入观点问答系统(opinion QA)至今,共有50多个机构参与了QA的评测,其中包含LCC,MIT,Stanford,IBM,NUS,Microsoft,Uni.of Edinburgh,Uni.of Sheffield,USC 以及国内的中科院,复旦,哈工等高校和研究机构以及最近,社区问答系统正在越来越受关注2/4/2023Question AnsweringFangtao Li问答系统分类自动问答系统(Automatic Question Answering)问题的答案存在于大量数
8、据集中需要通过信息检索,自然语言处理等技术,获得问题的答案完全自动,不需要人的参与A;start系统社区问答系统 (Community Question Answering)基于论坛,社区等形式的问答系统问题已经被提出,并且已经有人回答Yahoo Answers!天涯问答,百度知道2/4/2023Question AnsweringFangtao Li问答系统分类自动问答系统Open domain question answering SystemYou can ask questions about nearly everythingRely on general ontology and
9、world knowledgeNeed much more data to extract answerClosed Domain question answering systemDeal with questions under a specific domain(for example,medicine,novel)Use domain specific knowledge,usually formalized in ontologies2/4/2023Graphic Models-Shilin DING问答系统分类TREC的问题类型简单事实型问题一般可以用一个名词短语直接回答Who k
10、illed Abraham Lincoln?简单列表问题Which cities have held the Olympic Games twice?复杂问题Why问题,How问题,Definition问题情感问题2/4/2023Graphic Models-Shilin DING相关系统介绍Start系统AskJeeves系统AnswerBus系统PowerSet系统Yahoo Answers!天涯问答百度知道2/4/2023Graphic Models-Shilin DINGStart系统MIT 于1993年开发第一个基于Internet的问答系统http:/start.csail.mit
11、.edu/主要分为4类问题:GeographyScience and ReferenceArts and EntertainmentHistory and Culture基于知识库和信息检索的混合模式2/4/2023Graphic Models-Shilin DINGAskJeeves系统比较著名的商用问答系统http:/ Models-Shilin DINGAnswerBus密歇根大学开发多语种问答系统2/4/2023Graphic Models-Shilin DINGPowersetbuilding a natural language search engine that reads a
展开阅读全文