书签 分享 收藏 举报 版权申诉 / 37
上传文档赚钱

类型基于web搜索引擎的问答系统架构课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5028847
  • 上传时间:2023-02-04
  • 格式:PPT
  • 页数:37
  • 大小:2.46MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《基于web搜索引擎的问答系统架构课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    基于 web 搜索引擎 问答 系统 架构 课件
    资源描述:

    1、李方涛2008.11.15问答系统介绍2/4/2023Question AnsweringFangtao Li问答系统介绍背景介绍问答系统的历史问答系统分类相关系统介绍自动问答系统框架及相关研究未来可能研究方向总结2/4/2023Question AnsweringFangtao Li10月12日 英国图灵测试艾尔博特12日与12个陌生人交谈,力图让他们相信“它”是“人”,骗过3人2/4/2023Graphic Models-Shilin DING7月1日,微软收购PowerSet微软以1亿美金收购语义搜素引擎PowerSet2/4/2023Graphic Models-Shilin DING

    2、背景介绍互联网信息增长2023-2-4全球手机用户今年底将达40亿人国际电信联盟 手机用户日渐增多0204060801001202002.12 2003.12 2004.12 2005.12 2006.12 2007.122007年中国互联网络信息资源数量调查报告 中国互联网络信息中心(CNNIC)网页数量(亿)背景介绍搜索引擎技术的缺陷基于关键词,无法精确表达用户需求Books for childrenBooks by children返回的不是精确知识,而是相关文档列表查找相关文档获得知识,费时费力过多冗余信息不利于手机用户获取web知识屏幕小网速慢2023-2-4背景介绍自动问答系统基于

    3、自然语言的搜索引擎输入的是以自然语言表示的句子输出的是问题的精确答案能更方便,快捷的满足用户的需求2023-2-4问答系统的历史Some of the early AI systems were QAs(1960s)BASEBALL:answered questions about the US baseball league over a period of one year.LUNAR:W.Woods研制成功的基于知识的自然语言理解系统.LUNAR用于查询月球地质数据,协助地质 学家查询分析阿波罗11号在月球采集的岩石标本的成分,回答用户的问题。该系统的数据库中有13000条化学分析规则和

    4、10000条文献论题索引.1971 测试,答对90%以上的问题The common feature of all these systems is that they had a core database or knowledge system that was hand-written by experts of the chosen domain2/4/2023Question AnsweringFangtao Li问答系统的历史ELIEA:1968年J.Weizenbaum在美国麻省理工学院设计的基于模式匹配的自然语言系统中最有名的一个。ELIEA模拟一位心理治疗医生(机器)同一位患者

    5、(用户)进行交谈.用的是模式及关键字匹配和置换的方法,没有发展成一套系统的技术。例如,假设有关键字me和句型模式:(*you*me),而且还有一个与该模式对应的置换规则:(what makes you think I*you),那么,当输入句为“Yesterday you hurt me.”时,输出为“What makes you think I hurt you?”。ELIZA另外一个明显的弱点是:一旦发现用户输入中的一个关键字(词),便马上寻求答案,而不继续寻找用户句子中其它的关键字(词),这样使得一些优先级别比较低的模式几乎永远不会被匹配到。2/4/2023Question Answer

    6、ingFangtao LiA:It is certain I am a person B:How long have you been a person?A:More than 20 years B:Say,do you have any psychological problems?A:m.how about consciousness?B:Are such questions on your mind often?A:yes B:I understand.A:tell me how are you thinking about the consciousness.问答系统的历史1999年开

    7、始,为鼓励QA的发展,TREC 设立了QA 任务,揭开了近年来开放领域自动问答系统研究的序幕2008年,又引入观点问答系统(opinion QA)至今,共有50多个机构参与了QA的评测,其中包含LCC,MIT,Stanford,IBM,NUS,Microsoft,Uni.of Edinburgh,Uni.of Sheffield,USC 以及国内的中科院,复旦,哈工等高校和研究机构以及最近,社区问答系统正在越来越受关注2/4/2023Question AnsweringFangtao Li问答系统分类自动问答系统(Automatic Question Answering)问题的答案存在于大量数

    8、据集中需要通过信息检索,自然语言处理等技术,获得问题的答案完全自动,不需要人的参与A;start系统社区问答系统 (Community Question Answering)基于论坛,社区等形式的问答系统问题已经被提出,并且已经有人回答Yahoo Answers!天涯问答,百度知道2/4/2023Question AnsweringFangtao Li问答系统分类自动问答系统Open domain question answering SystemYou can ask questions about nearly everythingRely on general ontology and

    9、world knowledgeNeed much more data to extract answerClosed Domain question answering systemDeal with questions under a specific domain(for example,medicine,novel)Use domain specific knowledge,usually formalized in ontologies2/4/2023Graphic Models-Shilin DING问答系统分类TREC的问题类型简单事实型问题一般可以用一个名词短语直接回答Who k

    10、illed Abraham Lincoln?简单列表问题Which cities have held the Olympic Games twice?复杂问题Why问题,How问题,Definition问题情感问题2/4/2023Graphic Models-Shilin DING相关系统介绍Start系统AskJeeves系统AnswerBus系统PowerSet系统Yahoo Answers!天涯问答百度知道2/4/2023Graphic Models-Shilin DINGStart系统MIT 于1993年开发第一个基于Internet的问答系统http:/start.csail.mit

    11、.edu/主要分为4类问题:GeographyScience and ReferenceArts and EntertainmentHistory and Culture基于知识库和信息检索的混合模式2/4/2023Graphic Models-Shilin DINGAskJeeves系统比较著名的商用问答系统http:/ Models-Shilin DINGAnswerBus密歇根大学开发多语种问答系统2/4/2023Graphic Models-Shilin DINGPowersetbuilding a natural language search engine that reads a

    12、nd understands every sentence on the WebCurrently based on Wiki articles2/4/2023Graphic Models-Shilin DINGYahoo Answers!2/4/2023Graphic Models-Shilin DING2/4/2023Graphic Models-Shilin DING2/4/2023Question AnsweringFangtao Li自动问答系统的框架2023-2-4文档集合信息检索检索结果问题分析答案选取问题答案问题分类问题分类的作用减少候选答案的空间过滤其他类型的答案指导答案抽取

    13、策略不同类型的问题,采取不同的处理方式简单事实型问题:可以采用模板匹配的方式Why或How复杂问题:可以采用文本摘要的方式2023/2/4问题分类分类体系2023/2/4CoarseFineABBRAbbreviation,expressionDESCDefinition,description,manner,reasonENTYAnimal,body,color,creation,currency,disease/medicine,event,food,instrument,language,letter,other,plant,product,religion,sport,substanc

    14、e,symbol,technique,term,vehicle,wordHUMDescription,group,individual,titleLOCCity,country,mountain,other,stateNUMCode,count,date,distance,money,order,other,percent,period,speed,temperature,size,weightUIUC 问题分类体系问题分类相关工作概述基于规则的方法根据问题体系,人工构造规则匹配例如,Pasca曾使用以下规则用于问题分类Who?What is the definition of?人工构造规则,

    15、费时费力分类体系不同,需要重新构造规则2023/2/4相关研究:问题分类基于机器学习的方法普通分类器Hacioglu等提出了使用单词作为特征,并把词性,短语,名词实体添加为特征,利用SVM对问题进行分类。(NAACL 03)层次分类器Li提出了一种基于SNoW(Sparse Network of Window)的层次分类器,它首先将问题句分类到所属的粗(coarse)类别,然后再分到细(fine)类别(Coling 2002)Donald 提出了一种基于问题词的层次分类器,它首先根据句子中出现的问题词进行简单的分类,然后再对每个类别分别训练一个分类器(Natural Language Engi

    16、neering,2007)2023-2-4相关研究:问题分类基于机器学习的方法基于句法结构的树状分类器Zhang 利用句法树的子树做特征,提出了基于树形核函数的SVM问题分类器。(SIGIR02)Minh等人将问题分类任务转化为对有序树的分类任务,最终利用最大熵模型和boosting模型完成对问题句子的分类。(IJCAI 07)2023-2-4相关研究:信息检索基于关键词的文章检索与传统的文章检索差别不大更为精细的Index (Hickle,TREC 07;An,IR4QA 08)查询扩展(Bilotti,MIT MS thesis 04;Riezler,ACL 07)相关反馈(Harabag

    17、iu,ACL01;Negri,IR4QA 04)句子检索基于相似度的句子检索MITRE:词匹配 Alicante:余弦距离ISI:多种相似度匹配组合2023-2-4相关研究:信息检索句子检索基于依存语法的句子检索(Cui,SIGIR 05)将问题和备选句子用句法分析器处理,生成句法树在训练集中获得依存关系的对应概率对问题和备选句子对齐,分别在两者中提取关系路径选择备选的关系路径中与问题的关系路径最相似的作为检索结果基于翻译模型的句子检索(Murdock,IR4QA 04)2023-2-4相关研究:答案选取基于模板匹配的答案抽取方法基于严格模板匹配的答案抽取方法(Rav.,ACL 02)基于宽松

    18、匹配的答案提取方法(Cui,SIGIR 05)模板匹配过于严格,考虑到间隔(gap)问题基于插入,删除的语言模型和HMM模型2023-2-4模板获取模板评价答案抽取基于语言学特征的机器学习方法Ittycheriah 利用最大熵模型综合各种特征对候选答案排序。所使用的特征包含问题扩展,中心词,名词实体,依存关系和匹配模板。(NAACL 01)Shen 使用支持向量机的三种核函数:特征向量,字符串核函数,树形核函数对候选答案分类。(ACL 06)Ko 等人使用概率图模型计算候选答案正确的概率。特征包含知识库(Gazetteers,WordNet),基于外部数据(Wiki,Google),编辑距离,

    19、同义词(SIGIR 07)相关研究:答案选取2023-2-4相关研究:答案选取基于Web搜索引擎的答案获取方法Microsoft的AskMSR系统 (EMNLP 02)Lin 的Aranea系统 (TOIS 07)Zhang 的 QUANTA系统(KDD 07)2023-2-4基于基于web搜索引擎的问答系统架构搜索引擎的问答系统架构未来研究方向及相关研究领域传统问答系统简单事实问题列表问题定义问题2/4/2023Question AnsweringFangtao Li未来研究方向及相关研究领域Opinion Question AnsweringRigid lists:given a ques

    20、tion such as:Name US senators who support tax reform.Which countries would like to build nuclear power plants?Which rock bands do college students like?return:exact strings containing a list itemSquishy lists:given a question such as:What criticisms do US senators have against the current tax system

    21、?Why do countries want to have nuclear power plants?What do people like about Ikea?“return:strings containing an answer to the question2/4/2023Question AnsweringFangtao LiCommunity Question AnsweringBased on ForumSuch as SMTHExtract Question Answers from ThreadsBased on CommunityQuestion Analysis an

    22、d ManagementQuestion Retrieval2/4/2023Question AnsweringFangtao LiRecognizing Textual Entailment问答系统中,句子与句子的关系是一种有向的推理关系:文本=答案Who owns Powerset?Microsoft bought Powerset=Microsoft owns Powerset.文本推理关系的识别给(text)和一段假设(hypothesis),判断假设在已知文本(text)的条件下是否正确2023-2-4Textual EntailmentMeaningRepresentationRaw Text SimilaritySimilarityLocal LexicalSyntactic ParseSemantic RepresentationMary was Killed by her husband.Mary was murdered.Lumber is a subsidiary of Ernslaw OneLumber owns Ernslaw One.总结问答系统能够跟好地满足用户的需求问答系统的产品越来越受到大家的重视问答系统的研究越来越广泛2/4/2023Question AnsweringFangtao Li

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:基于web搜索引擎的问答系统架构课件.ppt
    链接地址:https://www.163wenku.com/p-5028847.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库