书签 分享 收藏 举报 版权申诉 / 64
上传文档赚钱

类型百度知识图谱新进展课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:3305138
  • 上传时间:2022-08-18
  • 格式:PPT
  • 页数:64
  • 大小:8.74MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《百度知识图谱新进展课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    百度 知识 图谱 进展 课件
    资源描述:

    1、知心时代百度知识图谱新进展青玉案青玉案元夕元夕百度百度百度搜索引擎百度搜索引擎97 7Billion覆盖中国的网民覆盖中国的网民%每天的搜索量每天的搜索量百度每天的搜索百度每天的搜索query来自全球来自全球138个国家个国家百度的产品百度的产品User Generated Content(UGC)多种垂类产品多种垂类产品超过超过3亿亿已解答问题已解答问题来自来自520万万网民网民贡献的贡献的1000万万词条词条超过超过800万万的吧的吧NLPNLP百度百度UGC知道知道百科百科贴吧贴吧LBSMapNuomiGroup Buy国际化国际化葡语葡语阿语阿语泰语泰语搜索搜索网页搜索网页搜索移动云移

    2、动云移动搜索移动搜索 百度云百度云 语音助手语音助手商业产品商业产品文库文库音乐音乐广告广告百度百度NLP百度NLP百度百度NLP-多元化团队多元化团队语言学人才百度NLP系统实现人才产品设计人才架构、前端、客户端工程开发人才算法开发人才学术人才百度百度NLP基本方法基本方法基础资源基础资源词典语料规则方法统计与机器学习方法网页 日志基础架构基础架构/平台平台应用系统应用系统智能交互智能交互深度问答深度问答机器翻译机器翻译用户理解用户理解话语分析话语分析自动文摘自动文摘网页理解网页理解文本生成文本生成Query理解理解APP理解理解专名识别专名识别分词、词性分词、词性形态分析形态分析组块分析组

    3、块分析主干分析主干分析依存分析依存分析逻辑推理逻辑推理语义计算语义计算语义表示语义表示文本理解文本理解上层技术上层技术词法词法基础分析基础分析句法句法语义语义用户建模用户建模用户行为预测用户行为预测NLP业务业务应用产品应用产品搜索产品LBS产品国际化产品用户消费产品移动产品知识挖掘知识挖掘提纲提纲 百度知心概要介绍百度知心概要介绍 百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展 知识图谱的其他技术和应用百度的知知识中心心百度知心:百度的知识图谱百度知心:百度的知识图谱 知心的两层含义百度更知知用户的心心百度知心百度知心丰富的丰富的应用应用庞大的庞大的知识库知识库强大的强大的

    4、处理技术处理技术孵化平台孵化平台“涵盖了数十领域,上亿实体与属性,符合国际化接轨的数据标准体系”“包括清洗、消歧、关联、推理等能力,将无序数据变为知识网络”“对接大搜索、移动、LBS、国际化等公司战略产品,提供诸如:知识聚合、检索、推荐、交互等形态多样的应用”快捷的快捷的“已高效完成百亿互联网数据的挖掘,以及数十个创新产品的孵化”知识图谱定位和概况知识图谱定位和概况百度知识图谱致力于构建宏大的知识网络,包含世间万物以及它们之间的联系,以图文并茂的方式展现知识的方方面面,让人们更便捷的获取信息、找到所求。百度知心的一路走来百度知心的一路走来2012年底百度知心上线实体基本属性仅针对实体型quer

    5、y相关实体推荐增加用户互动的内容增加用户互动的内容搜索引擎体现搜索引擎体现社交社交色彩色彩百度知心:更加精彩的用户体验百度知心:更加精彩的用户体验推荐推荐无处不在无处不在推荐技术更加深入推荐技术更加深入百度知心:更加精彩的用户体验百度知心:更加精彩的用户体验百度知心:无处不在的推荐百度知心:无处不在的推荐点击后推荐点击后推荐click百度知心:无处不在的推荐百度知心:无处不在的推荐上翻后推荐上翻后推荐下翻下翻上翻上翻通栏推荐通栏推荐百度知心:无处不在的推荐百度知心:无处不在的推荐百度如何知心?百度如何知心?百度知心的背后百度知心的背后尽可能快的满足用户的当前需求尽可能多的引导用户的延展需求更加

    6、深刻的理解用户需求更加丰富的需求满足方式更加深入细致的搜索/推荐/挖掘/NLP/机器学习技术百度知心的不断进化百度知心的不断进化提纲提纲 百度知心概要介绍 百度知心实体推荐理由百度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展 知识图谱的其他技术和应用什么是推荐理由?什么是推荐理由?推荐理由的两方面作用摘要满足摘要满足让用户一目了然的了解推荐的实体是什么增加吸引力增加吸引力让用户更有兴趣对推荐的实体一探究竟百度知心推荐理由的分类百度知心推荐理由的分类单实体型推荐理由单实体型推荐理由Q:林丹:林丹 对于推荐实体本身的描述 与query无关 覆盖面高实体关系型推荐理由实体关系型推荐理

    7、由Q:林丹:林丹 对两个实体的关系的描述 与给定query相关 覆盖面低单实体推荐理由挖掘单实体推荐理由挖掘百度百科网页库搜索日志实体链指数数据据掘掘BootstrappingDistantSupervision推荐理由生成基于规则的生成基于规则的生成实体三元组模板集后后处处理理挖挖推荐理由压缩推荐理由压缩实体推荐理由知识库推荐理由挖掘基于模板的挖掘基于模板的挖掘单实体推荐理由挖掘单实体推荐理由挖掘挖掘示例挖掘示例doc http:/ related to e抽取TAG(e,tag),压缩TAG(e,s_tag),过滤TAGaccuracy85%+众测为什么要自动化:pattern-based

    8、方法召回低问题定义:PU Learning问题 Only positive example and unlabeled data Two steps:Mapping Stage:finding reliable negative instancesConvergence Stage:classifier building单实体推荐理由挖掘单实体推荐理由挖掘Tag ModelYu et al.,2002.PEBL:Positive Example Based Learning for Web Page Classification Using SVM.In SIGKDD.doc http:/ r

    9、elated to e抽取候选(e,tag),分类TAGaccuracy84%众测单实体推荐理由挖掘单实体推荐理由挖掘Tag Model抽取示例抽取示例实体关系型推荐理由挖掘实体关系型推荐理由挖掘-1利用结构化信息自动生成关系型推荐理由利用结构化信息自动生成关系型推荐理由使用百科名片数据中的属性知识自动拼接生成实体关系Query颜良颜良RelatedEntity关公关公推荐理由推荐理由在大坯山一刀杀死颜良在大坯山一刀杀死颜良实体关系型推荐理由挖掘实体关系型推荐理由挖掘-2基于句法分析从自由文本中挖掘实体间关系基于句法分析从自由文本中挖掘实体间关系对海量网页数据进行句法分析,从实体间的句法路径挖

    10、掘实体关系颜良关公杀死一刀大坯山在 大坯山 下 颜良 被 关公 突然 袭击 快马 奔到 面前 一刀 杀死 的提纲提纲 百度知心概要介绍 百度知心实体推荐理由 百度知心推荐实体消歧百度知心推荐实体消歧 百度知心推荐实体轮展 知识图谱的其他技术和应用Query端端/文本端分别建模文本端分别建模知识库中的实体知识库中的实体M1M2M3M4M5知识库实体建模知识库实体建模文本端文本端Query端端Q:李娜 青藏高原基于点击日志基于点击日志的的query扩展扩展MQNERL-QQuery mention建模建模MDNERL-D文本文本mention建模建模Query端端/文本端分别建模文本端分别建模Q:

    11、为什么需要分别建模?A:同一个mention在query和长文本中的entity分布可能相差很大例如:Query:你不知道的事出现在query中,绝大多数情况是歌曲名文本:解析老干妈:“逆营销”下,你不知道的事出现在文本中,大多数情况不是歌曲名上下文建模上下文建模候选实体抽取:在给定文本中定位mention及其候选entities同义词映射:同义词映射:勒布朗-詹姆斯同义词映射:同义词映射:凯文-乐福同义词映射:同义词映射:克里夫兰骑士队同义词映射:同义词映射:奥兰多魔术队衰减率(w,_)1-5-4-3-2-1012345李娜0名将HEAD在号上下文建模上下文建模 上下文词汇特征上下文词汇特征

    12、 目标mention左右窗口中的词 上下文实体特征上下文实体特征 目标mention左右窗口中出现的实体 文本类别特征文本类别特征 当前文本的所属类别距离衰减因子实体建模实体建模 实体文本词汇特征实体文本词汇特征 实体文本中的内容词w与mention在大规模语料中的共现紧密度 实体文本实体特征实体文本实体特征 实体文本中出现的其他实体 实体文本类别特征实体文本类别特征 如百科词条的分类标签特定小说、影视、音乐等特定类别的特征裁剪实体链指决策实体链指决策 特征特征 mention与entity的自身相似度特征、上下文词相似度特征、上下文实体相似度特征、文本类别相似度特征 mention链指到不同

    13、entity的先验概率特征 决策步骤决策步骤-1:排序:排序 从mention的所有候选实体中,基于LTR选出top-1候选 决策步骤决策步骤-2:分类:分类 基于RF模型对top-1候选进行分类,判断是否应链接 注:知识库中存在实体缺失问题,因此分类的步骤必不可少EL应用于推荐实体消歧应用于推荐实体消歧Q:小威:小威Q:青藏高原:青藏高原EL应用于推荐实体消歧应用于推荐实体消歧Q:小威:小威Q:青藏高原:青藏高原解决上下文稀疏问题:解决上下文稀疏问题:在在N个推荐实体中,用其他个推荐实体中,用其他N-1个实体作为当前歧义实个实体作为当前歧义实体的上下文体的上下文提纲提纲 百度知心概要介绍 百

    14、度知心实体推荐理由 百度知心推荐实体消歧 百度知心推荐实体轮展百度知心推荐实体轮展 知识图谱的其他技术和应用 模型的优化目标模型的优化目标 右侧实体推荐的整体reward最大化 如:推荐实体的点击率(click-through rate:CTR)主要挑战主要挑战 推荐实体的动态变化性 右侧推荐实体的候选列表是在动态变化的,且用户的兴趣也会随着时间动态变化 用户反馈数据的不完备性 只有展现出来的实体会得到用户的点击反馈;那些没有展现出来的实体永远没有机会被展现出来基于在线学习(基于在线学习(Online Learning)的推荐实体轮展)的推荐实体轮展CalculatecandidatesGet

    15、FeedbacksDisplayRecommendeditemsMulti-ArmedBandits在在exploration(新的推荐实体)和(新的推荐实体)和exploitation(好(好的推荐实体)之间取得平衡的推荐实体)之间取得平衡问题抽象问题抽象DisplayCard-RankerItem-RerankUser-LogPreprocessingFeed Back&DictionaryGenerationBanditAlgorithmCandidateGeneration推荐实体轮展系统流程推荐实体轮展系统流程提纲提纲 百度知心概要介绍 百度知心实体推荐理由 百度知心推荐实体消歧 百

    16、度知心推荐实体轮展 知识图谱的其他技术和应用知识图谱的其他技术和应用知识图谱的其他技术和应用:专名挖掘Learning NEs using Url-text Hybrid Patterns Is it possible to extract NEs from webpage titles only?Yes!99%NEs can be found in some webpage titles Url-text hybrid patterns Url constraints should be taken into consideration Simple text patterns are en

    17、ough for credible url(website)Complicated text patterns are needed for low-quality url Url-text hybrid pattern learning utp=(up,tp,c,f)Example:Zhang et al.2013.Bootstrapping Large-scale Named Entities using URL-Text Hybrid Patterns.In IJCNLP.S2Learning NEs using Url-text Hybrid PatternsZhang et al.2

    18、013.Bootstrapping Large-scale Named Entities using URL-Text Hybrid Patterns.To appear in IJCNLP.Inter-classEstimatorInner-classEstimatorscorerOptionPat.seed OverviewMulticlass Collaborative LearnerSnMulticlass SeedsS1 BootstrappingPat.GenerationSeed ExtractionLearning NEs using Url-text Hybrid Patte

    19、rns Multiclass Collaborative Learning(MCL)NEs of multiple classes are extracted simultaneously Bootstrapping NEs and url-text hybrid patterns iteratively A small set of seeds is required for each class Inter-class and intra-class scoring approaches are used for controllingthe quality of NEs and patt

    20、erns yielded in each iteration Inter-class scoring:A correct NE of a class should not be extractedby patterns of other classes;A correct pattern of a class should notextract seeds from other classes.Intra-class scoring:A correct NE of a class should not be extractedby only one pattern of the class;A

    21、 correct pattern of a class shouldnot yield a lot of NEs that cannot be extracted by other patterns ofthe class.Zhang et al.2013.Bootstrapping Large-scale Named Entities using URL-Text Hybrid Patterns.To appear in IJCNLP.知识图谱的其他技术和应用:深度问答与情感分析面向知识图谱查询的面向知识图谱查询的Query理解理解DEATT的的演过演过OBV还珠格格还珠格格1.还珠格格演员

    22、2.Skip4.(还珠格格演员)&(台湾演员)演员演员3.(台湾演员)ATT台湾台湾123解码算法:-Transition(shift-reduce)decoding结构特征:-依存分析的结果语义特征:-角色标签,知识库Scheme深度问答的不同产品形态深度问答的不同产品形态机器翻译应用机器翻译应用 多语言翻译多语言翻译情感分析情感分析情感分类评论观点评论评论Tag评论摘要评论摘要知识图谱的其他技术和应用:智能交互3轮轮4轮轮百度考霸:基于知识图谱的多轮交互百度考霸:基于知识图谱的多轮交互Q:600分可以上哪些学校推荐?1轮轮2轮轮北京市 600分 能上 什么 大学依存分析依存分析北京市 60

    23、0分 能上 什么 大学知识库查询知识库查询queryhas(scoreLine,LT,600).has(scoreLine,GT,550).has(type,universityScoreLine).has(province,北京).has(type,universityScoreLine).vertices()知识库查询知识库查询Query解析与知识图谱查询解析与知识图谱查询 实体知识库查询机制:从自然语言Query到结构化知识库 基于实体知识库查询结果的交互生成技术 综合考虑动态交互优先级与静态交互优先级,无需人工配置 动态交互优先级动态交互优先级 基于知识库返回结果自动统计计算出对当前搜

    24、索结果数据集“切分度”最好的知识库属性作为交互点 静态交互优先级静态交互优先级 基本假设:在用户日志中被经常搜索的属性是更为重要的属性 例子:查询:630分能考上什么大学 (分析:分数线的“省份”属性对当前数据表的切分度最好,且高频出现在高考类分数线相关的query中)交互:哪个省份的呢?基于知识图谱的多轮交互技术基于知识图谱的多轮交互技术Q:北京大学分数线Q:那清华的呢的呢Q:它它的排名是多少基于知识图谱的对话指代消解基于知识图谱的对话指代消解Q:美女多的大学Q:理科女生学什么专业好基于知识图谱的泛需求满足基于知识图谱的泛需求满足智能交互:去哪儿订票智能交互:去哪儿订票智能交互:多模交互智能

    25、交互:多模交互123多模输入(文字/语音/图片)多模输出(文字/语音/图片)多轮交互基于植物知识图谱,根据植物属性进行多轮交互知识图谱的其他技术和应用:App TaggingApp Tagging 应用 基于tag的app搜索与推荐技术有助于提高移动端app分发软件软件游戏游戏知识图谱的其他技术和应用:需求图谱与兴趣图谱在百度指数上线后,需求图谱在百度指数上线后,需求图谱作为新功能受到用户好评作为新功能受到用户好评百度指数需求图谱百度指数需求图谱百度风云榜兴趣图谱百度风云榜兴趣图谱小结小结实体推荐理由实体推荐理由推荐实体消歧推荐实体消歧推荐实体轮展推荐实体轮展向用户展现更多信息,提升对用户兴趣基于多种数据源挖掘单实体型推荐理由以及实体关系型推荐理由消除歧义,真正实现实体级别的推荐NERL:实体识别与链指实现右侧推荐实体的动态调整,不断优化展现实体质量基于在线学习算法谢谢!Q&A

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:百度知识图谱新进展课件.ppt
    链接地址:https://www.163wenku.com/p-3305138.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库