书签 分享 收藏 举报 版权申诉 / 38
上传文档赚钱

类型文本挖掘在电子商务场景中的应用课件.pptx

  • 上传人(卖家):晟晟文业
  • 文档编号:4001620
  • 上传时间:2022-11-02
  • 格式:PPTX
  • 页数:38
  • 大小:3.13MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《文本挖掘在电子商务场景中的应用课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    文本 挖掘 电子商务 场景 中的 应用 课件
    资源描述:

    1、文本挖掘在电子商务场景中应用、机遇和挑战千诀/孙健 电子商务场景中的用户痛点 海量文本挖掘在电子商务场景中的应用 针对用户点评信息的挖掘和应用 购物知识搜索产品中的文本挖掘 构建电子商务知识词库 机遇和挑战提 纲购物链购物前购物前 买什么买什么 去哪儿买去哪儿买购物中购物中购物后购物后用户痛点1:点评这么多?用户痛点2:有疑问怎么办?电子商务场景中的用户痛点 海量文本挖掘在电子商务场景中的应用 针对用户点评信息的挖掘和应用 购物知识搜索产品中的文本挖掘 构建电子商务知识词库 机遇和挑战提 纲针对用户点评信息的挖掘和应用(1)针对用户点评信息的挖掘和应用(2)淘宝每天的点评量 约700万;一淘每

    2、天的点评量 约36万;针对用户点评信息的挖掘和应用(3)针对用户点评信息的挖掘和应用(4)针对用户点评信息的挖掘和应用(5)“外观不错,功能也挺多,就是玩游戏有点卡,触屏有外观不错,功能也挺多,就是玩游戏有点卡,触屏有时反应没那么快,不过这确实不是卖家能解决的问题时反应没那么快,不过这确实不是卖家能解决的问题总体来说不错了总体来说不错了”电子商务场景中的用户痛点 海量文本挖掘在电子商务场景中的应用 针对用户点评信息的挖掘和应用 购物知识搜索产品中的文本挖掘 构建电子商务知识词库 机遇和挑战提 纲购物知识搜索中的文本挖掘购物知识搜索中的文本挖掘购物知识搜索中的文本挖掘羽绒服怎么洗涤羽绒服怎么洗涤

    3、 羽绒服怎么挑选羽绒服怎么挑选 怎么防止羽绒服掉毛怎么防止羽绒服掉毛羽绒服十大品牌羽绒服十大品牌 羽绒服能水洗吗羽绒服能水洗吗 怎样去除羽绒服上的油污怎样去除羽绒服上的油污购物知识搜索中的文本挖掘购物知识搜索中的挖掘购物知识搜索中的挖掘购物知识搜索中query相关知识挖掘 这个问题抽象为 由一个query给出几个相关知识 这几个相关知识的语义互相独立购物知识搜索中query相关知识挖掘 挖掘方法 把知识聚成几类,每类里面挑选最优的知识条目展现 知识聚类 传统的向量空间模型有两个问题:一是不能解决同义词或多义词问题,二是向量维度高,聚类效果不好;采用主题模型(topic model),可以较好解

    4、决这两个问题购物知识搜索中query相关知识挖掘购物知识搜索中query相关知识挖掘 query“羽绒服”及所有与其相关的知识点(这里只显示title,共19200条知识点)羽绒服购物知识搜索中query相关知识挖掘 知识点的主题概率向量P(topic|doc)比如“羽绒服坏了一个小眼,漏毛怎么办?”这个知识doc的topic向量如下(80个topic)购物知识搜索中query相关知识挖掘 Kmeans聚类后的簇示例 从中可以看到,簇以及簇内的title的质量都参差不齐,所以需要对簇以及簇内的title都进行排序,然后挑选。购物知识搜索中query相关知识挖掘 最后得到的相关知识结果羽绒服购物

    5、知识搜索中的挖掘淘宝详情页是很大的知识宝库淘宝详情页是很大的知识宝库gu9/Health/50.html 阿里内部各产品线具有大量的优质数据 详情页 淘宝帮派 bangpai.taobao 生意经 baike.1688/doc/online/index.html 外网垂直类网站 babytree问答数据的全网获取宝贝详情页数据生意经、CRM等资讯、BBS等内网数据外部Q&A专业网站外部购物相关BBS内网外网数据预处理单页面信息抽取多页面信息处理问答知识库人工干预B2C网站购物问答基于Wrapper的问答知识抽取抓取数据URL pattern过滤全文条件过滤建立抽取树结构化知识定位关键区域精确定

    6、位模糊定位条件定位Xpath解析定位器获取字段值类目标签关键词区域条件过滤问题回答其它信息字段定位过滤去噪单记录生成类目映射合并去重淘宝详情页问答知识抽取流程原始数据解压缩抽取有格式字段(类目、宝贝名)获取无格式详情建立抽取树(结构化详情文本)抽取详情页中图片链接去噪(过滤肯定不是KV的分支)找Key(文本+结构+属性+风格)后续Value(完整性并反馈找Key)黑白名单等后处理Dump图片预处理(过滤文字占比过低)OCR合并去重购物知识识别结构化知识文本文本图像图像挖掘到的数据量数据来源数据来源URL总数总数有效数据量有效数据量宝贝详情页2亿2000万生意经3000万115万外网Q&A200

    7、0万500万外网BBS1000万100万电子商务知识词库建设 针对电子商务领域,赋予Term语义信息,比如产品词、品牌、型号、颜色等 建立Term之间的关系,比如手机-诺基亚品牌含有哪些型号电器家用电器大家电影音电器电脑设备手机数码手机诺基亚N97N8E71N85E63苹果HTC数码相机随身视听电子商务知识库建设 现状 电子商务场景中的用户痛点 海量文本挖掘在电子商务场景中的应用 针对用户点评信息的挖掘和应用 购物知识搜索产品中的文本挖掘 构建电子商务知识词库 机遇和挑战提 纲机遇 互联网信息正日益丰富 E.g UGC 计算能力越来越强,集群协同计算 更深入 实时性更强 建立在用户数据积累上的对用户需求的理解挑战 高质量的语义知识库 从海量信息处理 到 海量信息的理解 从 人找信息 到 信息找人谢谢!谢谢!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:文本挖掘在电子商务场景中的应用课件.pptx
    链接地址:https://www.163wenku.com/p-4001620.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库