书签 分享 收藏 举报 版权申诉 / 17
上传文档赚钱

类型面向自动文摘的主题划分方法课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4537192
  • 上传时间:2022-12-17
  • 格式:PPT
  • 页数:17
  • 大小:824KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《面向自动文摘的主题划分方法课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    面向 自动 文摘 主题 划分 方法 课件
    资源描述:

    1、面向自动文摘的主题划分方法童毅见童毅见 2012-11-4主题的概念1,主题的定义现状:鲜有确切的关于主题的定义。2,几个关于“主题”的定义 Labadi认为主题是会话或讨论的主要问题 Chafe主题是正在讨论的命题 所谓“主题”,是介于篇章与段落之间的一个语言单位,一个主题表达或阐述一个相对独立的意义或话题3,本文对主题的定义主题是用来描述一个话语片段所表达内容的一种直观方式,该话语片段阐述了一个相对独立的意义或话题。主题不应是一个语言单位,但是可以通过篇章集、段落集或句子集的方式呈现。主题划分1,主题划分的概念 主题划分就是将一个含有多个主题的话语(在本文中以文本方式体现)切分成一系列单个

    2、主题。Reynar认为,作者在写作前,会在脑海中收集一些没有连接的主题,在写作过程中为了保证文本的流畅,会有意无意的设置一些主题边界2,主题划分的分类 主题划分可以分为层次划分(hierarchical segmentation)和线性划分(linear segmentation)从划分结果来看,线性划分还可以进一步分为连续划分和非连续划分主题划分对自动文摘的意义1,有助于平衡摘要的结构,提高摘要的覆盖面 如果采用传统的基于句子重要度从高到低抽取的方法,很容易造成对次要主题的遗漏或忽略,并且容易导致主要主题的冗余。2,主题特征对自动文摘的促进作用 Louis.et al.在比较话语结构特征、语

    3、义特征和非话语性特征(如主题词、句子位置等)在单文档自动文摘中的效果时发现,基于话语结构特征的方法在摘要内容上效果最好常见主题划分方法1,基于词汇衔接理论的方法TextTiling、C99、dotplotting2,融合特定语言现象和文本特征的方法1)特定领域的提示短语。例如在广播新闻文本中,joining us2)二元词组频率。避免单词频率引发的歧义问题;3)命名实体的重复。4)代词特征。3,基于概率统计模型的方法PLSA(概率潜在语义分析)、LDA(Latent Dirichlet Allocation)以及小世界模型TSF算法 由Kern&Granitzer提出,是一种基于滑动窗口技术的

    4、主题划分方法算法 该算法在很多方面与TextTiling算法相近,也是一种基于词汇衔接理论的方法。根据文章呈现的评价结果,TSF算法在切分效果上要远好于TextTiling算法,并且只有O(n)的计算复杂度。TSF算法默认主题是由句子集组成TSF算法描述TSF算法描述关于主题的呈现方式的讨论1,句子集 or 段落集2,主题的呈现方式与文本的特征、任务对主题颗粒度的要求有关3,自动文摘对主题划分颗粒度的要求4,句子集 and 段落集以段落集为主题表征的TSF算法面向自动文摘的主题划分策略后期处理p引入代词特征 对于切分出来的主题如果首段是代词,则认为切分不正确,将前后两个主题合并主题划分评价1,

    5、传统的评价方法的不足文本切分和主题划分的区别召回率、准确率,F值等无法反应near miss现象2,引入参考切分3,引入切分合理度R切分合理度R主题划分评价结果类型主题表征文本数量C平均切分合理度 平均准确率平均召回率T1句子集300.5878.6%95.2%T2段落集500.6783.8%97.5%文摘比主题划分传统方法10%0.5340.48820%0.5760.51430%0.6070.4921,内部评价:针对以句子集和段落集表征的TSF算法(无关比较)2,外部评价:针对主题划分策略对自动文摘的影响(F值)进一步改进1,考虑参数对切分结果的影响2,融合更多特定语言现象3,对TSF算法的进一步改进,可以集中在句子相似度计算和词汇权重计算上参数名称PtSt阈值q1(句子集切分)阈值q2(段落集切分)窗口大小W参数值980.450.83

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:面向自动文摘的主题划分方法课件.ppt
    链接地址:https://www.163wenku.com/p-4537192.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库