书签 分享 收藏 举报 版权申诉 / 28
上传文档赚钱

类型《算法新闻》课件第三章-用户画像的标签体系.pptx

  • 上传人(卖家):momomo
  • 文档编号:4418940
  • 上传时间:2022-12-08
  • 格式:PPTX
  • 页数:28
  • 大小:685.99KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《《算法新闻》课件第三章-用户画像的标签体系.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    算法新闻 算法 新闻 课件 第三 用户 画像 标签 体系
    资源描述:

    1、一、一、结构化数据和非结构化数据结构化数据和非结构化数据结构化数据结构化数据 结构化数据,是指数据的存储、呈现、运算和管理等按照预先定好的格式规范进行。结构化数据以固定格式存放于数据记录或文件中。结构化数据依赖于数据模型,数据模型对业务数据的类别实现规范化,用于业务数据的记录、存储、处理和访问。建立数据模型包括定义哪些类型的数据以及数据的哪些属性需要进行何种存储和处理。结构化数据的优势在于能够方便地输入、存取、查询和分析。满足严格结构的数据无法进入计算机系统被处理和分析。此外,对结构化数据的使用和处理存在一定的约束,当数据模型对应的真实数据有改变时,需要修改数据模型和相应的数据处理逻辑,才能在

    2、计算机系统中处理新版本的数据,而此类修改往往是系统性的,代价比较大。一、一、结构化数据和非结构化数据结构化数据和非结构化数据非结构化数据非结构化数据非结构化数据则是指不具有预定义的数据模型或无预定义格式的数据,例如,照片、图像、视频、流式数据、网页、PDF文件、博客等等。由于此类数据格式的不规则和内容上的模糊性,传统的数据管理软件和程序并不能很好地对其进行分析和处理。半结构化数据介于结构化数据和非结构化数据之间,其数据具有一定的结构,即可以使用标签或者其他类型的标记方式来识别出半结构化数据中的特定元素,但是数据本身并不具备严格的结构,因此缺乏结构严谨的数据模型。以文字处理软件为例,其创建的文档

    3、文件本身是非结构化的数据,在文档内容之外可以指定结构化的元数据,如文档的作者、创建日期等;图片、图像等非结构化数据也可以被标记上结构化的关键字段如作者、创建日期、位置、关键字等。半结构化数据半结构化数据二、结构化标签用户画像二、结构化标签用户画像算法推荐系统可以使用数据表来存储和表示结构化的用户画像,不同颗粒度的数据表对用户行为和兴趣的刻画力度有所不同。基本信息表基本信息表用户基本信息表的结构 结构化数据有严格的数据模型,数据的记录、存储、处理和访问按照预先定好的格式规范进行;非结构化数据不具有预定义的数据模型或预定义的格式;半结构化数据则介于以上二者之间,其数据具有一定结构但结构并不严格。【

    4、提要】二、结构化标签用户画像二、结构化标签用户画像对基本信息表而言,系统分配的账号、用户姓名、电子邮箱等每一个数据属性都是用户的标签,但是基本信息表并没有展现足够个性化的用户特征。例如,用户的姓名对用户个性的刻画能力就很有限。由于基本信息表的刻画能力具有局限性,因此考虑对已有的用户标签进行扩展,这就需要添加新的补充信息表,更加详细地刻画用户特征。补充信息表补充信息表补充信息表的结构二、结构化标签用户画像二、结构化标签用户画像在扩展信息表的基础上还可以进一步细化不同类别的用户标签,例如对用户的兴趣类别进行细化。假设在补充信息表中已经记录某用户最感兴趣的三类主题为“体育”“经济”“历史”,系统就可

    5、以根据这个记录为用户推荐相应的内容。但是系统并不知道用户的兴趣在这三类内容之间的分布,即在用户自身的兴趣中,哪一类主题是用户最感兴趣的,哪些则属于比较感兴趣的。细化信息表细化信息表细化表兴趣类别 K(兴趣类别如“体育”“财经”)二、结构化标签用户画像二、结构化标签用户画像本节给出的细化信息表仅是结构化用户画像数据模型中信息表的一个简单示例,在真实的算法推荐系统中,需要系统设计人员和业务分析人员根据系统需求,设计完善的数据模型和所有数据表,并交由系统实现人员完成相应数据表的存储、分析和处理等工作。进一步完善的用户结构画像二、结构化标签用户画像二、结构化标签用户画像 结构化用户画像的优势结构化用户

    6、画像的优势首先,结构化数据的数据模型严谨规范,数据的语义明确。在算法推荐系统的运行过程中,系统会有针对性地从用户的基本信息和行为数据中抓取符合数据模型定义的数据,并存储更新至相关数据表格,形成用户标签。此类信息含义明确,有较强的针对性。其次,业界有多种标准化的数据库应用软件和程序支持结构化数据上的各种运算操作,如增加数据、删除数据、修改数据和查找数据等,并且提供优化性能、提高处理速度、保护数据安全等系统化提升运营效率的手段,帮助算法推荐系统提高服务水平和服务质量。结构化用户画像的优势为:信息有针对性,专用性强,含义明确且有成熟的软件开发和运行、维护环境支持。其劣势为:系统可存储的信息有限,可扩

    7、展性差,不灵活,实时性差。【提要】二、结构化标签用户画像二、结构化标签用户画像结构化用户画像的劣势结构化用户画像的劣势首先,结构化管理数据的方式能捕获的信息是有限的,只能局限于算法推荐系统已经设计好的数据表包含的数据属性。由于系统最多只能记录已有数据表中能记录的数据,因此存在数据可用性上的局限。一旦遇到数据模型定义中未涉及但是对刻画用户画像有帮助的信息,系统就无法记录。其次,可记录信息的有限性导致了系统的可扩展性较差。假设需要在系统中新增一个数据属性(即在数据表中新添加一列)来记录一种新的用户标签,则需要在系统中修改相应的数据表(可能会涉及多表的修改)的定义,这导致系统维护代价增大,灵活性降低

    8、。最后,由于算法推荐系统在初期不可能设计完备的数据模型,修改数据模型是系统级别的修改,往往需要暂时中止系统提供的服务以部署新的数据模型和与之配套的新业务逻辑,这就会导致对用户行为进行记录分析的实时性降低,用户体验也相应变差。因此,在系统更新之前,原有的数据模型无法实时更新。三、非结构化标签用户画像三、非结构化标签用户画像非结构化用户画像模型非结构化用户画像模型对于非结构化用户画像模型,用户画像中并不需要预先设定每个用户有多少个固定数目的爱好标签,随着用户在系统中行为数据的积累,不断提取出更多能表达用户爱好的标签,将它们随时添加到用户画像中。由于不同的用户兴趣爱好和行为特征分布并不相同,非结构化

    9、标签的用户画像可以对每个用户实现不同维度的个性化表示。对算法推荐系统的非结构化标签用户画像进行抽象可以得到一种通用的表达格式:用户ID:标签,标签,标签。非结构化标签用户画像的模型可以通用地表达为:用户:标签,标签,标签。【提要】三、非结构化标签用户画像三、非结构化标签用户画像非结构化标签的权重非结构化标签的权重对于非结构化用户画像模型,用户画像中并不需要预先设定每个用户有多少个固定数目的爱好标签,随着用户在系统中行为数据的积累,不断提取出更多能表达用户爱好的标签,将它们随时添加到用户画像中。由于不同的用户兴趣爱好和行为特征分布并不相同,非结构化标签的用户画像可以对每个用户实现不同维度的个性化

    10、表示。对算法推荐系统的非结构化标签用户画像进行抽象可以得到一种通用的表达格式:用户ID:标签,标签,标签。在非结构化用户画像中,为用户标签引入权重值,可以从用户兴趣的类别分布和时间分布等角度进一步细化地刻画用户特征。【提要】三、非结构化标签用户画像三、非结构化标签用户画像非结构化标签的权重非结构化标签的权重首先,结构化管理数据的方式能捕获的信息是有限的,只能局限于算法推荐系统已经设计好的数据表包含的数据属性。由于系统最多只能记录已有数据表中能记录的数据,因此存在数据可用性上的局限。一旦遇到数据模型定义中未涉及但是对刻画用户画像有帮助的信息,系统就无法记录。其次,可记录信息的有限性导致了系统的可

    11、扩展性较差。假设需要在系统中新增一个数据属性(即在数据表中新添加一列)来记录一种新的用户标签,则需要在系统中修改相应的数据表(可能会涉及多表的修改)的定义,这导致系统维护代价增大,灵活性降低。最后,由于算法推荐系统在初期不可能设计完备的数据模型,修改数据模型是系统级别的修改,往往需要暂时中止系统提供的服务以部署新的数据模型和与之配套的新业务逻辑,这就会导致对用户行为进行记录分析的实时性降低,用户体验也相应变差。因此,在系统更新之前,原有的数据模型无法实时更新。第2节 用户画像标签体系的计算在进入具体的计算框架学习之前,首先介绍一组在计算用户画像标签体系过程中常用的概念。活跃用户 日活跃用户 月

    12、活跃用户 流失用户 曾经使用过但最终不再使用某个软件、网站、应用程序以及网络游戏等系统的用户。系统中每月的活跃用户。同理,月活跃用户数也是以用户账号为计数单位,而非用户行为。系统中每日的活跃用户,记录每天有多少用户活跃使用系统。对日活跃用户数的计数是以用户账号为单位的。会反复使用某个软件系统、网站、应用程序以及网络游戏等系统的用户。一、用户标签的批量计算框架一、用户标签的批量计算框架量计算框架的基本原理量计算框架的基本原理其主要原理为:定期找出一定时间段内的全部活跃用户,对这部分活跃用户的行为数据进行用户标签的更新计算。由于这批活跃用户是按照一定时间段界定的,其用户数据也是批量取得并计算的,因

    13、此称为“批量计算框架”。例如,每日夜间批量取回过去两个月内所有活跃用户的行为数据,进行用户画像更新计算。对于指定计算时间段内的非活跃用户,由于其未在系统中产生新的行为数据,因此可认为其用户画像没有改变,故不对其进行用户标签的更新计算。一、用户标签的批量计算框架一、用户标签的批量计算框架批量计算框架的计算过程批量计算框架的计算过程其主要原理为:定期找出一定时间段内的全部活跃用户,对这部分活跃用户的行为数据进行用户标签的更新计算。由于这批活跃用户是按照一定时间段界定的,其用户数据也是批量取得并计算的,因此称为“批量计算框架”。例如,每日夜间批量取回过去两个月内所有活跃用户的行为数据,进行用户画像更

    14、新计算。对于指定计算时间段内的非活跃用户,由于其未在系统中产生新的行为数据,因此可认为其用户画像没有改变,故不对其进行用户标签的更新计算。一、用户标签的批量计算框架一、用户标签的批量计算框架批量计算框架的计算过程批量计算框架的计算过程一般来说,出于效率和集约化操作的考量,具有多个用户的系统并不会单独处理用户在系统中每一次行为产生的数据,而是倾向于集中处理一批用户行为数据。因此,用户行为数据产生后,需要对其进行暂存处理 当到达批量处理的时间点时,负责取回用户原始行为数据的程序被启动。程序按照系统设定采集频率,生成相应的活跃用户账户列表。Hadoop是一种分布式系统基础架构,分布式计算将需要进行大

    15、量计算的数据分割成小块,分配至多台计算机分别计算,在汇总运算结果后统一合并得出计算结果。MapReduce是用于并行处理大数据集的计算框架,把一堆杂乱无章的数据按照某种特征归纳起来并处理得到最终结果。首先需要把新一轮计算结果与上次计算结果结合起来,即对于在本轮中被计算标签的活跃用户,需要判别本轮计算出的是用户的新标签还是已有标签,然后在用户画像中做权重调整和更新。通过高性能的分布式存储系统,用户画像得以被高速地读取使用,及时完成系统调用用户画像实现实时个性化推荐的任务。批量计算框架面临的挑战及其影响批量计算框架面临的挑战及其影响在用户画像的批量计算框架中,导致计算量和计算任务迅速增加的原因包括

    16、:用户数量的增长、用户兴趣模型种类的增加以及系统中其他批量处理任务的增加。【提要】概括而言,用户标签的批量计算框架的运行过程为:提取出一定时间段内(一天、一周等)的活跃用户列表,抽取这些用户在过去指定时间段内(一个月、两个月等)的动作数据,加载到分布式系统中计算,求得用户在最近一个计算周期内用户标签的更新情况并更新用户画像,随后把更新后的用户画像放到高性能分布式的存储系统里面,供个性化的推荐系统使用。一、用户标签的批量计算框架一、用户标签的批量计算框架一、用户标签的批量计算框架一、用户标签的批量计算框架批量计算框架面临的挑战及其影响批量计算框架面临的挑战及其影响从系统实际运行的角度来讲,批量计

    17、算框架使用了高性能的分布式集群计算模型,充分体现出了对系统性能的考量。然而,批量计算框架还面临着数据量和计算任务暴增的问题,这主要来自以下几个因素的影响:用户数量的增长 根据用户的兴趣图谱,系统可以搭建不同的用户兴趣模型。如给定500万日活跃用户,200条行为数据用户天,以天为单位进行用户画像的批量更新计算,计算周期为两个月,则每一次批量计算时系统至少需要处理600亿条行为数据。随着用户数量和行为数据量的增加,系统计算量也在不断增加,系统可能会出现过载的情况。一、用户标签的批量计算框架一、用户标签的批量计算框架兴趣模型种类的增加对于用户的个性化推荐主要依赖系统对用户兴趣的理解程度,但是,并没有

    18、一种普适性的用户兴趣模型可以全方位地把握用户的兴趣特征。另外,用户的兴趣本身也并不是一成不变的,它有着从产生到持续再到消亡的一个过程。因此,需要开发和实现不同的用户兴趣模型,以便从多个角度理解和配合用户兴趣,试图推荐最符合用户兴趣特点的内容。用户的兴趣分为长期兴趣和短期兴趣,在个性化推荐中,常用的用户兴趣表示方法包括:()关键词列表表示法()基于向量空间模型的表示方法()基于神经网络的表示方法()基于本体的表示方法 一、用户标签的批量计算框架一、用户标签的批量计算框架兴趣模型种类的增加 关键词列表表示法使用一个或者多个用户感兴趣的关键词构成的关键词序列来表示用户兴趣。例如某用户对攀岩十分感兴趣

    19、,则用户的兴趣模型可能表示成如下形式 抱石比赛,自然岩壁攀登,中国人民大学攀岩馆。用户兴趣关键词的获取方式主要有用户主动提供和系统隐式自动获取两种。关键词列表模型是不加权重用户画像的一种简化实现方式。兴趣模型种类的增加 基于向量空间模型的表示方法向量空间模型(VSM)表示法是使用较多且效果较好的特征表示法,目前已经成为自然语言处理中最常用的模型。基于 VSM的表示法把用户的兴趣模型表示成一个维的特征向量。由于关键词存在语义的歧义性问题,而且随着用户兴趣项的增加,模型中会出现冗余,导致兴趣模型维数增加,增加了系统的计算和存储开销。一、用户标签的批量计算框架一、用户标签的批量计算框架兴趣模型种类的

    20、增加 基于神经网络的表示方法神经网络(NN)是由大量简单的处理单元通过广泛的互相连接形成的复杂网络结构,具有较强的自适应、自组织、自学习能力。在网络结构稳定后,可以使用网络中相互关联的结构化信息表示用户兴趣模型。不同的神经网络模型其性能和适用范围各不相同,模型的训练和学习过程也较为复杂,此外神经网络模型的可解释性较差,因此其适用的范围较窄。兴趣模型种类的增加 基于本体的表示方法近年来本体(Ontology)从哲学界进入计算机领域,用于表达相关领域的基本术语和术语之间的关系,提供关于某一领域知识的共同理解。基于本体表示用户的兴趣模型是指将用户的兴趣爱好领域用一个本体来表示。基于本体的用户兴趣模型

    21、以类人的思维方式理解用户的兴趣特征,在理论上是十分理想的用户模型表示方法,在实现上有助于知识共享。但是由于本体的构建需要专业的领域知识和大量人工劳动,构建成本大,因此并不常用。一、用户标签的批量计算框架一、用户标签的批量计算框架其他批量处理任务的增加对于一个产品级的应用系统而言,通常会有多个子系统在同时运行,而用户画像的批量计算只是系统运行中的一个任务。在此之外,系统还需要计算其他批量任务,例如,内容库的质量检查、文本型和图片型内容的索引和标记等等。因此当其他批量处理任务的数目也在增加时,系统负载变得更加繁重。庞大的数据量和计算任务使得批量计算框架面临如下困境:当天完成批量处理任务越来越勉强。

    22、集群计算资源紧张,影响其他工作。集中写入分布式存储系统的开销越来越大。用户兴趣标签更新延迟越来越严重。流式计算框架的基本原理流式计算框架的基本原理在用户画像的批量计算框架中,导致计算量和计算任务迅速增加的原因包括:用户数量的增长、用户兴趣模型种类的增加以及系统中其他批量处理任务的增加。【提要】概括而言,用户标签的批量计算框架的运行过程为:提取出一定时间段内(一天、一周等)的活跃用户列表,抽取这些用户在过去指定时间段内(一个月、两个月等)的动作数据,加载到分布式系统中计算,求得用户在最近一个计算周期内用户标签的更新情况并更新用户画像,随后把更新后的用户画像放到高性能分布式的存储系统里面,供个性化

    23、的推荐系统使用。二、用户标签的流式计算框架二、用户标签的流式计算框架流式计算框架的计算过程流式计算框架的计算过程用户画像的流式计算框架具有如下几个特征:1.使用Strom集群实时处理用户动作数据。2.每收集一定量的用户数据就重新计算一次用户兴趣模型。3.用大规模的高性能存储系统支持用户兴趣模型读写。4.是(准)实时的用户画像计算框架。【提要】概括而言,用户标签的批量计算框架的运行过程为:提取出一定时间段内(一天、一周等)的活跃用户列表,抽取这些用户在过去指定时间段内(一个月、两个月等)的动作数据,加载到分布式系统中计算,求得用户在最近一个计算周期内用户标签的更新情况并更新用户画像,随后把更新后

    24、的用户画像放到高性能分布式的存储系统里面,供个性化的推荐系统使用。二、用户标签的流式计算框架二、用户标签的流式计算框架二、用户标签的流式计算框架二、用户标签的流式计算框架流式计算框架的计算过程流式计算框架的计算过程用户行为数据产生后,需要对其进行暂存处理,在这一步将用户原始的行为数据存储于行为日志中,等候相应的程序取出处理。统将小批量活跃用户的行为日志数据存放到 Kafka平台的分布式日志文件队列中。小批量的用户行为数据流入Storm平台,以便进行在线计算。这使得支持内存级的数据读取速度以及实时的计算结果反馈成为可能。与Storm平台配套,在底层使用高性能的存储系统,实时计算结果的写入和读取都

    25、实现内存级别的速度,保证了读取性能。流式计算框架对用户模型采用小批量式的更新,使得系统中的用户画像以接近实时的效果体现用户最新的兴趣特征。采用Storm后,流式计算框架相当于一个在线的实时计算系统,所以当用户模型更新之后,系统可以支持内存级别的线上直接读取。算法推荐系统对用户的画像会实时地根据用户兴趣的改变而改变 本章小结本章介绍如何认识和理解算法推荐系统服务的对象用户,以及在算法推荐系统中如何使用计算的手段为用户建立模型。具体地,本章重点介绍了标签化的用户画像。从模型和数据的特征来看,可以使用结构化标签的用户画像,以及非结构化标签的用户画像。前者具有严格的格式,数据模型的可解释性强;后者采用

    26、无固定结构的标签集合,对用户刻画的个性化和灵活性更高。由于算法推荐系统的用户群体往往较大,因此需要合理地安排计算资源计算用户标签、更新用户画像。根据数据量的大小和系统的容量,可以选择批量计算或者流式计算框架完成计算任务。其中,Hadoop和Storm等大数据平台提供了有力的技术支持。思考在标签型的用户画像中,需要对用户标签的权重进行调整,以适配用户最新的兴趣偏好。请思考,针对用户标签的权重调整策略应如何平衡有限的计算资源与用户不断变化的兴趣偏好之间的矛盾?1.什么是“非结构化用户画像”?非结构化用户画像有什么特点?2.什么是“结构化用户画像”?结构化用户画像有什么特点?3.用户标签的批量计算框架和流式计算框架分别适用于何种场景?训练1.牛温佳,刘吉强,石川,等用户网络行为画像:大数据中的用户网络行为画像分析与内容推荐应用北京:电子工业出版社,20162.郭强,刘建国在线社会网络的用户行为建模与分析北京:科学出版社,2017推荐阅读

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:《算法新闻》课件第三章-用户画像的标签体系.pptx
    链接地址:https://www.163wenku.com/p-4418940.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库