《算法新闻》课件第三章-用户画像的标签体系.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《算法新闻》课件第三章-用户画像的标签体系.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 算法新闻 算法 新闻 课件 第三 用户 画像 标签 体系
- 资源描述:
-
1、一、一、结构化数据和非结构化数据结构化数据和非结构化数据结构化数据结构化数据 结构化数据,是指数据的存储、呈现、运算和管理等按照预先定好的格式规范进行。结构化数据以固定格式存放于数据记录或文件中。结构化数据依赖于数据模型,数据模型对业务数据的类别实现规范化,用于业务数据的记录、存储、处理和访问。建立数据模型包括定义哪些类型的数据以及数据的哪些属性需要进行何种存储和处理。结构化数据的优势在于能够方便地输入、存取、查询和分析。满足严格结构的数据无法进入计算机系统被处理和分析。此外,对结构化数据的使用和处理存在一定的约束,当数据模型对应的真实数据有改变时,需要修改数据模型和相应的数据处理逻辑,才能在
2、计算机系统中处理新版本的数据,而此类修改往往是系统性的,代价比较大。一、一、结构化数据和非结构化数据结构化数据和非结构化数据非结构化数据非结构化数据非结构化数据则是指不具有预定义的数据模型或无预定义格式的数据,例如,照片、图像、视频、流式数据、网页、PDF文件、博客等等。由于此类数据格式的不规则和内容上的模糊性,传统的数据管理软件和程序并不能很好地对其进行分析和处理。半结构化数据介于结构化数据和非结构化数据之间,其数据具有一定的结构,即可以使用标签或者其他类型的标记方式来识别出半结构化数据中的特定元素,但是数据本身并不具备严格的结构,因此缺乏结构严谨的数据模型。以文字处理软件为例,其创建的文档
3、文件本身是非结构化的数据,在文档内容之外可以指定结构化的元数据,如文档的作者、创建日期等;图片、图像等非结构化数据也可以被标记上结构化的关键字段如作者、创建日期、位置、关键字等。半结构化数据半结构化数据二、结构化标签用户画像二、结构化标签用户画像算法推荐系统可以使用数据表来存储和表示结构化的用户画像,不同颗粒度的数据表对用户行为和兴趣的刻画力度有所不同。基本信息表基本信息表用户基本信息表的结构 结构化数据有严格的数据模型,数据的记录、存储、处理和访问按照预先定好的格式规范进行;非结构化数据不具有预定义的数据模型或预定义的格式;半结构化数据则介于以上二者之间,其数据具有一定结构但结构并不严格。【
4、提要】二、结构化标签用户画像二、结构化标签用户画像对基本信息表而言,系统分配的账号、用户姓名、电子邮箱等每一个数据属性都是用户的标签,但是基本信息表并没有展现足够个性化的用户特征。例如,用户的姓名对用户个性的刻画能力就很有限。由于基本信息表的刻画能力具有局限性,因此考虑对已有的用户标签进行扩展,这就需要添加新的补充信息表,更加详细地刻画用户特征。补充信息表补充信息表补充信息表的结构二、结构化标签用户画像二、结构化标签用户画像在扩展信息表的基础上还可以进一步细化不同类别的用户标签,例如对用户的兴趣类别进行细化。假设在补充信息表中已经记录某用户最感兴趣的三类主题为“体育”“经济”“历史”,系统就可
5、以根据这个记录为用户推荐相应的内容。但是系统并不知道用户的兴趣在这三类内容之间的分布,即在用户自身的兴趣中,哪一类主题是用户最感兴趣的,哪些则属于比较感兴趣的。细化信息表细化信息表细化表兴趣类别 K(兴趣类别如“体育”“财经”)二、结构化标签用户画像二、结构化标签用户画像本节给出的细化信息表仅是结构化用户画像数据模型中信息表的一个简单示例,在真实的算法推荐系统中,需要系统设计人员和业务分析人员根据系统需求,设计完善的数据模型和所有数据表,并交由系统实现人员完成相应数据表的存储、分析和处理等工作。进一步完善的用户结构画像二、结构化标签用户画像二、结构化标签用户画像 结构化用户画像的优势结构化用户
6、画像的优势首先,结构化数据的数据模型严谨规范,数据的语义明确。在算法推荐系统的运行过程中,系统会有针对性地从用户的基本信息和行为数据中抓取符合数据模型定义的数据,并存储更新至相关数据表格,形成用户标签。此类信息含义明确,有较强的针对性。其次,业界有多种标准化的数据库应用软件和程序支持结构化数据上的各种运算操作,如增加数据、删除数据、修改数据和查找数据等,并且提供优化性能、提高处理速度、保护数据安全等系统化提升运营效率的手段,帮助算法推荐系统提高服务水平和服务质量。结构化用户画像的优势为:信息有针对性,专用性强,含义明确且有成熟的软件开发和运行、维护环境支持。其劣势为:系统可存储的信息有限,可扩
7、展性差,不灵活,实时性差。【提要】二、结构化标签用户画像二、结构化标签用户画像结构化用户画像的劣势结构化用户画像的劣势首先,结构化管理数据的方式能捕获的信息是有限的,只能局限于算法推荐系统已经设计好的数据表包含的数据属性。由于系统最多只能记录已有数据表中能记录的数据,因此存在数据可用性上的局限。一旦遇到数据模型定义中未涉及但是对刻画用户画像有帮助的信息,系统就无法记录。其次,可记录信息的有限性导致了系统的可扩展性较差。假设需要在系统中新增一个数据属性(即在数据表中新添加一列)来记录一种新的用户标签,则需要在系统中修改相应的数据表(可能会涉及多表的修改)的定义,这导致系统维护代价增大,灵活性降低
8、。最后,由于算法推荐系统在初期不可能设计完备的数据模型,修改数据模型是系统级别的修改,往往需要暂时中止系统提供的服务以部署新的数据模型和与之配套的新业务逻辑,这就会导致对用户行为进行记录分析的实时性降低,用户体验也相应变差。因此,在系统更新之前,原有的数据模型无法实时更新。三、非结构化标签用户画像三、非结构化标签用户画像非结构化用户画像模型非结构化用户画像模型对于非结构化用户画像模型,用户画像中并不需要预先设定每个用户有多少个固定数目的爱好标签,随着用户在系统中行为数据的积累,不断提取出更多能表达用户爱好的标签,将它们随时添加到用户画像中。由于不同的用户兴趣爱好和行为特征分布并不相同,非结构化
9、标签的用户画像可以对每个用户实现不同维度的个性化表示。对算法推荐系统的非结构化标签用户画像进行抽象可以得到一种通用的表达格式:用户ID:标签,标签,标签。非结构化标签用户画像的模型可以通用地表达为:用户:标签,标签,标签。【提要】三、非结构化标签用户画像三、非结构化标签用户画像非结构化标签的权重非结构化标签的权重对于非结构化用户画像模型,用户画像中并不需要预先设定每个用户有多少个固定数目的爱好标签,随着用户在系统中行为数据的积累,不断提取出更多能表达用户爱好的标签,将它们随时添加到用户画像中。由于不同的用户兴趣爱好和行为特征分布并不相同,非结构化标签的用户画像可以对每个用户实现不同维度的个性化
10、表示。对算法推荐系统的非结构化标签用户画像进行抽象可以得到一种通用的表达格式:用户ID:标签,标签,标签。在非结构化用户画像中,为用户标签引入权重值,可以从用户兴趣的类别分布和时间分布等角度进一步细化地刻画用户特征。【提要】三、非结构化标签用户画像三、非结构化标签用户画像非结构化标签的权重非结构化标签的权重首先,结构化管理数据的方式能捕获的信息是有限的,只能局限于算法推荐系统已经设计好的数据表包含的数据属性。由于系统最多只能记录已有数据表中能记录的数据,因此存在数据可用性上的局限。一旦遇到数据模型定义中未涉及但是对刻画用户画像有帮助的信息,系统就无法记录。其次,可记录信息的有限性导致了系统的可
11、扩展性较差。假设需要在系统中新增一个数据属性(即在数据表中新添加一列)来记录一种新的用户标签,则需要在系统中修改相应的数据表(可能会涉及多表的修改)的定义,这导致系统维护代价增大,灵活性降低。最后,由于算法推荐系统在初期不可能设计完备的数据模型,修改数据模型是系统级别的修改,往往需要暂时中止系统提供的服务以部署新的数据模型和与之配套的新业务逻辑,这就会导致对用户行为进行记录分析的实时性降低,用户体验也相应变差。因此,在系统更新之前,原有的数据模型无法实时更新。第2节 用户画像标签体系的计算在进入具体的计算框架学习之前,首先介绍一组在计算用户画像标签体系过程中常用的概念。活跃用户 日活跃用户 月
12、活跃用户 流失用户 曾经使用过但最终不再使用某个软件、网站、应用程序以及网络游戏等系统的用户。系统中每月的活跃用户。同理,月活跃用户数也是以用户账号为计数单位,而非用户行为。系统中每日的活跃用户,记录每天有多少用户活跃使用系统。对日活跃用户数的计数是以用户账号为单位的。会反复使用某个软件系统、网站、应用程序以及网络游戏等系统的用户。一、用户标签的批量计算框架一、用户标签的批量计算框架量计算框架的基本原理量计算框架的基本原理其主要原理为:定期找出一定时间段内的全部活跃用户,对这部分活跃用户的行为数据进行用户标签的更新计算。由于这批活跃用户是按照一定时间段界定的,其用户数据也是批量取得并计算的,因
13、此称为“批量计算框架”。例如,每日夜间批量取回过去两个月内所有活跃用户的行为数据,进行用户画像更新计算。对于指定计算时间段内的非活跃用户,由于其未在系统中产生新的行为数据,因此可认为其用户画像没有改变,故不对其进行用户标签的更新计算。一、用户标签的批量计算框架一、用户标签的批量计算框架批量计算框架的计算过程批量计算框架的计算过程其主要原理为:定期找出一定时间段内的全部活跃用户,对这部分活跃用户的行为数据进行用户标签的更新计算。由于这批活跃用户是按照一定时间段界定的,其用户数据也是批量取得并计算的,因此称为“批量计算框架”。例如,每日夜间批量取回过去两个月内所有活跃用户的行为数据,进行用户画像更
展开阅读全文