词语表示方法及其相关应用课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《词语表示方法及其相关应用课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 词语 表示 方法 及其 相关 应用 课件
- 资源描述:
-
1、词语表示方法简介*MenuOne-Hot 表示方法PPMI矩阵表示基于SVD的表示方法基于神经网络的表示方法*One-Hot 表示方法NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1(或者出现的次数),这个维度就代表了当前的词。“话筒”表示为 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 “麦克”表示为 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 *One-Hot 表示方法这种 One-hot R
2、epresentation 如果采用稀疏方式存储,会是非常的简洁:也就是给每个词分配一个数字 ID。比如刚才的例子中,话筒记为 3,麦克记为 8(假设从 0 开始记)。存在问题词义鸿沟维度灾难*PPMI矩阵表示词语表示的向量长度等同于term表的长度对于单词的表示,统计所有词语与该词语作为上下文时出现的次数如要得到cat的单词向量我们就统计cat和其他所有单词在局部上下文中的共现情况假设cat和plays在语料中共现1000次plays对应的维度是55那么cat单词向量的第55维就是1000。*PPMI矩阵表示是一种和one-hot表示方法类似的稀疏表示方法能够对于共现关系进行表示同样存在维度
3、爆炸的问题(英文单词有限,目前算力可以支持,跨语言时会出现维度爆炸问题)*LSA/LSILSA(latent semantic analysis)潜在语义分析,也被称为 LSI(latent semantic index)主要对词语-文档矩阵进行SVD,对一个t*d维的矩阵(单词-文档矩阵)X可以分解为U*D*Vt其中U为t*m维矩阵U中的每一列称为左奇异向量(left singular bector)D为m*m维对角矩阵,每个值称为奇异值(singular value)Vt为d*m维矩阵, 每一列称为右奇异向量。*LSA/LSI*LSA/LSI优点1)低维空间表示可以刻画同义词,同义词会对应
4、着相同或相似的主题。2)降维可去除部分噪声,是特征更鲁棒。3)充分利用冗余数据。4)无监督/完全自动化。5)与语言无关。*LSA/LSI缺点1)LSA可以处理向量空间模型无法解决的一义多词(synonymy)问题,但不能解决一词多义(polysemy)问题。因为LSA将每一个词映射为潜在语义空间中的一个点,也就是说一个词的多个意思在空间中对于的是同一个点,并没有被区分。2)特征向量的方向没有对应的物理解释。3)SVD的计算复杂度很高,而且当有新的文档来到时,若要更新模型需重新训练。4)没有刻画term出现次数的概率模型。*共现矩阵分解类似于LSA/LSI,我们还可以对PPMI矩阵进行分解,使用
5、SVD分解设term表大小为n,则矩阵为n*n大小的方阵然后使用SVD进行分解,分解为U*D*Vt然后使用U阵作为词语表示的信息*共现矩阵分解特点对于词语的共现频率有良好的支持训练出的结果在近义词数据集上效果好(ws353等)*Word2vecWord2vec是Mikolov提出的词语表示模型主要包含两个模型:CBOWSkip-gram两个框架:Hierarchical Softmax(HS)Negative Sampling(NS)*Word2vecNerual Network Language Model(NNLM)*Word2vecNerual Network Language Mode
展开阅读全文