中文文字语音文件中类专有名词撷取及其可能应用之初步研究An课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《中文文字语音文件中类专有名词撷取及其可能应用之初步研究An课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 文字 语音 文件 专有名词 撷取 及其 可能 应用 初步 研究 An 课件
- 资源描述:
-
1、中文文字/語音文件中類專有名詞擷取及其可能應用之初步研究An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applications指導教授:李琳山 博士共同指導:陳信希 博士研究生:劉禹吟簡介本論文處理的類專有名詞類別包含人名、地名與組織名。類專有名詞辨識是希望在文件中標註出正確的類專有名詞邊界與類別。語音文件中的類專有名詞辨識:l在有語音辨識錯誤的語音文件中找出類專有名詞出現處l有助於語音摘要、語音問答、和語音對話系統的處理類專有名詞類別舉例人名(P
2、ER)托尼布萊爾 陳水扁、馬市長地名(LOC)胡志明市、中山堂鶯歌、七堵赴美、中日關係組織名(ORG)聯合國安理會台灣積體電路製造股份有限公司 中油、台塑美國國務卿鮑爾在華府外籍記者中心表示.綱要文字文件中類專有名詞辨識語音文件中類專有名詞辨識類專有名詞辨識衍生之應用結論文字文件中的類專有名詞辨識類別語言模型法派樹式規則法文字文件中類專有名詞辨識-類別語言模型法的概念類別的種類:l人名類別、地名類別、組織名類別、辭典中詞彙每一個詞各自是一個類別 若辭典中有|V|個詞彙,則總共的類別數有|V|+3個基本概念:給定中文句子S,W為S的可切分詞串,C為W對應的類別,利用維特比搜尋找出滿足P(C,W)
3、最大的最佳詞序列W*和W*對應的最佳類別序列C*,arg max(,)arg max(|)()C WC WC WP C WP W C P C11212113()(.)(|)(|,)(|,)(/|,)mmiiimmiP CP ccP csP ccsP c ccPscc111(|)(.|.)(|)mmmiiiP W CP wwccP w c類別前後文模型類別生成模型各種類別語言模型的機率估計各種類別生成模型估計l人名類別 (字元二連語言模型)中國人名、外國人名分成兩種機率模型 例:李小龍l巢狀類別 (類別二連語言模型)地名、組織名 例:宜蘭清水公園l一般詞彙類別 每一個辭典中詞彙各自是一個類別 生
4、成機率皆為1類別前後文模型估計l由訓練語料庫訓練出三連類別語言模型機率l如:訓練語句:總統 PER 在 LOC 發表 聲明 可估計出:p(PER|總統,),p(LOC|在,PER)()P C(|)iiP w cP(李小龍|PER)p(李|)p(小|李)p(龍|小)p(|龍)P(宜蘭清水公園|LOC)p(LOC|)p(PER|LOC)p(公園|PER)p(|公園)p(宜蘭|LOC)*p(清水|PER)*p(公園|公園)p(尤其|尤其)=1、p(今天|今天)=1內部維特比搜尋找出內部最佳的類別及詞序列所對應的機率,以最高機率當成其生成機率類別語言模型法實作演算法對於句子S,執行下列三個步驟:l建構
5、詞網 紀錄各類別候選詞於詞網上,並記錄其生成機率 一般詞彙、人名類別、地名類別、組織名類別l正向動態規劃(維特比搜尋)從句首至句尾對每一個候選詞計算到該位置為止,滿足p(c,w)最大的最佳路徑,紀錄最佳分數及回溯指標l反向回溯找出最佳的詞序列及對應的類別序列 從句尾中有最高路徑分數的候選詞開始回溯至句首(3)反向回溯(2)正向維特比搜尋 c*,w*=max p(c*)*p(w*|c*)(1)建構詞網演算法運作流程 處理句子:台北市中正紀念堂是為了紀念蔣中正先生一般詞網示意圖 市中紀正念堂是為了紀北台念蔣中先生正34657891011122113 14 1517 1816台北中正紀念紀念堂紀念蔣
6、中正先生中正(p)紀念(p)紀念堂(p)堂是(p)堂是為(p)紀念(p)蔣中(p)蔣中正(p)紀念蔣(p)台北(l)台北市(l)正紀念堂(l)中正紀念堂(l)市中正紀念堂(l)北市中正紀念堂(l)台北市中正紀念堂(l)一般詞彙類別每個詞的生成機率皆為1。如:p(紀念|紀念)=1計算人名類別的生成機率。如:p(紀念|人名)=P(紀|)*p(念|紀)*p(|念)生成機率計算:做內部維特比搜尋內部維特比搜尋,得出最佳類別序列和最佳最佳機率機率為了最佳類別路徑最佳類別路徑(C*):LOC 是是 為了為了 紀念紀念 PER 先生先生最佳詞路徑最佳詞路徑(W*):台北市中正紀念堂台北市中正紀念堂 是是 為
7、了為了 紀念紀念 蔣中正蔣中正 先生先生P(C*,W*)=P(C*)*P(W*|C*)=P(LOC|)*P(是|LOC,)*P(為了|是,LOC)*P(紀念|為了,是)*P(PER|紀念,為 了)*P(先生|PER,紀念)*P(|先生,PER)*P(台北市中正紀念堂|地名)*P(是|是)*P(為了|為了)P(紀念|紀念)*P(蔣中正|人名)*P(先生|先生)巢狀類別內部維特比搜尋地名類別詞網l計算地名生成機率 P(台北市中正紀念堂|LOC)34657891011122113 14 1517 1816台北(l)台北市(l)中正(p)紀念(p)紀念堂市中正北台台北市中正紀念堂(l)由地名類別的語言
8、模型查出可能出現在地名的詞彙,生成機率皆設為1各種類別的候選詞與生成機率紀念堂(p)生成機率設為:P(台北市中正紀念堂|LOC)=P(C*)*P(W*|C*)=P(LOC|)*P(PER|LOC)*P(紀念堂|PER)*P(|紀念堂)*P(台北市|LOC)*P(中正|PER)*p(紀念堂|紀念堂)類別語言模型法討論類別語言模型法觀察:l優點:將斷詞與類專有名詞辨識合在同一個架構下,具有斷詞解歧異的功能l弱點:不易取得涵蓋領域夠廣且標註夠一致的訓練語料 不容易回收沒有關鍵詞的地名、組織名(九份、中廣)需要做內部維特比搜尋的字串將成指數成長 一次處理一句,未用到整篇文章所包含的字串資訊新的想法:l
9、派樹式類專有名詞抽取:使用整篇文章所包含的樣式統計資訊及該樣式所有出現過的前後文幫助抽取類專有名詞金門縣長縣長陳水在昨天呼籲昨天呼籲兩岸,陳水在表示表示,陳水在當初擔任 臺北縣鶯歌鎮鎮的陶瓷,鶯歌有許多賣精美陶瓷的店家,要到到鶯歌遊玩遊玩的民眾可以搭乘遊戲橘子集團集團高階人事異動,對於遊戲橘子跨足研發領域,遊戲橘子旗下旗下的產品多數是以代理自韓國為主,遊戲橘子董事長董事長劉柏園表示 縮寫類專有名詞尤以娛樂、財經、體育、科技新聞居多,使用單純類別語言模型法較難偵測出。派樹式規則法-派樹式類專有名詞抽取概念派樹:是一種很有效率的資料結構,在資訊檢索的領域使用很多建構派樹:將處理的文章中每一個語意片
10、段中的後部字串(suffix string)加入派樹中l正向派樹、反向派樹優點:可以容易地獲得任意字串在整篇文章中的出現頻率及所有前後文l統計值(左右相連詞變異度)可判斷詞的邊界完整性l前後文字串可以用來判斷類別sYZX1X2RC1RC2RC3LC3LC2LC1X:陳水在X1:陳水在X2:在水陳Y:陳水Z:在水RC1:陳水在說*RC2:陳水在強調*RC3:陳水在昨天呼籲*LC1:在水陳長縣門金*LC2:在水陳,*LC3:在水陳當*正向派樹可以容易地查詢字串的所有後文(RC)反向派樹可以容易地查詢字串的所有前文(LC)正向派樹:S=今天在總統府Suffix strings:今天在總統府天在總統府
11、在總統府總統府統府府反向派樹:S=府統總在天今Suffix strings:府統總在天今統總在天今總在天今在天今天今今派樹式規則法-派樹式類專有名詞抽取流程對整篇文章建構正向及反向派樹估計候選字串的邊界完整性選擇證據分數最高分且超過門檻值的類別檢驗字串內部及外部前後文資訊記錄各類別證據分數抽取出的類專有名詞槽(,)|max()(,)|max()cbLCcbRCfwLCt andtf wf wRCt andtf w內部特徵:內部特徵:人名:人名機率是否大過門檻值地名、組織名:內部是否有關鍵詞(隊、鄉)外部特徵:外部特徵:人名:頭銜、發言動詞地名:重要前後文(抵達、飛往,地區、附近、市)組織名:重
12、要前後文(大廠、廠商,公司)組合特徵:組合特徵:搭配內部及外部特徵對各類別記錄證據分數。(詳述於論文中)處理派樹中出現頻率=tf 的字串興農:AORG兄弟:AORG天母球場:LOC使用字串的前後文變異統計值做抽詞繼續判斷候選字串可能的類專有名詞類別w=馬英=九f(w,)/f(w)=tb,則 w=馬英 可能不是一個邊界完整的詞一次輸入一個句子派樹式規則法系統架構單篇文件斷詞與特性標註人名辨識巢狀類專有名詞辨識類專有名詞的結合單字詞類專有名詞辨識派樹式類專有名詞抽取抽取出的類專有名詞槽快取類專有名詞槽類專有名詞重要相關詞彙列表輸出標註類專有名詞的句子一般辭典LOC PERAPERLOCALOC*C
13、ontent Word*LOC_KEYORG PERAPERLOCALOCORGAORG*Content Word*ORG_KEY組成結構及邊界判定(STOP,LOC_LEFT_CONTEXT_KEY)人名機率門檻值限制及邊界判定(STOP,TITLE,PER_SPOKEN_VERB)斷詞法:後向最大匹配與特性標註LOC LOC*ORG ORG*ORG-LOC ORG聯合國安理會大陸上海中國的中、日本的日等。中美關係,日韓代表,中、韓、日三方。SCNE patternSCNE*co-occur pattern 美總統布希、日相、英首相布萊爾、美代表、以代表 SCNE title 美方、日方、美
14、軍、伊軍、中方美重申、美發表、從派樹中查詢整篇文章中是否出現過澳洲、澳門、澳大利亞、澳國,若有,則澳字單獨出現時可能是地名,如:澳代表輸入整篇文章文字文件類專有名詞辨識實驗-測試語料測試語料:lMUC-7(Message Understanding Conference-7)的MET-2(Multilingual Entity Task)測試語料,為大陸簡體字、火箭發射相關新聞共100則類專有名詞統計量評分方法:l精確率、回收率lF-測量=(2*精確率*回收率)/(精確率+回收率)類別出現次數人名174地名750組織名377文字文件類專有名詞辨識實驗結果訓練語料:台灣雅虎網路新聞8天份,1萬多
展开阅读全文