中英双语知识本体与领域检索简介讲解课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《中英双语知识本体与领域检索简介讲解课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 双语 知识 本体 领域 检索 简介 讲解 课件
- 资源描述:
-
1、中中 英英 雙雙 語語 知知 識識 本本 體體 與與 領領 域域 檢檢 索索 簡簡 介介黃居仁中央研究院語言學研究所籌備處92年3月26日後後 設設 資資 料料 雙雙 語語 標標 記記 及及 中中 英英 雙雙 語語 對對 應應 查查 詢詢 工工 作作 營營大綱n 前言n語言座標的具體內容n語意網:前瞻將來的網際網路n 語言的知識本體:任一語言中的詞義關係是完整知識體系的經緯n結語:知識運籌的基底架構前言前言:知識的運籌知識的運籌是網路使用的共同目標n知識的運籌是網路(資訊)使用者的共同目標,也是知識產業的基礎。n知識的運籌包括:搜尋,擷取,理解;以至於流通,加值,與獲利n知識的運籌的挑戰在於跨
2、越不同語言,不同時代,不同社會背景,不同知識範疇,不同概念等鴻溝。前言:語言是訊息的載體與知識的表徵結構n語言是訊息的載體:溝通包括了訊息的傳遞與知識的接收n語言是知識的表徵結構:語言是個人知識與天下知識間的媒介-a knowledge-based lexicalist view前言:前言:語言座標語言座標 提供了知識運籌的基本架構n讓不同來源的典藏知識內容,可以轉換成互通的(inter-operable)訊息。n以知識本體(ontology)為互通訊息的表達方式,是下一代語意網(Semantic Web)中不可或缺的基礎架構。n我們的語言座標,是以台灣通用的中文為出發點。前言:語言座標解答數
3、位典藏的What and HownWhat:典藏的內容知識與訊息n文本的知識內容是語言或文字nHow:知識與訊息表達的方式n非文本知識的表達與傳遞使用語言與文字最不受媒介所限,也最方便人的理解語言座標之一語言座標之一-跨語言資訊轉換n中英雙語檢索中文與其他語言轉換為長程目標。採用了詞彙網路(WordNet)的架構,為國際間詞彙知識庫通用的架構。有了英文對譯詞後,可經由EuroWordNet等網路上開放的資料庫,對應到20幾種語言。語言座標之二語言座標之二-語言資訊與概念架構(知識本體)的連結n連結使用SUMO為上層共用知識本體nSUMO:Suggested Upper Merged Ontol
4、ogyn可以由每個詞查到該詞在概念架構上的歸屬。n利用知識本體架構作知識內容分類與簡單推理如哺乳動物為溫血SUMO:Suggested Upper Merged Ontology nAn Upper Ontology created under IEEE Standard Upper Ontology Working Group.nMaintained and Accessible on web athttp:/ nProvides interface to English words through WordNet,as well as inference in 5 languagesn由本
5、計畫協助建構的中文介面即將完成Upper Ontology vs.Domain Ontologyn(Upper)Ontology:各領域,各典藏通用的知識架構,是跨領域/跨典藏知識內容交換與處理的基礎 E.g.SUMOnDomain Ontology:個別領域特有的知識結構,E.g.SUMO virus domain ontologyDomain Ontology(Cont.)nThe EMELD Domain Ontology of Linguistic Conceptshttp:/emeld.org/tools/ontology.cfmhttp:/emeld.douglass.arizon
6、a.edu:8080/searchindex.html E-MELD:Electronic Metastructure for Endangered Language Data 語言座標之三語言座標之三詞義的區分與詞義關係的連結n同一個詞可能有好幾個意義n稱之為詞義(Sense)n英文的bank可以是銀行,或河岸等;n中文的機關可以指機構組織,也可以指害人的陷阱等。n詞與詞之間有複雜的語意關係。n因而產生了許多的替帶說法與推論判斷.n喜歡籃球,是喜歡這個運動,而非喜歡這個球體。n電腦速度很快。Vs.CPU(中央處理器)速度很快。n詞彙網路提供了多重詞義與詞義關係的檢索。語言座標之四語言座標之四
7、使用領域n詞語因領域不同而有不同的用法與用法。不同領域也常有不同的概念架構。n領域之區分粗細不同,無法窮盡。n領域的定義因使用目的而產生。n語言座標提供了部分的領域標記檢索,以及回饋機制,讓使用者可以貢獻更多的領域標記。n領域的使用,可藉詞彙在不同領域(包括時代,區域,學門等)辭典中的分佈判定。國小課本中出現的詞彙與用法,屬於基本詞彙。語意網:前瞻將來的網際網路電腦也能看懂語意網Semantic Web一種新的網路內容形 式,能讓電腦理解其中的語意,勢必帶來新一波網路革命!科學人2002八月號46-56頁Scientific American,May 2001語意網將成為下一代的網際網路Ber
8、ners-Lee,Tim,James Hendler and Ora Lassila.The Semantic Web.Scientific American.August 2001.本文的主要作者伯納李正是網際網路的發明人。他對網路未來發展的宣告不可忽視。網路上的知識典藏如何因應?從全球資訊網到語意網全球資訊網仍只是人們交換文件的載體,其中的資訊是機器不能自動運用的。如果我們針對電腦,增加專門提供給電腦閱讀的網頁,我們就可把現有的網路轉換成語意網。電腦如何閱讀語意?n利用RDF(資源描述架構)與URI(通用資源標誌碼)連結到相關網頁/資源n藉超連結找到關鍵詞後n藉知識本體(Ontology)
9、定義關鍵詞,並做邏輯推理知識本體(Ontology)n對任一網頁/資源知識內容及資訊架構的描述與定義n以RDF(或類似語言)寫成的文件,清楚定義概念間的關係和推理的邏輯規則請注意資訊學中把ONTOLOGY當成知識/訊息的基底架構;與哲學中本體論的原定義大不相同我們關心的問題之一語意網將會使用什麼語言?Http:/www.w3.org/2001/swHttp:/www.SemanticWeb.orgHttp:/答案 甲English當然是英文,因為英文本來就是WWW上最廣泛使用的語言可是:十年後的網路與中文處理n朱邦復先生的宏願:九億農民上網n微軟研究院自然語言組經理周明的預測:五億中國人上網n
10、個人的預測:全世界上網人口中,每四人即有一人用中文Source:panel on Chinese Language Processing:10 Years from Now.The First SigHan Workshop on Chinese Language Processing.COLING2002.Sept.1.Taipei.答案 乙Any Language(s)任何語言都可。因為語意網是靠知識溝通,不是靠語言溝通Other languages:OWL,XML,etc我們關心的問題之二既然語意網主要依靠知識本體;特定語言與文本的知識管理還有需要嗎?答案 甲不需要因為知識本體的存在是獨
11、立於特定語言與文本之外的答案 乙當然還需要因為每個特定的語言或文本都是一個獨特的知識體系,唯有正確整理分析其知識內容,方能建立完整的知識本體知識本體的變遷知識的豐富性從何而來?-從文化,領域,環境,族群,社會階層,媒體,學科,時代等知識的豐富性如何體現?-以共同的語言語語彙(即所謂的次語言或行話與領域詞彙或專門辭典)語言的知識本體每個語言都有其架構完善的知識本體-語言(包括次語言)可以表達所有(領域內的)知識-說話者與聽話者之間知識的交換通常有效而正確任何人工知識本體的使用者,不論其數目或準確性,都不會超過語言本體的使用者語言本體本來就是文本典藏處理的必要資源語言中的詞義關係是完整知識體系的經
展开阅读全文