装箱法-南华大学资讯管理学系暨研究所课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《装箱法-南华大学资讯管理学系暨研究所课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 装箱 南华 大学 资讯 管理 学系 研究所 课件
- 资源描述:
-
1、2022/6/23Data Mining1Chapter 3 Data Preprocessing2022/6/23Data Mining2 簡介簡介 (1/4)n所謂的資料前置處理是指在進行資料探勘之前,為了讓資料更適合進行探勘的工作,對於資料所做的預先處理動作。 n在整個資料探勘的過程當中,資料前置處理所需要花費的功夫通常是最多的,同時資料前置處理也是對探勘品質影響最大的一個關鍵步驟。 n資料前置處理的主要目的就是解決資料品質不良的問題,使得探勘結果的品質得以提升。 2022/6/23Data Mining3 簡介簡介 (2/4)n 未經處理的資料可能存在許多品質不良的情況:A.A. 資料
2、不完整資料不完整(data incomplete) 資料不完整的情況最常見的便是資料中有某些屬性值有遺缺。例如:某顧客填寫會員資料表時,可能遺漏了填寫年齡這一欄。一般在線上作業的資料庫系統,除非管理者將資料庫中的每一個欄位均設定為不可接受空值(null),否則即有可能在某些欄位出現資料遺缺的情況。 2022/6/23Data Mining4 簡介簡介 (3/4)B.B. 資料有雜訊資料有雜訊(noise) 此問題多半是因資料有錯誤或是特例(outlier)所造成的。例如,顧客填寫會員資料表時,有可能因為要保護自己的隱私而故意填寫錯誤的資料。雜訊不一定全是故意填錯造成的,也有可能是因為填寫資料時
3、不小心或是資料中原本就包含特例而產生的。例如:一般男生的身高大多介於165公分到185公分之間,然而有一位顧客的身高是197公分,這便是一個特例。雜訊不僅可能導致探勘的結果不正確,也有可能會誤導探勘的結果分析。 2022/6/23Data Mining5 簡介簡介 (4/4)C.C. 資料不一致資料不一致(data inconsistency) 資料不一致的情況有許多,主要是因為資料由不同來源整合而得所產生。例如某一跨國性的企業,其商品在台灣是以台幣計價,而在美國則是以美金計價;當兩國的銷售資料被整合在一起做探勘時,若沒有經過適當的單位轉換,便會產生完全不正確的探勘結果。 n 有高品質的資料,
4、才有高品質的探勘結果2022/6/23Data Mining6資料前置處理的主要工作資料前置處理的主要工作 n 資料前置處理主要包含資料整合(data integration)、資料清理(data cleaning)以及資料轉換(data transformation)等三項工作 。資資料料整整合合整合後的資料清理過的資料資資料料轉轉換換準備進行探勘的資料各種不同來源的資料資資料料清清理理資資料料整整合合整合後的資料清理過的資料資資料料轉轉換換準備進行探勘的資料各種不同來源的資料資資料料清清理理2022/6/23Data Mining71.資料整合 Data Integrationn 所謂的資
5、料整合便是將多重來源的資料整合在一個貯存庫中,因此資料整合最主要的目的便是解決多重資料來源的整合問題。Data Warehouse n 資料整合的主要工作有二: A. 消除資料不一致 B. 消除資料重複性 2022/6/23Data Mining8資料不一致的情況資料不一致的情況 (1/2)n數值不一致(data value conflict)例如商品價格在某個資料來源中用台幣計價,而在另一個資料來源中卻用美金計價。這種數值單位不一致的現象,透過單位換算,使數值的計算單位統一,即可消除。另外一種數值不一致的情況是不同來源的資料內容不相同。例如:同一位會員在A資料表中記錄的年齡是30歲,然而在B
6、資料表中卻是25歲。因為無法判定究竟哪一個資料表是正確的,通常會採取的作法是將該屬性的資料刪除,以空值來取代,以消除內容不一致的情況。 2022/6/23Data Mining9資料不一致的情況資料不一致的情況 (2/2)綱目不一致(schema conflict)多半是屬性名稱不一致所造成的。例如有的資料來源用會員姓名這個屬性名稱,而另一個資料來源卻用顧客姓名這個屬性名稱,雖然名稱並不相同,但實際所代表的意義卻是一樣的,可以透過屬性更名的動作來進行統一。 2022/6/23Data Mining10資料重複性的情況資料重複性的情況 n數值重複例如整合中發現A資料表中有某會員的資料,在B資料表
7、中也有同一位會員的資料,則可刪除其中一筆記錄,以免造成資料重複。 n綱目重複例如資料經整合之後發現其中同時包含生日以及年齡這兩個屬性,因為年齡可以從生日推導出來,因此可以將年齡這個屬性刪掉以避免資料重複。 2022/6/23Data Mining112.2.資料清理資料清理 Data CleaningData Cleaning n資料清理的步驟主要目的是確認資料的正確性以及完整性,使得資料探勘能夠順利進行。 2022/6/23Data Mining12常見的資料常見的資料正確性正確性問題問題檢查內容檢查內容說明說明屬性的有效值或有效範圍例如:性別屬性的值不是男性就是女性;生日的月份應該介於1和
8、12之間。數值的唯一性例如:身分證字號或是顧客編號不可有重複。參考完整性(referential integrity)例如:存在於訂單資料表中的會員編號必須同時存在於會員資料表中。資料的合理性驗證例如:從會員的生日計算出該會員的年齡只有10歲,但是該會員所填寫的學歷卻是博士,顯然不合理。 2022/6/23Data Mining13常見的資料常見的資料完整性完整性問題問題 檢查內容檢查內容說明說明是否缺少探勘所需的屬性例如:當我們想要探勘顧客年齡與購買商品種類的關係時,卻發現資料庫中並未包含年齡這個屬性。是否只包含統計整合過的資訊,而缺少詳細的單筆資料例如:當我們想要分析某網站的瀏覽率以了解一
9、天當中那一個時段最多人拜訪這個網站時,卻發現該網站每天只有記錄一筆當天的總瀏覽人次,而缺少每個小時的瀏覽人次資料。缺少的屬性有時可以從其他屬性推導而出。例如:如果資料庫中有生日這個屬性,便可利用生日將顧客的年齡計算出來,而產生原本缺少的年齡屬性。若是探勘所需的屬性確實無法取得,那麼就必須修正探勘的目標,以便使資料探勘的工作可以繼續進行。 2022/6/23Data Mining14其它相關的資料清理工作其它相關的資料清理工作 n遺缺填補:為了不讓屬性值有遺缺的資料影響探勘的結果,在進行資料探勘之前,應該設法把遺缺的資料填補進去。填補的方式又可分為人工填補或是自動填補。n雜訊消除:由於雜訊的存在
10、有可能會使探勘的結果有相當大的偏差,因此必須將雜訊移除或是將資料做適當的平緩化處理(smoothing),以降低或是消除雜訊對於探勘結果的影響。 2022/6/23Data Mining15Data Cleaning-Data Cleaning-遺缺填補法遺缺填補法 n資料遺缺的原因 資料建立時未輸入:可能是故意或是不小心造成資料在建立時沒有被輸入。例如,因為擔心個人資料曝光故意不填身分證號碼,或是因為疏忽漏填電話。若資料庫中的欄位未設定為不可接受空值,便有機會產生資料遺缺的情況。 設備故障:例如因為收銀機故障導致顧客的消費明細無法即時輸入。 當資料內容不一致時,為了避免錯誤的資料影響分析的準
11、確性,可能會將該項資料以空值取代,因此產生資料的遺缺。 2022/6/23Data Mining16資料遺缺的處理方法資料遺缺的處理方法 (1/2)n 直接忽略法直接忽略法 直接忽略該筆內容有遺缺的資料。 這種作法特別適用在進行分類探勘時,若是某筆資料的分類標記(class label)為空值,那麼這筆資料因無法被正確分類,便可直接刪除。例如要找出顧客信用等級的分類規則時,信用等級這個屬性便是所謂的分類標記;若有一筆顧客資料其信用等級欄位存放的是空值,這筆資料便無法作為信用等級分類規則探勘時的依據,因此這筆資料可直接刪除。 雖然直接忽略法相當容易,然而如果資料遺缺的比例很可觀時,此法會造成大量
12、的資料流失,反而不利於探勘。 直接忽略法較適用於所蒐集的資料量很多,但遺缺的資料只佔其中一小部分的情況。 2022/6/23Data Mining17資料遺缺的處理方法資料遺缺的處理方法 (2/2)(2/2)n 人工填補法人工填補法 為了處理資料遺缺的現象,可採用人工來填補遺缺的資料。例如當某會員資料的生日屬性有遺缺時,可打電話詢問該會員以取得其生日加以填補。 人力的負擔將會十分沉重。 n 自動填補法自動填補法 在資料遺缺的處理方法上,較為實際且可行的作法便是自動填補法。最簡單的自動填補法便是填入一個通用的常數值,例如,填入“未知”。當這個屬性被用來當做分類標記時,“未知”會成為一個新的類別,
13、得到適當的分類規則。 另外一種自動填補法是填入該屬性的整體平均值。就統計的觀點而言,將遺缺的資料自動填入該屬性的整體(或同類)平均值,將不會對統計的結果造成太大的影響。 2022/6/23Data Mining18Data Cleaning-Data Cleaning-雜訊去除法雜訊去除法 n雜訊產生的原因和資料遺缺產生的原因大同小異,有可能是資料收集儀器暫時故障,或是資料輸入時的疏忽,或是資料本來就存在的特例等等。 n消除雜訊可以透過雜訊的辨識方法將雜訊找出並且移除,也可以利用資料的平緩化處理將雜訊對於探勘結果的影響加以平緩。 2022/6/23Data Mining19辨識雜訊的方法辨識雜
14、訊的方法 n 辨識雜訊最簡單的作法就是結合電腦偵測與人工檢視。先利用電腦計算偵測出可疑的數值,例如大於或小於平均值百分之二十以上的資料便有可能是雜訊,接著再用人工的方式確認這些可疑的資料是否真的是雜訊。這個方法雖然簡單,但因需要人力介入,曠日費時,並不實際。n 另一種方法是用群集分析法先將資料做分群,分群之後未能落於任一群集的零散資料便可認定為雜訊。當雜訊所在的資料被辨識出來之後,便可將之移除。 2022/6/23Data Mining20資料平緩化處理的方法資料平緩化處理的方法(裝箱法裝箱法)n 裝箱法(binning method)的基本概念是先將資料做排序,排序後將資料分組裝入箱子中,接
15、著再用各個箱子中所有資料的平均值、中位數、或邊界值來取代箱子中的每一筆資料。 n 裝箱法主要有兩種:等寬分割法(或者稱為等距分割法),以及等深分割法(或稱為等頻分割法)。 所謂的等寬分割法是指依照資料的數值範圍來劃分資料分組的區間,而等深分割法則是依照資料的個數來劃分資料分組的區間。 2022/6/23Data Mining21等寬分割法等寬分割法 (1/3)n 等寬分割法將資料依數值範圍劃分為N個間隔相同的區間。 假設A和B分別為該屬性中的最小與最大值,要將資料劃分成N個區間,則每個區間的寬度W=(B-A)/N。 例如,欲分析顧客年齡與購買商品種類的關係,使用了12個顧客作為分析對象,其年齡
16、分別為:12, 15, 18, 21, 28, 33, 36, 45, 50, 52, 60, 80,如果要消除年齡屬性的雜訊,可將此12人的年齡分割成四個箱子來進行裝箱法的處理。因為此年齡屬性的最大值是80,最小值是12,因此箱子的寬度便是最大值減最小值再除以箱子的個數,即(80-12)/4=17,得到的箱子寬度就是17。 2022/6/23Data Mining22等寬分割法等寬分割法 (2/3) 箱子一所裝的是介在12和28之間的年齡資料,箱子二裝2945,箱子三裝4662,箱子四裝6380。 因此箱子一會裝五個數字:12, 15, 18, 21, 28,箱子二會裝三個數字:33, 36
17、, 45,箱子三會裝三個數字:50, 52, 60,第四個箱子只裝一個數字:80 。2022/6/23Data Mining23等寬分割法等寬分割法 (3/3)n 等寬分割法雖然頗符合直覺,然而當資料有雜訊或特例時,此種分割方法將對探勘結果有很大的影響。 以前圖為例,前面11個數字的分布還算平均,然而第四個箱子卻只包含一個數字80,這一個數字很有可能是個特例。 由於利用等寬分割法時,如果遇到特別高或是特別低的數值,用最大值和最小值作為區間範圍所計算出的箱子寬度,可能會造成裝入箱子裡的資料個數不平均的問題,因此等寬分割法並不適合用在偏斜的資料(skew data)上。 2022/6/23Data
18、 Mining24等深分割法等深分割法 (1/2)(1/2) n 等深分割法是將資料劃分為數個相同數量而非相同間隔的資料區間。 以相同例子做說明,12個會員的年齡分別如下:12, 15, 18, 21, 28, 33, 36, 45, 50, 52, 60, 80,欲分割成四個箱子,12/4=3,因此每一個箱子放三個數字。箱子一放12, 15, 18,箱子二放21, 28, 33,箱子三放36, 45, 50,而箱子四放52, 60, 80。 2022/6/23Data Mining25等深分割法等深分割法 (2/2)(2/2)n 等深分割法的資料分佈比等寬分割法好,箱子內含的資料量比較平均,
19、即使資料有偏斜的情況也可以處理。n 無論是採用等深分割或是等寬分割,裝箱法最大的缺點便是不容易處理類別型態的屬性。例如:職業屬性的可能值有金融/保險、房地產、政府機關、軍警、教育/研究等等,然而這些職業類別並沒有先後次序,無法進行排序,因此比較不適合用裝箱法來處理雜訊。 2022/6/23Data Mining26裝箱資料的平緩處理裝箱資料的平緩處理 (1/3)(1/3) n 平均值法:以平均值取代個別的數字來消除雜訊。 以等深分割法的例子來說,箱子一中裝著12, 15, 18, 此三數的平均值為15 (如果有小數點即自動進位),因此便以15, 15, 15取代12, 15, 18。箱子二裝著
20、21, 28, 33,平均值為28,因此以28, 28, 28取代21, 28, 33。以此類推,箱子三裝的36, 45, 50以平均值取代成44, 44, 44;箱子四裝的52, 60, 80,以平均值取代成64, 64, 64。 經過這樣的處理後可以發現,原本年齡80是一個特例,但被平緩化處理成64之後,其值便接近正常值了,由此可見平緩化的處理確實可消除雜訊。 2022/6/23Data Mining27裝箱資料的平緩處理裝箱資料的平緩處理 (2/3)(2/3)n 中位數:以中位數取代個別的數字來消除雜訊。 以12, 15, 18這三個數字而言,位於中間的是15,因此就用15, 15, 1
展开阅读全文