數(shù)據(jù)驅(qū)動(dòng)是通過(guò)先進(jìn)的IT技術(shù)和人工智能對(duì)企業(yè)的數(shù)據(jù)資產(chǎn)進(jìn)行有效和充分的利用,其目的是從數(shù)據(jù)中獲得有價(jià)值的“洞見(jiàn)”,以指導(dǎo)人們作出更加科學(xué)的決策和更加有效的行動(dòng)。
企業(yè)數(shù)字化轉(zhuǎn)型離不開(kāi)數(shù)據(jù)驅(qū)動(dòng),而數(shù)據(jù)驅(qū)動(dòng)的基礎(chǔ)是建立在高質(zhì)量數(shù)據(jù)之上的。沒(méi)有高質(zhì)量數(shù)據(jù),就不可能產(chǎn)生有價(jià)值的洞見(jiàn)。
數(shù)據(jù)驅(qū)動(dòng)的企業(yè)看著似乎很厲害的樣子,實(shí)際上他們一直也在為數(shù)據(jù)質(zhì)量問(wèn)題而苦苦掙扎。數(shù)據(jù)的不完整、不準(zhǔn)確、不一致,數(shù)據(jù)安全、數(shù)據(jù)隱私等問(wèn)題似乎是無(wú)窮盡的,成為了企業(yè)數(shù)字化轉(zhuǎn)型的一個(gè)難以逾越的障礙。
1
從DIKW金字塔模型到數(shù)據(jù)供應(yīng)鏈
要實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng),重要的是創(chuàng)建一個(gè)“數(shù)據(jù)供應(yīng)鏈”,保證數(shù)據(jù)在從生產(chǎn)、采集、存儲(chǔ)、加工、處理,到分析、應(yīng)用的全過(guò)程中的數(shù)據(jù)質(zhì)量,并且確保每個(gè)過(guò)程都是為業(yè)務(wù)目標(biāo)而服務(wù)的。
供應(yīng)鏈的概念的是從生產(chǎn)制造行業(yè)發(fā)展衍生出來(lái)的,它將企業(yè)的生產(chǎn)活動(dòng)進(jìn)行了前伸和后延。艾倫·哈理森(Harrison)將供應(yīng)鏈定義為:“供應(yīng)鏈?zhǔn)菆?zhí)行采購(gòu)原材料,將它們轉(zhuǎn)換為中間產(chǎn)品和成品,并且將成品銷(xiāo)售到用戶(hù)的功能網(wǎng)鏈。”日本豐田公司的精益協(xié)作方式中就將供應(yīng)商的活動(dòng)視為生產(chǎn)活動(dòng)的有機(jī)組成部分而加以控制和協(xié)調(diào)。
數(shù)字化世界,數(shù)據(jù)既是產(chǎn)品也是原料,DIKW金字塔模型足以說(shuō)明這個(gè)觀點(diǎn)。在DIKW模型中,數(shù)據(jù)是用來(lái)描述事實(shí)和現(xiàn)象的原始的資料,是無(wú)組織的事實(shí)。將原始的、無(wú)序的、雜亂的數(shù)據(jù)進(jìn)行收集和整理,并從中提取有用的信息,讓數(shù)據(jù)變得更加有意義;再將信息加工、萃取成可被傳播、沉淀、復(fù)用的知識(shí),從而獲得更大的價(jià)值;而智慧是DIKW層次結(jié)構(gòu)的最高層,是將知識(shí)應(yīng)用于行動(dòng)后產(chǎn)生的結(jié)果,回答的是諸如“為什么要做”和“什么是最好的”之類(lèi)的問(wèn)題。
DIKW模型,反映了數(shù)據(jù)被加工、提煉的一個(gè)過(guò)程,這個(gè)過(guò)程本質(zhì)上來(lái)說(shuō)也是從數(shù)據(jù)需求到數(shù)據(jù)供給的過(guò)程。通過(guò)這個(gè)過(guò)程,原始的數(shù)據(jù)進(jìn)入企業(yè),經(jīng)過(guò)各種處理、轉(zhuǎn)換,成為可供人們使用的有價(jià)值的東西,我們將這個(gè)過(guò)程稱(chēng)之為數(shù)據(jù)供應(yīng)鏈。
如上圖所示,數(shù)據(jù)供應(yīng)鏈與生產(chǎn)供應(yīng)鏈?zhǔn)窒嗨疲?ldquo;原料數(shù)據(jù)”從系統(tǒng)的一端輸入,然后在下一步中進(jìn)行分析和轉(zhuǎn)換。最后,它作為一組有意義、有價(jià)值的“數(shù)據(jù)產(chǎn)品”提供出來(lái),用于企業(yè)業(yè)務(wù)流程的改進(jìn)和指導(dǎo)企業(yè)管理決策。進(jìn)入數(shù)據(jù)供應(yīng)鏈的數(shù)據(jù)來(lái)自各種來(lái)源,如企業(yè)的各類(lèi)信息系統(tǒng)ERP、CRM、移動(dòng)應(yīng)用程序等;企業(yè)外部的網(wǎng)站、社交網(wǎng)絡(luò)、電商平臺(tái)等;以及來(lái)自設(shè)備物聯(lián)數(shù)據(jù),各類(lèi)傳感器產(chǎn)生的時(shí)序數(shù)據(jù)等。這個(gè)過(guò)程,也是實(shí)施數(shù)據(jù)治理,提升數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化的過(guò)程。
2
供給側(cè):重點(diǎn)關(guān)注的數(shù)據(jù)質(zhì)量維度
數(shù)據(jù)質(zhì)量問(wèn)題貫穿整個(gè)“數(shù)據(jù)供應(yīng)鏈”。我們經(jīng)常聽(tīng)到:“垃圾進(jìn),垃圾出”,這句話(huà)是指高質(zhì)量數(shù)據(jù)分析結(jié)果,取決于高質(zhì)量的數(shù)據(jù)輸入,輸入的數(shù)據(jù)質(zhì)量低下,數(shù)據(jù)分析結(jié)果也叫沒(méi)有什么價(jià)值。以及筆者經(jīng)常提的“數(shù)據(jù)治理要從源頭抓起”,也是說(shuō)的這個(gè)意思。重點(diǎn)都在強(qiáng)調(diào)數(shù)據(jù)供給側(cè)保障數(shù)據(jù)質(zhì)量的重要性。數(shù)據(jù)供給側(cè)更多的是站在數(shù)據(jù)生產(chǎn)者或數(shù)據(jù)管理者的角度看數(shù)據(jù)質(zhì)量的,重點(diǎn)關(guān)注以下的5個(gè)數(shù)據(jù)質(zhì)量維度。
1
數(shù)據(jù)完整性
數(shù)據(jù)完整性體現(xiàn)在三個(gè)方面:
元數(shù)據(jù)的完整性
例如:唯一性約束完整性、參照完整性等;
數(shù)據(jù)條目完整性
例如:數(shù)據(jù)記錄丟失或不可用會(huì)影響數(shù)據(jù)的完整性;
數(shù)據(jù)屬性完整性
例如:數(shù)據(jù)屬性空值情況等。
2
數(shù)據(jù)準(zhǔn)確性
數(shù)據(jù)的準(zhǔn)確性也叫數(shù)據(jù)可靠性,狹義上的數(shù)據(jù)準(zhǔn)確性是用于分析、識(shí)別和度量哪些是不準(zhǔn)確的或無(wú)效的數(shù)據(jù)的。
3
數(shù)據(jù)一致性
數(shù)據(jù)一致性主要體現(xiàn)在兩個(gè)方面:
多源數(shù)據(jù)的數(shù)據(jù)模型不一致
例如:命名不一致、數(shù)據(jù)結(jié)構(gòu)不一致、約束規(guī)則不一致。
數(shù)據(jù)實(shí)體不一致
例如:數(shù)據(jù)編碼不一致、命名及含義不一致、分類(lèi)層次不一致、生命周期不一致……。相同的數(shù)據(jù)有多個(gè)副本的情況下的數(shù)據(jù)不一致、數(shù)據(jù)內(nèi)容沖突等問(wèn)題。
4
數(shù)據(jù)唯一性
數(shù)據(jù)唯一性是用于識(shí)別和度量重復(fù)數(shù)據(jù)、冗余數(shù)據(jù)。重復(fù)數(shù)據(jù)是導(dǎo)致業(yè)務(wù)無(wú)法協(xié)同、流程無(wú)法追溯的重要因素,也是數(shù)據(jù)治理需要解決的最基本的數(shù)據(jù)質(zhì)量問(wèn)題。
5
數(shù)據(jù)有效性
數(shù)據(jù)有效性用于度量數(shù)據(jù)是否符合既定的條件,不符合條件的視為無(wú)效數(shù)據(jù)。例如:在統(tǒng)計(jì)當(dāng)前在職的職工人數(shù)時(shí),數(shù)據(jù)集中的已離職人員應(yīng)當(dāng)被剔除出去。
低下的數(shù)據(jù)質(zhì)量是實(shí)現(xiàn)數(shù)據(jù)賦能、數(shù)據(jù)驅(qū)動(dòng)的頭號(hào)敵人,只有提高供給側(cè)的數(shù)據(jù)質(zhì)量,才能保證輸出的數(shù)據(jù)服務(wù)或數(shù)據(jù)應(yīng)用是有價(jià)值的。當(dāng)然,供給是由需求驅(qū)動(dòng)的,以上5個(gè)數(shù)據(jù)治理維度同樣也適用于需求側(cè),這5個(gè)維度也是廣義上的數(shù)據(jù)準(zhǔn)確性。
3
需求側(cè):超越準(zhǔn)確性的數(shù)據(jù)質(zhì)量維度
從數(shù)據(jù)供給側(cè)(生產(chǎn)和管理的角度)來(lái)看,數(shù)據(jù)質(zhì)量主要關(guān)注準(zhǔn)確性。其目標(biāo)是盡可能地將數(shù)據(jù)與現(xiàn)實(shí)世界的實(shí)體相匹配。通過(guò)實(shí)施數(shù)據(jù)清理、修復(fù)數(shù)據(jù)、轉(zhuǎn)換等一系列數(shù)據(jù)管理工作旨在提高數(shù)據(jù)準(zhǔn)確性。
如果我們將視角切換至“數(shù)據(jù)供應(yīng)鏈”的需求側(cè),也就是站在數(shù)據(jù)消費(fèi)者、業(yè)務(wù)人員(下文統(tǒng)稱(chēng):數(shù)據(jù)用戶(hù))的角度看,人們對(duì)數(shù)據(jù)質(zhì)量的需求將超越準(zhǔn)確性,并在此基礎(chǔ)之上增加三個(gè)維度,
可訪問(wèn)性
對(duì)數(shù)據(jù)用戶(hù)來(lái)講,最核心的需求是當(dāng)他們需要用數(shù)據(jù)的時(shí)候,這些數(shù)據(jù)是可以被訪問(wèn)的。他們想知道企業(yè)有哪些數(shù)據(jù)?存放在哪里?以及如何訪問(wèn)到這些數(shù)據(jù)?我們看到很多數(shù)據(jù)平臺(tái)提供的統(tǒng)一數(shù)據(jù)資源目錄功能就是解決這個(gè)問(wèn)題的。
及時(shí)性
數(shù)據(jù)的價(jià)值在于能夠被使用,如果不能及時(shí)使用,可訪問(wèn)的數(shù)據(jù)就沒(méi)有價(jià)值。及時(shí)性定義了數(shù)據(jù)在需要時(shí)是否可用,過(guò)期的數(shù)據(jù)帶來(lái)的結(jié)果可能是誤導(dǎo)或誤判,保證數(shù)據(jù)的及時(shí)性在一定程度上是保證業(yè)務(wù)創(chuàng)新性和前瞻性的基礎(chǔ)。與實(shí)時(shí)性相比,及時(shí)性強(qiáng)調(diào)在需要時(shí)間內(nèi)準(zhǔn)時(shí)送達(dá),它可以是實(shí)時(shí)的,也可以是定時(shí)的,但一定是準(zhǔn)時(shí)的,發(fā)生在你需要的時(shí)候。
相關(guān)性
當(dāng)數(shù)據(jù)的可訪問(wèn)性和及時(shí)性得到滿(mǎn)足,用戶(hù)很大程度都會(huì)將關(guān)注度放到相關(guān)性上來(lái)。數(shù)據(jù)的相關(guān)性是指數(shù)據(jù)之間,或數(shù)據(jù)與用戶(hù)之間的某種關(guān)聯(lián)關(guān)系,例如:函數(shù)關(guān)系、相關(guān)系數(shù)、主外鍵關(guān)系、索引關(guān)系等。我們?cè)跀?shù)據(jù)治理過(guò)程中經(jīng)常說(shuō)的相關(guān)性問(wèn)題,就是指數(shù)據(jù)間或數(shù)據(jù)與用戶(hù)間的關(guān)聯(lián)關(guān)系缺失或錯(cuò)誤,這可能會(huì)導(dǎo)致用戶(hù)將大量的精力放在了不相關(guān)的數(shù)據(jù)上,或者引發(fā)出的數(shù)據(jù)準(zhǔn)確性問(wèn)題。
及時(shí)的、準(zhǔn)確的、可信且可訪問(wèn)的數(shù)據(jù)是業(yè)務(wù)和管理的基礎(chǔ),是數(shù)據(jù)驅(qū)動(dòng)的靈魂,需要站在完整個(gè)“數(shù)據(jù)供應(yīng)鏈”的全局視角來(lái)制定考量數(shù)據(jù)質(zhì)量的策略,這一過(guò)程需要數(shù)據(jù)生產(chǎn)者、管理者、使用者共同參與其中。數(shù)據(jù)生產(chǎn)者和使用者必須定義出需要什么樣的數(shù)據(jù),什么數(shù)據(jù)對(duì)業(yè)務(wù)是重要的,而數(shù)據(jù)的管理者必須專(zhuān)注于提供業(yè)務(wù)所需的重要數(shù)據(jù)。
4
提升企業(yè)數(shù)據(jù)質(zhì)量的8點(diǎn)建議
1
業(yè)務(wù)需求和影響評(píng)估
數(shù)據(jù)質(zhì)量改進(jìn)的驅(qū)動(dòng)因素永遠(yuǎn)來(lái)自業(yè)務(wù)目標(biāo),不能脫離業(yè)務(wù)需求談數(shù)據(jù)質(zhì)量。制定數(shù)據(jù)質(zhì)量改進(jìn)方案的基礎(chǔ),首先是清晰定義業(yè)務(wù)需求,然后是根據(jù)業(yè)務(wù)需求對(duì)企業(yè)業(yè)務(wù)的長(zhǎng)期影響來(lái)定義數(shù)據(jù)質(zhì)量問(wèn)題的優(yōu)先級(jí)。衡量業(yè)務(wù)影響、定義問(wèn)題優(yōu)先級(jí)有助于明確治理目標(biāo)并跟進(jìn)數(shù)據(jù)質(zhì)量改進(jìn)的進(jìn)度。
2
全面盤(pán)點(diǎn)和正確描述
全面的數(shù)據(jù)盤(pán)不僅可以幫助您回答:有哪些數(shù)據(jù),數(shù)據(jù)在哪里,以及如何訪問(wèn)數(shù)據(jù)等問(wèn)題。同時(shí),也能夠幫助您正確理解數(shù)據(jù),例如:數(shù)據(jù)描述了什么,數(shù)據(jù)對(duì)業(yè)務(wù)的價(jià)值在哪里,以及如何獲得最大價(jià)值。當(dāng)您需要確定數(shù)據(jù)是否“準(zhǔn)確”或是否滿(mǎn)足業(yè)務(wù)所需的時(shí)候,全面的數(shù)據(jù)盤(pán)點(diǎn)和對(duì)數(shù)據(jù)的正確描述,是您理解數(shù)據(jù)和提升數(shù)據(jù)質(zhì)量的有效方法。
3
數(shù)據(jù)質(zhì)量從源頭抓起
“從源頭解決數(shù)據(jù)質(zhì)量問(wèn)題”是筆者一直秉承的觀點(diǎn)。但很多時(shí)候,我們依然看到一些數(shù)據(jù)治理項(xiàng)目將治理重點(diǎn)放在了數(shù)據(jù)副本上,例如通過(guò)修復(fù)副本中的錯(cuò)誤或建立各種映射表,以支持下一步的數(shù)據(jù)分析。其實(shí),這是一種“治標(biāo)不治本”的做法,原始數(shù)據(jù)集仍然存在質(zhì)量問(wèn)題,影響其后續(xù)使用。從源頭解決數(shù)據(jù)質(zhì)量問(wèn)題是提高數(shù)據(jù)質(zhì)量、防止不良數(shù)據(jù)傳播的最佳方法。
正如Gartner專(zhuān)家說(shuō):一個(gè)數(shù)據(jù)的生命周期有兩個(gè)有趣的時(shí)刻,創(chuàng)建時(shí)刻和使用時(shí)刻。如果您可以在創(chuàng)建數(shù)據(jù)時(shí)最大限度地減少錯(cuò)誤并始終從源頭解決質(zhì)量問(wèn)題,那么就可以確保使用時(shí)的數(shù)據(jù)質(zhì)量。
4
能選擇的時(shí)候別輸入
形成可供選擇的值域,是一個(gè)有效避免人為因素錯(cuò)誤、提升數(shù)據(jù)質(zhì)量的操作性技巧。當(dāng)用戶(hù)以不同的形式輸入數(shù)據(jù)的時(shí)候,難免發(fā)生一些“人為”的錯(cuò)誤,例如:輸入的數(shù)據(jù)多一個(gè)空格,大小寫(xiě),簡(jiǎn)繁體,特殊符合不規(guī)范使用等常見(jiàn)數(shù)據(jù)質(zhì)量問(wèn)題。解決這個(gè)問(wèn)題的有效方法是為這些數(shù)據(jù)定義好標(biāo)準(zhǔn)數(shù)據(jù)值域/值集(或稱(chēng)數(shù)據(jù)字典),以避免用戶(hù)的輸入錯(cuò)誤。
5
建立數(shù)據(jù)驅(qū)動(dòng)的文化
事實(shí)上,數(shù)據(jù)驅(qū)動(dòng)也能夠反作用于數(shù)據(jù)質(zhì)量。在企業(yè)中,建立數(shù)據(jù)驅(qū)動(dòng)的文化和行為規(guī)范,更好地使用數(shù)據(jù),能夠反向促進(jìn)數(shù)據(jù)質(zhì)量的提升。數(shù)據(jù)驅(qū)動(dòng)文化是“數(shù)據(jù)質(zhì)量、人人有責(zé)”的文化,在企業(yè)范圍內(nèi)對(duì)數(shù)據(jù)需求定義、數(shù)據(jù)質(zhì)量目標(biāo)達(dá)成共識(shí),以便持續(xù)推進(jìn)數(shù)據(jù)質(zhì)量問(wèn)題的改進(jìn)和優(yōu)化。
6
DataOps——數(shù)據(jù)運(yùn)營(yíng)
DataOps是將DevOps的理念延伸到了數(shù)據(jù)領(lǐng)域,提供了一種更加自動(dòng)化的數(shù)據(jù)運(yùn)營(yíng)方式,以提高數(shù)據(jù)分析的質(zhì)量和敏捷性。DevOps是建立在3個(gè)原則之上:持續(xù)集成、持續(xù)交付和持續(xù)部署,對(duì)應(yīng)到DataOps就是利用自動(dòng)化數(shù)據(jù)管理工具,實(shí)現(xiàn)數(shù)據(jù)的數(shù)據(jù)的發(fā)現(xiàn)、集成和準(zhǔn)備自動(dòng)化,并支持?jǐn)?shù)據(jù)質(zhì)量的持續(xù)測(cè)量,在整個(gè)企業(yè)范圍內(nèi)持續(xù)交付準(zhǔn)確、可信的數(shù)據(jù)。
7
數(shù)據(jù)質(zhì)量,防大于治
數(shù)據(jù)質(zhì)量管理不僅僅在于糾正當(dāng)前的數(shù)據(jù)質(zhì)量問(wèn)題,還在于防止未來(lái)的發(fā)生類(lèi)似數(shù)據(jù)質(zhì)量問(wèn)題。評(píng)估和解決企業(yè)數(shù)據(jù)質(zhì)量問(wèn)題的根本原因是預(yù)防問(wèn)題發(fā)生的關(guān)鍵。例如:是否正確定義了業(yè)務(wù)需求以及對(duì)應(yīng)的數(shù)據(jù)質(zhì)量指標(biāo)?業(yè)務(wù)流程是手動(dòng)的還是自動(dòng)化的?數(shù)據(jù)質(zhì)量的利益相關(guān)者能否直接參與數(shù)據(jù)質(zhì)量問(wèn)題的解決?企業(yè)的數(shù)據(jù)驅(qū)動(dòng)文化是否牢固到位?
8
數(shù)據(jù)質(zhì)量成效評(píng)估
定期對(duì)企業(yè)的數(shù)據(jù)質(zhì)量改進(jìn)情況進(jìn)行成效評(píng)估,有利于提升數(shù)據(jù)治理的成熟度,并為下一階段的數(shù)據(jù)質(zhì)量改進(jìn)提供參考依據(jù)。與相關(guān)部門(mén)、相關(guān)人員就數(shù)據(jù)質(zhì)量問(wèn)題、產(chǎn)生的原因、采取的措施、改進(jìn)的結(jié)果進(jìn)行交流,讓更多的人將積極參與到數(shù)據(jù)質(zhì)量改進(jìn)中來(lái),進(jìn)一步鞏固企業(yè)的數(shù)據(jù)文化。
總結(jié)
數(shù)據(jù)驅(qū)動(dòng)是依靠數(shù)據(jù)來(lái)賦能決策和運(yùn)營(yíng),高質(zhì)量數(shù)據(jù)無(wú)疑是實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的保證。高質(zhì)量數(shù)據(jù)意味著高質(zhì)量的洞察力、值得信賴(lài)的分析報(bào)告,可優(yōu)化的業(yè)務(wù)流程,更加良好的客戶(hù)體驗(yàn)和更好的投資回報(bào)率。