時至今日,資料的重要性已經無須我們多做說明。但對許多企業來說,擁有大量資訊並不一定是好事,也不代表你能善用它。為了幫助我們重新審視或辨識有用資訊,並判斷哪些資料可以放棄,根據業務策略而制定的資料策略也就特別重要。但要如何擬定策略?其實與企業目標息息相關。
我們都知道人工智慧的應用成果與資料的品質極為相關,有時候限制人工智慧在各領域實現更廣泛應用的,並不是演算法不夠厲害,而是缺乏高品質的資料。台灣人工智慧學校專案處的顧問們在協助企業導入人工智慧的過程中,發現了幾個企業常見的資料問題:
企業執行智慧專案時,在資料蒐集時就得先知道資料要解決什麼問題?並考慮資料是否能成為解決問題的要素。再來,檔案儲存的格式也必須有一定規範,才能減少處理資料的時間,而這些都與策略有關,更重要的是知道「公司要解決的問題是什麼?」
在談資料策略之前,必須要有資料,但是資料從何而來?阿里巴巴前副總裁、數據委員會會長車文覺在《數據的商戰策略:建立以數據驅動為核心的營運關鍵》一書中提到,每家公司的資料取得策略並不盡相同,但資料的來源必定與商業模式相關。
對於想要自己「養數據」的企業來說,結合車文覺在書中的說法與台灣人工智慧學校協助多家企業專案的經驗,有以下幾個重點需要在擬訂數據策略前思考:
一、從零開始固然可以建立屬於企業專屬的資料庫,但需要付出大量的人力成本,加上因應業務需求,資料的需求也會跟著改變,有些資料的特性也會持續演進,因此企業在投入人力成本之前,除了考量該資料庫的用途外,也需要考量所耗費的資源,需有長遠的規劃,而不是一股腦地投入資源,進行資料收集與標記。
二、即使表面上擁有很多資料,但在運用機器學習時,仍會發現資料量不足。要多少資料才足夠呢?這是大家都會問的問題,但實際上是需要的資料量與試圖解決的問題密切相關,並沒有標準答案,如果沒清楚找出要解決的問題,就無法確認需要多少資料。
三、短期來看,資料的收集、處理、運用越貼近業務現場的需要會越有效率,但是,因為業務會改變、就算同時間進行的專案,需要的資料也不同,所以長遠來看並不利資料的標準化及重複使用,也會導致開發週期變得漫長。因此,一開始可以從最小化應用開始,但仍然要有意識地、宏觀地再就眾多應用去做長遠規畫。
四、想讓業務單位及使用者心甘情願地交出資料,一開始進行的專案或應用要有足夠的吸引力。除了技術問題之外,業務及個人的意願也是大數據能否落地的要素。只有互利互惠,才有長久合作。
五、在大範圍使用大數據之前,必須嚴肅地面對資料的標準和品質問題,否則後果堪憂。數據驅動型企業必須明白,資料品質並不只是技術問題,而是所有員工的責任。
六、大數據的安全十分重要,資料越多,責任越大,而且有時候會超出你的想像。有時候,原本以為很安全的資料,在與其他資料接合後,可能會洩漏業務機密,這不能不小心。
在發展策略前,建議企業可以從小問題入手,弄清楚問題的本質。因為資料收集的出發點都來自業務需要,或者可以應對未來的業務發展。明確了解業務的長、中、短期目標,以及實現這些目標將會面臨的障礙後,還得理解數據能力對這些目標的貢獻。
最後,資料可以幫助我們深入洞悉市場、快速精準地找出應對策略,甚至為企業帶來更大商業價值的創新驅動力。當資料被視為一種企業資產,才能與其他資產,如人力資源、硬體等相互組合,發揮出最大的價值。