《大數據》巨量資料時代的四大體悟
內容目錄
為何而讀
閱讀經典、掌握趨勢
和前一篇《蘋果橘子經濟學》一樣,清理書櫃塵封書籍,這本八年前(2013)的出版書,被我排定在二月分閱讀清單中。
在了解經濟學以數據思考的邏輯後,緊接著《大數據》一書的洗禮,讓我更深入了解身處於資訊時代中,面對資訊,我們該如何自處。
書籍導覽
全書共分為十個章節。
我將之拆分為三大主軸:大數據特性、面臨問題、解決方法。
各章節的重要概念,盡可能地融合在上述三大主題當中。
量變帶來質變
不知讀者們是否想過,人類一天會產生多少數量的資訊? PB, EB, ZB, YB?
我喜歡作者在第一章節從歷史的角度來帶出資料的進程。
從遠古舊石器時代、洞穴壁畫、1439年古騰堡印刷術,再到網路時代。人類從沒有語言、文字直到現在人人隨手使用社交媒體,來當作心情抒發的管道。我相信已經沒有網站在估算每單位時間全人類產生多少的資訊了,因為這個量大到無法估計,也沒有得到答案的意義。
20年前,可能還會有人好奇去推算這個答案,但是現在絕對不會有,這就又是量變帶來質變的一個體現。
因為數據的爆量,將會帶來許多我們未曾想見看待事物本質上的變化、資料的特性、社會問題,八年過去了,這些事情已然發生,也持續發生,值得我們用心關注。
重要概念
大數據特性
樣本 = 母體
我們終將擁有處理全部資料的能力
在過去,搜集資料的成本(人力、時間),讓統計學應運而生。統計學家透過各種方法,盡可能取得有效樣本、去除資料雜訊,以得到近似於母體的資料組成,進而推導問題結論。
在未來,資訊取得成本大幅降低,迎接而來是「樣本 = 母體」的時代。
人口普查、電話民調、DNA 定序、Covid-19 疫情趨勢、《蘋果橘子經濟學》一書的相撲比賽作假,都是大數據時代「樣本 = 母體」資料特性,根本地改變了遊戲規則。
雜亂性
擁抱不精確
19 世紀的科學時代,追求的是精確、量測、紀錄。各種計量單位、現代科學應運而生。直到 20 世紀量子力學的出現,打破了全面、完整測量的想像,科學家們學會了擁抱不確定。
橋墩的應力讀數、Google 翻譯、社群媒體的按讚/觀看次數、關連式資料庫轉向 NoSQL、退一步看印象派畫作,皆是擁抱不確定性資料的例子。
資訊少的時候,資訊的品質、精確性相對來說重要性較高;然而到了「樣本 = 母體」的大數據時代,掌握數據輪廓、趨勢,將遠比追求精確度來得重要。
精確在某些時刻的確有其必要,但是大數據時代,抬頭仰望,有些時候更容易看見全貌。
相關性
放下對於因果關係的堅持
常言道:「事出必有因」、「種瓜得瓜,種豆得豆」。
世間萬物,有些事就是有因果邏輯;也有些事情,就是沒有或是無須追求因果相關性。
我們能做的,就是透過數據,去了解「正是如此」,而不須花時間追究「為何如此」!
Amazon 書評團隊 vs. 電腦推薦、航空公司票價網站、Walmart 顧客喜好分析、Target 預測婦女懷孕寄送型錄、紐約人孔蓋維修…都是運用相關性的絕佳範例。
因果關係,往往需要投入大量成本做實驗,或是經過長時間思辨得到結論,而時間的稀缺性卻是有限的人生無法逃避的事實。
時間的稀缺性加上個人機會成本,造就個人投入一項任務的時間長短不一。若要窮盡一生去找尋每個問題的答案,必為作繭自縛的一條道路。
我認為:放下因果性,不求甚解,是推動世界前進的一種行為模式;觀察資料,擁抱相關性,將會改變我們看待世界的方式。
資料鍊三環節:資料、技術、思維
不在乎擁有,只在乎充分運用
- 資料:只掌握資料的公司
- 技術:擁有操作資料的技術
- 思維:懂得發揮資料價值的人才
根據我的觀察,在擁有大量資料的公司,通常同時具備了上述黃金三角鏈。掌握資料又同時具有處理資歷技術和思維的人才,與沒有資料,只經手資料處理的公司,競爭等級是不在一個水平上的。
面臨問題
隱私保護
資料的黑暗面,不在於原始用途,而在於延伸用途
常看到各類型網站,在使用者註冊前,都會附上長長的「個資使用政策」請你勾選同意。
好笑的是,這是一翻兩瞪眼的同意書。
同意,你就可以使用該服務,該公司根據條款有限度地使用你的資料;不同意,謝謝再聯絡。
個資使用政策,可延伸的範圍太廣了,基本上一旦勾選同意,個資就是任人宰割。
簡單地說,個人裝置一旦連上網路,基本上就無所遁形了,政策看似「文字敘述」的嚴謹定義,憑著人類的想像力,可以無限延伸。
即使再小心謹慎,都無法避免你在網路留下的足跡,專家可以利用任何細微資訊拼湊出來你是誰,即使你從頭到尾沒有留下所謂「法定」的個資。
倫理道德
巨量資料是一項資源、工具。它的目的是通知,而非解釋
有了處理大數據的能力後,預測犯罪變的有可能,然而這是否就否定了人類的自由意志?
為了防止犯罪發生,在發生之前以公權力先行介入,假釋罪犯,因為預測了再犯的可能性,而調整了他的假釋期間,更甚者駁回假釋。這些都是逃避不了的道德面問題。
我想,將因果性和相關性分開來思考有些許幫助。
資訊濫用
輸入的是垃圾,輸出的也是垃圾。Garbage in, garbage out
選舉操弄、假新聞、社群暴力是數位時代的特殊產物。
法規跟不上科技進步的速度,當資料擁有者登高疾呼,站出來守護閱聽人的權利的時候,又會有另一派人士認為他憑什麼去阻礙人知的自由。臉書創辦人對於臉書言論的立場改變,就是一個很好的例子。究竟要如何防堵錯誤資訊、篩選力度、定義敏感主題……,這些都不是一時半刻可以釐清的議題。
解決方法
資料化:基礎建設的必然
書中提到的當年 2013-2014 的資料化的例子。
- 亞馬遜:新書數位化
- 谷歌圖書:舊書資料化
- 谷歌地圖:位置資料化
- 臉書:人際關係資料化
- 推特:情緒資料化
- LinkedIn:專業經驗資料化
首先要注意的是,資料化和數位化指的並非同件事情。
Amazon 當年做的事情只是將新書數位化(類比轉數位),當今我相信他們一定某種程度的將這些數位產品的資料,拿去做更進一步的使用,以提供讀者更好的閱讀體驗!
至於我自己想到的一些例子:
- 比特幣:金融資料化
- Youtube, 影音串流, 手遊, Clubhouse:娛樂資料化
- 通訊軟體:溝通資料化
- 信義房屋:看房資料化
- Palentir:情蒐資料化
- VIX:市場恐懼資料化
- Apple Watch:邁向健康資料化
- Teledoc:看病資料化
大數據的時代,是由資料組成的「場域」,在人類還未進階到老高常提到使用意識溝通的層級,資料化我認為是邁向意識溝通之前一個必然的進程。
Metadata:重獲資料價值
一般物質性東西一但使用,價值便會降低;資料可一次又一次處理,價值並不會減少。
重複使用、跨領域使用、多功能使用,以上是讓資料重獲價值的方法。
保持開放、創意、彈性,在資訊充斥於生活周遭的年代,善用手邊的資訊,進行適度的重整,結合自己的興趣圈、知識圈,就能讓看似平凡無奇的資料賦予獨一無二的價值。
單位監督 vs. 個人負責
資訊濫用產生的問題,至今沒有一個完美的解法。
審查機制的建立是必然的方向,然而在這個過程當中,我們將看到資料擁有單位(可能也同時身兼審查單位)和個人之間的衝突產生。
自由對上規範,本就是千百年來人類對上權威一直在攪和的戰場,只是今天戰場從真實世界搬上了虛擬世界。
在規範還未完善前,個人是否應該也要秉持著基本的社會道德,在網路世界端正做人。只因為看似匿名,不易追查的環境,就肆無忌憚大放厥詞,造成的只是更多社會成本的浪費。
個人體悟
工匠 vs. 跨領域
工業時代,個人擁有一技之長是存活於世間的基本生存法則。
到了資訊時代,絕大多數專業技能知識,已變得唾手可得。若只有單一技能,很容易被快速變遷的時代淘汰。飛行員一職,我也很難打包票地說在未來 40-50 年一定還會存在。
Elon Musk 曾說 2021 年,自家車廠將推出 Level 5 等級的自動駕駛系統。如果在航空業,也出現了另一個 Elon Musk,誰能肯定大眾對於民航駕駛存在的信任,與科技至上、偶像崇拜的信任孰快孰慢呢?
2020 年,我們看到有人開始在自動駕駛車上高速公路躺平睡覺了,對於人類的想像力和信念,還有什麼不可能呢?
持續跨領域學習、思考、應用,我認為才是生存在這個時代,不被淘汰的解決之道。
肯定人性的存在
讓直覺、常識、偶然都還有容身之處
大數據的時代,透過研究數據就可以得到的解答、或是預測大部分的行為,那麼人還有存在的意義嗎?
人,終究是決策、行動的主人,資料分析的結果,最終也只是輔助角色。
這個世界依舊會因為人的多樣性、本能、情緒產生各樣的意外和驚喜。Covid-19 就是個很好的例子,如果 10 年前的 Google 就能準確預測流感趨勢,今天的 Google 預測能力會更差嗎?為何美國或全球的疫情會導致今天的景況?
投資方向
透過理解大數據思維,可以重新思考投資方向!
大數據時代,哪一類型的公司才是真正能在 10 年、20 年後持續引領風騷、屹立不搖的公司呢?相信每個人心中都會有不同的評斷標準。
創造價值
說了這麼多,在大數據時代,究竟一般小老百姓能夠做些什麼?
和科技巨頭比資料量?這是不可能辦到的事情。
我想到的是:利用手邊的任何資源,創造出有意義的資料,不僅對自己有意義,也對他人有意義。自去年 2020 開始經營的這個網站,正好就是朝著這個目標在經營的!
我期望能夠秉持初衷,分享飛行、學習成長、福音給人們。
不同類型的主題,產生不同的感動。儘管寫了 10 篇,可能只會有 1 篇讓人產生共鳴 ,這也是一種成就感,更是我持續鞭策自己產生好作品的動力 。
堅守道德、心態開放、持續學習,是在這個大數據時代存活的不變道理!
影片推薦
附上在查詢資料時看到的 Amazon CEO Bezos 影片
Cleverness is a gift, kindness is a choice.
《大數據 Big Data》 博客來購買連結 推薦指數 4.3/5 ⭐️⭐️⭐️⭐️⭐️
喜歡這篇文章的話,請不吝嗇地 C.L.S. 或是右側欄位訂閱支持我。
Comment:歡迎在下面留言區和我分享你的想法或是行動
Like:或是在下方按個喜歡
Share:也歡迎分享給你的親朋好友 ❤️
「不在乎擁有,只在乎充分運用」對這句話很有感!
現在取得資訊的方式相對容易,也許能更進階的關鍵就變成資料篩選、吸收及轉化能力了~
這是現代人的煩惱啊!
更多的資訊,卻是和幾千年前的人擁有差不多長度的壽命。
需要有智慧的分辨什麼是真正有價值的東西,保持信念行動!