新聞記者如何分析數據說一個好故事

 新聞記者如何分析社媒體數據,進而利用數據說一個好故事?數據分析又要如何入門?

 BuzzFeed News資深記者Lam Thuy Vo曾經寫過川普的The Twitterverse of Donald Trump, In 26,234 Tweets或是真假訊息的Don’t Delete Evil Data或是從分析自社群媒體所學到的事What We Learned from Staring at Social Media Data for a Year等不同類型文章對於數據分析保持高度敏銳

 Lam Thuy Vo在本周發行的新書Mining Social Media: Finding Stories in Internet Data提供她長期在新聞工作場域所累積的數據分析經驗,分享新聞同業

 

      

 

 以下是Lam Thuy Vo新書摘要:

 一般人可能都有這樣的社群媒體使用經驗,Instagram照片、臉書貼文分享、WhatsApp發送訊息,但是使用時間都相當的快速和短暫,多數人通常是手指頭點兩下,一即過,船過水無痕。

 一般人習慣性的無時無刻滑手機點擊內容和更新訊息,這些行為早已被社群媒體巨獸所掌握,所有人的大小數據都被儲存在分布全球各地的伺服器裡,做為商品使用待價而沽。由於現代人的數據產製量加速累積,影響力當然也就越來越大。

 對新聞工作者而言,透過數據可以深入了解人類行為,也可以利用系統功能調查潛在危害,例如假帳號,假訊息或是建立時間軸演算法,追蹤可疑的內容。

 當查看這些龐大數據時,可以發現一般人的可能行為模式趨勢或異常,進而掌握線上行為形塑體驗方式。Lam Thuy Vo的這本書是希望透過簡單貼文或推文內容,理解社群媒體數據的意義。

 如何進行數據分析?

 數據分析首要目標是從大量資訊中找到有用的獨到觀點,數據分析就好似檢視龐大的檔案紀錄,我們可能會想要知道單一異常事件,或是研究可能的長

期趨勢,這樣的分析過程將會相當漫長曲折,需要使用好幾種不同研究方法才能找到答案。

 數據分析問題即使聚焦在特定議題,但是下決定仍是一個相當燒腦的過程例如哪些數據集是有利於行為檢視?如何取得所需的數據?如果想要確定臉書貼文受到歡迎的程度,是否可以依據按讚數或是哈哈哇等等筆數進行量化分析?或是結合留言數一起分析?如果想要知道使用者推特上所討論特定主題,分類推文主題最佳方式是要如何處理這些都必須要仔細思考。

 執行數據分析的前提是要具備技術分析能力和判斷力,這是一個創造性的過程,可以說,數據分析既是一門科學也是一門藝術。

 社群媒體、網路和新技術正持續影響著每一個人,Lam Thuy Vo這本書主要是提供毫無程式設計和編碼經驗的新聞人一本入門書。本書是透過實際演練,學習程式設計、數據分析、社群網路等基本概念。

 各個章節如下:

數據探勘 (Data Mining),共有五個章節。分別說明

1.程式語言,介紹HTMLCSSJavaScript程式,以及透過實做,學習Python基礎語言。

2.如何取得數據,解釋什麼是APIs如何利用JSON格式取得數據。

3.如何編碼,學習從YouTube API取得數據,使用Python語言和JSON格式建立試算表,特別是.csv檔案。

4.如何蒐集臉書數據,利用HTML,抓取網頁數據,將資料匯出為.csv檔案。

5.收集即時網站數據,利用維基百科(Wikipedia)做為頁面編寫習。

數據分析 (Data Analysis),共有六個章節。分別說明

6.什麼是數據分析,如何使用Google試算表分析自動帳戶或聊天機器人數據。

7.將數據視覺化,利用Google試算表,透過不同變項建立數據圖表。

8. 數據分析進階工具,利用Google試算表分析自動產生圖表,以及學習Python 3語言,建立虛擬環境,以及利用Jupyter Notebooks工具編寫Python語言,達到快速操作及分析資料目的。

9. 利用Reddit數據探索趨勢,同時使用pandas演算修改數據過濾數據。

10. 量測政治人物推特使用,格式化數據轉譯為時間標示,以及利用lambda演算法進行修改。

11.提供Python編碼資源清單,進一步學習統計分析,以及利用自然語言處理和機器學習分析文本。

 Lam Thuy Vo期待這本友善初學者(beginner-friendly)的專書,可以培力記者數據分析能力。雖然對忙於第一線新聞採訪的記者而言,學習分析數據顯得有些吃力,但是新聞記者如能利用數據說一個好故事,還是挺吸引人的。

 

參考資料

Lam Thuy Vo (2019.12). Mining Social Media: Finding Stories in Internet Data.