今天早上上了一堂 Google 旗下專為記者設計的線上服務 Pinpoint ,先說重點:
- 現在不是只有記者才能開通服務,寫論文等需要分析大量資料的人應該都很適用
- 圖片上的文字辨識功能看起來還不錯,也可以自動辨識手寫字,就算是圖片上的文字,也可以直接利用搜尋功能搜尋到。但繁體中文的辨識度依舊不如英文的辨識能力
- 這項服務免費,可以作為不想要付費給民間各種運用生成式 AI 軟體服務有使用額度限制或是必須要付費解鎖的商品的替代品
線上軟體就是多摸多玩有備無患,因為你永遠不知道哪天會有需要用到它的一天。我覺得就算沒有特別上課,自己摸索一下,或是看一下網路上介紹的內容就很足夠。(上課只是能在短時間內完整知道各種功能使用方式,但我覺得介面操作已經直觀到嚇死人)
- Pinpoint 網址:
https://journaliststudio.google.com/pinpoint/about - Google 官方介於有和沒有的說明: https://journaliststudio.google.com/pinpoint/getting-started
- 全球調查記者網路的使用者介紹:
https://zh.gijn.org/google-pinpoint/?variant=zh-hant
Pinpoint 最適合需要分析大量文件(pdf、圖片、音檔⋯⋯)的情況。把檔案上傳到專案資料夾(collection)後,可以利用它來分析、或是篩選出需要的內容。
「專案資料夾」這名稱是我翻的,但它的作用基本上就像 Google Drive 的資料夾,可以選擇和誰共享編輯,也可以選擇是要設成私人還是公開。
語音/文字辨識功能
Google 的文字辨識功能不在話下,語言轉換功能也很優異。例如:搜尋「TSMC」會連中文文檔中有「台灣積體電路製造公司」都跳出來,台灣政治人物的中文名字,側欄自動生成的索引,英文拼音看起來是對的(例:蕭美琴是 Bi-khim Hsiao)從今天課程示範的範例來看,我覺得目前主要問題出在斷詞(不知道詞彙要怎麼斷)
(英文的)語音辨識功能也比目前市面上一些號稱使用 AI 的語音辨識軟體優異,至少 soundbite 的秒數是對的,句子切的很細,還可以重複播放(這對於電視台工作者來說真的是不可多得的工具,平常掐 soundbite 秒數都要算很久)
擷取並結構化數據
(Extract Structured Data)
但最令我驚豔的其實是摘選、結構化並匯出挑選過的資料內容。
舉例來說,有時候類似的檔案會分成好幾個。像今天示範的各國基本國情分析報告、台灣政治人物財產申報⋯⋯這些檔案都是,每一個國家/每一個政治人物是單獨一份檔案,但是每一份檔案的格式都一樣。例如,我可能只需要每一份檔案的「國名/政治人物的人名」,外加其中一欄的資訊,我就可以利用 Pinpoint 迅速整理出一個 csv 檔案,直接匯出每一份檔案的指定欄位內容。
重點是,這個操作有夠直觀,居然是直接拖拉方塊,告訴 Pinpoint 指定欄位的相對位置在哪裡,它就會自己去抓資料內容是什麼。如果它自動辨識出來的欄位名稱有錯,也可以隨時再來一次,不是手動輸入指令耶!(直觀到覺得怕,已經超乎我的想像)
不管是表格還是文字列表,它都能抓取「相對位置」的資料,這真的很驚人(表格的抓取方式和文字列表的抓取方式不同,這可能真的要上課才會知道微妙的差異)
可以如何使用
課後 Q&A 有人提到說是不是只能上傳檔案,不能分析網頁資料。可能台灣比較少遇到這個狀況(?)日本官方資料超愛給各種 pdf 或是檔案要人自己下載下來啊啊啊(每次看到就頭疼,會讓人失去想要分析的動力,我前陣子學習使用 Python 爬取網路上的資料,就是想要用來抓取、分析政府釋出的公開資料,但這招也很難應付 pdf 檔)
有了 Pinpoint 我就可以來分析這次能登地震死亡人數推移和過去幾次地震的數據了(這件事情想做許久,但我真的看到 pdf 就覺得頭很痛,雖然我知道每一天新聞稿的格式就是長那樣,但是它都是 pdf ,是要我手動輸入再做計算嗎!?)