前言

最近租了一個Dedicated Server,12核心的,打算要來跑Python的網頁爬蟲,至於大量收集網路資料到底有什麼用,我還在思考。

那個Dedicated Server網路連線5Gb/s的Port,流量有10 TB,花了不少錢,估計爬個一個月可能流量會不夠。

現在先收集一些網路的文章和圖片特徵,存到MS SQL資料庫裡面去,MS SQL Web資料庫 For 12 Cores也花了我不少錢。

前陣子在研究GPT-2自動產生文章,發現為何我訓練的模型會失敗,因為我的分詞沒分好,也就是Tokenziation的部分有問題。

現在還在想要怎樣解決這個問題,因為中文分辨語詞是很難的,我現在基礎還不夠,要趕緊爬文和看書一下。

需要優化部分

然後要開始優化一下截取的資料,因為都是HTML文件,要去掉一些TAG和一些首尾及Menu的部分。

還好有書可以參考,預計大概三個月內可以完成多工完美的網頁爬蟲,到時候再說一些寫的心得。

如果這個Dedicated Server的提供商不錯,也考慮推薦一下,我只推薦我用過覺得很好的東西。

目標

目標有一個龐大的資料庫,可以做為機器學習的資料。我這個計畫只是學習用,所以沒有版權問題,因為沒有盈利,可以主張正當使用網路資料。

我現在很多計畫都不打算盈利,只是想要寫點東西出來而已。

結論

Dedicated Server真的很貴!