前言

首先我對於自然語言處理的認知還不夠深入,這點就應該值得自我反省一下是否是越級打怪。我大概知道GPT2-Chinese的原理,GitHub的版本是簡體中文的,下載下來看過以後,我試著改成用繁體中文的文章來訓練。

失敗的狀態

我拿我自己寫的輕小說共80萬字左右來訓練,訓練出來的模型,可以偶爾寫出恰當的文句,但在標點尤其引號上,以及詞性上,沒有很好的預測。

猜測失敗的原因

原因應該是在Tokenization的部分,沒有做得很好,也就是把單詞分割以後,像我主角是名稱是亞提克,但會出現亞、提克這兩個Vocab。

不足的部分

我對Pytorch並沒有很深入的研究,因此處理GPU運算的時候,費了相當大的力氣爬文。我之前學Deep Learning主要是用Tensorflow,因此應該要花點時間找點Pytorch的文件來看看。

預計修正失敗時間

我估計大概會在年底左右修正完一切的失敗問題,Vocab的部分我有想到要怎樣處理,但現在要靜下心來看技術文件時間不是太夠,有太多外務。

結論

我一定要讓電腦可以用我的文筆寫一篇沒意義的輕小說出來!