gensimで、日本語のword2vec
gensimの準備
pip install gensim
日本語 Wikipedia エンティティベクトルの学習済みモデルを使う。
gensim
モデルの訓練&変換と、学習済みモデルを使った変換を行う。
モデル学習して変換する
参考:Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~ 10-titanicの先へ行く-テキストデータに触れてみよう
from gensim.models import word2vec model = word2vec.Word2Vec(text_data, size=10, min_count=1, window=2, seed=7 ) model.wv['keyword'] model.wv.most_similar('keyword')
学習済みのモデルを使ってみる
from gensim.models import KeyedVectors model_dir = './entity_vector.model.bin' model = KeyedVectors.load_word2vec_format(model_dir, binary=True) results = model.most_similar(u'[ディープラーニング]') for result in results: print(result)
出力
('[機械学習]', 0.6342067122459412) ('[グリッド・コンピューティング]', 0.5937871932983398) ('[タンパク質構造予測]', 0.5929729342460632) ('[クリティカルパス法]', 0.5910710096359253) ('[デジタル信号処理]', 0.5864137411117554) ('[量子コンピュータ]', 0.5849090814590454) ('[分散コンピューティング]', 0.5813807249069214) ('[分子動力学]', 0.577800989151001) ('[データマイニング]', 0.5750172734260559) ('[モンテカルロ法]', 0.5733920335769653)