[关闭]
@wuxin1994 2017-07-24T08:14:05.000000Z 字数 1125 阅读 718

吴帆0708-项目开展

学习笔记17


“新闻稿文本向量”任务进展

A: 首先是配置环境:

1) 在官网下载安装压缩包

Anaconda3-4.0.0-Linux-x86_64.sh

2) 解压安装

bash ~/Downloads/Anaconda3-4.0.0-Linux-x86_64.sh

3)安装anaconda-navigator

conda install anaconda-navigator

B: 语料库的构建

  1. jieba.load_userdict('dictionary.dic')

C:根据语料库训练词向量
 利用word2vec工具包训练得到的分好的词。其中参数设置按照参考文档的设置:

  1. class gensim.models.word2vec.Word2Vec(sentences=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=0.001, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=<built-in function hash>, iter=5, null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)

D:目前的问题
 1.在训练词向量的过程中,只使用一个语料库时程序没有问题,但是把本次任务的自定义语料库加入一起训练时就会出现内存占用过高,从而计算机卡死的现象,还在调试中。
 2.输出最终向量表示的结果部分的代码还没写。
 3.莫凌波师兄提出要把topic中的tid和初始的data_test.json中的topic关联,这部分代码还要修改。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注