@wuxin1994 2017-07-24T08:13:43.000000Z 字数 1486 阅读 2240

吴帆0710-进度总结

`学习笔记17`

A: 项目进度

1.程序步骤如下：

    a.下载维基语料库并预处理
    b.合并jieba自带的分词词典和项目用到的分词词典
    c.从topic.json中得到 description 并写入到 desc_texts.texts。同时，得到一个 tid-keywords 字典。
    d.对维基语料库和description语料库进行分词，并合并分词结果到segment.txt。（并得到句子和段落的语料库）
    e.利用分词结果训练word2vec模型（利用句子和段落语料库训练sent2vec，doc2vec模型）
    f.处理原始输入json文件，根据topic数目拆分，并根据tid-keywords字典加入keywords字段信息。
    g.分别处理各个字段，得到向量表示，并以json格式存储，然后写入到输出文件中。

2.项目程序代码已经基本写完，跟凌波师兄讨论了进度并请教了几个问题。不过目前还有三个待解决的问题：

训练word2vec得到的模型，当输入一些词语时，报错。打算更换语料库再训练一下模型测试一下。

KeyError(u"word '\u74dc\u897f\u897f' not in vocabulary",)

训练doc2vec模型耗时太久，训练一下午只完成了5%的训练。打算先试试不用wiki预料训练，先得到一个初步的结果。
sent2vec部分的训练打算用doc2vec训练，而语料库打算只用本次项目中的sentence数据。

B: 总结一下碰到的主要问题

读取json文件时无法识别。

原因分析及解决办法：初始文件不是json结构，要让程序能直接load出json格式的数据流，存储格式为一个lists。

topic.json文件中格式混乱，无法直接处理得到description、tid、id和keywords字段的信息。
原因分析及解决办法：师兄说是因为这个文件是公司通过后台API直接得到的数据流，不是严格意义上的json文件。我用的正则表达式，匹配对应的字段，从而匹配到相应字段。

import re
description = re.findall(r"\"description\"\=\>\"[^\"]*\"",topic)#以读取description字段为例。

文件的write()方法写入的编码问题。

TypeError: write() argument 1 must be unicode, not str

原因分析及解决办法：编码问题，写入的字段需要是unicode。

多一行空格

此处输入图片的描述
写入的文件每次总多一行空格，一直以为是显示bug，后来在数据写入时加上了一些if判断，问题解决。

unicode编码：在python2下编译程序，经常性出现中文显示或写入成unicode码的问题。

参考博客的解释，因为python2默认编码方式就是unicode，但是python3默认是utf-8，因此一般python3不存在这种问题。请教了师兄，总结一些常见解决办法。

#办法1
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
#办法2
write(string.encoding('utf-8'))
#办法3：可以先将需要输出或者写入的数据用for循环转成unicode字符串，然后再用write()方法写入。
#办法4 :将unicode转换成汉字的方法
print string.decode("unicode-escape")
#办法4（写入json文件时）
json.dump(new_topic_json,data_input,ensure_ascii=False)

内容目录

添加新批注

在作者公开此批注前，只有你和作者可见。

私有
公开
删除

回复批注