@wujiaju
2021-11-21T07:55:08.000000Z
字数 1436
阅读 1537
2021
PostGraduate
You can click here to get the English version.
pip install jieba
)基于注意力机制的机器翻译模型的示例代码可参考Pytorch 教程, 详细步骤如下:
本实验参考代码:github
下载中英文翻译数据集,并解压为./data/eng-cmn.tx
按行读取数据集,构建训练数据对时注意移除属性信息(每行只取前两个数据),否则会报错
从训练句子中拆分出单词,构建数据集的中英文单词对照表
注意: 默认reverse=False
构建“英文-->中文”翻译器;感兴趣的同学也可尝试构建“中文-->英文”翻译器
构建机器翻译模型:
定义损失函数,训练机器翻译模型
使用BLEU
等机器翻译指标评估已训练好的模型,可使用 nltk 库
# pip install nltk
from nltk.translate.bleu_score import sentence_bleu
bleu_score = sentence_bleu([reference1, reference2, reference3], hypothesis1)
[可选1] 感兴趣的同学可自行调整参数,如调整句子最大长度MAX_LENGTH,总训练次数n_iters,特征维度hidden_size等
[可选2] 感兴趣的同学可自行划分训练集/测试集,推荐的划分比例是 7:3,根据定性及定量的实验结果进一步分析模型性能
[可选3] 感兴趣的同学可自行探索使用Transformer完成任务,示例代码可参考The Annotated Transformer blog和github仓库 (注意:同样需要自行处理中英文翻译数据集)
整理实验结果并完成实验报告(实验报告模板将包含在示例仓库中)。