@wujiaju 2020-12-23T06:38:52.000000Z 字数 1434 阅读 1137

研究生实验3：基于序列模型的英文到中文翻译机

2020 PostGraduate

You can click here to get the English version.

实验目的

pytorch
python3，至少包含下列python包：sklearn，numpy，jupyter，matplotlib。
建议直接安装anaconda3，其已经内置了以上python包。
jieba (安装命令：pip install jieba)

基于注意力机制的机器翻译模型的示例代码可参考Pytorch 教程, 详细步骤如下：

本实验参考代码：github

下载中英文翻译数据集，并解压为./data/eng-cmn.tx
按行读取数据集，构建训练数据对时注意移除属性信息（每行只取前两个数据），否则会报错
从训练句子中拆分出单词，构建数据集的中英文单词对照表
注意: 默认reverse=False构建“英文-->中文”翻译器；感兴趣的同学也可尝试构建“中文-->英文”翻译器
构建机器翻译模型：
- 构建编码器（Encoder）
- 构建基于注意力机制的解码器（Attention Decoder）
定义损失函数，训练机器翻译模型

使用BLEU等机器翻译指标评估已训练好的模型，可使用 nltk 库


# pip install nltk
from nltk.translate.bleu_score import sentence_bleu
bleu_score = sentence_bleu([reference1, reference2, reference3], hypothesis1)

[可选1] 感兴趣的同学可自行调整参数，如调整句子最大长度MAX_LENGTH，总训练次数n_iters，特征维度hidden_size等

[可选2] 感兴趣的同学可自行划分训练集/测试集,推荐的划分比例是 7:3，根据定性及定量的实验结果进一步分析模型性能

[可选3] 感兴趣的同学可自行探索使用Transformer完成任务，示例代码可参考The Annotated Transformer blog和github仓库 (注意：同样需要自行处理中英文翻译数据集)

整理实验结果并完成实验报告（实验报告模板将包含在示例仓库中）。

提交实验报告，不要求提交实验代码
实验报告需要按照模板编写，并导出成pdf文件（模板未必与本次实验内容完全契合，可适当修改模板章节）
请于截止时间前发送所有实验报告到助教邮箱 jiaju.wu@qq.com，邮件命名为“exp_yourName_yourNumber”，例如“exp_张三_202000000000”