目前语言模型要求使用PaddlePaddle 1.7及以上版本或适当的develop版本。
同时推荐用户参考IPython Notebook demo
在small meidum large三个不同配置情况的ppl对比:
small config | train | valid | test |
paddle | 40.962 | 118.111 | 112.617 |
tensorflow | 40.492 | 118.329 | 113.788 |
medium config | train | valid | test |
paddle | 45.620 | 87.398 | 83.682 |
tensorflow | 45.594 | 87.363 | 84.015 |
large config | train | valid | test |
paddle | 37.221 | 82.358 | 78.137 |
tensorflow | 38.342 | 82.311 | 78.121 |
此任务的数据集合是采用ptb dataset,下载地址为: http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz
本项目依赖于 Paddle Fluid, 关于PaddlePaddle框架的安装教程,详见PaddlePaddle官方网站。
cd data; sh download_data.sh
sh run.sh
需要指定数据的目录,模型的大小(默认为small,用户可以选择medium, 或者large)。
由于数据的特殊性,每一个batch的last hidden和last cell会被作为下一个batch 的init hidden 和 init cell,数据的特殊性下节会介绍。
aer banknote berlitz calloway centrust cluett fromstein gitano guterman hydro-quebec ipo kia memotec mlx nahb punts rake regatta rubens sim snack-food ssangyong swapo wachter
pierre <unk> N years old will join the board as a nonexecutive director nov. N
mr. <unk> is chairman of <unk> n.v. the dutch publishing group
特殊说明:ptb的数据比较特殊,ptb的数据来源于一些文章,相邻的句子可能来源于一个段落或者相邻的段落,ptb 数据不能做shuffle
├── README.md # 文档
├── run.sh # 启动脚本
├── train.py # 训练代码
├── reader.py # 数据读取
├── args.py # 参数读取
└── data # 数据下载
└── models
└── language_model
└── lm_model.py # 模型定义文件
自定义数据: 关于数据,如果可以把自己的数据先进行分词(或者tokenize),然后放入到data目录下,并修改reader.py中文件的名称,如果句子之间没有关联,用户可以将
中更新的代码注释掉。init_hidden = np.array(fetch_outs[1]) init_cell = np.array(fetch_outs[2])
网络结构更改: 网络只实现了基于lstm的语言模型,用户可以自己的需求更换为gru或者self等网络结构,这些实现都是在lm_model.py 中定义
Copyright 2017 Baidu.com, Inc. All Rights Reserved
Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at
Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.