@@ -16,7 +16,7 @@ Lexical Analysis of Chinese,简称 LAC,是一个联合的词法分析模型
16
16
17
17
#### 1.PaddlePaddle 安装
18
18
19
- 本项目依赖 PaddlePaddle 1.4 .0 及以上版本和PaddleHub 1.0.0及以上版本 ,PaddlePaddle安装请参考官网 [ 快速安装] ( http://www.paddlepaddle.org/paddle#quick-start ) ,PaddleHub安装参考 [ PaddleHub] ( https://github.com/PaddlePaddle/PaddleHub ) 。
19
+ 本项目依赖 PaddlePaddle 1.6 .0 及以上版本和PaddleHub 1.0.0及以上版本 ,PaddlePaddle安装请参考官网 [ 快速安装] ( http://www.paddlepaddle.org/paddle#quick-start ) ,PaddleHub安装参考 [ PaddleHub] ( https://github.com/PaddlePaddle/PaddleHub ) 。
20
20
21
21
> Warning: GPU 和 CPU 版本的 PaddlePaddle 分别是 paddlepaddle-gpu 和 paddlepaddle,请安装时注意区别。
22
22
@@ -26,52 +26,48 @@ Lexical Analysis of Chinese,简称 LAC,是一个联合的词法分析模型
26
26
git clone https://github.com/PaddlePaddle/models.git
27
27
cd models/PaddleNLP/lexical_analysis
28
28
```
29
+
30
+ #### 3. 环境依赖
31
+ PaddlePaddle的版本要求是:Python 2 版本是 2.7.15+、Python 3 版本是 3.5.1+/3.6/3.7。LAC的代码可支持Python2/3,无具体版本限制
32
+
29
33
### 数据准备
30
34
31
35
#### 1. 快速下载
32
36
33
37
本项目涉及的** 数据集** 和** 预训练模型** 的数据可通过执行以下脚本进行快速下载,若仅需使用部分数据,可根据需要参照下列介绍进行部分下载
34
38
35
39
``` bash
36
- sh download.sh
40
+ python downloads.py all
41
+ ```
42
+ 或在支持运行shell脚本的环境下执行:
43
+ ``` bash
44
+ sh downloads.sh
37
45
```
38
46
39
47
#### 2. 训练数据集
40
48
41
49
下载数据集文件,解压后会生成 ` ./data/ ` 文件夹
42
50
``` bash
43
- wget --no-check-certificate https://baidu-nlp.bj.bcebos.com/lexical_analysis-dataset-2.0.0.tar.gz
44
- tar xvf lexical_analysis-dataset-2.0.0.tar.gz
51
+ python downloads.py dataset
45
52
```
46
53
47
54
#### 3. 预训练模型
48
55
49
- 我们开源了在自建数据集上训练的词法分析模型,可供用户直接使用,这里提供两种下载方式:
50
-
51
- 方式一:基于 PaddleHub 命令行工具,PaddleHub 的安装参考 [ PaddleHub] ( https://github.com/PaddlePaddle/PaddleHub )
56
+ 我们开源了在自建数据集上训练的词法分析模型,可供用户直接使用,可通过下述链接进行下载:
52
57
``` bash
53
58
# download baseline model
54
- hub download lexical_analysis
55
- tar xvf lexical_analysis-2.0.0.tar.gz
59
+ python downloads.py lac
56
60
57
61
# download ERNIE finetuned model
58
- hub download lexical_analysis_finetuned
59
- tar xvf lexical_analysis_finetuned-1.0.0.tar.gz
60
- ```
62
+ python downloads.py finetuned
61
63
62
- 方式二:直接下载
63
- ``` bash
64
- # download baseline model
65
- wget --no-check-certificate https://baidu-nlp.bj.bcebos.com/lexical_analysis-2.0.0.tar.gz
66
- tar xvf lexical_analysis-2.0.0.tar.gz
67
-
68
- # download ERNIE finetuned model
69
- wget --no-check-certificate https://baidu-nlp.bj.bcebos.com/lexical_analysis_finetuned-1.0.0.tar.gz
70
- tar xvf lexical_analysis_finetuned-1.0.0.tar.gz
64
+ # download ERNIE model for training
65
+ python downloads.py ernie
71
66
```
72
67
73
- 注:若需进行ERNIE Finetune训练,需自行下载 [ ERNIE] ( https://baidu-nlp.bj.bcebos.com/ERNIE_stable-1.0.1.tar.gz ) 开放的模型,下载链接为: [ https://baidu-nlp.bj.bcebos.com/ERNIE_stable-1.0.1.tar.gz ] ( https://baidu-nlp.bj.bcebos.com/ERNIE_stable-1.0.1.tar.gz ) ,下载后解压至 ` ./pretrained/ ` 目录下。
74
-
68
+ 注:若需进行ERNIE Finetune训练,需先行下载
69
+ [ ERNIE] ( https://baidu-nlp.bj.bcebos.com/ERNIE_stable-1.0.1.tar.gz ) 开放的模型,通过命令`python
70
+ downloads.py ernie`可完成下载
75
71
### 模型评估
76
72
77
73
我们基于自建的数据集训练了一个词法分析的模型,可以直接用这个模型对测试集 ` ./data/test.tsv ` 进行验证,
@@ -85,8 +81,9 @@ sh run_ernie.sh eval
85
81
86
82
### 模型训练
87
83
基于示例的数据集,可通过下面的命令,在训练集 ` ./data/train.tsv ` 上进行训练,示例包含程序在单机单卡/多卡,以及CPU多线程的运行设置
88
- > Warning: 若需进行ERNIE Finetune训练,需自行下载 [ ERNIE] ( https://baidu-nlp.bj.bcebos.com/ERNIE_stable-1.0.1.tar.gz ) 开放的模型,下载链接为: [ https://baidu-nlp.bj.bcebos.com/ERNIE_stable-1.0.1.tar.gz ] ( https://baidu-nlp.bj.bcebos.com/ERNIE_stable-1.0.1.tar.gz ) ,下载后解压至 ` ./pretrained/ ` 目录下。
89
-
84
+ > Waring: 若需进行ERNIE Finetune训练,需先行下载
85
+ [ ERNIE] ( https://baidu-nlp.bj.bcebos.com/ERNIE_stable-1.0.1.tar.gz ) 开放的模型,通过命令`python
86
+ downloads.py ernie`可完成下载
90
87
``` bash
91
88
# baseline model, using single GPU
92
89
sh run.sh train_single_gpu
@@ -180,7 +177,7 @@ python inference_model.py \
180
177
1 . 从原始数据文件中抽取出句子和标签,构造句子序列和标签序列
181
178
2 . 将句子序列中的特殊字符进行转换
182
179
3 . 依据词典获取词对应的整数索引
183
-
180
+
184
181
### 代码结构说明
185
182
``` text
186
183
.
@@ -189,6 +186,7 @@ python inference_model.py \
189
186
├── compare.py # 执行LAC与其他开源分词的对比脚本
190
187
├── creator.py # 执行创建网络和数据读取器的脚本
191
188
├── data/ # 存放数据集的目录
189
+ ├── downloads.py # 用于下载数据和模型的脚本
192
190
├── downloads.sh # 用于下载数据和模型的脚本
193
191
├── eval.py # 词法分析评估的脚本
194
192
├── inference_model.py # 执行保存inference_model的脚本,用于准备上线部署环境
0 commit comments