Skip to content

Commit af5c63a

Browse files
committed
docs:更新 NLP、RNN 专栏
1 parent 818d248 commit af5c63a

6 files changed

+819
-5
lines changed

docs/.vuepress/config.js

Lines changed: 12 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -2186,6 +2186,18 @@ module.exports = {
21862186
"text-preprocessing-overview",
21872187
"text-vectorization-guide",
21882188
"text-data-analysis-practical-guide",
2189+
"key-path-from-feature-enhancement-to-dimensional-norm",
2190+
"text-data-augmentation-back-translation-guide",
2191+
]
2192+
},
2193+
2194+
{
2195+
title: "RNN",
2196+
collapsable: false,
2197+
sidebarDepth: 0,
2198+
children: [
2199+
"what-is-rnn",
2200+
"neural-memory-engine-for-sequence-modeling",
21892201
]
21902202
},
21912203

docs/md/AI/llm/02-常用Prompt.md

Lines changed: 8 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -25,7 +25,7 @@
2525
### 1.2 翻译
2626

2727

28-
```java
28+
```bash
2929

3030
你是一位精通简体中文的专业翻译,尤其擅长将专业学术论文翻译成浅显易懂的科普文章。请你帮我将以下英文段落翻译成中文,风格与中文科普读物相似。
3131

@@ -70,11 +70,14 @@
7070
***
7171

7272
### 意译
73-
```
74-
{意译结果}
75-
```
73+
【意译结果】
7674

77-
现在请按照上面的要求从第一行开始翻译以下内容为简体中文
75+
现在请按照上面的要求从第一行开始翻译以下内容为简体中文【】
7876
```
7977

78+
### 1.3 SEO-slug
79+
80+
```bash
81+
Prompt:
82+
This GPT will convert input titles or content into SEO-friendly English URL slugs. The slugs will clearly convey the original meaning while being concise and not exceeding 60 characters. If the input content is too long, the GPT will first condense it into an English phrase within 60 characters before generating the slug. If the title is too short, the GPT will prompt the user to input a longer title. Special characters in the input will be directly removed.
8083
```
Lines changed: 92 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,92 @@
1+
# 精准识别客户投诉:你的智能客服为什么总是抓不住核心诉求?(附特征优化方案)
2+
3+
文本特征处理:从特征增强到维度规范的关键路径
4+
5+
## 1 特征工程的意义
6+
7+
nlp任务中,原始文本经数值映射后形成的词向量序列,难充分表达语言深层语义特征。就需引入文本特征增强技术:
8+
9+
- 语义信息补全:突破单词语义局限,捕获词序关联特征
10+
- 模型适配优化:构建符合算法输入规范的矩阵结构
11+
- 评估指标提升:通过特征增强直接影响模型准确率、召回率等核心KPI
12+
13+
如电商评论情感分析场景,单纯用词频特征可能导致"这个手机质量差得惊人"和"这个手机质量惊人地差"被判定为相同语义,此时bi-gram特征可有效捕捉关键短语差异。
14+
15+
## 2 n-gram特征增强实战
16+
17+
### 2.1 上下文特征捕获原理
18+
19+
n-gram模型通过滑动窗口机制,将连续出现的n个词汇单元作为组合特征。
20+
21+
#### 技术演进路径特点
22+
23+
- **bi-gram**(n=2):捕获短语级搭配特征,如"流量套餐" V.S"套餐推荐"
24+
- **tri-gram**(n=3):识别短句模式,如"送货速度快"的正面评价特征
25+
- **高阶组合**(n≥4):适用于专业领域术语识别,但需警惕维度爆炸
26+
27+
技术误区警示:客服对话场景中,过度追求5-gram特征可能导致特征空间膨胀100倍,显著增加模型训练成本,需结合TF-IDF进行特征筛选。
28+
29+
### 2.2 特征生成算法实现
30+
31+
```python
32+
def generate_ngram_features(token_ids, n=2):
33+
"""
34+
构建上下文特征增强引擎
35+
:param token_ids: 词汇ID序列,如 [142, 29, 87]
36+
:param n: 上下文窗口长度
37+
:return: n-gram特征集合
38+
"""
39+
return set(zip(*[token_ids[i:] for i in range(n)]))
40+
```
41+
42+
**实战应用示例**
43+
44+
```python
45+
comment_tokens = [15, 239, 76, 89] # 对应"快递 服务 非常 差"
46+
ngrams = generate_ngram_features(comment_tokens, n=2)
47+
print(ngrams)
48+
# 输出: {(15,239), (239,76), (76,89)} 捕获关键负面评价组合
49+
```
50+
51+
## 3 文本维度标准化工程
52+
53+
### 3.1 长度规范的技术必要性
54+
55+
深度学习场景下,文本张量须满足维度统一要求,主要原因包括:
56+
57+
1. **计算资源优化**:GPU并行计算需要统一矩阵维度
58+
2. **模型结构限制**:LSTM等网络需要预设时间步长
59+
3. **信息密度平衡**:避免长文本噪声干扰和短文本信息丢失
60+
61+
某电商平台数据分析显示,90%的用户评论集中在15-50个字符长度区间。因此设置cutlen=40可覆盖主要语料,同时进行智能截断处理。
62+
63+
### 3.2 动态截补策略实现
64+
65+
```python
66+
from keras.preprocessing.sequence import pad_sequences
67+
68+
def dynamic_padding(text_matrix, maxlen=40, padding='post', truncating='pre'):
69+
"""
70+
智能文本维度校准器
71+
:param text_matrix: 原始文本矩阵
72+
:param maxlen: 最大保留长度(根据数据分布设定)
73+
:param padding: 补零策略(post表示后补)
74+
:param truncating: 截断策略(pre表示前截)
75+
:return: 标准维度文本矩阵
76+
"""
77+
return pad_sequences(text_matrix, maxlen=maxlen,
78+
padding=padding, truncating=truncating)
79+
```
80+
81+
**策略选择建议**
82+
83+
- 商品标题处理:优先保留尾部关键词(post-truncating)
84+
- 新闻正文处理:保留开头导语(pre-truncating)
85+
- 对话场景处理:滑动窗口截取核心片段
86+
87+
## 4 工程落地建议
88+
89+
1. **特征维度控制**:当词汇表规模为20k时,bi-gram特征控制在50k以内
90+
2. **动态长度策略**:按不同业务线设置差异化的cutlen参数
91+
3. **混合特征工程**:将n-gram与字符级特征进行多维度融合
92+
4. **监控反馈机制**:建立特征重要性评估体系,持续迭代特征方案

0 commit comments

Comments
 (0)