Happy LLM task1
NLP 基础概念与核心术语学习笔记
1. 自然语言处理 (NLP) 概述
自然语言处理(Natural Language Processing, NLP)是人工智能领域中至关重要的研究方向,旨在探讨如何利用计算机程序模拟人类对语言的认知与使用。 NLP 定义: NLP 是一种让计算机理解、解释和生成人类语言的技术。其核心不仅在于识别处理语言的表层结构,更在于理解其背后的深层语义因素,包括语义、语境、情感,以及处理语言中的歧义性、抽象概念、隐喻和讽刺。 NLP 是一个高度交叉的学科体系,其理论基础主要融合了以下四个领域:
- 计算机科学: 提供底层算力支撑与算法实现架构。
- 人工智能: 提供机器学习与深度学习的建模范式。
- 语言学: 提供语法、语义及语用学的规则与逻辑约束。
- 心理学: 用于模拟人类在处理语言时的认知模拟与行为建模。
2. NLP 的发展历程与技术演进
NLP 技术的演进经历了从规则到统计,再到深度学习与大语言模型(LLM)的范式转移。核心逻辑经历了从“序列依序计算”到“并行计算及注意力机制”的本质变革。
- 2013 年:Word2Vec
- 主要贡献: 由 Tomas Mikolov 等提出,基于 NNLM 思想捕捉词与词间的上下文关系,生成稠密词嵌入。提供 CBOW (根据上下文预测目标词)和 Skip-gram (利用目标词预测上下文)两种架构。实践证明,Skip-gram 在大型语料库中表现更优。
- 2017 年:Transformer
- 主要贡献: Vaswani 等提出完全基于注意力机制(Attention)的架构。解决了 RNN/LSTM 序列依序计算导致的 GPU 并行计算瓶颈 ,以及难以捕捉长序列相关关系的缺陷(RNN 中距离越远,关系越难捕捉)。
- 2018 年:GPT-1 & BERT
- 主要贡献: GPT-1 坚持 Decoder-Only 路径;BERT 则利用双向 Transformer 编码器在理解任务上创下 SOTA。
- 2020 年:GPT-3
- 主要贡献: 模型参数规模跃升至 175B,通过超大规模数据预训练触发了“涌现能力”,确立了 LLM 的领先地位。
3. NLP 核心任务详解
根据处理深度的不同,NLP 任务可划分为从基础分词到复杂语义建模的多个层级。
中文分词 (CWS)
由于中文词间缺乏明显分隔符(如空格),分词是中文处理的首要任务。
- 示例: “雍和宫的荷花开的很好。”
- 正确路径: 雍和宫 | 的 | 荷花 | 开 | 的 | 很 | 好 | 。
- 错误分析: 若切分为“雍 | 和 | 宫的”,将导致特定地名实体被拆解,破坏后续语义分析。
子词切分 (Subword Segmentation)
介于字符和词之间,利用 BPE 或 WordPiece 等算法解决未登录词(OOV)问题。
- 示例: 对于 "unhappiness":
- BPE (Byte Pair Encoding): 可能切分为 "un", "happi", "ness"。
- WordPiece (BERT): 会使用特殊的 ## 标记,切分为 "un", "##happiness",以表示该子词为后缀。
词性标注 (POS Tagging)
识别词汇的语法属性(如名词、动词)。经典模型包括隐马尔可夫模型 (HMM)、条件随机场 (CRF) 及深度学习模型 (RNN/LSTM)。
文本分类 (Text Classification)
将文本映射到预定义的标签。例如,“NBA 季后赛将开始”被分类为“体育”。
实体识别 (NER) 与 关系抽取 (Relation Extraction)
两项任务是构建 知识图谱 (Knowledge Graph) 的基石:
- 作用 1:实体类别化 (Entity Categorization) :如识别出 "李雷", "人名", "北京市", "地名"。
- 作用 2:语义事实抽取 (Fact Extraction) :抽取实体间的因果、亲属或地理关系(生成三元组 Triple),用于理解文本深层语义逻辑。
文本摘要、机器翻译与自动问答
- 摘要: 包含抽取式和生成式,旨在压缩信息。
- 翻译: 强调语义、风格和文化背景的对齐。
- 问答: 模拟人类根据知识库或语境给出准确答案。
4. 文本表示模型的演进
文本表示经历了从高维离散到低维稠密、从静态到动态的演变。
| 模型名称 | 核心思想 | 优点 | 局限性 |
|---|---|---|---|
| N-gram | 基于马尔可夫假设,预测当前词仅依赖前 N-1 个词。 | 实现简单,计算成本低。 | 数据稀疏,忽略长程依赖。 |
| TF-IDF | 评估词语对特定文件的重要程度。 | 反映词汇在语料库中的独特贡献。 | 无法捕捉语义及上下文。 |
| VSM | 将文档映射为特征项权重的向量。 | 奠定了信息检索的基础。 | 难以解决同义词及多义词。 |
| Word2Vec | 通过神经网络学习上下文关系。 | 生成语义关联的稠密向量。 | 静态表示 :无法处理一词多义(Polysemy)。 |
| Transformer | 基于注意力机制的动态编码。 | 捕获双向复杂的动态语义。 | 计算资源需求大,硬件门槛高。 |
5. 大语言模型 (LLM) 的兴起与特性
相较于传统预训练模型 (PLM),LLM 的本质区别在于其巨大的规模参数触发了显著的性能跃迁。
LLM 的四大涌现能力
- 涌现能力 (Emergent Ability): 规模跨越阈值后,非线性地获得小模型不具备的复杂能力。
- 上下文学习 (In-Context Learning): 无需参数更新,通过提示词中的示例即可习得新任务。
- 指令遵循 (Instruction Following): 准确理解并执行自然语言给出的复杂指令。
- 逐步推理 (Step-by-Step Reasoning): 借助 思维链 (CoT) 策略,解决多步骤逻辑推理任务。
主流大模型家族
- GPT 系列: GPT-3 拥有 175B 参数,确立了 Few-shot (加入 3~5 个示例)作为解决零样本 (Zero-shot) 表现不足的主流方案。算力开销极大,需 1024 张 A100 显卡训练约 1 个月。
- LLaMA 系列: LLaMA-3 采用 15T token 的海量预训练语料,并引入 分组查询注意力机制 (GQA) 优化性能。
- GLM 家族: ChatGLM-6B 为中文开源大模型里程碑;ChatGLM2 实现了 32K 上下文扩展,并在架构上回归 LLaMA 风格。
6. 术语表 (Glossary)
| 术语 (Term) | 简要解释 (Explanation) |
|---|---|
| NLP | 自然语言处理,使计算机理解、生成及模拟人类语言认知的技术。 |
| CWS | 中文分词,将连续中文文本切分为有意义词汇序列的基础任务。 |
| Subword Segmentation | 子词切分,通过合并高频字符对解决未登录词问题的策略。 |
| POS Tagging | 词性标注,识别语法属性,常用模型包括 HMM、CRF 或 RNN。 |
| NER | 命名实体识别,识别文本中人名、地名、组织等特定实体的过程。 |
| Relation Extraction | 关系抽取,从文本中提取实体间的语义关联,用于知识图谱构建。 |
| Text Classification | 文本分类,根据预定义标签对文本内容进行自动归类。 |
| Text Summarization | 文本摘要,压缩长文本并提取核心信息的任务。 |
| MT | 机器翻译,实现不同自然语言之间的自动转换。 |
| QA | 自动问答,针对用户提问在文档或知识库中检索/生成答案。 |
| VSM | 向量空间模型,利用特征权重向量表示文档。 |
| TF-IDF | 词频-逆文档频率,衡量词汇在特定文档中的独特性与重要程度。 |
| N-gram | 统计语言模型,假设词的概率仅依赖于其前 N-1 个词。 |
| Word2Vec | 基于神经概率语言模型的词嵌入技术,生成语义稠密向量。 |
| Transformer | 基于全注意力机制的架构,解决了 RNN 并行计算与长程依赖问题。 |
| PLM | 预训练语言模型,在通用海量语料上预先训练的模型。 |
| LLM | 大语言模型,通常指参数规模极大且具备涌现能力的神经网络。 |
| Emergent Ability | 涌现能力,大模型规模剧增时表现出的能力突变现象。 |
| SFT | 有监督微调,通过拟合指令/回复对(Prompt/Response)使模型对齐人类指令。 |
| RAG | 检索增强生成,通过引入外部知识检索,缓解模型在医疗、金融等领域的“幻觉”问题。 |
Happy LLM task1
http://chenxindaaa.com/Artificial-Intelligence/LLM/llm1/