Happy LLM task1

NLP 基础概念与核心术语学习笔记

1. 自然语言处理 (NLP) 概述

自然语言处理(Natural Language Processing, NLP)是人工智能领域中至关重要的研究方向,旨在探讨如何利用计算机程序模拟人类对语言的认知与使用。 NLP 定义: NLP 是一种让计算机理解、解释和生成人类语言的技术。其核心不仅在于识别处理语言的表层结构,更在于理解其背后的深层语义因素,包括语义、语境、情感,以及处理语言中的歧义性、抽象概念、隐喻和讽刺。 NLP 是一个高度交叉的学科体系,其理论基础主要融合了以下四个领域:

  • 计算机科学: 提供底层算力支撑与算法实现架构。
  • 人工智能: 提供机器学习与深度学习的建模范式。
  • 语言学: 提供语法、语义及语用学的规则与逻辑约束。
  • 心理学: 用于模拟人类在处理语言时的认知模拟与行为建模。

2. NLP 的发展历程与技术演进

NLP 技术的演进经历了从规则到统计,再到深度学习与大语言模型(LLM)的范式转移。核心逻辑经历了从“序列依序计算”到“并行计算及注意力机制”的本质变革。

  • 2013 年:Word2Vec
  • 主要贡献: 由 Tomas Mikolov 等提出,基于 NNLM 思想捕捉词与词间的上下文关系,生成稠密词嵌入。提供 CBOW (根据上下文预测目标词)和 Skip-gram (利用目标词预测上下文)两种架构。实践证明,Skip-gram 在大型语料库中表现更优。
  • 2017 年:Transformer
  • 主要贡献: Vaswani 等提出完全基于注意力机制(Attention)的架构。解决了 RNN/LSTM 序列依序计算导致的 GPU 并行计算瓶颈 ,以及难以捕捉长序列相关关系的缺陷(RNN 中距离越远,关系越难捕捉)。
  • 2018 年:GPT-1 & BERT
  • 主要贡献: GPT-1 坚持 Decoder-Only 路径;BERT 则利用双向 Transformer 编码器在理解任务上创下 SOTA。
  • 2020 年:GPT-3
  • 主要贡献: 模型参数规模跃升至 175B,通过超大规模数据预训练触发了“涌现能力”,确立了 LLM 的领先地位。

3. NLP 核心任务详解

根据处理深度的不同,NLP 任务可划分为从基础分词到复杂语义建模的多个层级。

中文分词 (CWS)

由于中文词间缺乏明显分隔符(如空格),分词是中文处理的首要任务。

  • 示例: “雍和宫的荷花开的很好。”
  • 正确路径: 雍和宫 | 的 | 荷花 | 开 | 的 | 很 | 好 | 。
  • 错误分析: 若切分为“雍 | 和 | 宫的”,将导致特定地名实体被拆解,破坏后续语义分析。
子词切分 (Subword Segmentation)

介于字符和词之间,利用 BPE 或 WordPiece 等算法解决未登录词(OOV)问题。

  • 示例: 对于 "unhappiness":
  • BPE (Byte Pair Encoding): 可能切分为 "un", "happi", "ness"。
  • WordPiece (BERT): 会使用特殊的 ## 标记,切分为 "un", "##happiness",以表示该子词为后缀。
词性标注 (POS Tagging)

识别词汇的语法属性(如名词、动词)。经典模型包括隐马尔可夫模型 (HMM)、条件随机场 (CRF) 及深度学习模型 (RNN/LSTM)。

文本分类 (Text Classification)

将文本映射到预定义的标签。例如,“NBA 季后赛将开始”被分类为“体育”。

实体识别 (NER) 与 关系抽取 (Relation Extraction)

两项任务是构建 知识图谱 (Knowledge Graph) 的基石:

  • 作用 1:实体类别化 (Entity Categorization) :如识别出 "李雷", "人名", "北京市", "地名"。
  • 作用 2:语义事实抽取 (Fact Extraction) :抽取实体间的因果、亲属或地理关系(生成三元组 Triple),用于理解文本深层语义逻辑。
文本摘要、机器翻译与自动问答
  • 摘要: 包含抽取式和生成式,旨在压缩信息。
  • 翻译: 强调语义、风格和文化背景的对齐。
  • 问答: 模拟人类根据知识库或语境给出准确答案。

4. 文本表示模型的演进

文本表示经历了从高维离散到低维稠密、从静态到动态的演变。

模型名称 核心思想 优点 局限性
N-gram 基于马尔可夫假设,预测当前词仅依赖前 N-1 个词。 实现简单,计算成本低。 数据稀疏,忽略长程依赖。
TF-IDF 评估词语对特定文件的重要程度。 反映词汇在语料库中的独特贡献。 无法捕捉语义及上下文。
VSM 将文档映射为特征项权重的向量。 奠定了信息检索的基础。 难以解决同义词及多义词。
Word2Vec 通过神经网络学习上下文关系。 生成语义关联的稠密向量。 静态表示 :无法处理一词多义(Polysemy)。
Transformer 基于注意力机制的动态编码。 捕获双向复杂的动态语义。 计算资源需求大,硬件门槛高。

5. 大语言模型 (LLM) 的兴起与特性

相较于传统预训练模型 (PLM),LLM 的本质区别在于其巨大的规模参数触发了显著的性能跃迁。

LLM 的四大涌现能力
  • 涌现能力 (Emergent Ability): 规模跨越阈值后,非线性地获得小模型不具备的复杂能力。
  • 上下文学习 (In-Context Learning): 无需参数更新,通过提示词中的示例即可习得新任务。
  • 指令遵循 (Instruction Following): 准确理解并执行自然语言给出的复杂指令。
  • 逐步推理 (Step-by-Step Reasoning): 借助 思维链 (CoT) 策略,解决多步骤逻辑推理任务。
主流大模型家族
  • GPT 系列: GPT-3 拥有 175B 参数,确立了 Few-shot (加入 3~5 个示例)作为解决零样本 (Zero-shot) 表现不足的主流方案。算力开销极大,需 1024 张 A100 显卡训练约 1 个月。
  • LLaMA 系列: LLaMA-3 采用 15T token 的海量预训练语料,并引入 分组查询注意力机制 (GQA) 优化性能。
  • GLM 家族: ChatGLM-6B 为中文开源大模型里程碑;ChatGLM2 实现了 32K 上下文扩展,并在架构上回归 LLaMA 风格。

6. 术语表 (Glossary)

术语 (Term) 简要解释 (Explanation)
NLP 自然语言处理,使计算机理解、生成及模拟人类语言认知的技术。
CWS 中文分词,将连续中文文本切分为有意义词汇序列的基础任务。
Subword Segmentation 子词切分,通过合并高频字符对解决未登录词问题的策略。
POS Tagging 词性标注,识别语法属性,常用模型包括 HMM、CRF 或 RNN。
NER 命名实体识别,识别文本中人名、地名、组织等特定实体的过程。
Relation Extraction 关系抽取,从文本中提取实体间的语义关联,用于知识图谱构建。
Text Classification 文本分类,根据预定义标签对文本内容进行自动归类。
Text Summarization 文本摘要,压缩长文本并提取核心信息的任务。
MT 机器翻译,实现不同自然语言之间的自动转换。
QA 自动问答,针对用户提问在文档或知识库中检索/生成答案。
VSM 向量空间模型,利用特征权重向量表示文档。
TF-IDF 词频-逆文档频率,衡量词汇在特定文档中的独特性与重要程度。
N-gram 统计语言模型,假设词的概率仅依赖于其前 N-1 个词。
Word2Vec 基于神经概率语言模型的词嵌入技术,生成语义稠密向量。
Transformer 基于全注意力机制的架构,解决了 RNN 并行计算与长程依赖问题。
PLM 预训练语言模型,在通用海量语料上预先训练的模型。
LLM 大语言模型,通常指参数规模极大且具备涌现能力的神经网络。
Emergent Ability 涌现能力,大模型规模剧增时表现出的能力突变现象。
SFT 有监督微调,通过拟合指令/回复对(Prompt/Response)使模型对齐人类指令。
RAG 检索增强生成,通过引入外部知识检索,缓解模型在医疗、金融等领域的“幻觉”问题。

Happy LLM task1
http://chenxindaaa.com/Artificial-Intelligence/LLM/llm1/
Author
chenxindaaa
Posted on
March 1, 2026
Licensed under