Happy LLM task1

NLP 基础概念与核心术语学习笔记

1. 自然语言处理 (NLP) 概述

自然语言处理（Natural Language Processing, NLP）是人工智能领域中至关重要的研究方向，旨在探讨如何利用计算机程序模拟人类对语言的认知与使用。 NLP 定义： NLP 是一种让计算机理解、解释和生成人类语言的技术。其核心不仅在于识别处理语言的表层结构，更在于理解其背后的深层语义因素，包括语义、语境、情感，以及处理语言中的歧义性、抽象概念、隐喻和讽刺。 NLP 是一个高度交叉的学科体系，其理论基础主要融合了以下四个领域：

计算机科学： 提供底层算力支撑与算法实现架构。
人工智能： 提供机器学习与深度学习的建模范式。
语言学： 提供语法、语义及语用学的规则与逻辑约束。
心理学： 用于模拟人类在处理语言时的认知模拟与行为建模。

2. NLP 的发展历程与技术演进

NLP 技术的演进经历了从规则到统计，再到深度学习与大语言模型（LLM）的范式转移。核心逻辑经历了从“序列依序计算”到“并行计算及注意力机制”的本质变革。

2013 年：Word2Vec
主要贡献： 由 Tomas Mikolov 等提出，基于 NNLM 思想捕捉词与词间的上下文关系，生成稠密词嵌入。提供 CBOW （根据上下文预测目标词）和 Skip-gram （利用目标词预测上下文）两种架构。实践证明，Skip-gram 在大型语料库中表现更优。
2017 年：Transformer
主要贡献： Vaswani 等提出完全基于注意力机制（Attention）的架构。解决了 RNN/LSTM 序列依序计算导致的 GPU 并行计算瓶颈 ，以及难以捕捉长序列相关关系的缺陷（RNN 中距离越远，关系越难捕捉）。
2018 年：GPT-1 & BERT
主要贡献： GPT-1 坚持 Decoder-Only 路径；BERT 则利用双向 Transformer 编码器在理解任务上创下 SOTA。
2020 年：GPT-3
主要贡献： 模型参数规模跃升至 175B，通过超大规模数据预训练触发了“涌现能力”，确立了 LLM 的领先地位。

3. NLP 核心任务详解

根据处理深度的不同，NLP 任务可划分为从基础分词到复杂语义建模的多个层级。

中文分词 (CWS)

由于中文词间缺乏明显分隔符（如空格），分词是中文处理的首要任务。

示例： “雍和宫的荷花开的很好。”
正确路径： 雍和宫 | 的 | 荷花 | 开 | 的 | 很 | 好 | 。
错误分析： 若切分为“雍 | 和 | 宫的”，将导致特定地名实体被拆解，破坏后续语义分析。

子词切分 (Subword Segmentation)

介于字符和词之间，利用 BPE 或 WordPiece 等算法解决未登录词（OOV）问题。

示例： 对于 "unhappiness"：
BPE (Byte Pair Encoding)： 可能切分为 "un", "happi", "ness"。
WordPiece (BERT)： 会使用特殊的 ## 标记，切分为 "un", "##happiness"，以表示该子词为后缀。

词性标注 (POS Tagging)

识别词汇的语法属性（如名词、动词）。经典模型包括隐马尔可夫模型 (HMM)、条件随机场 (CRF) 及深度学习模型 (RNN/LSTM)。

文本分类 (Text Classification)

将文本映射到预定义的标签。例如，“NBA 季后赛将开始”被分类为“体育”。

实体识别 (NER) 与关系抽取 (Relation Extraction)

两项任务是构建 知识图谱 (Knowledge Graph) 的基石：

作用 1：实体类别化 (Entity Categorization) ：如识别出 "李雷", "人名", "北京市", "地名"。
作用 2：语义事实抽取 (Fact Extraction) ：抽取实体间的因果、亲属或地理关系（生成三元组 Triple），用于理解文本深层语义逻辑。

文本摘要、机器翻译与自动问答

摘要： 包含抽取式和生成式，旨在压缩信息。
翻译： 强调语义、风格和文化背景的对齐。
问答： 模拟人类根据知识库或语境给出准确答案。

4. 文本表示模型的演进

文本表示经历了从高维离散到低维稠密、从静态到动态的演变。

模型名称	核心思想	优点	局限性
N-gram	基于马尔可夫假设，预测当前词仅依赖前 N-1 个词。	实现简单，计算成本低。	数据稀疏，忽略长程依赖。
TF-IDF	评估词语对特定文件的重要程度。	反映词汇在语料库中的独特贡献。	无法捕捉语义及上下文。
VSM	将文档映射为特征项权重的向量。	奠定了信息检索的基础。	难以解决同义词及多义词。
Word2Vec	通过神经网络学习上下文关系。	生成语义关联的稠密向量。	静态表示：无法处理一词多义（Polysemy）。
Transformer	基于注意力机制的动态编码。	捕获双向复杂的动态语义。	计算资源需求大，硬件门槛高。

5. 大语言模型 (LLM) 的兴起与特性

相较于传统预训练模型 (PLM)，LLM 的本质区别在于其巨大的规模参数触发了显著的性能跃迁。

LLM 的四大涌现能力

涌现能力 (Emergent Ability)： 规模跨越阈值后，非线性地获得小模型不具备的复杂能力。
上下文学习 (In-Context Learning)： 无需参数更新，通过提示词中的示例即可习得新任务。
指令遵循 (Instruction Following)： 准确理解并执行自然语言给出的复杂指令。
逐步推理 (Step-by-Step Reasoning)： 借助 思维链 (CoT) 策略，解决多步骤逻辑推理任务。

主流大模型家族

GPT 系列： GPT-3 拥有 175B 参数，确立了 Few-shot （加入 3~5 个示例）作为解决零样本 (Zero-shot) 表现不足的主流方案。算力开销极大，需 1024 张 A100 显卡训练约 1 个月。
LLaMA 系列： LLaMA-3 采用 15T token 的海量预训练语料，并引入 分组查询注意力机制 (GQA) 优化性能。
GLM 家族： ChatGLM-6B 为中文开源大模型里程碑；ChatGLM2 实现了 32K 上下文扩展，并在架构上回归 LLaMA 风格。

6. 术语表 (Glossary)

术语 (Term)	简要解释 (Explanation)
NLP	自然语言处理，使计算机理解、生成及模拟人类语言认知的技术。
CWS	中文分词，将连续中文文本切分为有意义词汇序列的基础任务。
Subword Segmentation	子词切分，通过合并高频字符对解决未登录词问题的策略。
POS Tagging	词性标注，识别语法属性，常用模型包括 HMM、CRF 或 RNN。
NER	命名实体识别，识别文本中人名、地名、组织等特定实体的过程。
Relation Extraction	关系抽取，从文本中提取实体间的语义关联，用于知识图谱构建。
Text Classification	文本分类，根据预定义标签对文本内容进行自动归类。
Text Summarization	文本摘要，压缩长文本并提取核心信息的任务。
MT	机器翻译，实现不同自然语言之间的自动转换。
QA	自动问答，针对用户提问在文档或知识库中检索/生成答案。
VSM	向量空间模型，利用特征权重向量表示文档。
TF-IDF	词频-逆文档频率，衡量词汇在特定文档中的独特性与重要程度。
N-gram	统计语言模型，假设词的概率仅依赖于其前 N-1 个词。
Word2Vec	基于神经概率语言模型的词嵌入技术，生成语义稠密向量。
Transformer	基于全注意力机制的架构，解决了 RNN 并行计算与长程依赖问题。
PLM	预训练语言模型，在通用海量语料上预先训练的模型。
LLM	大语言模型，通常指参数规模极大且具备涌现能力的神经网络。
Emergent Ability	涌现能力，大模型规模剧增时表现出的能力突变现象。
SFT	有监督微调，通过拟合指令/回复对（Prompt/Response）使模型对齐人类指令。
RAG	检索增强生成，通过引入外部知识检索，缓解模型在医疗、金融等领域的“幻觉”问题。

Artificial Intelligence > LLM

Happy LLM task1

http://chenxindaaa.com/Artificial-Intelligence/LLM/llm1/

Author

chenxindaaa

Posted on

March 1, 2026

Licensed under

Terminology Next

Happy LLM task1

NLP 基础概念与核心术语学习笔记

1. 自然语言处理 (NLP) 概述

2. NLP 的发展历程与技术演进

3. NLP 核心任务详解

中文分词 (CWS)

子词切分 (Subword Segmentation)

词性标注 (POS Tagging)

文本分类 (Text Classification)

实体识别 (NER) 与 关系抽取 (Relation Extraction)

文本摘要、机器翻译与自动问答

4. 文本表示模型的演进

5. 大语言模型 (LLM) 的兴起与特性

LLM 的四大涌现能力

主流大模型家族

6. 术语表 (Glossary)

实体识别 (NER) 与关系抽取 (Relation Extraction)