← 返回博客首页

大模型基础认知笔记（数据/AI 工程方向）

2026-06-07 · 预计阅读 9 分钟 AI学习

大模型基础认知笔记（适配数据/AI工程方向）

定位：侧重工程落地、数据流转、运行机制、运维相关，弱化纯算法推导，聚焦工程岗必懂概念、术语、链路、常见问题。

一、核心概念与基础定义

1. 大语言模型（LLM）概述

定义：基于Transformer架构训练的大规模预训练语言模型，依托海量文本数据学习语言规律、知识与逻辑，实现理解、生成、推理、问答等能力。
核心特点：参数规模大（数十亿~万亿级）、依赖海量数据、上下文感知、生成式输出。
主流分类
1. 基座模型：未经过指令微调、对齐，能力偏向续写文本，不适合直接面向终端用户；多用于二次开发、微调底座。
2. 对话模型：在基座模型基础上做指令微调、人类对齐，适配多轮对话、问答场景，可直接对外服务。

2. Token（工程核心术语）

含义：模型处理文本的最小单位，英文多为单词/子词，中文多为单字/词组。
作用：文本先被分词转成Token序列，模型只识别Token，输出也以Token形式解码为文字。
工程关键指标
- 上下文窗口（Context Window）：模型单次能接收+处理的最大Token总数（输入+输出合计）。超出部分会被截断，是长文本处理、RAG设计的核心限制。
- Token计费/算力成本：输入Token、输出Token分开统计，直接关联调用成本、带宽、推理耗时。
- 分词器（Tokenizer）：独立组件，负责文本↔Token互转；模型与分词器必须配套，混用会导致解析异常、效果暴跌。

3. 主流能力区分（工程/数据岗必辨）

能力类型	说明	工程落地场景
原生生成	模型预训练自带能力，知识、文案、简单问答	基础对话、文案生成
检索增强（RAG）	外接知识库补充外部实时/私有数据，弥补模型知识滞后	企业知识库、文档问答
工具调用（Function Call）	模型识别意图，调用外部接口/工具完成任务	数据查询、工单处理、外部系统联动
智能体（Agent）	结合规划、记忆、工具，自主完成复杂多步骤任务	自动化办公、流程机器人

二、大模型完整技术链路（数据/AI工程核心主线）

全链路：数据生产 → 预训练 → 微调对齐 → 部署推理 → 运维迭代

1. 数据层（数据工程核心）

大模型效果上限由数据决定，也是数据治理、数据流水线的主要工作域。

预训练数据
- 来源：全网文本、书籍、文献、网页等通用语料。
- 数据要求：体量巨大、覆盖领域广、低噪音；核心工作：数据采集、清洗、去重、脱敏、格式统一、质量校验。
微调数据
- 指令数据集：用于指令微调，格式多为 指令+输入+输出，让模型学会按人类指令执行任务。
- 对话数据集：多轮问答语料，用于优化多轮对话逻辑。
- 工程要点：数据集格式标准化、划分训练/验证/测试集、数据版本管理、标注规范落地。
对齐数据
- 用于RLHF/DPO等对齐方案，优化模型价值观、拒绝有害内容、提升回答合规性。
- 常见工作：人工标注偏好数据、正负样本区分。

2. 训练层（AI工程/算力运维重点）

（1）预训练

目标：让模型学习通用语言、常识、知识。
工程特征：算力消耗极大、训练周期长、多卡/多集群分布式训练。
运维关注点：GPU利用率、显存占用、集群通信、断点续训、任务调度。

（2）微调（Fine-tune）

分为全量微调和轻量化微调（工程主流）

全量微调：更新模型所有参数，算力、数据成本高，企业极少使用。
轻量化微调：LoRA、QLoRA、Prefix Tuning 等
- 优势：仅训练少量参数、显存占用低、单卡即可运行、迭代快。
- 落地场景：行业定制、私有场景适配，是工业界主流方案。

（3）对齐（Alignment）

主流方案：RLHF（基于强化学习人类反馈）、DPO（直接偏好优化，工程实现更简单）。
作用：约束模型输出，保证合规、安全、符合人类习惯。

3. 推理部署层（AI工程落地核心）

训练完成的模型转为在线服务，对外提供调用能力。

推理模式
- 离线推理：批量处理数据（如批量文档摘要、数据清洗），多用于数据流水线。
- 在线推理：实时接口调用（对话、问答），面向用户/业务系统，关注延迟、并发。
模型优化（工程必学）
- 量化：INT8/INT4/GGUF 等，压缩模型体积、降低显存占用、提升推理速度，牺牲极小精度换工程可用性。
- 剪枝、蒸馏：进一步轻量化，适配低算力设备。
部署形态
- 本地部署：单机GPU/CPU运行，适合内部测试、私有场景。
- 容器部署：Docker 打包模型服务，标准化环境、方便迁移、集群调度。
- API服务：基于FastAPI/Flask封装HTTP接口，供前后端、业务系统调用。
- 云托管：使用云端模型服务平台，无需自建算力。

4. 运维与迭代层

监控指标：接口响应延迟、QPS（每秒请求数）、错误率、GPU负载、显存、Token吞吐量。
日志体系：请求日志、输入输出日志、异常日志，用于问题排查、数据回流。
数据回流：线上真实用户对话/任务数据，筛选后回流至数据集，实现模型迭代优化（闭环流水线）。

三、关键工程模块详解（贴合数据/AI工程岗位）

1. 向量数据库（RAG 配套组件）

定位：专门存储、检索向量数据的数据库，是大模型外接知识库的核心中间件。
工作流程：文档 → 文本分块 → 向量化（Embedding模型）→ 存入向量库；用户提问 → 问题向量化 → 相似度召回 → 拼接上下文送入LLM。
工程关注点：入库效率、检索速度、数据持久化、分片扩容、数据更新同步。
常用组件：FAISS（轻量本地）、Chroma、Milvus、Qdrant。

2. 数据流水线（核心工作场景）

针对大模型的自动化数据链路，典型流程： 原始数据采集 → 清洗过滤 → 格式转换 → 标注/校验 → 版本归档 → 供给训练/微调

配套工具：Airflow（任务调度）、DVC（数据版本管理）、LabelStudio（AI数据标注）。
核心要求：自动化、可追溯、数据隔离、权限管控、异常告警。

3. 算力与集群基础

硬件基础
- GPU：大模型训练/推理核心，关键参数：显存大小、算力（FP16/INT8算力）、卡间互联。
- 显存瓶颈：大模型运行最常见问题，参数规模越大、上下文越长，显存占用越高。
分布式算力
- 多卡训练/推理：单卡显存不足时，拆分模型/数据到多张GPU。
- 集群调度：多服务器组成算力集群，统一分配任务、排队、资源隔离。
日常运维操作
- 状态监控：显卡利用率、显存、进程、网络带宽。
- 任务管理：启停训练/推理任务、优先级设置、故障重启。

4. 安全与合规（工程落地红线）

数据脱敏：手机号、身份证、企业机密等隐私数据必须脱敏，禁止流入训练/线上数据。
内容安全：模型输出风控、输入内容过滤，拦截违规请求与内容。
权限管理：模型服务、数据集、算力集群分级权限，防止越权访问。

四、常见术语速查（面试/日常沟通专用）

LLM：大语言模型
Embedding：嵌入模型，将文本转为多维向量，用于检索、相似度计算
LoRA/QLoRA：轻量化微调方案，工程主流
RLHF/DPO：模型对齐方案
QPS：每秒请求数，衡量服务并发能力
Latency：推理延迟，用户感知的响应速度
Batch Inference：批量推理，数据流水线常用
KV Cache：推理缓存技术，大幅提升长对话、重复请求的速度，显存占用会上升
量化(Quantization)：模型压缩优化手段
Epoch：训练轮数，训练过程基础参数

五、数据/AI工程岗重点关注点总结（笔记提炼）

数据侧：数据质量、格式规范、标注体系、数据版本、脱敏与治理、自动化流水线搭建。
训练侧：算力资源分配、分布式任务、显存/算力监控、断点续训、轻量化微调落地。
推理侧：模型量化优化、容器化部署、接口服务、并发与延迟、KV Cache调优。
中间件：向量库使用与运维、消息队列、缓存组件协同。
运维侧：全链路监控、日志、异常排查、安全合规、数据回流迭代。

← 返回博客首页