大模型基础认知笔记(适配数据/AI工程方向)
定位:侧重工程落地、数据流转、运行机制、运维相关,弱化纯算法推导,聚焦工程岗必懂概念、术语、链路、常见问题。
一、核心概念与基础定义
1. 大语言模型(LLM)概述
- 定义:基于Transformer架构训练的大规模预训练语言模型,依托海量文本数据学习语言规律、知识与逻辑,实现理解、生成、推理、问答等能力。
- 核心特点:参数规模大(数十亿~万亿级)、依赖海量数据、上下文感知、生成式输出。
- 主流分类
- 基座模型:未经过指令微调、对齐,能力偏向续写文本,不适合直接面向终端用户;多用于二次开发、微调底座。
- 对话模型:在基座模型基础上做指令微调、人类对齐,适配多轮对话、问答场景,可直接对外服务。
2. Token(工程核心术语)
- 含义:模型处理文本的最小单位,英文多为单词/子词,中文多为单字/词组。
- 作用:文本先被分词转成Token序列,模型只识别Token,输出也以Token形式解码为文字。
- 工程关键指标
- 上下文窗口(Context Window):模型单次能接收+处理的最大Token总数(输入+输出合计)。超出部分会被截断,是长文本处理、RAG设计的核心限制。
- Token计费/算力成本:输入Token、输出Token分开统计,直接关联调用成本、带宽、推理耗时。
- 分词器(Tokenizer):独立组件,负责文本↔Token互转;模型与分词器必须配套,混用会导致解析异常、效果暴跌。
3. 主流能力区分(工程/数据岗必辨)
| 能力类型 | 说明 | 工程落地场景 |
|---|---|---|
| 原生生成 | 模型预训练自带能力,知识、文案、简单问答 | 基础对话、文案生成 |
| 检索增强(RAG) | 外接知识库补充外部实时/私有数据,弥补模型知识滞后 | 企业知识库、文档问答 |
| 工具调用(Function Call) | 模型识别意图,调用外部接口/工具完成任务 | 数据查询、工单处理、外部系统联动 |
| 智能体(Agent) | 结合规划、记忆、工具,自主完成复杂多步骤任务 | 自动化办公、流程机器人 |
二、大模型完整技术链路(数据/AI工程核心主线)
全链路:数据生产 → 预训练 → 微调对齐 → 部署推理 → 运维迭代
1. 数据层(数据工程核心)
大模型效果上限由数据决定,也是数据治理、数据流水线的主要工作域。
- 预训练数据
- 来源:全网文本、书籍、文献、网页等通用语料。
- 数据要求:体量巨大、覆盖领域广、低噪音;核心工作:数据采集、清洗、去重、脱敏、格式统一、质量校验。
- 微调数据
- 指令数据集:用于指令微调,格式多为
指令+输入+输出,让模型学会按人类指令执行任务。 - 对话数据集:多轮问答语料,用于优化多轮对话逻辑。
- 工程要点:数据集格式标准化、划分训练/验证/测试集、数据版本管理、标注规范落地。
- 指令数据集:用于指令微调,格式多为
- 对齐数据
- 用于RLHF/DPO等对齐方案,优化模型价值观、拒绝有害内容、提升回答合规性。
- 常见工作:人工标注偏好数据、正负样本区分。
2. 训练层(AI工程/算力运维重点)
(1)预训练
- 目标:让模型学习通用语言、常识、知识。
- 工程特征:算力消耗极大、训练周期长、多卡/多集群分布式训练。
- 运维关注点:GPU利用率、显存占用、集群通信、断点续训、任务调度。
(2)微调(Fine-tune)
分为全量微调和轻量化微调(工程主流)
- 全量微调:更新模型所有参数,算力、数据成本高,企业极少使用。
- 轻量化微调:LoRA、QLoRA、Prefix Tuning 等
- 优势:仅训练少量参数、显存占用低、单卡即可运行、迭代快。
- 落地场景:行业定制、私有场景适配,是工业界主流方案。
(3)对齐(Alignment)
- 主流方案:RLHF(基于强化学习人类反馈)、DPO(直接偏好优化,工程实现更简单)。
- 作用:约束模型输出,保证合规、安全、符合人类习惯。
3. 推理部署层(AI工程落地核心)
训练完成的模型转为在线服务,对外提供调用能力。
- 推理模式
- 离线推理:批量处理数据(如批量文档摘要、数据清洗),多用于数据流水线。
- 在线推理:实时接口调用(对话、问答),面向用户/业务系统,关注延迟、并发。
- 模型优化(工程必学)
- 量化:INT8/INT4/GGUF 等,压缩模型体积、降低显存占用、提升推理速度,牺牲极小精度换工程可用性。
- 剪枝、蒸馏:进一步轻量化,适配低算力设备。
- 部署形态
- 本地部署:单机GPU/CPU运行,适合内部测试、私有场景。
- 容器部署:Docker 打包模型服务,标准化环境、方便迁移、集群调度。
- API服务:基于FastAPI/Flask封装HTTP接口,供前后端、业务系统调用。
- 云托管:使用云端模型服务平台,无需自建算力。
4. 运维与迭代层
- 监控指标:接口响应延迟、QPS(每秒请求数)、错误率、GPU负载、显存、Token吞吐量。
- 日志体系:请求日志、输入输出日志、异常日志,用于问题排查、数据回流。
- 数据回流:线上真实用户对话/任务数据,筛选后回流至数据集,实现模型迭代优化(闭环流水线)。
三、关键工程模块详解(贴合数据/AI工程岗位)
1. 向量数据库(RAG 配套组件)
- 定位:专门存储、检索向量数据的数据库,是大模型外接知识库的核心中间件。
- 工作流程:文档 → 文本分块 → 向量化(Embedding模型)→ 存入向量库;用户提问 → 问题向量化 → 相似度召回 → 拼接上下文送入LLM。
- 工程关注点:入库效率、检索速度、数据持久化、分片扩容、数据更新同步。
- 常用组件:FAISS(轻量本地)、Chroma、Milvus、Qdrant。
2. 数据流水线(核心工作场景)
针对大模型的自动化数据链路,典型流程:
原始数据采集 → 清洗过滤 → 格式转换 → 标注/校验 → 版本归档 → 供给训练/微调
- 配套工具:Airflow(任务调度)、DVC(数据版本管理)、LabelStudio(AI数据标注)。
- 核心要求:自动化、可追溯、数据隔离、权限管控、异常告警。
3. 算力与集群基础
- 硬件基础
- GPU:大模型训练/推理核心,关键参数:显存大小、算力(FP16/INT8算力)、卡间互联。
- 显存瓶颈:大模型运行最常见问题,参数规模越大、上下文越长,显存占用越高。
- 分布式算力
- 多卡训练/推理:单卡显存不足时,拆分模型/数据到多张GPU。
- 集群调度:多服务器组成算力集群,统一分配任务、排队、资源隔离。
- 日常运维操作
- 状态监控:显卡利用率、显存、进程、网络带宽。
- 任务管理:启停训练/推理任务、优先级设置、故障重启。
4. 安全与合规(工程落地红线)
- 数据脱敏:手机号、身份证、企业机密等隐私数据必须脱敏,禁止流入训练/线上数据。
- 内容安全:模型输出风控、输入内容过滤,拦截违规请求与内容。
- 权限管理:模型服务、数据集、算力集群分级权限,防止越权访问。
四、常见术语速查(面试/日常沟通专用)
- LLM:大语言模型
- Embedding:嵌入模型,将文本转为多维向量,用于检索、相似度计算
- LoRA/QLoRA:轻量化微调方案,工程主流
- RLHF/DPO:模型对齐方案
- QPS:每秒请求数,衡量服务并发能力
- Latency:推理延迟,用户感知的响应速度
- Batch Inference:批量推理,数据流水线常用
- KV Cache:推理缓存技术,大幅提升长对话、重复请求的速度,显存占用会上升
- 量化(Quantization):模型压缩优化手段
- Epoch:训练轮数,训练过程基础参数
五、数据/AI工程岗 重点关注点总结(笔记提炼)
- 数据侧:数据质量、格式规范、标注体系、数据版本、脱敏与治理、自动化流水线搭建。
- 训练侧:算力资源分配、分布式任务、显存/算力监控、断点续训、轻量化微调落地。
- 推理侧:模型量化优化、容器化部署、接口服务、并发与延迟、KV Cache调优。
- 中间件:向量库使用与运维、消息队列、缓存组件协同。
- 运维侧:全链路监控、日志、异常排查、安全合规、数据回流迭代。