← 返回博客首页

大模型基础认知笔记(数据/AI 工程方向)

2026-06-07 · 预计阅读 9 分钟 AI学习

大模型基础认知笔记(适配数据/AI工程方向)

定位:侧重工程落地、数据流转、运行机制、运维相关,弱化纯算法推导,聚焦工程岗必懂概念、术语、链路、常见问题。

一、核心概念与基础定义

1. 大语言模型(LLM)概述

  • 定义:基于Transformer架构训练的大规模预训练语言模型,依托海量文本数据学习语言规律、知识与逻辑,实现理解、生成、推理、问答等能力。
  • 核心特点:参数规模大(数十亿~万亿级)、依赖海量数据、上下文感知、生成式输出。
  • 主流分类
    1. 基座模型:未经过指令微调、对齐,能力偏向续写文本,不适合直接面向终端用户;多用于二次开发、微调底座。
    2. 对话模型:在基座模型基础上做指令微调、人类对齐,适配多轮对话、问答场景,可直接对外服务。

2. Token(工程核心术语)

  • 含义:模型处理文本的最小单位,英文多为单词/子词,中文多为单字/词组。
  • 作用:文本先被分词转成Token序列,模型只识别Token,输出也以Token形式解码为文字。
  • 工程关键指标
    • 上下文窗口(Context Window):模型单次能接收+处理的最大Token总数(输入+输出合计)。超出部分会被截断,是长文本处理、RAG设计的核心限制。
    • Token计费/算力成本:输入Token、输出Token分开统计,直接关联调用成本、带宽、推理耗时。
    • 分词器(Tokenizer):独立组件,负责文本↔Token互转;模型与分词器必须配套,混用会导致解析异常、效果暴跌。

3. 主流能力区分(工程/数据岗必辨)

能力类型 说明 工程落地场景
原生生成 模型预训练自带能力,知识、文案、简单问答 基础对话、文案生成
检索增强(RAG) 外接知识库补充外部实时/私有数据,弥补模型知识滞后 企业知识库、文档问答
工具调用(Function Call) 模型识别意图,调用外部接口/工具完成任务 数据查询、工单处理、外部系统联动
智能体(Agent) 结合规划、记忆、工具,自主完成复杂多步骤任务 自动化办公、流程机器人

二、大模型完整技术链路(数据/AI工程核心主线)

全链路:数据生产 → 预训练 → 微调对齐 → 部署推理 → 运维迭代

1. 数据层(数据工程核心)

大模型效果上限由数据决定,也是数据治理、数据流水线的主要工作域。

  1. 预训练数据
    • 来源:全网文本、书籍、文献、网页等通用语料。
    • 数据要求:体量巨大、覆盖领域广、低噪音;核心工作:数据采集、清洗、去重、脱敏、格式统一、质量校验
  2. 微调数据
    • 指令数据集:用于指令微调,格式多为 指令+输入+输出,让模型学会按人类指令执行任务。
    • 对话数据集:多轮问答语料,用于优化多轮对话逻辑。
    • 工程要点:数据集格式标准化、划分训练/验证/测试集、数据版本管理、标注规范落地。
  3. 对齐数据
    • 用于RLHF/DPO等对齐方案,优化模型价值观、拒绝有害内容、提升回答合规性。
    • 常见工作:人工标注偏好数据、正负样本区分。

2. 训练层(AI工程/算力运维重点)

(1)预训练
  • 目标:让模型学习通用语言、常识、知识。
  • 工程特征:算力消耗极大、训练周期长、多卡/多集群分布式训练
  • 运维关注点:GPU利用率、显存占用、集群通信、断点续训、任务调度。
(2)微调(Fine-tune)

分为全量微调和轻量化微调(工程主流)

  • 全量微调:更新模型所有参数,算力、数据成本高,企业极少使用。
  • 轻量化微调:LoRA、QLoRA、Prefix Tuning 等
    • 优势:仅训练少量参数、显存占用低、单卡即可运行、迭代快。
    • 落地场景:行业定制、私有场景适配,是工业界主流方案。
(3)对齐(Alignment)
  • 主流方案:RLHF(基于强化学习人类反馈)、DPO(直接偏好优化,工程实现更简单)。
  • 作用:约束模型输出,保证合规、安全、符合人类习惯。

3. 推理部署层(AI工程落地核心)

训练完成的模型转为在线服务,对外提供调用能力。

  1. 推理模式
    • 离线推理:批量处理数据(如批量文档摘要、数据清洗),多用于数据流水线。
    • 在线推理:实时接口调用(对话、问答),面向用户/业务系统,关注延迟、并发。
  2. 模型优化(工程必学)
    • 量化:INT8/INT4/GGUF 等,压缩模型体积、降低显存占用、提升推理速度,牺牲极小精度换工程可用性
    • 剪枝、蒸馏:进一步轻量化,适配低算力设备。
  3. 部署形态
    • 本地部署:单机GPU/CPU运行,适合内部测试、私有场景。
    • 容器部署:Docker 打包模型服务,标准化环境、方便迁移、集群调度。
    • API服务:基于FastAPI/Flask封装HTTP接口,供前后端、业务系统调用。
    • 云托管:使用云端模型服务平台,无需自建算力。

4. 运维与迭代层

  • 监控指标:接口响应延迟、QPS(每秒请求数)、错误率、GPU负载、显存、Token吞吐量。
  • 日志体系:请求日志、输入输出日志、异常日志,用于问题排查、数据回流。
  • 数据回流:线上真实用户对话/任务数据,筛选后回流至数据集,实现模型迭代优化(闭环流水线)。

三、关键工程模块详解(贴合数据/AI工程岗位)

1. 向量数据库(RAG 配套组件)

  • 定位:专门存储、检索向量数据的数据库,是大模型外接知识库的核心中间件。
  • 工作流程:文档 → 文本分块 → 向量化(Embedding模型)→ 存入向量库;用户提问 → 问题向量化 → 相似度召回 → 拼接上下文送入LLM。
  • 工程关注点:入库效率、检索速度、数据持久化、分片扩容、数据更新同步。
  • 常用组件:FAISS(轻量本地)、Chroma、Milvus、Qdrant。

2. 数据流水线(核心工作场景)

针对大模型的自动化数据链路,典型流程: 原始数据采集 → 清洗过滤 → 格式转换 → 标注/校验 → 版本归档 → 供给训练/微调

  • 配套工具:Airflow(任务调度)、DVC(数据版本管理)、LabelStudio(AI数据标注)。
  • 核心要求:自动化、可追溯、数据隔离、权限管控、异常告警。

3. 算力与集群基础

  1. 硬件基础
    • GPU:大模型训练/推理核心,关键参数:显存大小、算力(FP16/INT8算力)、卡间互联。
    • 显存瓶颈:大模型运行最常见问题,参数规模越大、上下文越长,显存占用越高。
  2. 分布式算力
    • 多卡训练/推理:单卡显存不足时,拆分模型/数据到多张GPU。
    • 集群调度:多服务器组成算力集群,统一分配任务、排队、资源隔离。
  3. 日常运维操作
    • 状态监控:显卡利用率、显存、进程、网络带宽。
    • 任务管理:启停训练/推理任务、优先级设置、故障重启。

4. 安全与合规(工程落地红线)

  • 数据脱敏:手机号、身份证、企业机密等隐私数据必须脱敏,禁止流入训练/线上数据。
  • 内容安全:模型输出风控、输入内容过滤,拦截违规请求与内容。
  • 权限管理:模型服务、数据集、算力集群分级权限,防止越权访问。

四、常见术语速查(面试/日常沟通专用)

  1. LLM:大语言模型
  2. Embedding:嵌入模型,将文本转为多维向量,用于检索、相似度计算
  3. LoRA/QLoRA:轻量化微调方案,工程主流
  4. RLHF/DPO:模型对齐方案
  5. QPS:每秒请求数,衡量服务并发能力
  6. Latency:推理延迟,用户感知的响应速度
  7. Batch Inference:批量推理,数据流水线常用
  8. KV Cache:推理缓存技术,大幅提升长对话、重复请求的速度,显存占用会上升
  9. 量化(Quantization):模型压缩优化手段
  10. Epoch:训练轮数,训练过程基础参数

五、数据/AI工程岗 重点关注点总结(笔记提炼)

  1. 数据侧:数据质量、格式规范、标注体系、数据版本、脱敏与治理、自动化流水线搭建。
  2. 训练侧:算力资源分配、分布式任务、显存/算力监控、断点续训、轻量化微调落地。
  3. 推理侧:模型量化优化、容器化部署、接口服务、并发与延迟、KV Cache调优。
  4. 中间件:向量库使用与运维、消息队列、缓存组件协同。
  5. 运维侧:全链路监控、日志、异常排查、安全合规、数据回流迭代。