大语言模型(LLM)
一、是什么?
一句话定义
大语言模型,英文是 Large Language Model,缩写 LLM,也常被叫做「大型语言模型」。它是一种专门用来理解和生成人类语言的人工智能模型,通常在海量文本数据上训练,拥有非常大的参数规模,因此能学习到复杂的语言模式,并执行总结、翻译、问答、写作、分类、代码辅助等大量任务。
二、工作原理: 它到底在干什么?
大语言模型之所以能和你对话、写文章、写代码,本质上是在根据你已经给出的文本,一个 Token 一个 Token 地预测「接下来最合理的内容」。
text
你输入: 「北京的天气今天」
LLM 内部会计算:
「很」的概率较高
「不错」的概率也可能较高
然后继续往后预测:
「北京的天气今天很好,适合出门散步。」它不是真的像人类那样先完整理解再表达,而是通过概率预测逐步生成。
但当这种预测能力足够强大时,它在表现上会涌现出类似理解、推理、创作的效果。
三、它是怎么学会的?
| 阶段 | 比喻 | 做什么 |
|---|---|---|
| 预训练 | 小学到大学,博览群书 | 读海量文本,学会语言规律 |
| 微调 / 对齐 | 入职培训 | 学会对话、安全规范、按人类偏好回答 |
很多研究者观察到,当模型规模和数据规模跨过某个临界点后,会出现明显的能力跃迁,也就是「涌现能力」。
四、它能做什么?
| 应用场景 | 具体例子 |
|---|---|
| 对话问答 | ChatGPT、Claude、文心一言、通义千问 |
| 内容创作 | 写文章、写邮件、写广告文案、写代码 |
| 翻译 | 多语言互译 |
| 数据分析 | 阅读财报 / 论文并提取要点 |
| 编程辅助 | 写代码、Debug、代码解释 |
| 教育辅导 | 扮演家教,做个性化解释 |
五、它不能做什么?局限性是什么?
| 局限 | 解释 | 比喻 |
|---|---|---|
| 幻觉 | 会一本正经地胡说八道 | 考试不会写也要编答案 |
| 知识过时 | 不知道训练截止日期后的世界 | 老毕业生不知道新新闻 |
| 数学和精算不稳定 | 复杂计算与严格推导可能出错 | 文科状元做奥赛题 |
| 没有天然行动能力 | 默认不能上网、改文件、发邮件 | 被关在房间里的天才 |
六、通俗比喻
LLM像一个读过很多书的实习生LLM像一个超强的「接话王」LLM更像照相机而不是眼睛
七、如何应用到业务场景?
| 你的身份 | 具体应用方式 |
|---|---|
| 市场 / 运营 | 批量生成社交媒体文案、产品描述 |
| 客服 | 搭建智能客服 |
| HR | 初筛简历、生成 JD |
| 内容创作者 | 生成初稿、翻译、改写 |
| 法务 | 提取关键条款和风险点 |
| 教育者 | 生成教案、作业、考试题 |
八、你现在只需要记住什么
LLM的底层本质是一个超强的语言预测系统- 它看起来像在理解,是因为预测能力足够强
- 它擅长语言,不等于它天然会联网、会记忆、会行动
- 后面很多概念,本质上都是在给
LLM补短板
九、推荐阅读
- 通俗理解 LLM: https://zhuanlan.zhihu.com/p/23878521592
- 菜鸟教程 LLM 基础: https://www.runoob.com/ai-agent/ai-agent-llm.html
- Google 机器学习课程 LLM 模块: https://developers.google.com/machine-learning/crash-course/llm
- Datawhale 从零开始 LLM 教程: https://github.com/datawhalechina/happy-llm