大语言模型(LLM)

一、是什么？

一句话定义

大语言模型，英文是 Large Language Model，缩写 LLM，也常被叫做「大型语言模型」。它是一种专门用来理解和生成人类语言的人工智能模型，通常在海量文本数据上训练，拥有非常大的参数规模，因此能学习到复杂的语言模式，并执行总结、翻译、问答、写作、分类、代码辅助等大量任务。

二、工作原理: 它到底在干什么？

大语言模型之所以能和你对话、写文章、写代码，本质上是在根据你已经给出的文本，一个 Token 一个 Token 地预测「接下来最合理的内容」。

text

你输入: 「北京的天气今天」

LLM 内部会计算:
  「很」的概率较高
  「不错」的概率也可能较高

然后继续往后预测:
  「北京的天气今天很好，适合出门散步。」

它不是真的像人类那样先完整理解再表达，而是通过概率预测逐步生成。
但当这种预测能力足够强大时，它在表现上会涌现出类似理解、推理、创作的效果。

三、它是怎么学会的？

阶段	比喻	做什么
预训练	小学到大学，博览群书	读海量文本，学会语言规律
微调 / 对齐	入职培训	学会对话、安全规范、按人类偏好回答

很多研究者观察到，当模型规模和数据规模跨过某个临界点后，会出现明显的能力跃迁，也就是「涌现能力」。

四、它能做什么？

应用场景	具体例子
对话问答	ChatGPT、Claude、文心一言、通义千问
内容创作	写文章、写邮件、写广告文案、写代码
翻译	多语言互译
数据分析	阅读财报 / 论文并提取要点
编程辅助	写代码、Debug、代码解释
教育辅导	扮演家教，做个性化解释

五、它不能做什么？局限性是什么？

局限	解释	比喻
幻觉	会一本正经地胡说八道	考试不会写也要编答案
知识过时	不知道训练截止日期后的世界	老毕业生不知道新新闻
数学和精算不稳定	复杂计算与严格推导可能出错	文科状元做奥赛题
没有天然行动能力	默认不能上网、改文件、发邮件	被关在房间里的天才

六、通俗比喻

LLM 像一个读过很多书的实习生
LLM 像一个超强的「接话王」
LLM 更像照相机而不是眼睛

七、如何应用到业务场景？

你的身份	具体应用方式
市场 / 运营	批量生成社交媒体文案、产品描述
客服	搭建智能客服
HR	初筛简历、生成 JD
内容创作者	生成初稿、翻译、改写
法务	提取关键条款和风险点
教育者	生成教案、作业、考试题

八、你现在只需要记住什么

LLM 的底层本质是一个超强的语言预测系统
它看起来像在理解，是因为预测能力足够强
它擅长语言，不等于它天然会联网、会记忆、会行动
后面很多概念，本质上都是在给 LLM 补短板

九、推荐阅读

通俗理解 LLM: https://zhuanlan.zhihu.com/p/23878521592
菜鸟教程 LLM 基础: https://www.runoob.com/ai-agent/ai-agent-llm.html
Google 机器学习课程 LLM 模块: https://developers.google.com/machine-learning/crash-course/llm
Datawhale 从零开始 LLM 教程: https://github.com/datawhalechina/happy-llm

Advanced

Basics

IDE 类

写作类

Advanced

Basics

Advanced

Basics

大语言模型(LLM)

一、是什么？

一句话定义

二、工作原理: 它到底在干什么？

三、它是怎么学会的？

四、它能做什么？

五、它不能做什么？局限性是什么？

六、通俗比喻

七、如何应用到业务场景？

八、你现在只需要记住什么

九、推荐阅读

大语言模型(LLM) ​

一、是什么？ ​

一句话定义 ​

二、工作原理: 它到底在干什么？ ​

三、它是怎么学会的？ ​

四、它能做什么？ ​

五、它不能做什么？局限性是什么？ ​

六、通俗比喻 ​

七、如何应用到业务场景？ ​

八、你现在只需要记住什么 ​

九、推荐阅读 ​

大语言模型(LLM)

一、是什么？

一句话定义

二、工作原理: 它到底在干什么？

三、它是怎么学会的？

四、它能做什么？

五、它不能做什么？局限性是什么？

六、通俗比喻

七、如何应用到业务场景？

八、你现在只需要记住什么

九、推荐阅读