Skip to content

大语言模型(LLM)

一、是什么?

一句话定义

大语言模型,英文是 Large Language Model,缩写 LLM,也常被叫做「大型语言模型」。它是一种专门用来理解和生成人类语言的人工智能模型,通常在海量文本数据上训练,拥有非常大的参数规模,因此能学习到复杂的语言模式,并执行总结、翻译、问答、写作、分类、代码辅助等大量任务。

二、工作原理: 它到底在干什么?

大语言模型之所以能和你对话、写文章、写代码,本质上是在根据你已经给出的文本,一个 Token 一个 Token 地预测「接下来最合理的内容」。

text
你输入: 「北京的天气今天」

LLM 内部会计算:
  「很」的概率较高
  「不错」的概率也可能较高

然后继续往后预测:
  「北京的天气今天很好,适合出门散步。」

它不是真的像人类那样先完整理解再表达,而是通过概率预测逐步生成。
但当这种预测能力足够强大时,它在表现上会涌现出类似理解、推理、创作的效果。

三、它是怎么学会的?

阶段比喻做什么
预训练小学到大学,博览群书读海量文本,学会语言规律
微调 / 对齐入职培训学会对话、安全规范、按人类偏好回答

很多研究者观察到,当模型规模和数据规模跨过某个临界点后,会出现明显的能力跃迁,也就是「涌现能力」。

四、它能做什么?

应用场景具体例子
对话问答ChatGPT、Claude、文心一言、通义千问
内容创作写文章、写邮件、写广告文案、写代码
翻译多语言互译
数据分析阅读财报 / 论文并提取要点
编程辅助写代码、Debug、代码解释
教育辅导扮演家教,做个性化解释

五、它不能做什么?局限性是什么?

局限解释比喻
幻觉会一本正经地胡说八道考试不会写也要编答案
知识过时不知道训练截止日期后的世界老毕业生不知道新新闻
数学和精算不稳定复杂计算与严格推导可能出错文科状元做奥赛题
没有天然行动能力默认不能上网、改文件、发邮件被关在房间里的天才

六、通俗比喻

  • LLM 像一个读过很多书的实习生
  • LLM 像一个超强的「接话王」
  • LLM 更像照相机而不是眼睛

七、如何应用到业务场景?

你的身份具体应用方式
市场 / 运营批量生成社交媒体文案、产品描述
客服搭建智能客服
HR初筛简历、生成 JD
内容创作者生成初稿、翻译、改写
法务提取关键条款和风险点
教育者生成教案、作业、考试题

八、你现在只需要记住什么

  • LLM 的底层本质是一个超强的语言预测系统
  • 它看起来像在理解,是因为预测能力足够强
  • 它擅长语言,不等于它天然会联网、会记忆、会行动
  • 后面很多概念,本质上都是在给 LLM 补短板

九、推荐阅读

From Zero, To Next