大语言模型(Large Language Model, LLM)是一类基于深度学习、尤其是Transformer架构的自然语言处理模型

大语言模型(Large Language Model, LLM)是一类基于深度学习、尤其是Transformer架构的自然语言处理模型 大语言模型Large Language Model, LLM是一类基于深度学习、尤其是Transformer架构的自然语言处理模型通过在海量文本数据上进行自监督预训练如掩码语言建模或自回归预测获得对语言结构、语义、常识乃至部分推理能力的广泛建模。典型代表包括GPT系列OpenAI、LLaMA系列Meta、Qwen通义千问、ChatGLM智谱、ERNIE Bot百度等。LLM的核心能力包括文本生成、问答、翻译、摘要、代码编写、逻辑推理等其性能高度依赖于模型规模参数量、训练数据质量与多样性、指令微调Instruction Tuning及人类反馈强化学习RLHF等后训练技术。当前LLM仍面临幻觉hallucination、事实性不足、可解释性差、计算资源消耗大、多模态融合不充分等挑战。# 示例使用Hugging Face Transformers加载并推理一个开源LLM如Qwen2fromtransformersimportAutoTokenizer,AutoModelForCausalLMimporttorch model_nameQwen/Qwen2-0.5B-Instruct# 轻量级示例tokenizerAutoTokenizer.from_pretrained(model_name)modelAutoModelForCausalLM.from_pretrained(model_name,torch_dtypetorch.bfloat16,device_mapauto)messages[{role:user,content:请用一句话解释什么是大语言模型}]texttokenizer.apply_chat_template(messages,tokenizeFalse,add_generation_promptTrue)model_inputstokenizer([text],return_tensorspt).to(model.device)generated_idsmodel.generate(**model_inputs,max_new_tokens64,do_sampleTrue,temperature0.7)responsetokenizer.batch_decode(generated_ids)[0]print(response.split(|im_end|)[1].strip())# 提取模型回复大语言模型LLM的“预训练-微调”范式与传统NLP模型如早期的RNN/CNN-based分类器、SVM、甚至BERT早期用法所依赖的端到端监督学习存在三重本质区别体现在学习目标、数据依赖、泛化机制与知识获取方式上学习目标的根本差异✅预训练阶段LLM执行自监督任务如下一词预测、掩码词填充目标是建模语言的统计规律、语法结构、世界知识和隐式推理模式——不依赖人工标注标签仅需原始文本。❌传统监督学习直接优化特定下游任务的目标函数如分类交叉熵、序列标注F1必须依赖大量高质量、任务对齐的人工标注数据如情感极性标签、命名实体边界。知识获取与迁移的本质不同LLM通过预训练在万亿级token中内隐地编码多粒度知识词汇、句法、事实、常识、风格、逻辑链形成一个“通用认知基座”微调尤其是指令微调仅起对齐与激活作用引导模型将已有能力适配到新任务格式如“请总结以下段落”。传统模型如LSTMCRF做NER通常无通用表征能力其特征提取器完全为单一任务定制跨任务迁移需重新设计架构或从头训练泛化性弱、知识不可复用。数据效率与任务适应性的倒置LLM预训练耗资巨大但只需一次后续适配新任务如医疗问答、法律条款解析仅需少量标注样本Few-shot/LoRA微调甚至零样本Zero-shot即可启动。传统模型每个新任务都需从零开始收集、清洗、标注大量数据且模型性能高度依赖该任务数据规模与质量小样本下极易过拟合。 补充关键洞见BERT虽也采用“预训练微调”但它属于中小规模、任务导向型预训练模型MLM NSP而现代LLM如Qwen、Llama3的预训练已演进为超大规模、生成式、多阶段含后训练对齐的系统工程其涌现能力如思维链、工具调用无法由传统监督范式触发。# 对比示意同一任务情感分类的两种范式实现逻辑# 【传统监督学习】—— 需完整标注数据集端到端训练fromsklearn.svmimportSVCfromsklearn.feature_extraction.textimportTfidfVectorizer X_train[服务很好,价格太贵了]# 原始文本y_train[1,0]# 人工标注标签1正面0负面vectorizerTfidfVectorizer()X_vecvectorizer.fit_transform(X_train)clfSVC().fit(X_vec,y_train)# 模型仅知这组文本→这些标签# 【LLM范式】—— 预训练模型已懂情感概念微调仅教它按指定格式输出# 输入【输入】这家餐厅环境优雅但上菜慢。【输出】中性 → 模型通过上下文理解优雅≈正、慢≈负综合判断