大模型应用开发中的分类及常见大模型介绍

大模型应用开发中的分类及常见大模型介绍 本文详细介绍了大模型的分类包括语言大模型、视觉大模型和多模态大模型并阐述了通用大模型、行业大模型和垂直大模型的不同层级。文章还深入探讨了模型的泛化与微调介绍了常见的微调方法如Fine-tuning、Feature augmentation和Transfer learning。此外本文列举了常见的闭源大模型如GPT、Claude、PaLM系列和开源大模型如LLaMA、GLM系列并对它们的特点和应用进行了分析。最后文章还提供了一套完整的大模型学习路线图和商业化落地方案帮助读者更好地掌握大模型技术。目录一、大模型的分类二、大模型的泛化与微调三、常见大模型闭源大模型开源大模型一、大模型的分类按照输入数据类型的不同大模型主要可以分为以下三大类· 语言大模型NLP是指在自然语言处理Natural Language ProcessingNLP领域中的一类大模型通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练以学习自然语言的各种语法、语义和语境规则。例如GPT系列OpenAI、BardGoogle、文心一言百度。· 视觉大模型CV是指在计算机视觉Computer VisionCV领域中使用的大模型通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练可以实现各种视觉任务如图像分类、目标检测、图像分割、姿态估计、人脸识别等。例如VIT系列Google、文心UFO、华为盘古CV、INTERN商汤。· 多模态大模型是指能够处理多种不同类型数据的大模型例如文本、图像、音频等多模态数据。这类模型结合了NLP和CV的能力以实现对多模态信息的综合理解和分析从而能够更全面地理解和处理复杂的数据。例如DingoDB多模向量数据库九章云极DataCanvas、DALL-E(OpenAI)、悟空画画华为、midjourney。按照应用领域的不同大模型主要可以分为L0、L1、L2三个层级· 通用大模型L0是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法在大规模无标注数据上进行训练以寻找特征并发现规律进而形成可“举一反三”的强大泛化能力可在不进行微调或少量微调的情况下完成多场景任务相当于AI完成了“通识教育”。· 行业大模型L1是指那些针对特定行业或领域的大模型。它们通常使用行业相关的数据进行预训练或微调以提高在该领域的性能和准确度相当于AI成为“行业专家”。· 垂直大模型L2是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调以提高在该任务上的性能和效果。二、大模型的泛化与微调模型的泛化能力是指一个模型在面对新的、未见过的数据时能够正确理解和预测这些数据的能力。在机器学习和人工智能领域模型的泛化能力是评估模型性能的重要指标之一。什么是模型微调给定预训练模型Pre-trained model基于模型进行微调Fine Tune。相对于从头开始训练(Training a model from scatch)微调可以省去大量计算资源和计算时间提高计算效率,甚至提高准确率。模型微调的基本思想是使用少量带标签的数据对预训练模型进行再次训练以适应特定任务。在这个过程中模型的参数会根据新的数据分布进行调整。这种方法的好处在于它利用了预训练模型的强大能力同时还能够适应新的数据分布。因此模型微调能够提高模型的泛化能力减少过拟合现象。常见的模型微调方法· Fine-tuning这是最常用的微调方法。通过在预训练模型的最后一层添加一个新的分类层然后根据新的数据集进行微调。· Feature augmentation这种方法通过向数据中添加一些人工特征来增强模型的性能。这些特征可以是手工设计的也可以是通过自动特征生成技术生成的。· Transfer learning这种方法是使用在一个任务上训练过的模型作为新任务的起点然后对模型的参数进行微调以适应新的任务。大模型是未来人工智能发展的重要方向和核心技术未来随着AI技术的不断进步和应用场景的不断拓展大模型将在更多领域展现其巨大的潜力为人类万花筒般的AI未来拓展无限可能性。三、常见大模型闭源大模型1.GPT系列OpenAI 公司在 2018 年提出的 GPTGenerative Pre-Training模型是典型的 生成式预训练语言模型 之一。GPT 模型的基本原则是通过语言建模将世界知识压缩到仅解码器的 Transformer 模型中这样它就可以恢复(或记忆)世界知识的语义并充当通用任务求解器。它能够成功的两个关键点训练能够准确预测下一个单词的仅解码器的 Transformer 语言模型扩展语言模型的大小。2.Claude系列Claude 系列模型是由 OpenAI 离职人员创建的 Anthropic 公司开发的闭源语言大模型可以完成摘要总结、搜索、协助创作、问答、编码等任务。目前包含 Claude 和 Claude-Instant 两种模型可供选择其中 Claude Instant 的延迟更低性能略差价格比完全体的 Claude-v1 要便宜两个模型的上下文窗口都是 9000 个token约 5000 个单词或 15 页它的目标是“更安全”、“危害更小”的人工智能。最早的 Claude 于 2023 年 3 月 15 日发布并在 2023 年 7 月 11 日更新至 Claude-2。Claude 2 的训练参数官方并未公开但是相关的猜测大概是 860.1 亿个参数。该系列模型通过无监督预训练、基于人类反馈的强化学习和 Constitutional AI 技术包含监督训练和强化学习进行训练旨在改进模型的有用性、诚实性和无害性。值得一提的是Claude 最高支持 100K 词元的上下文而 Claude-2 更是拓展到了 200K 词元的上下文。相比于Claude 1.3 Claude 2 拥有更强的综合能力同时能够生成更长的相应。3.PaLM系列PaLM 系列语言大模型由 Google 开发。其初始版本于 2022 年 4 月发布并在 2023 年 3 月公开了 API。PaLM 基于 Google 提出的 Pathways 机器学习系统搭建训练数据总量达 780B 个字符内容涵盖网页、书籍、新闻、开源代码等多种形式的语料。前 PaLM 共有 8B、62B、540B 三个不同参数量的模型版本。Google 还开发了多种 PaLM 的改进版本。Med-PaLM 是 PaLM 540B 在医疗数据上进行了微调后的版本在 MedQA 等医疗问答数据集上取得了最好成绩。PaLM-E 是 PaLM 的多模态版本能够在现实场景中控制机器人完成简单任务。2023 年 5 月Google 发布了 PaLM 2但并未公开其技术细节。Google 内部文件显示其参数量为 340B训练数据为 PaLM 的 5 倍左右。它是 PaLM(540B) 的升级版能够处理“多语言任务”。它使用了一个覆盖 100 多种语言的语料库进行训练。而 PaLM2 实际上是一系列模型可以根据规模分为Gecko、Otter、Bison和Unicorn可以根据不同的领域和需求进行微调最小模型可以部署在移动端最大的参数量也只有 14.7B。现已部署在 Google 的 25 个产品和功能中包括 Bard 和 Google Worksapce 应用针对不同的领域又可以变成专有模型比如 Med-PaLM 2是第一个在美国医疗执照考试类问题上表现出“专家”水平的大型语言模型。4.国产闭源大模型1.文心一言文心一言是基于百度文心大模型的知识增强语言大模型文心大模型参数量非常大达到了 2600 亿研发公司百度时间2023 年 3 月测试版 2019 年发布 1.0 版现已更新到 4.0 版本参数 2600 亿本质基于飞桨深度学习框架进行训练使用地址https://yiyan.baidu.com/2.星火大模型星火大模型包含超过1700 亿个参数来源于数十亿的语言数据集。研发公司科大讯飞时间2023 年 5 月 6 日 发布8 月 15 日 升级到 V2.0 版 2023 年 10 月 24 日 V3.0 全面对标ChatGPT特点多模态能力已实现图像描述、图像理解、图像推理、识图创作、文图生成、虚拟人合成参数1700 亿参数说明尽管比 ChatGPT 3.5 模型 1.5 万亿个差着数量级但 ChatGPT 覆盖了全球主要语言汉语不到其中 10% 的数据量。所以在现有数据基础上星火大模型比 ChatGPT 更懂中文。使用地址 https://xinghuo.xfyun.cn/开源大模型1.LLaMA 系列LLaMA 系列模型是 Meta 开源的一组参数规模 从 7B 到 70B 的基础语言模型它们都是在数万亿个字符上训练的展示了如何仅使用公开可用的数据集来训练最先进的模型而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、Wikipedia、OpenWebText2、RealNews、Books 等。LLaMA 模型使用了大规模的数据过滤和清洗技术以提高数据质量和多样性减少噪声和偏见。LLaMA 模型还使用了高效的数据并行和流水线并行技术以加速模型的训练和扩展。特别地LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B)而 LLaMA 65B 与最优秀的模型 Chinchilla-70B 和 PaLM-540B 相媲美。LLaMA 通过使用更少的字符来达到最佳性能从而在各种推理预算下具有优势。与 GPT 系列相同LLaMA 模型也采用了 decoder-only 架构但同时结合了一些前人工作的改进例如Pre-normalization为了提高训练稳定性LLaMA 对每个 Transformer子层的输入进行了 RMSNorm 归一化这种归一化方法可以避免梯度爆炸和消失的问题提高模型的收敛速度和性能SwiGLU 激活函数将 ReLU 非线性替换为 SwiGLU 激活函数增加网络的表达能力和非线性同时减少参数量和计算量RoPE 位置编码模型的输入不再使用位置编码而是在网络的每一层添加了位置编码RoPE 位置编码可以有效地捕捉输入序列中的相对位置信息并且具有更好的泛化能力。这些改进使得 LLaMA 模型在自然语言理解、生成、对话等任务上都取得了较好的结果LLaMA 开源地址https://github.com/facebookresearch/llama2.GLM 系列模型是清华大学和智谱 AI 等合作研发的开源语言大模型。ChatGLM 是基于 GLM 结构开发的具有 62 亿参数量的语言大模型支持 2048 的上下文长度。其使用了包含 1 万亿字符的中英文语料进行训练能够支持中文和英文两种语言的任务。通过监督微调、反馈自助、人类反馈强化学习等多种训练技术ChatGLM 拥有强大的生成能力能够生成更符合人类偏好的内容。与 GLM 相似通过 INT4 量化 和 P-Tuning v2 等高效微调的算法ChatGLM 能够在 7G 显存的条件下进行微调。在 ChatGLM 的基础上2023 年 6 月发布的 ChatGLM 2 使用了包含 1.4 万亿字符的中英预料进行预训练并使用人类偏好的数据对模型进行对齐训练拥有比前一版本更加强大的能力在多个任务上取得提升。通过 FlashAttention 技术ChatGLM 2 能够处理更长的长下文支持的长下文长度达到了 3.2 万字符通过 Multi-Query Attention 技术ChatGLM 2 能够进一步地提升推理速度减小对显卡的显存占用。在 2023 年 10 月 27 日的 2023 中国计算机大会CNCC上智谱 AI 推出了 ChatGLM3 ChatGLM3-6B 是 ChatGLM3 系列中的开源模型在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上ChatGLM3-6B 引入了如下特性更强大的基础模型 ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。更完整的功能支持 ChatGLM3-6B 采用了全新设计的 Prompt 格式除正常的多轮对话外。同时原生支持工具调用Function Call、代码执行Code Interpreter和 Agent 任务等复杂场景。更全面的开源序列 除了对话模型 ChatGLM3-6B 外还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】