人工智能|大模型——架构——大模型主流架构Encoder-Only、Decoder-Only、Encoder-Decoder-尧图企业网站定制

一、Encoder-Only架构Encoder-Only 架构也被称为单向架构仅包含编码器部分。它主要适用于不需要生成序列的任务只需要对输入进行编码和处理的单向任务场景如文本分类、情感分析等。这种架构的代表是 BERT 相关的模型例如 BERT、RoBERT 和 ALBERT 等。Encoder-Only 架构的核心思想是利用神经网络对输入文本进行编码提取其特征和语义信息并将编码结果传递给后续的处理模块。这种架构的优点是能够更好地理解输入文本的语义和上下文信息从而提高文本分类和情感分析等任务的准确性。缺点是它无法直接生成文本输出因此在需要生成文本的任务中不太适用。Encoder-Only架构的大模型有谷歌的BERT、智谱AI发布的第四代基座大语言模型GLM 4等。其中BERT是基于Encoder-Only架构的预训练语言模型。GLM 4是智谱AI发布的第四代基座大语言模型该模型在IFEval评测集上在Prompt提示词跟随中文方面GLM-4达到了GPT-4 88%的水平。二、Decoder-Only架构Decoder-Only 架构也被称为生成式架构仅包含解码器部分。它通常用于序列生成任务如文本生成、机器翻译等。这种架构的模型适用于需要生成序列的任务可以从输入的编码中生成相应的序列。同时Decoder-Only 架构还有一个重要特点是可以进行无监督预训练。在预训练阶段模型通过大量的无标注数据学习语言的统计模式和语义信息。Decoder-Only 架构的优点是擅长创造性的写作比如写小说或自动生成文章。它更多关注于从已有的信息开头扩展出新的内容。其缺点是需大量训练数据来提高生成文本的质量和多样性。Decoder-Only架构的大模型的代表有GPT系列、LLaMA、OPT、BLOOM等。这类模型采用预测下一个词进行训练常见下游任务有文本生成、问答等因此被称为ALMAutoregressive Language Model。国内采用Decoder-Only架构研发的大模型有妙想金融大模型、XVERSE-13B大模型等。其中妙想金融大模型是东方财富旗下自主研发的金融行业大语言模型目前已经覆盖了7B、13B、34B、66B及104B参数。而XVERSE-13B大模型是由前腾讯副总裁、腾讯AI lab创始人姚星创立的明星独角兽元象研发的该模型支持40多种语言、8192上下文长度在多项中英文测评中性能超过了同尺寸130亿参数的LIama2、Baichuan等。三、Encoder-Decoder架构Encoder-Decoder 架构也被称为序列到序列架构同时包含编码器和解码器部分。它通常用于序列到序列Seq2Seq任务如机器翻译、对话生成等。这种架构的代表是以 Google 训练出来的 T5 为代表的相关大模型。Encoder-Decoder 架构的核心思想是利用编码器对输入序列进行编码提取其特征和语义信息并将编码结果传递给解码器。然后解码器根据编码结果生成相应的输出序列。这种架构的优点是能够更好地处理输入序列和输出序列之间的关系从而提高机器翻译和对话生成等任务的准确性。缺点是模型复杂度较高训练时间和计算资源消耗较大。Encoder-Decoder架构的大模型有很多例如Google的T5模型、华为的盘古NLP大模型等。其中华为的盘古NLP大模型首次使用Encoder-Decoder架构兼顾NLP大模型的理解能力和生成能力保证了模型在不同系统中的嵌入灵活性。在下游应用中仅需少量样本和可学习参数即可完成千亿规模大模型的快速微调和下游适配这一模型在智能舆论以及智能营销方面都有不错的表现。

相关新闻

Wan2.1-UMT5生产环境部署：基于Nginx解决403 Forbidden等访问问题

大模型揭秘：它不是AI生命，而是“超级学霸”+“猜词侠”，普通人也能秒懂！

如何让2007年的老Mac运行最新macOS？OpenCore Legacy Patcher技术深度解析

小微团队如何利用Taotoken管理多个项目的AI成本

GetQzonehistory：永久保存QQ空间记忆的终极免费解决方案

在Ubuntu 22.04上，用AutoDockTools给蛋白加氢和准备配体，保姆级避坑指南

AI Agent Harness Engineering 模型压缩技术：让智能体在资源受限设备上高效运行

79万中文医疗对话数据集：打造智能医疗问答系统的终极语料库指南

JMeter并发与持续性压测：从瞬时吞吐到系统韧性的工程实践

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势