Hermes 不是从头训练的基础模型而是基于现有的强大基础模型如 Meta 的 Llama 2、Mistral 等通过指令微调得到的一系列对话模型。你可以把它理解成基础模型如 Llama 高质量指令数据 精细微调 更听话、更会聊天的 Hermes它的核心特点极强的指令遵循能力Hermes 最大的卖点是能严格、精确地理解并执行复杂指令包括要求它输出特定格式如 JSON、扮演特定角色、或完成多步骤任务。擅长角色扮演与创意写作由于训练数据中包含了大量高质量的角色扮演、小说及对话数据它的文本风格生动、细腻非常适合构建虚拟角色或进行创意内容生成。长上下文与思维链许多 Hermes 版本支持超长上下文并能通过“让我们一步步思考”等提示展现清晰的推理过程。完全开源、可商用Hermes 系列大多数版本基于 Apache 2.0 等宽松许可证发布模型权重、训练方法全公开允许商业使用对开发者非常友好。主要版本与命名常见的 Hermes 模型通常这样命名例如Nous-Hermes-2-Mixtral-8x7B-DPO这串名字可以这样拆解Nous发布方Nous ResearchHermes模型系列名2第二代Mixtral-8x7B所基于的基础模型来自 Mistral AI 的专家混合模型DPO微调方法直接偏好优化让模型更符合人类偏好其他常见变体还有Nous-Hermes-2-Yi-34B等都是换用了不同的“大脑”基础模型。关联的核心概念指令微调让模型学会“理解人类指令并生成有用、安全的回复”的关键步骤。Hermes 正是此技术的优秀成果。基础模型像 Llama、Mistral、Yi 这些在海量文本上预训练的模型是 Hermes 的“基座”。模型的“智商”很大程度上由基座决定而“情商”和“听话程度”则由微调赋予。开源大模型社区Hermes 是开源社区协作的典型代表由 Nous Research 制作并免费发布任何人都可以下载、部署和微调。DPO直接偏好优化一种比传统 RLHF基于人类反馈的强化学习更简单、更稳定的微调技术通过直接对比“好的回答”和“差的回答”来优化模型。简而言之如果你需要一个开源、能高度服从复杂指令、且擅长创意和角色扮演的模型Hermes 系列会是首选之一。
什么是 Hermes 大模型?
Hermes 不是从头训练的基础模型而是基于现有的强大基础模型如 Meta 的 Llama 2、Mistral 等通过指令微调得到的一系列对话模型。你可以把它理解成基础模型如 Llama 高质量指令数据 精细微调 更听话、更会聊天的 Hermes它的核心特点极强的指令遵循能力Hermes 最大的卖点是能严格、精确地理解并执行复杂指令包括要求它输出特定格式如 JSON、扮演特定角色、或完成多步骤任务。擅长角色扮演与创意写作由于训练数据中包含了大量高质量的角色扮演、小说及对话数据它的文本风格生动、细腻非常适合构建虚拟角色或进行创意内容生成。长上下文与思维链许多 Hermes 版本支持超长上下文并能通过“让我们一步步思考”等提示展现清晰的推理过程。完全开源、可商用Hermes 系列大多数版本基于 Apache 2.0 等宽松许可证发布模型权重、训练方法全公开允许商业使用对开发者非常友好。主要版本与命名常见的 Hermes 模型通常这样命名例如Nous-Hermes-2-Mixtral-8x7B-DPO这串名字可以这样拆解Nous发布方Nous ResearchHermes模型系列名2第二代Mixtral-8x7B所基于的基础模型来自 Mistral AI 的专家混合模型DPO微调方法直接偏好优化让模型更符合人类偏好其他常见变体还有Nous-Hermes-2-Yi-34B等都是换用了不同的“大脑”基础模型。关联的核心概念指令微调让模型学会“理解人类指令并生成有用、安全的回复”的关键步骤。Hermes 正是此技术的优秀成果。基础模型像 Llama、Mistral、Yi 这些在海量文本上预训练的模型是 Hermes 的“基座”。模型的“智商”很大程度上由基座决定而“情商”和“听话程度”则由微调赋予。开源大模型社区Hermes 是开源社区协作的典型代表由 Nous Research 制作并免费发布任何人都可以下载、部署和微调。DPO直接偏好优化一种比传统 RLHF基于人类反馈的强化学习更简单、更稳定的微调技术通过直接对比“好的回答”和“差的回答”来优化模型。简而言之如果你需要一个开源、能高度服从复杂指令、且擅长创意和角色扮演的模型Hermes 系列会是首选之一。