一. OpenAI 公司简介OpenAI 是一家专注于人工智能研究与应用的科技公司致力于开发安全、强大的人工智能技术并推动通用人工智能AGI, Artificial General Intelligence的发展使其能够造福全人类。微软是 OpenAI 最重要的战略合作伙伴和投资者之一为其提供大量云计算资源并在 Azure 云平台上部署 OpenAI 的模型服务并且先后支付了百亿美元投资用于独家授权使用 GPT-4。公司基本信息成立时间2015 年总部公司总部位于美国加利福尼亚州旧金山目前是全球最具影响力的人工智能研发机构之一。创始人萨姆·阿尔特曼、里德·霍夫曼、杰西卡·利文斯顿、伊隆·马斯克、伊尔亚·苏茨克维、沃伊切赫·萨伦巴、彼得·泰尔等人发展历程简要2015 年OpenAI 正式成立目标是进行开放的 AI 研究并避免人工智能被少数公司或机构垄断。2018 年OpenAI 发布 GPTGenerative Pre-trained Transformer模型这是基于 Transformer 架构的自然语言处理模型能够通过大规模预训练实现文本生成和理解。2019 年发布 GPT‑2大幅提升文本生成能力。OpenAI 转型为“有限盈利”公司OpenAI LP。微软向 OpenAI 投资约 10 亿美元。2020 年发布 GPT‑3这是当时规模最大的语言模型之一拥有 1750 亿参数显著提升了语言理解、写作和代码生成能力并开放 API 给开发者使用。2021 年发布 DALL·E文本生成图像模型这为之后的AI生成图片或者视频打下了稳健的基础。发布 Codex代码生成模型后来成为 GitHub Copilot 的核心技术。2022 年发布 DALL·E 2图像生成质量显著提高。2022 年 11 月推出 ChatGPT使 AI 对话系统迅速普及用户规模在短时间内达到数亿。2023 年发布 GPT‑4接受文本或图像输入并输出文本由于其更广泛的常识和先进的推理能力它可以比我们以前的任何模型更准确地解决难题。与微软进一步深化合作将技术整合到 Microsoft Copilot、Office、Azure 等产品中。2024 年及以后推出 GPT‑4oOmni支持文本、语音、图像等多模态交互。持续推出更高效、更低成本的模型版本并推动 AI Agent、实时语音和多模态应用的发展主要应用领域智能客服与聊天机器人代码生成与编程辅助自动写作与内容创作写作、翻译、总结数据分析与知识问答图像生成与创意设计教育与学习辅导语音识别与语音助手行业影响OpenAI 被认为是推动生成式人工智能Generative AI革命的重要力量之一。自 ChatGPT 推出后全球 AI 技术和产业发展显著加速科技公司、企业和政府都开始大规模投入 AI 研发。ChatGPT全称聊天生成预训练转换器英语Chat Generative Pre-trained Transformer是 OpenAI 开发的人工智能聊天机器人程序于 2022 年 12 月推出。该程序使用基于 GPT-3.5、GPT-4、GPT-4o 架构的大型语言模型并以强化学习训练。可以实现自动生成文本、自动问答、自动摘要、编写和调试计算机程序等多种任务。GPT-3.5GPT-3.5 Turbo 模型可以理解并生成自然语言或代码并已针对使用聊天完成 API 的聊天进行了优化但也适用于非聊天任务。自 2024 年 7 月起应使用 gpt-4o-mini 代替 gpt-3.5-turbo因为它更便宜、功能更强大、多模式且速度同样快。GPT-4GPT-4 是一个大型多模态模型接受文本或图像输入并输出文本由于其更广泛的常识和先进的推理能力它可以比我们以前的任何模型更准确地解决难题。 GPT-4 可在 OpenAI API 中向付费客户提供。与 gpt-3.5-turbo 一样GPT-4 针对聊天进行了优化但也适用于使用聊天完成 API 的传统完成任务。GPT-4oGPT-4o“o”代表“omni”是我们最先进的型号。它是多模式的接受文本或图像输入并输出文本具有与 GPT-4 Turbo 相同的高度智能但效率更高 - 它生成文本的速度快 2 倍成本便宜 50%。此外在我们的所有模型中GPT-4o 在非英语语言方面具有最佳的视觉和性能。GPT-4o miniGPT-4o mini“o”代表“omni”是我们小型型号类别中最先进的型号也是我们迄今为止最便宜的型号。它是多模式的接受文本或图像输入并输出文本比 gpt-3.5-turbo 具有更高的智能但速度同样快。它旨在用于较小的任务包括视觉任务。 我们建议您选择 gpt-4o-mini因为该型号功能更强大且更便宜。二. 文本生成模型使用建议模型价格1M tokens特点gpt-4o-mini0.15美元 / 0.6美元gpt4o 的加速廉价版本适合日常任务gpt3.5-turbo3美元 / 1.5美元gpt4 之前一代模型成本较低的替代方案gpt4o5美元 / 15美元速度更快多模态能力整体能力略弱于 gpt4gpt4-turbo10美元 / 30美元gpt4 的加速版本性能与成本平衡gpt430美元 / 60美元推理能力强训练数据规模大综合能力强什么是tokenstokens是语言模型处理文本时的使用量和计费的基本单位。在模型内部文本不会直接按“句子、词或字”处理而是先被拆分成很多小片段这些片段就叫token。可以把token理解为文本被模型切分后的最小计算单位。而这个单位是如何计算的呢举个例子如下如果你发送 1000 token 的问题模型生成 2000 token 的回答那么总共会使用 3000 token并按对应价格计费。DALL·E文本生成图像DALL·E 是一个人工智能系统可以根据自然语言的描述创建逼真的图像和艺术。 DALL·E 3 目前支持根据提示创建具有特定尺寸的新图像的功能。 DALL·E 2 还支持编辑现有图像或创建用户提供的图像的变体的功能。Text to speechTTS-文本生成音频TTS (Text to speech) 是一种人工智能模型可将文本转换为听起来自然的语音文本。我们提供两种不同的模型变量tts-1 针对实时文本到语音用例进行了优化tts-1-hd 针对质量进行了优化。这些模型可与音频 API 中的语音端点一起使用。Whisper语音转换成文本Whisper 是一种通用语音识别模型。它是在各种音频的大型数据集上进行训练的也是一个多任务模型可以执行多语言语音识别以及语音翻译和语言识别。 Whisper v2-large 模型目前可通过我们的 API 获得模型名称为 Whisper-1。 目前Whisper 的开源版本和通过我们的 API 提供的版本没有区别。然而通过我们的 API我们提供了优化的推理过程这使得通过我们的 API 运行 Whisper 比通过其他方式运行要快得多。将语音丢给Whisper会进行解析并输出命令whisper 音频路径Detecting language using up to the first30seconds.Use --language to specify the language Detected language:Chinese[00:00.000--00:02.000]吉智公云 吉智收获[00:30.000--00:32.000]吉智 吉智收获[01:01.000--01:08.000]一頓操作猛如虎 屏幕輸出2.5[01:20.000--01:22.000]強刷等在不如不在[01:31.000--01:36.000]上班摸魚 越摸越魚[01:41.000--01:42.000]怎麼樣 好吃嗎[01:43.000--01:45.000]好吃好吃 太好吃了[01:46.000--01:49.000]假如每個人頭上都戴了側晃泥[01:51.000--01:53.000]這件衣服適合我嗎[01:54.000--01:56.000]適合 特別好看Sora文本生成视频Sora 是 OpenAI 在 2024 年 2 月发布的 文生视频大模型它的出现标志着 AI 视频生成领域的一次重大突破。Sora 可以根据文本指令创建现实且富有想象力的场景。它不再是简单的固定镜头。Sora 能生成包含推、拉、摇、移、跟等多种运镜以及远景、中景、特写等不同景别的视频像真正的导演一样进行叙事。国内平替版本阿里的千问字节的豆包还有deepseek即梦等等其实很多种类可以使用并且品质不差免费的除外emmmm文本生成图片-千问提示词获取方式可以把最基本的需求丢给模型比如请帮我生成一张图片图片的内容为一名中国女侠在天上飞脚下踩飞剑身后有飘带等等并且可以提供一些反面提示词如嘴歪脸斜之类的让它避免这类问题文本生成视频-千问我将上述生成图片的提示词丢回给千问让它生成视频三. ChatGPT 使用方式使用 ChatGPT 需要用到 OPENAI_API_KEY而OPENAI_API_KEY是需要去官网获取的并且需要付费命令行使用安装命令pip install openai 执行命令openai api chat.completions.create-m gpt-4o-mini-g user ceshiren.com是做什么的 返回结果Ceshiren.com 是一个专注于软件测试和开发的综合性平台提供了一系列与自动化测试、性能测试、接口测试等相关的工具和资源。 该网站致力于为测试人员和开发人员提供交流和学习的机会包括技术文章、在线课程、工具下载等。 它还可能有社区论坛用户可以在这里分享经验、解决问题和讨论相关主题通过编程语言的 Library 使用# 导入OpenAI官方Python SDK库fromopenaiimportOpenAI# 创建OpenAI客户端实例# 默认会从环境变量OPENAI_API_KEY中获取API密钥clientOpenAI(# 如果没有提供api_key参数默认使用环境变量OPENAI_API_KEY的值# 也可以显式指定api_keyyour-api-key-here)# 调用聊天补全接口创建对话chat_completionclient.chat.completions.create(# 指定使用的模型gpt-4o-mini是GPT-4系列的小型版本modelgpt-4o-mini,# 消息列表定义对话的上下文messages[{role:user,# 消息角色用户content:Hello world# 消息内容用户的输入文本}# 可以继续添加更多消息如# {role: assistant, content: 之前的回复},# {role: user, content: 后续问题}]# 其他可选参数未在此示例中显示# temperature: 控制输出的随机性0-2# max_tokens: 限制生成的最大token数# stream: 是否启用流式响应)# 注意chat_completion对象包含完整的响应信息# 要获取AI的回复内容可以这样访问# response_text chat_completion.choices[0].message.content通过 Langchain 等框架# 导入LangChain的OpenAI聊天模型封装类fromlangchain_openaiimportChatOpenAI# 创建ChatOpenAI模型实例# LangChain是对OpenAI API的高级封装提供更多功能和便捷接口llmChatOpenAI(# 指定使用的模型gpt-4o是OpenAI最新的多模态模型modelgpt-4o,# 可选直接传入API密钥不推荐建议使用环境变量# api_keyyour-api-key-here, # 如果不想用环境变量可以在这里直接传key# 可选自定义API基础URL用于代理或本地部署# base_urlhttps://api.openai.com/v1, # 默认就是OpenAI官方API地址# 其他可选参数未在此示例中显示# temperature: 控制输出的随机性0-2之间默认0.7# max_tokens: 最大生成token数# timeout: 请求超时时间# streaming: 是否启用流式响应)# 定义消息列表构建对话上下文# LangChain使用特定的消息格式(角色, 内容) 或 {role: ..., content: ...}messages[# 系统消息设置AI助手的角色和任务(system,# 消息角色系统用于设定AI的行为和身份You are a helpful assistant that translates English to French. Translate the user sentence.,# 系统提示内容定义助手为英法翻译器),# 用户消息用户的输入(human,# 消息角色用户human是LangChain中对user的别名I love programming.,# 用户输入内容要翻译的英文句子),# 可以继续添加更多消息如之前的AI回复# (ai, Jaime la programmation.), # AI的回复# (human, How about I enjoy learning?), # 用户的后续问题]# 调用模型生成回复# invoke()方法是同步调用会阻塞直到收到完整响应ai_msgllm.invoke(messages)# ai_msg是一个AIMessage对象包含# - content: AI的回复文本# - additional_kwargs: 其他元数据如token使用情况等# 获取AI回复的文本内容# translation ai_msg.content# print(f翻译结果: {translation})# 注意实际使用前需要设置环境变量# export OPENAI_API_KEYsk-your-key-here 或设置在代码中四. ChatGPT 助理
OpenAI ChatGPT 大语言模型
一. OpenAI 公司简介OpenAI 是一家专注于人工智能研究与应用的科技公司致力于开发安全、强大的人工智能技术并推动通用人工智能AGI, Artificial General Intelligence的发展使其能够造福全人类。微软是 OpenAI 最重要的战略合作伙伴和投资者之一为其提供大量云计算资源并在 Azure 云平台上部署 OpenAI 的模型服务并且先后支付了百亿美元投资用于独家授权使用 GPT-4。公司基本信息成立时间2015 年总部公司总部位于美国加利福尼亚州旧金山目前是全球最具影响力的人工智能研发机构之一。创始人萨姆·阿尔特曼、里德·霍夫曼、杰西卡·利文斯顿、伊隆·马斯克、伊尔亚·苏茨克维、沃伊切赫·萨伦巴、彼得·泰尔等人发展历程简要2015 年OpenAI 正式成立目标是进行开放的 AI 研究并避免人工智能被少数公司或机构垄断。2018 年OpenAI 发布 GPTGenerative Pre-trained Transformer模型这是基于 Transformer 架构的自然语言处理模型能够通过大规模预训练实现文本生成和理解。2019 年发布 GPT‑2大幅提升文本生成能力。OpenAI 转型为“有限盈利”公司OpenAI LP。微软向 OpenAI 投资约 10 亿美元。2020 年发布 GPT‑3这是当时规模最大的语言模型之一拥有 1750 亿参数显著提升了语言理解、写作和代码生成能力并开放 API 给开发者使用。2021 年发布 DALL·E文本生成图像模型这为之后的AI生成图片或者视频打下了稳健的基础。发布 Codex代码生成模型后来成为 GitHub Copilot 的核心技术。2022 年发布 DALL·E 2图像生成质量显著提高。2022 年 11 月推出 ChatGPT使 AI 对话系统迅速普及用户规模在短时间内达到数亿。2023 年发布 GPT‑4接受文本或图像输入并输出文本由于其更广泛的常识和先进的推理能力它可以比我们以前的任何模型更准确地解决难题。与微软进一步深化合作将技术整合到 Microsoft Copilot、Office、Azure 等产品中。2024 年及以后推出 GPT‑4oOmni支持文本、语音、图像等多模态交互。持续推出更高效、更低成本的模型版本并推动 AI Agent、实时语音和多模态应用的发展主要应用领域智能客服与聊天机器人代码生成与编程辅助自动写作与内容创作写作、翻译、总结数据分析与知识问答图像生成与创意设计教育与学习辅导语音识别与语音助手行业影响OpenAI 被认为是推动生成式人工智能Generative AI革命的重要力量之一。自 ChatGPT 推出后全球 AI 技术和产业发展显著加速科技公司、企业和政府都开始大规模投入 AI 研发。ChatGPT全称聊天生成预训练转换器英语Chat Generative Pre-trained Transformer是 OpenAI 开发的人工智能聊天机器人程序于 2022 年 12 月推出。该程序使用基于 GPT-3.5、GPT-4、GPT-4o 架构的大型语言模型并以强化学习训练。可以实现自动生成文本、自动问答、自动摘要、编写和调试计算机程序等多种任务。GPT-3.5GPT-3.5 Turbo 模型可以理解并生成自然语言或代码并已针对使用聊天完成 API 的聊天进行了优化但也适用于非聊天任务。自 2024 年 7 月起应使用 gpt-4o-mini 代替 gpt-3.5-turbo因为它更便宜、功能更强大、多模式且速度同样快。GPT-4GPT-4 是一个大型多模态模型接受文本或图像输入并输出文本由于其更广泛的常识和先进的推理能力它可以比我们以前的任何模型更准确地解决难题。 GPT-4 可在 OpenAI API 中向付费客户提供。与 gpt-3.5-turbo 一样GPT-4 针对聊天进行了优化但也适用于使用聊天完成 API 的传统完成任务。GPT-4oGPT-4o“o”代表“omni”是我们最先进的型号。它是多模式的接受文本或图像输入并输出文本具有与 GPT-4 Turbo 相同的高度智能但效率更高 - 它生成文本的速度快 2 倍成本便宜 50%。此外在我们的所有模型中GPT-4o 在非英语语言方面具有最佳的视觉和性能。GPT-4o miniGPT-4o mini“o”代表“omni”是我们小型型号类别中最先进的型号也是我们迄今为止最便宜的型号。它是多模式的接受文本或图像输入并输出文本比 gpt-3.5-turbo 具有更高的智能但速度同样快。它旨在用于较小的任务包括视觉任务。 我们建议您选择 gpt-4o-mini因为该型号功能更强大且更便宜。二. 文本生成模型使用建议模型价格1M tokens特点gpt-4o-mini0.15美元 / 0.6美元gpt4o 的加速廉价版本适合日常任务gpt3.5-turbo3美元 / 1.5美元gpt4 之前一代模型成本较低的替代方案gpt4o5美元 / 15美元速度更快多模态能力整体能力略弱于 gpt4gpt4-turbo10美元 / 30美元gpt4 的加速版本性能与成本平衡gpt430美元 / 60美元推理能力强训练数据规模大综合能力强什么是tokenstokens是语言模型处理文本时的使用量和计费的基本单位。在模型内部文本不会直接按“句子、词或字”处理而是先被拆分成很多小片段这些片段就叫token。可以把token理解为文本被模型切分后的最小计算单位。而这个单位是如何计算的呢举个例子如下如果你发送 1000 token 的问题模型生成 2000 token 的回答那么总共会使用 3000 token并按对应价格计费。DALL·E文本生成图像DALL·E 是一个人工智能系统可以根据自然语言的描述创建逼真的图像和艺术。 DALL·E 3 目前支持根据提示创建具有特定尺寸的新图像的功能。 DALL·E 2 还支持编辑现有图像或创建用户提供的图像的变体的功能。Text to speechTTS-文本生成音频TTS (Text to speech) 是一种人工智能模型可将文本转换为听起来自然的语音文本。我们提供两种不同的模型变量tts-1 针对实时文本到语音用例进行了优化tts-1-hd 针对质量进行了优化。这些模型可与音频 API 中的语音端点一起使用。Whisper语音转换成文本Whisper 是一种通用语音识别模型。它是在各种音频的大型数据集上进行训练的也是一个多任务模型可以执行多语言语音识别以及语音翻译和语言识别。 Whisper v2-large 模型目前可通过我们的 API 获得模型名称为 Whisper-1。 目前Whisper 的开源版本和通过我们的 API 提供的版本没有区别。然而通过我们的 API我们提供了优化的推理过程这使得通过我们的 API 运行 Whisper 比通过其他方式运行要快得多。将语音丢给Whisper会进行解析并输出命令whisper 音频路径Detecting language using up to the first30seconds.Use --language to specify the language Detected language:Chinese[00:00.000--00:02.000]吉智公云 吉智收获[00:30.000--00:32.000]吉智 吉智收获[01:01.000--01:08.000]一頓操作猛如虎 屏幕輸出2.5[01:20.000--01:22.000]強刷等在不如不在[01:31.000--01:36.000]上班摸魚 越摸越魚[01:41.000--01:42.000]怎麼樣 好吃嗎[01:43.000--01:45.000]好吃好吃 太好吃了[01:46.000--01:49.000]假如每個人頭上都戴了側晃泥[01:51.000--01:53.000]這件衣服適合我嗎[01:54.000--01:56.000]適合 特別好看Sora文本生成视频Sora 是 OpenAI 在 2024 年 2 月发布的 文生视频大模型它的出现标志着 AI 视频生成领域的一次重大突破。Sora 可以根据文本指令创建现实且富有想象力的场景。它不再是简单的固定镜头。Sora 能生成包含推、拉、摇、移、跟等多种运镜以及远景、中景、特写等不同景别的视频像真正的导演一样进行叙事。国内平替版本阿里的千问字节的豆包还有deepseek即梦等等其实很多种类可以使用并且品质不差免费的除外emmmm文本生成图片-千问提示词获取方式可以把最基本的需求丢给模型比如请帮我生成一张图片图片的内容为一名中国女侠在天上飞脚下踩飞剑身后有飘带等等并且可以提供一些反面提示词如嘴歪脸斜之类的让它避免这类问题文本生成视频-千问我将上述生成图片的提示词丢回给千问让它生成视频三. ChatGPT 使用方式使用 ChatGPT 需要用到 OPENAI_API_KEY而OPENAI_API_KEY是需要去官网获取的并且需要付费命令行使用安装命令pip install openai 执行命令openai api chat.completions.create-m gpt-4o-mini-g user ceshiren.com是做什么的 返回结果Ceshiren.com 是一个专注于软件测试和开发的综合性平台提供了一系列与自动化测试、性能测试、接口测试等相关的工具和资源。 该网站致力于为测试人员和开发人员提供交流和学习的机会包括技术文章、在线课程、工具下载等。 它还可能有社区论坛用户可以在这里分享经验、解决问题和讨论相关主题通过编程语言的 Library 使用# 导入OpenAI官方Python SDK库fromopenaiimportOpenAI# 创建OpenAI客户端实例# 默认会从环境变量OPENAI_API_KEY中获取API密钥clientOpenAI(# 如果没有提供api_key参数默认使用环境变量OPENAI_API_KEY的值# 也可以显式指定api_keyyour-api-key-here)# 调用聊天补全接口创建对话chat_completionclient.chat.completions.create(# 指定使用的模型gpt-4o-mini是GPT-4系列的小型版本modelgpt-4o-mini,# 消息列表定义对话的上下文messages[{role:user,# 消息角色用户content:Hello world# 消息内容用户的输入文本}# 可以继续添加更多消息如# {role: assistant, content: 之前的回复},# {role: user, content: 后续问题}]# 其他可选参数未在此示例中显示# temperature: 控制输出的随机性0-2# max_tokens: 限制生成的最大token数# stream: 是否启用流式响应)# 注意chat_completion对象包含完整的响应信息# 要获取AI的回复内容可以这样访问# response_text chat_completion.choices[0].message.content通过 Langchain 等框架# 导入LangChain的OpenAI聊天模型封装类fromlangchain_openaiimportChatOpenAI# 创建ChatOpenAI模型实例# LangChain是对OpenAI API的高级封装提供更多功能和便捷接口llmChatOpenAI(# 指定使用的模型gpt-4o是OpenAI最新的多模态模型modelgpt-4o,# 可选直接传入API密钥不推荐建议使用环境变量# api_keyyour-api-key-here, # 如果不想用环境变量可以在这里直接传key# 可选自定义API基础URL用于代理或本地部署# base_urlhttps://api.openai.com/v1, # 默认就是OpenAI官方API地址# 其他可选参数未在此示例中显示# temperature: 控制输出的随机性0-2之间默认0.7# max_tokens: 最大生成token数# timeout: 请求超时时间# streaming: 是否启用流式响应)# 定义消息列表构建对话上下文# LangChain使用特定的消息格式(角色, 内容) 或 {role: ..., content: ...}messages[# 系统消息设置AI助手的角色和任务(system,# 消息角色系统用于设定AI的行为和身份You are a helpful assistant that translates English to French. Translate the user sentence.,# 系统提示内容定义助手为英法翻译器),# 用户消息用户的输入(human,# 消息角色用户human是LangChain中对user的别名I love programming.,# 用户输入内容要翻译的英文句子),# 可以继续添加更多消息如之前的AI回复# (ai, Jaime la programmation.), # AI的回复# (human, How about I enjoy learning?), # 用户的后续问题]# 调用模型生成回复# invoke()方法是同步调用会阻塞直到收到完整响应ai_msgllm.invoke(messages)# ai_msg是一个AIMessage对象包含# - content: AI的回复文本# - additional_kwargs: 其他元数据如token使用情况等# 获取AI回复的文本内容# translation ai_msg.content# print(f翻译结果: {translation})# 注意实际使用前需要设置环境变量# export OPENAI_API_KEYsk-your-key-here 或设置在代码中四. ChatGPT 助理