AI人工智能领域名词及大语言模型总结(完整版)

AI人工智能领域名词及大语言模型总结(完整版) 第一部分AI人工智能领域核心固有名词按领域分类一、基础核心名词AIArtificial Intelligence人工智能研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新技术科学核心是让机器具备“感知、推理、学习、决策”的类人能力涵盖机器学习、深度学习、自然语言处理等多个分支广泛应用于生活、工作、工业等各个领域。弱人工智能Weak AI又称“窄人工智能”指专注于某一特定领域、具备单一功能的人工智能系统不具备通用的思维能力无法跨领域自主思考是目前主流的AI形态如语音助手、图像识别工具、聊天机器人。强人工智能Strong AI又称“通用人工智能”指具备与人类同等甚至超越人类的通用智能能够理解、学习人类所有的知识和技能具备自主意识、推理、决策和跨领域适应能力目前仍处于理论研究阶段尚未实现。超人工智能Super AI超越人类智能的人工智能能够在所有领域包括科学、艺术、哲学等超越人类的认知和能力自主进化、自我提升是AI发展的终极形态目前仅存在于科幻设想中。机器学习Machine LearningMLAI的核心分支之一指让计算机通过数据“自主学习”无需明确编程指令就能实现行为优化和模式识别的技术。核心是构建算法模型让机器从数据中提取规律进而做出预测或决策分为监督学习、无监督学习、半监督学习、强化学习四大类。深度学习Deep LearningDL机器学习的一个重要子领域以“深度神经网络”为核心模拟人类大脑的神经元结构通过多层网络层级处理数据能够自动提取数据的深层特征适用于复杂场景如图像识别、自然语言处理、语音合成是当前AI技术突破的核心驱动力。神经网络Neural NetworkNN深度学习的核心基础模拟人类大脑神经元的连接方式由输入层、隐藏层、输出层组成通过神经元之间的权重调整实现数据的传递和处理是实现“学习”功能的核心载体。常见类型包括CNN卷积神经网络、RNN循环神经网络、TransformerTransformer架构等。二、智能体与相关名词智能体Agent又称“智能代理”指能够自主感知环境、做出决策、执行动作以实现特定目标的智能系统。核心特点是“自主性、交互性、适应性”可以独立完成任务也可以与其他智能体或人类协作广泛应用于自动驾驶、智能客服、机器人等领域与用户提到的Agent一致。多智能体系统Multi-Agent SystemMAS由多个相互独立、相互协作的智能体组成的系统每个智能体有自己的目标和能力通过交互、协商完成复杂任务如分布式机器人协作、智能交通调度。智能体工作流Agent Workflow指智能体完成特定任务的步骤和流程通过定义“感知-决策-执行”的逻辑的顺序让智能体按流程自主推进任务可根据任务反馈动态调整流程与用户提到的工作流相关聚焦智能体场景。Skill技能智能体具备的特定能力模块是智能体完成任务的基础每个Skill对应一项具体功能如“文本生成Skill”“数据查询Skill”“图像识别Skill”智能体可通过组合不同Skill完成复杂任务与用户提到的skill一致。三、数据与知识库相关名词知识库Knowledge BaseKB指存储、组织、管理和呈现知识的数据库是AI系统获取知识的核心来源包含结构化如表格、数据库和非结构化如文档、图片的知识能够为AI模型提供推理、回答问题的依据与用户提到的知识库一致。知识图谱Knowledge GraphKG一种结构化的知识库以“实体-关系-实体”的三元组形式呈现知识之间的关联如“李白-朝代-唐朝”能够帮助AI模型理解知识的逻辑关系提升推理和问答的准确性广泛应用于搜索引擎、智能问答。数据集Dataset用于训练、测试AI模型的数据集合是机器学习和深度学习的基础包含输入数据如文本、图像、语音和对应的标签如分类结果、标注信息。常见数据集有ImageNet图像识别、COCO目标检测、GLUE自然语言处理等。数据标注Data Annotation对原始数据进行处理、标注为AI模型提供“学习样本”的过程比如给图像标注物体类别、给文本标注情感倾向、给语音标注文字内容标注质量直接影响模型的训练效果。数据预处理Data PreprocessingAI模型训练前的核心步骤对原始数据进行清洗、去噪、归一化、标准化、分割等处理去除无效数据统一数据格式让数据更适合模型训练提升模型的准确性和训练效率。语料库Corpus专门用于自然语言处理NLP领域的数据集包含大量的文本数据如句子、段落、文章用于训练语言模型、实现文本分类、翻译、情感分析等功能比如中文的“人民日报语料库”、英文的“Wikipedia语料库”。四、模型训练与优化相关名词模型ModelAI系统中用于处理数据、实现学习和预测的核心算法框架是“数据”与“输出结果”之间的桥梁。不同的任务对应不同的模型如图像识别用CNN模型、文本生成用Transformer模型。模型微调Model Fine-tuning指在预训练模型已经训练好的基础模型的基础上使用少量特定领域的数据进一步调整模型参数让模型适配特定任务或场景无需从零开始训练大幅节省训练成本和时间与用户提到的模型微调一致。预训练模型Pre-trained ModelPTM基于大规模通用数据训练完成的基础模型具备通用的知识和能力可通过微调适配不同的具体任务如BERT、GPT系列、千问模型等均属于预训练模型。LoRALow-Rank Adaptation低秩适配一种高效的模型微调技术核心是在不改变预训练模型原有参数的前提下通过添加少量可训练的低秩矩阵实现模型的微调大幅降低微调的计算成本和存储成本广泛应用于大语言模型的微调与用户提到的lora一致。Fine-tune微调与“模型微调”一致是LoRA、全参数微调等微调方式的统称本质是通过少量数据调整模型参数适配特定任务。全参数微调Full Parameter Fine-tuning模型微调的一种方式调整预训练模型的所有参数适配特定任务效果较好但计算成本高、消耗资源多适用于数据量充足、资源充足的场景。冻结Freeze模型训练中的常用操作指固定模型的部分参数通常是预训练模型的底层参数只训练模型的顶层参数或新增参数减少计算量避免模型过拟合。过拟合Overfitting模型训练中的常见问题指模型过度“记住”训练数据的细节包括噪声数据导致模型在训练数据上表现极好但在未见过的测试数据上表现较差泛化能力弱。解决方法包括增加数据量、正则化、 dropout等。欠拟合Underfitting模型训练中的常见问题指模型未能充分学习到训练数据中的规律导致在训练数据和测试数据上表现都较差通常是因为模型复杂度不足、训练数据不足或训练次数不够。正则化Regularization用于解决模型过拟合的技术通过在模型损失函数中添加惩罚项限制模型参数的大小避免模型过度复杂常见的正则化方式有L1正则化、L2正则化。Dropout深度学习中常用的正则化技术在模型训练过程中随机“关闭”一部分神经元避免神经元之间过度依赖提升模型的泛化能力。损失函数Loss Function用于衡量AI模型预测结果与真实结果之间的差距是模型训练的“导航仪”模型通过最小化损失函数的值调整参数提升预测准确性。常见的损失函数有交叉熵损失、均方误差损失等。优化器Optimizer用于调整模型参数、最小化损失函数的算法决定了模型训练的速度和效果。常见的优化器有SGD随机梯度下降、Adam、RMSprop等。迭代Iteration模型训练的一次参数更新过程即模型读取一批数据、计算损失、调整参数的过程多次迭代后模型的损失逐渐降低性能逐渐提升。轮次Epoch指模型完整遍历一次所有训练数据的过程一个Epoch包含多个Iteration通常模型需要训练多个Epoch才能达到较好的效果。批量大小Batch Size模型训练中每次迭代读取的数据量批量大小过大可能导致内存不足过小可能导致训练不稳定需根据硬件资源调整。五、自然语言处理NLP相关名词NLPNatural Language Processing自然语言处理AI的核心分支之一研究计算机如何理解、处理、生成人类语言包括书面语、口语实现人与计算机的自然语言交互核心任务包括文本分类、情感分析、机器翻译、问答系统、文本生成等。RAGRetrieval-Augmented Generation检索增强生成一种结合“检索”和“生成”的技术核心是在生成文本之前先从知识库中检索与问题相关的信息再基于检索到的信息生成准确、有依据的回答解决大语言模型“幻觉”生成虚假信息、知识滞后的问题与用户提到的RAG一致。大语言模型Large Language ModelLLM基于Transformer架构通过大规模文本语料预训练而成能够理解和生成人类语言具备强大的上下文理解、推理、生成能力是NLP领域的核心突破如GPT系列、千问模型等。Tokenizer分词器大语言模型的核心组件之一将人类语言文本分割成模型能够识别的最小单位称为“token”令牌比如将“我在学习AI”分割成“我、在、学习、AI”四个token不同模型的分词规则不同。上下文窗口Context Window大语言模型能够处理的最大文本长度以token为单位窗口越大模型能够记住的上下文信息越多越能理解长文本、复杂对话但计算成本也越高。Prompt提示词用户向大语言模型输入的指令、问题或文本用于引导模型生成符合需求的输出Prompt的设计直接影响模型的输出效果即“提示工程”。提示工程Prompt Engineering研究如何设计、优化Prompt让大语言模型更准确、高效地完成任务的技术核心是通过明确指令、补充上下文、设定格式引导模型输出符合预期的结果。Few-shot Learning少样本学习指模型通过少量样本几个到几十个就能快速学习并适配新任务无需大量标注数据是大语言模型的重要能力之一。Zero-shot Learning零样本学习指模型在没有任何训练样本的情况下仅通过Prompt引导就能完成新任务体现了大语言模型的通用能力。文本生成Text GenerationNLP的核心任务之一指模型根据输入的Prompt生成符合逻辑、连贯、有意义的文本如写文章、写代码、写文案等是大语言模型的核心应用场景。情感分析Sentiment AnalysisNLP的核心任务之一指模型识别文本中的情感倾向如正面、负面、中性广泛应用于舆情分析、客户反馈处理、商品评价分析等。机器翻译Machine TranslationMTNLP的核心任务之一指模型将一种语言的文本翻译成另一种语言保持语义不变如中文翻译成英文、英文翻译成日文分为统计机器翻译、神经机器翻译目前主流。问答系统Question AnsweringQANLP的核心任务之一指模型根据用户提出的问题从知识库或文本中提取准确的答案如智能问答机器人、搜索引擎问答。命名实体识别Named Entity RecognitionNERNLP的核心任务之一指模型从文本中识别出具有特定意义的实体如人名、地名、机构名、时间、数字等广泛应用于信息提取、知识图谱构建。语义理解Semantic Understanding指模型理解文本的深层含义而不仅仅是表面文字包括理解句子的逻辑关系、情感倾向、上下文关联等是实现自然语言交互的核心。幻觉Hallucination大语言模型的常见问题指模型生成的文本看似连贯、合理但实际上是虚假的、没有依据的信息如编造人名、数据、事件主要原因是模型对知识的记忆不准确或上下文理解偏差。六、其他核心技术名词MCPModel Compression and Pruning模型压缩与剪枝指通过减少模型参数数量、降低模型复杂度在不明显降低模型性能的前提下缩小模型体积、提升运行速度适配手机、边缘设备等资源有限的场景与用户提到的MCP一致。常见方式包括剪枝删除冗余参数、量化将高精度参数转为低精度、蒸馏用大模型训练小模型。模型蒸馏Model Distillation模型压缩的一种方式又称“知识蒸馏”用训练好的大模型教师模型训练一个小模型学生模型让小模型学习大模型的知识和预测逻辑实现“小模型具备大模型的性能”适用于边缘设备部署。模型量化Model Quantization模型压缩的一种方式将模型中的高精度参数如32位浮点数转换为低精度参数如8位整数减少模型的存储体积和计算量提升模型运行速度几乎不影响模型性能。边缘计算Edge Computing指将AI模型部署在边缘设备如手机、摄像头、物联网设备上而非云端服务器实现数据本地处理、实时响应减少网络延迟保护数据隐私适用于自动驾驶、物联网等场景。云计算Cloud Computing指将AI模型部署在云端服务器上通过网络为用户提供AI服务无需用户本地部署模型具备算力强、可扩展性强的特点适用于大规模模型训练、复杂任务处理。计算机视觉Computer VisionCVAI的核心分支之一研究计算机如何“看懂”图像、视频实现图像识别、目标检测、图像分割、人脸识别、场景理解等功能广泛应用于监控、自动驾驶、医疗影像、人脸识别等领域。CNNConvolutional Neural Network卷积神经网络一种专门用于处理图像、视频的神经网络通过卷积操作提取图像的空间特征如边缘、纹理、形状是计算机视觉领域的核心模型。Transformer架构2017年提出的神经网络架构核心是“自注意力机制”能够捕捉文本、图像中的长距离依赖关系是目前大语言模型、部分计算机视觉模型的核心架构如GPT系列、BERT、ViT等。自注意力机制Self-AttentionTransformer架构的核心能够让模型在处理数据时自动关注数据内部的关联关系如文本中不同词语之间的联系无需手动设计特征大幅提升模型的理解能力。强化学习Reinforcement LearningRL机器学习的四大类之一指智能体通过与环境交互“试错”式学习通过奖励正向反馈和惩罚负向反馈调整自身行为最终实现目标最大化。适用于自动驾驶、机器人控制、游戏AI等场景。监督学习Supervised Learning机器学习的四大类之一指用带有标签的训练数据训练模型学习“输入-标签”的对应关系进而对新数据进行预测适用于分类、回归等任务如垃圾邮件识别、房价预测。无监督学习Unsupervised Learning机器学习的四大类之一指用没有标签的训练数据让模型自主提取数据的规律和特征适用于聚类、降维等任务如用户分群、数据压缩。半监督学习Semi-Supervised Learning机器学习的四大类之一结合监督学习和无监督学习用少量带标签的数据和大量无标签的数据训练模型兼顾训练效果和数据成本。APIApplication Programming Interface应用程序编程接口AI模型的调用接口开发者通过API无需了解模型的内部结构和训练细节就能在自己的程序中调用AI模型的功能如调用千问API实现文本生成、调用图像识别API实现图片分析。微调平台Fine-tuning Platform提供模型微调服务的平台用户可在平台上上传数据、选择模型、设置微调参数完成模型微调无需搭建本地训练环境如火山方舟、阿里云PAI等。工作流Workflow指完成某一任务的标准化步骤和流程在AI领域特指AI系统处理任务的完整流程如“数据输入-模型处理-结果输出-反馈优化”也可指智能体完成任务的步骤序列与用户提到的工作流一致。算力Computing Power指AI模型训练和运行所需的计算能力通常用“浮点运算次数/秒FLOPS”衡量算力越强模型训练速度越快、能够处理的任务越复杂核心依赖GPU、TPU等硬件。GPUGraphics Processing Unit图形处理器AI模型训练和运行的核心硬件擅长并行计算能够快速处理大规模数据和复杂的神经网络运算是深度学习不可或缺的硬件支撑如NVIDIA的A100、H100 GPU。TPUTensor Processing Unit张量处理单元谷歌专门为AI模型尤其是深度学习模型设计的专用芯片专注于张量运算算力密度高、功耗低适用于大规模模型训练和部署。第二部分主流大语言模型汇总含核心特点说明以下汇总目前AI领域主流的大语言模型包括国内、国外模型详细说明其开发机构、核心特点及应用场景方便学习过程中区分和选择。一、国内主流大语言模型千问模型Qwen开发机构字节跳动核心特点基于Transformer架构通过大规模中文语料预训练具备强大的中文理解和生成能力支持多轮对话、文本生成、代码生成、翻译等多种任务模型系列丰富如Qwen-7B、Qwen-14B、Qwen-72B适配不同算力场景支持微调可通过LoRA等方式适配特定领域需求开源版本可本地部署闭源版本提供API调用。应用场景智能客服、内容创作、代码开发、智能问答、企业知识库问答等。火山模型Volcano Model开发机构字节跳动火山引擎核心特点基于字节跳动自研技术涵盖通用大模型、行业大模型如金融、教育、医疗具备高效的文本生成、推理、检索增强RAG能力支持模型微调、定制化开发提供完善的API和微调平台火山方舟适配企业级场景注重数据安全和隐私保护。应用场景企业智能办公、行业咨询、内容生成、智能检索、定制化AI解决方案等。文心一言ERNIE Bot开发机构百度核心特点基于百度自研的ERNIE架构聚焦中文场景具备强大的语义理解、文本生成、多模态生成文本、图像、语音能力支持多轮对话、代码生成、知识问答集成百度百科等知识库减少幻觉提供API调用、企业版定制、本地部署等服务。应用场景智能搜索、内容创作、企业客服、教育科普、多模态生成等。通义千问Tongyi Qianwen开发机构阿里巴巴核心特点基于Transformer架构结合阿里巴巴的电商、金融等场景数据具备通用的文本生成、推理、问答能力尤其擅长电商、企业办公相关场景支持模型微调、RAG检索增强提供API调用和企业级解决方案模型系列丰富适配不同算力需求。应用场景电商文案生成、企业办公自动化、智能客服、金融咨询、知识管理等。讯飞星火iFlytek Spark开发机构科大讯飞核心特点聚焦中文语音和自然语言处理具备强大的语音转文字、文字转语音、文本生成、多轮对话能力结合教育、医疗等行业场景推出行业定制模型支持本地部署、API调用适配边缘设备注重语音与文本的协同交互。应用场景教育AI错题分析、教案生成、医疗咨询、语音助手、智能办公、实时翻译等。智谱清言ChatGLM开发机构智谱AI清华大学团队孵化核心特点基于GLM架构开源友好多个模型版本如ChatGLM-3、ChatGLM-4可本地部署适配个人和中小企业具备强大的中文理解、文本生成、代码生成能力支持微调计算成本较低集成RAG能力可对接知识库。应用场景个人学习、代码开发、小型企业客服、内容创作、本地AI应用开发等。DeepSeek深度求索开发机构DeepSeek深度求索公司核心特点开源大语言模型涵盖通用模型DeepSeek-7B/16B、代码模型DeepSeek-Coder、数学模型DeepSeek-Math擅长代码生成、数学推理中文和英文处理能力均衡支持本地部署、微调适合开发者和研究者使用模型性能优秀性价比高。应用场景代码开发、数学计算、学术研究、内容创作、智能问答等与用户提到的deepseek一致。二、国外主流大语言模型ChatGPT开发机构OpenAI核心特点基于GPT架构Generative Pre-trained Transformer是目前最具影响力的大语言模型之一具备强大的文本生成、推理、多轮对话、代码生成能力支持多语言处理英文表现最优通过GPT-3.5、GPT-4等版本迭代性能不断提升GPT-4支持多模态输入文本、图像提供API调用闭源模型不支持本地部署。应用场景内容创作、代码开发、智能问答、翻译、教育科普、创意生成等与用户提到的CHAT-GPT一致。GPT-4开发机构OpenAI核心特点ChatGPT的升级版本具备更强的推理、理解、多模态处理能力上下文窗口更大支持128k token能够处理超长文本、复杂任务支持图像、文本混合输入生成的内容更准确、更连贯幻觉问题大幅改善提供API调用分为基础版和高级版GPT-4 Turbo。应用场景复杂文本分析、代码开发与调试、多模态生成、学术研究、企业决策支持等。GPT-3.5开发机构OpenAI核心特点GPT系列的经典版本性价比高算力消耗低具备良好的文本生成、多轮对话、代码生成能力上下文窗口适中支持4k/16k token是目前应用最广泛的大语言模型之一API调用成本低适合中小企业和个人使用。应用场景智能客服、内容创作、简单代码生成、多轮对话、翻译等。ClaudeClaude 2、Claude 3开发机构Anthropic核心特点以“安全、可控”为核心优势具备强大的文本生成、推理、长文本处理能力上下文窗口极大Claude 3 Opus支持200k token能够处理完整的书籍、文档支持多语言处理中文表现较好提供API调用闭源模型注重数据隐私保护。应用场景长文本分析、文档总结、法律文书处理、学术研究、企业知识库管理等。Llama 2Meta Llama 2开发机构Meta脸书核心特点开源大语言模型涵盖7B、13B、70B等多个版本支持本地部署适合开发者和研究者使用具备良好的文本生成、推理、多轮对话能力英文表现最优中文支持不断优化支持微调可适配特定领域需求算力要求适中。应用场景学术研究、本地AI应用开发、内容创作、代码生成、小型企业智能服务等。MistralMistral 7B、Mistral Large开发机构Mistral AI法国创业公司核心特点开源与闭源结合Mistral 7B开源可本地部署性能优秀、算力消耗低擅长文本生成和推理Mistral Large为闭源模型具备更强的多语言处理、代码生成、推理能力上下文窗口大API调用成本较低。应用场景本地AI开发、内容创作、代码开发、智能问答、多语言翻译等。