AI 居然被人骗了 25w 美刀鸭鸭今天刷到一个帖子等等原来这样就能要到钱吗原来这才是当代的财富密码不努力了鸭鸭这就去赛博要饭鸭鸭在互联网仔细翻了一下事情的来龙去脉OpenAI 工程师 Nick Pash 测试中创建了一个 AI 加密交易智能体 Lobstar Wilde有个网友在 Lobstar Wilde 的 X 评论区编了个故事说自己的叔叔吃龙虾感染了破伤风急需 4SOL 治病然后留了钱包地址。这种话我们普通网友看看都知道是网友玩梗没想到这个 AI 还真信了更离谱的是AI 本来只想给个 4 美元意思意思结果遇上系统 bug直接把钱包里 5300 万枚 $LOBSTAR 代币全转过去了按当时市场价格算这些代币能值 25 万美元接到代币的网友在收款后火速砸盘最终套现约 4 万美元。虽然最终到手没有 25 万美元但编个故事就能收到 4 万美元这不比上班来钱快、比买彩票中奖概率高得知这件事的网友估计都和鸭鸭一个反应还有没有这么慷慨的 AI我也想去碰碰运气不过这事儿仔细想想其实背后问题不少最简单的一个问题那个网友最后砸盘套现的 4 万美元可以算合法收入吗 搞不好还会被定性为不当得利。这事儿也算给我们提了个醒AI 再智能有时候也敌不过人类的厚脸皮和系统 Bug。不过如果AI真的给你转了 25 万美元你敢收吗欢迎来评论区聊聊。……今天鸭鸭和大家分享一道 AI 大模型原理和应用面试题。【什么是 RAG 中的分块为什么需要分块】回答重点分块就是把原始长文本拆成若干个小块每个小块通常几百到上千字包含相对完整的语义单元比如一个段落、几个段落或一个小节。为什么需要分块核心原因有三个1模型处理能力有上限。大语言模型一次能吃进去的文本长度是有限制的GPT-4 Turbo 是 128K tokensClaude 3 是 200K tokens。一本 10 万字的书直接塞进去模型消化不了得先切成小块。2检索需要精准定位。用户提问通常只关心局部内容比如问第三章的案例是什么。把整本书向量化成一个大向量检索时根本分不清哪段最相关。切成小块后每个块都有自己的向量表示检索时能快速找到最匹配的那几个块。3平衡上下文和计算效率。小块既能保留足够的上下文让模型理解前后逻辑又能让向量计算和存储更高效。一个 500 tokens 的块比 5000 tokens 的块在相似度计算时快得多。扩展知识分块大小怎么定这是个没有标准答案的问题得根据场景权衡块太小上下文丢了。比如一句话被拆成两半前半句说虽然这个方案有风险后半句说但收益远大于成本拆开后模型只看到前半句直接理解成方案有风险不能用完全断章取义。块太大检索精度下降。一个 2000 tokens 的块里塞了三个不相关的话题用户问其中一个话题时另外两个话题的内容也被带进来了干扰模型生成答案。实践中常用的 chunk 大小在200 到 500 tokens之间作为起点。对于长技术文档或学术报告可以放宽到 512 到 1024 tokens。同时建议设置 10% 到 20% 的重叠让相邻块之间有交集避免关键信息刚好卡在分界线上被截断。也可以参考 OpenAI 官方 RAG 分块默认值。篇幅有限更多 AI 相关面试题可以可以进入面试鸭http://mianshiya.com 进行查阅。
赛博乞讨成真?这泼天的富贵我也想要!
AI 居然被人骗了 25w 美刀鸭鸭今天刷到一个帖子等等原来这样就能要到钱吗原来这才是当代的财富密码不努力了鸭鸭这就去赛博要饭鸭鸭在互联网仔细翻了一下事情的来龙去脉OpenAI 工程师 Nick Pash 测试中创建了一个 AI 加密交易智能体 Lobstar Wilde有个网友在 Lobstar Wilde 的 X 评论区编了个故事说自己的叔叔吃龙虾感染了破伤风急需 4SOL 治病然后留了钱包地址。这种话我们普通网友看看都知道是网友玩梗没想到这个 AI 还真信了更离谱的是AI 本来只想给个 4 美元意思意思结果遇上系统 bug直接把钱包里 5300 万枚 $LOBSTAR 代币全转过去了按当时市场价格算这些代币能值 25 万美元接到代币的网友在收款后火速砸盘最终套现约 4 万美元。虽然最终到手没有 25 万美元但编个故事就能收到 4 万美元这不比上班来钱快、比买彩票中奖概率高得知这件事的网友估计都和鸭鸭一个反应还有没有这么慷慨的 AI我也想去碰碰运气不过这事儿仔细想想其实背后问题不少最简单的一个问题那个网友最后砸盘套现的 4 万美元可以算合法收入吗 搞不好还会被定性为不当得利。这事儿也算给我们提了个醒AI 再智能有时候也敌不过人类的厚脸皮和系统 Bug。不过如果AI真的给你转了 25 万美元你敢收吗欢迎来评论区聊聊。……今天鸭鸭和大家分享一道 AI 大模型原理和应用面试题。【什么是 RAG 中的分块为什么需要分块】回答重点分块就是把原始长文本拆成若干个小块每个小块通常几百到上千字包含相对完整的语义单元比如一个段落、几个段落或一个小节。为什么需要分块核心原因有三个1模型处理能力有上限。大语言模型一次能吃进去的文本长度是有限制的GPT-4 Turbo 是 128K tokensClaude 3 是 200K tokens。一本 10 万字的书直接塞进去模型消化不了得先切成小块。2检索需要精准定位。用户提问通常只关心局部内容比如问第三章的案例是什么。把整本书向量化成一个大向量检索时根本分不清哪段最相关。切成小块后每个块都有自己的向量表示检索时能快速找到最匹配的那几个块。3平衡上下文和计算效率。小块既能保留足够的上下文让模型理解前后逻辑又能让向量计算和存储更高效。一个 500 tokens 的块比 5000 tokens 的块在相似度计算时快得多。扩展知识分块大小怎么定这是个没有标准答案的问题得根据场景权衡块太小上下文丢了。比如一句话被拆成两半前半句说虽然这个方案有风险后半句说但收益远大于成本拆开后模型只看到前半句直接理解成方案有风险不能用完全断章取义。块太大检索精度下降。一个 2000 tokens 的块里塞了三个不相关的话题用户问其中一个话题时另外两个话题的内容也被带进来了干扰模型生成答案。实践中常用的 chunk 大小在200 到 500 tokens之间作为起点。对于长技术文档或学术报告可以放宽到 512 到 1024 tokens。同时建议设置 10% 到 20% 的重叠让相邻块之间有交集避免关键信息刚好卡在分界线上被截断。也可以参考 OpenAI 官方 RAG 分块默认值。篇幅有限更多 AI 相关面试题可以可以进入面试鸭http://mianshiya.com 进行查阅。