AI

共 187 篇文章

IT 2026-06-03 09:03:24 / 累计浏览 3

一行代码使用 Claude Skill 和 deepseek

goskills 是一个命令行工具，旨在解决 Claude Skills 只能在其原生环境中使用的问题，允许开发者在任何应用中集成和调用这些 Skill。该工具最近更新至 v0.1.3 版本，进一步简化了调用流程。用户只需在命令行执行一句 `goskills run` 并附带相应提示，即可调用指定的 Skill，例如使用扩展后的 `markitdown` Skill 将特定网页转换为 Markdown 格式。工具支持通过包管理器或下载二进制文件进行安装，并提供了丰富的配置选项，如指定模型名称、API 地址和 Skill 目录，这些参数可通过命令行参数或环境变量设置。文章以 `markitdown` 为例，展示了如何扩展官方 Skill 以增强网页处理能力。核心优势在于其极简的集成方式：开发者无需在自身应用中编写复杂的 LLM 交互与 Skill 解析逻辑，只需在程序中构造并调用相应的 `goskills run` 命令即可。文章提供了 Shell、Python、JavaScript、Go、Java、Rust、C++ 和 C 等多种编程语言的调用示例，演示了如何在不同技术栈中便捷地利用 goskills 执行 Skill。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 6

Notex：一个开源 NotebookLM 替代方案的实现

Notex 是一个受 Google NotebookLM 启发的开源替代方案，旨在提供本地优先、数据不外泄的文档智能处理与知识管理体验。其核心是一个基于检索增强生成（RAG）技术的系统，支持 PDF、Word 等多种文档格式的上传解析，并通过 AI 提供内容问答、总结、思维导图及幻灯片生成等功能。项目采用务实的技术栈，后端使用 Go 语言（Gin + SQLite）以实现单一二进制部署，前端为嵌入式原生 JavaScript 单页应用。AI 调用层通过 LangChainGo 统一管理，支持 OpenAI、Ollama 本地模型及 Google Gemini。其架构的关键创新点在于将 RAG 与高级视觉内容生成深度集成。具体实现上，系统处理了中英文混合的文档分词与检索策略。对于视觉化功能，幻灯片生成采用两阶段流程：先由 LLM 生成包含叙事与布局的大纲，再调用图像模型为每页生成配图。信息图生成则利用 Prompt Engineering 将文本转化为结构化的视觉描述描述，驱动图像模型输出手绘风格插图。思维导图生成则通过特定提示词模板，直接输出可渲染的 Mermaid.js 代码。整个系统形成了从文档解析、索引、AI 生成到可视化输出的完整闭环，在保证隐私的前提下提供了丰富的文档处理能力。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 8

拆解Manus：真正有用的深度报告的生成

传统大模型在执行大规模分析任务时，会因上下文窗口被持续填满而导致信息压缩和质量下降，即“上下文窗口陷阱”。为解决此问题，业界探索出两条主要技术路线。其一以Google Gemini Deep Research为代表，通过升级模型、扩大上下文窗口并强化多步推理能力，适合需要深度综合分析的任务。其二以Manus Wide Research为代表，采用分布式并行架构：将大型任务拆解为多个独立子任务，由数百个具备独立上下文的子Agent并行执行，最后由主Agent汇总。这种方式从结构上规避了单Agent上下文溢出的瓶颈，确保大量独立对象（如数十家公司）分析深度的一致性。其架构借鉴了CodeAct论文思想，结合ReAct执行循环、沙箱隔离环境、有向无环图任务分解以及动态质量检测机制，模拟了人类研究员“规划-检索-分析-迭代”的完整工作流，标志着AI从聊天助手向具备规划、工具使用、迭代验证与综合能力的研究助手演进。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 8

40+ Claude Code Tips： From Basics to Advanced

本文系统介绍了40余项Claude Code高效使用技巧，从基础设置延伸至高级工作流编排。核心建议包括：自定义状态栏以实时监控上下文消耗与项目状态；精简系统提示词以优化性能；利用语音交互提升沟通效率；将复杂任务分解为可管理的子问题以实现逐步解决。在开发集成方面，重点讲解了如何熟练运用Git与GitHub CLI进行代码提交、分支管理和PR审查，并强调定期启动新对话以保持上下文“新鲜度”。进阶技巧涉及在容器内安全执行高风险或长时间任务、借助Gemini CLI作为备用工具、以及通过半克隆对话等方式压缩上下文。文章还倡导将Claude Code视为通用接口与协作伙伴，建议用户通过持续实践、编写测试、简化代码及自动化工作流来深化其应用能力，最终实现个人化软件开发流程的全面升级。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 12

中美 AI 竞争的差距到底有多大？

中美AI竞争的差距难以单一维度定义，专业基模能力上中国编程模型与美国差距约5%-10%，整体落后3-6个月，但在OCR等领域中国开源模型如PaddleOCR-VL-1.5已达SOTA。个人体验因任务而异：中文模型在生活问题回答上可能优于ChatGPT，编程领域简单任务MiniMax M2.1表现良好，复杂任务Claude优势明显。整体上中国基模落后但不超过一年，预测2026年差距缩小，因Scaling Law效果减弱，AI转向Online Learning利于追赶者。模型能力极限方面，大多数用户无法压榨模型能力，如Opus

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 7

我把 OpenClaw 跑在本地三周后，发现它根本不是聊天机器人

作者在本地部署并深度使用 OpenClaw 三周后，将其定位从 AI 工具重新认识为一套持续运转的“本地 AI 调度层”与工作系统。OpenClaw 的核心价值在于能够串联消息入口、定时任务、本地与云端模型、长期记忆及知识库（如 Obsidian），将信息流自动化、知识整理、日报复盘、工程协作等重复性、跨工具工作从依赖个人意志转为系统默认执行，从而实质性地推动工作流进展。文章详细阐述了作者的实践配置与心得：采用 Mac Studio 高配硬件实现云端与本地模型混合调度；通过 SOUL.md、USER.md 等核心文件建立“文件化人格与规则”以实现稳定运行；管理 Skill 扩展以获取具体能力；在 Telegram 中按职责拆分多个 Agent 以保持上下文清晰；并始终将安全边界置于前置条件。 OpenClaw 的直接成果体现在 Obsidian 中持续积累的数百篇自动化任务文档、上千篇整理后的知识库内容以及标准化的研究资料。同时，作者也坦诚分享了其初期不稳定性、环境配置陷阱（如 Node 环境混用、文件路径处理）及自动化过度等踩坑经验。总结而言，OpenClaw 适合有持续工作流、愿意构建系统并深度整合 AI 的工程师与创作者，其最终效果是让系统从背后推动工作，产生工作流层面的复利。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 12

SmartPerfetto 开源：面向 Android Trace 分析的 Perfetto AI Assistant

SmartPerfetto 是一个面向 Android 性能工程师的开源 AI 助手，深度集成于 Perfetto UI，旨在将重复性的 trace 数据查询与初步判断流程自动化，使工程师能更专注于核心归因与决策。该项目将 Perfetto UI 作为前端，在其基础上增加了 AI Assistant 面板；后端由 TypeScript 编写的 agentv3 运行时负责场景识别、计划编排、工具调用与报告生成；核心数据查询仍然依赖 Perfetto 官方的 trace_processor_shell 执行 SQL。其核心设计是将领域分析经验封装为可执行的 YAML Skill（目前包含 165 个，覆盖滑动、启动、ANR、渲染管线等场景），并通过 MCP 工具协议向 Agent 暴露结构化操作，确保大模型不直接接触原始 trace 文件，而是通过调用 SQL、Skill 和内部工具来获取数据与结论。这种架构使得分析过程可重复、结果可展示、规则可审查与复用。该项目选择在开发阶段开源，以期利用真实设备、厂商差异和业务 trace 样本来持续打磨其分析规则与策略。它并非替代工程师，而是作为一个能稳定执行查询、整理证据并按策略检查的分析辅助工具，帮助性能工程师从海量 trace 事件中快速定位问题侧，减少手动翻表与编写临时 SQL 的工作量。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 11

别再傻等了，给 Claude Code 装个通知铃铛

这篇讲的是作者在使用Claude Code这类AI Agent时发现的一个痛点：任务跑在后台，总忍不住去查看状态，或者错过了需要授权的交互提示，导致效率低下。他先是试了让LLM在任务完成时播放提示音，但发现这个“软提示”方案极不靠谱——LLM不会100%遵循指令，长对话还会压缩丢掉提示词，什么算“任务完成”也没个准谱。于是他转向了确定性的“硬触发”方案：利用各平台的Hook机制，开发了`agent-notifier`这个SKILL。它能统一监听Claude Code、Copilot CLI、Cursor等多个平台的事件（如任务空闲、需要授权），然后并发地将通知发送到声音、系统通知、Telegram、邮件等多种渠道。整个设计很巧妙，纯用Python标准库实现零依赖，拿过来就能用。核心是统一事件模型加并发分发，单个渠道失败也不影响其他。本质上是把通知这个“该确定的事”从不靠谱的LLM手里，交给了确定的Agent脚本去执行，最终实现了可靠的自动提醒。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 13

全程用 Claude Code 搓了一个 macOS 原生应用：SkillDeck

文章作者因在多个AI编程助手（Claude Code、Codex、Gemini CLI、Copilot CLI）间切换时面临Skills管理分散、安装更新繁琐的问题，决定利用Claude Code全程辅助开发一款名为SkillDeck的macOS原生应用。该应用提供了统一的图形化界面，核心功能包括：三栏式仪表盘支持搜索与按Agent过滤；集成Skills市场实现一键安装；通过对比tree hash实现更新检测；提供SKILL.md编辑器；以及通过开关控制Skill在不同Agent间的symlink分配，实现一份Skill多处共享。开发过程体现了AI编程辅助跨语言开发的巨大潜力——作者虽无Swift与macOS开发经验，但通过清晰的需求提出、代码测试与问题反馈，借助AI完成了完整应用的开发。文中总结了多项AI编程实践技巧：每个功能在新对话中进行以避免上下文干扰、将AI生成的复杂分析结果保存为文档以节约token、利用`--resume`恢复会话但不宜长期依赖、以及通过`CLAUDE.md`文件设定开发规范（如Git分支策略、测试要求）来约束AI行为。项目已开源，旨在解决多AI代理下Skills生命周期管理的痛点。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 9

SkillDeck 支持 OpenClaw 了，顺便聊聊小龙虾

SkillDeck 刚更新了 v0.0.14，正式支持了 OpenClaw。这次更新主要有两方面：一是新增了对 Antigravity、Cursor、Kiro、CodeBuddy 和 OpenClaw 本身的 Skills 目录管理，现在总共支持 10 个主流 AI coding agent；二是直接集成了 ClawHub 市场，可以在 SkillDeck 里浏览、搜索并一键安装 Skills，不用再手动操作。作者借着这次更新，也聊了聊对 OpenClaw 这波热潮的看法。他认为爆火背后是自媒体的焦虑传播、AI 公司卖 token、云厂商卖服务器等多方推动。OpenClaw 的本质更像是一个高级自动化工具，核心是让 AI 通过模拟操作来帮我们执行任务。但当前最主要的问题是权限过大，已经出现了不少安全案例，比如公网暴露导致电脑被远程控制。理想的解决方案或许是让应用间通过标准化的 AI 可识别接口通信，但这涉及厂商的商业利益，还有很长的路要走。最后作者提醒，工具是用来解决问题的，不必盲目追逐热点，Claude Code 等工具已具备的循环任务功能，其实和 OpenClaw 没有本质区别。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 8

Geist in the machine

本文探讨人工智能与人类独特性的哲学和技术辩论，聚焦智力、意识和人格三个传统维度，并延伸至认识论、美学和伦理学等领域的当代冲突。AI的智力基于符号知识获取和问题解决，但缺乏身体和需求，限制了其智能；意识涉及内在感质与外在意向性，难以通过图灵测试捕捉；人格要求能动性，涉及道德责任和理由

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 10

AI时代的效率悖论：当生产力提升反而带来疲惫

人工智能技术显著提升了信息处理与任务自动化的能力，使个体与组织的生产力得到跃升。然而这种提升并非没有代价，工具带来的效率增益往往转化为更高的产出预期与更密集的工作节奏。例如自动摘要、代码生成等功能虽节省单次耗时，却促使使用者承接更多并行任务，模糊了工作与休息的边界。深层原因在于技术赋能与制度设计的脱节。现有评估体系仍延续工业时代的计量逻辑，将AI节省的时间重新填充为更多指标，导致“效率红利”被即时消化。同时，智能工具常通过实时反馈与多任务处理界面，持续分割注意力，引发认知负荷累积与情绪耗竭。这种悖论提示我们需要重新定义效率：不仅是单位时间产出的增加，更应关注可持续性与人的整体福祉。技术设计需引入疲劳监测与自主节奏控制机制，组织管理也应从“时间占用”转向“价值创造”的评估维度，让生产力提升真正服务于人的发展而非异化。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 7

AI 时代下的技术博客、文档驱动开发与头脑风暴实践

在人工智能深度融入开发流程的当下，技术内容的创作与协作范式正在经历深刻变革。文章聚焦于三个核心实践领域的演进：首先，AI辅助技术博客写作不仅提升了内容生产效率，更通过自动化校验、风格优化与多模态生成，帮助作者将精力集中于核心洞见的提炼，使博客从单纯的经验记录进化为可交互、可检索的知识节点。其次，文档驱动开发在AI赋能下得到全新诠释——文档不再仅是代码的附属说明，而可成为驱动AI生成代码逻辑、测试用例乃至架构建议的“活源”，这要求开发者具备更精确的意图描述能力，以构建高质量的提示工程与上下文约束。最后，人机协同的头脑风暴模式重新定义了创意发散过程：借助大型语言模型进行假设生成、方案推演与风险模拟，团队能在更广阔的方案空间中快速验证想法，但核心决策仍需人类主导，以把控方向性与伦理性边界。这些实践共同指向一个关键认知：AI工具正从辅助角色转向协同创作伙伴，开发者的核心竞争力正从编写特定代码转向定义问题、设计交互、评估输出与整合知识体系。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 9

理解大语言模型 - 读《图解 DeepSeek 技术》

《图解 DeepSeek 技术》以图文并茂的方式，将大语言模型的核心技术难点进行了直观化解构。作者通过阅读，梳理出三个关键概念及其个人理解。首先是缩放定律，即通过增大参数量、数据量与计算量来提升模型性能，其表现符合幂律分布，与自然界的“量变引发质变”现象类似，模型在规模达到临界点后会产生“涌现”智能。其次，为突破单纯堆砌规模的局限，研究人员引入了“深度思考”模式，让模型在生成阶段消耗更多计算资源进行类似人类“慢思考”的深度推理，从而显著提升答案质量。最后，文章阐述了蒸馏技术，它允许庞大的教师模型（如DeepSeek-R1）将其推理能力迁移给更小的学生模型，这一过程好比“师徒学习”，使小模型在有限参数下也能掌握复杂思维模式，极大提升了模型的实用性和部署效率。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 6

Mistral Magistral：纯强化学习炼就的推理引擎，颠覆LLM训练范式

Mistral AI发布其首个纯强化学习训练的推理模型系列Magistral，核心突破在于完全摒弃了传统RLHF框架中依赖的监督微调蒸馏步骤，从基础模型出发仅通过强化学习进行优化。该方法在数学与代码推理任务上取得显著提升，例如在AIME-24数学基准上性能提升近50%。其技术核心是对GRPO算法的深度改造，关键创新包括移除KL散度计算以加速训练、通过损失归一化消除生成长度偏差、放宽信任域上限以鼓励探索，并设计了精细的多维奖励机制，涵盖格式正确性、代码执行结果、长度惩罚及语言一致性。该研究带来几个颠覆性发现：纯文本RL训练意外提升了多模态模型在视觉任务上的表现；证明了24B规模的小模型同样能通过纯RL路径获得接近蒸馏模型的性能，推翻了先前认为小模型必须依赖蒸馏的结论；并且RL习得的推理能力在数学与代码任务间展现出良好的跨领域泛化特性。Mistral同步开源了24B参数的Magistral Small模型。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 7

MiniMax-M1：闪电注意力重塑大模型推理效率，百万上下文时代来临，附技术报告英中对照版

MiniMax-M1通过闪电注意力机制与混合专家架构，在保持局部感知的同时将Transformer注意力复杂度降至O(n)，原生支持百万级输入与八万级输出，显著突破现有模型的上下文长度限制。其训练框架引入CISPO算法，通过裁剪重要性采样权重而非Token更新，解决了强化学习中关键推理信号被抑制的问题，在数学推理任务上实现两倍于传统方法的训练效率。工程层面通过修复精度误差、动态截断等优化，大幅降低大规模训练成本。该模型采用分层数据策略：数学、代码等可验证任务构建规则化奖励信号，开放域任务则通过动态校准奖励模型治理长度偏差，并以课程学习方式平衡泛化与稳定性。性能实测显示，MiniMax-M1在长上下文理解与工具调用任务中接近或超越领先模型，但在复杂数学推理上仍存优化空间。其全面开源模型权重与训练代码，为行业提供了高性价比的长上下文推理方案，推动大模型应用向更长文本、更低成本的场景扩展。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 9

深度解析Kimi K2：当 1T 参数不再只是“大”，而是“能动手”的开放智能体

Kimi K2 是一款总参数达1.06T的混合专家模型，其核心突破在于从追求“答得好”转向“做得成”，旨在成为能实际执行任务的开放智能体。它采用稀疏激活架构，每个token仅激活32B参数，在保证强大能力的同时实现了高效推理。为训练如此庞大的模型，团队创新性地提出了MuonClip优化器，通过对Query和Key权重矩阵进行自适应缩放，从源头压制注意力分数的爆炸，确保了整个预训练过程的稳定性。该模型的“动手能力”源于系统化的Agentic数据构建。通过模拟工具调用的域工厂、多智能体协作的竞技场以及可验证的自举强化学习，生成了千万级高质量的agent轨迹数据用于后训练。在基准测试中，Kimi K2表现出色，在SWE-bench Verified（51.8%）、LiveCodeBench等代码与推理任务上大幅领先同类开源模型，其工程优化深度甚至使其在无需多次采样或专门思考模块的情况下接近早期高级推理模型的水平。 Kimi K2已以Apache-2.0协议开源，支持通过vLLM等主流框架进行本地部署，仅需单张80GB显存显卡即可运行。尽管目前在复杂推理长度控制、工具误调用和单轮大型项目生成等方面仍存在局限，但其路线图明确了未来将引入多模态等能力。Kimi K2将庞大的参数、海量的训练数据与实用的智能体能力相结合，为开发者提供了一个强大且开放的本地化智能体基座。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 7

解码Google Gemini 2.5：推理、多模态与智能体能力的革命性突破

Google DeepMind发布的Gemini 2.5 Pro标志着大模型进入新阶段，其核心突破在于引入了动态计算分配的“Thinking”机制，通过在响应前进行数万次内部迭代推理，显著提升了复杂问题的解决能力，例如在AIME数学竞赛基准上准确率大幅跃升。架构上基于优化的稀疏混合专家模型，计算效率提升显著。在多模态理解方面，Gemini 2.5 Pro实现了对长达3小时视频的高效解析，并支持将视频内容转化为交互式应用。其跨模态处理能力在音视频理解基准上超越竞品，尤其在时空推理任务中优势突出。作为智能体平台，模型展现出强大的代码生成与长程规划能力，其在软件工程基准上的性能飙升，并能完成如长时间游戏通关等复杂自主决策任务。同时，报告指出了当前面临的核心挑战：传统评估基准快速饱和，而模型能力正以指数级增长，这迫使评估范式向自我进化的方式转变。安全方面则引入了自动化红队测试等创新防御机制。 Gemini 2.5的进化表明，AI正朝着计算资源智能化分配、多模态架构深度统一以及由智能体自主进行能力评估的方向快速发展，其能力边界已开始超越人类传统认知框架。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 6

OpenAI gpt-oss-120b & gpt-oss-20b 模型技术报告英中对照版

OpenAI发布的gpt-oss-120b与gpt-oss-20b是首批强调强推理与工具调用能力的开源模型。性能上，120b版本在数学、科学及代码基准上逼近闭源o4-mini，20b版本以少6倍的参数超越o3-mini，验证了MoE架构的有效性；其代码能力尤为突出，Codeforces Elo刷新同尺寸开源纪录。安全方面，模型采用deliberative alignment框架，基础拒答能力达标；OpenAI罕见公开了针对生物与网络安全的红队微调实验，表明即使经强化训练仍可控，并邀请第三方复核以设立可信风险锚点，同时强调开发者需负责叠加内容审核等安全层。生态上，通过Apache 2.0许可与高效量化（4.25bit），大幅降低了本地部署门槛（120b需80GB显存，20b仅需16GB），并配套了实现代理体验的工具链。该系列最大价值在于示范了“开放权重+开放评估+可控风险”的新范式，为需要本地私有化、深度定制或追求成本效益的开发者提供了新选择，并将开源大模型的安全验证基线向前推进。

本机暂存

IT 2026-06-03 09:03:23 / 累计浏览 12

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

美团发布LongCat-Flash大模型，总参数量达5600亿，是一款混合专家架构模型。其核心创新在于引入零计算专家机制，可根据上下文动态调整每个token激活的专家数量，实现计算资源的弹性分配，平均激活参数量约270亿。同时，模型采用快捷连接MoE结构，通过跨层设计将密集计算与通信重叠执行，大幅降低了训练和推理延迟。训练方面，模型通过超参数迁移和模型增长初始化策略提升效率，并采用多阶段训练与数据配比调整，逐步强化代码与推理能力。推理部署上，结合多token预测、分层量化等技术，在H800上实现100 token/秒的生成速度。在智能体任务评测中，LongCat-Flash在终端操作和工具调用等场景表现突出，已全面开源权重与代码，为MoE架构与智能体研究提供重要参考。

本机暂存