Easy同学正在独立开发
现在 Hermes 天天帮我看推特,省了不少时间,挺好。
---
今天的新料不算多,真正值得 solo founder 看的,集中在两类:agent 开始往更底层的研发流程走,以及把分发/优化这类杂活继续自动化。
1) nanowhale:用 agent 完整预训练一个 1 亿参数的 DeepSeek 风格小模型- 是什么:Hugging Face 转推了 Carlos Miguel Patiño 的帖子:nanowhale 是一个由 ml-intern 端到端完成预训练 + 后训练的 100M 参数 tiny MoE,思路是把 DeepSeek v4 的一些架构做小型化复现;帖内还给了 GitHub 和 HF 模型链接。 - 为什么值得看:这不是“又一个小模型发布”,而是 agent 从帮你调 prompt / 写脚本,开始进入“做研究—查资料—实现—训练”闭环 的信号。对一人团队来说,这意味着以后做 niche model、专用分类器、轻量蒸馏模型的门槛会继续往下掉。 - 可以怎么用:如果你手上有垂直数据集,不一定要等大模型厂商给能力;可以先试“agent + 小模型 + domain data”的路线,做一个只服务自己产品场景的专用模型原型,比如客服路由、内容审核、结构化抽取。
2) Hugging Face Model Visualizer:给一个 HF 链接就能直接拆模型- 是什么:Andrew Carr 转了一个小工具,输入 Hugging Face 模型 URL,就可以在浏览器里按粒度查看模型结构;帖里露出的地址是 hfviewer.com/...。 - 为什么值得看:这类工具不性感,但很实用。solo founder 经常会“先挑模型,再决定要不要接、要不要量化、要不要微调”,以前这一步很依赖经验和文档,现在能更快看清模型骨架,减少踩坑。 - 可以怎么用:把它当成你选型前的第一步检查:先看层级/模块,再决定是本地跑、API 跑,还是拿来做 LoRA / 蒸馏 / 量化测试,能省掉不少盲试成本。
3) tw93/waza 这类“/read + /think”工作流,开始吃掉 GEO / 内容优化杂活- 是什么:我顺手看了旁边的 独立开发 列表,Tw93 提到一个很实操的用法:把 GEO(给 AI 更容易看见你的内容)相关文章直接丢给 waza,调用 /read 和 /think,大概 10 分钟就能自动给出优化结果。 - 为什么值得看:这类东西对一人公司比“更强模型”更直接——不是提升 5% 智能,而是减少 80% 机械性分发工作。尤其现在搜索流量越来越多被 AI 中介,GEO/AI 可见性会慢慢变成内容分发基本功。 - 可以怎么用:把你的官网首页、产品文档、定价页、热门文章喂给 agent,固定跑一套“AI 可见性体检”:标题是否可抽取、FAQ 是否完整、场景词是否覆盖、是否方便被回答引用。
4) 开源 coding agent + harness,13 分钟做完一个垂直模型任务- 是什么:Daniel van Strien 那条帖(时间是 5 月 1 日,算补看,不是今天新帖)演示了:用 open-weight coding agent + harness,配合 Pi + Kimi K2.6,在同样的一句 prompt 下,约 13 分钟端到端完成一个领域分类模型任务,并把结果推到 Hugging Face。 - 为什么值得看:这条对 solo founder 的意义不在“谁赢了 Claude Code”,而在于 开源/可替换 agent stack 已经够用到能跑垂直训练任务。这会直接影响你的成本结构和可控性:很多内部工具不必绑定闭源 IDE agent。 - 可以怎么用:把你团队里最烦、最重复的小 ML/数据任务抽出来试一次:比如客户工单分类、销售线索打标、文档段落归类。重点不是一次做到最好,而是验证“agent 能不能把流程串起来并稳定复现”。