如果你现在还把“写代码”这件事,和“要学一门编程语言、啃完几十小时课程、装一堆开发环境”绑在一起,那你大概率会被这个故事震一下。主角 Elena,本职是 AI 研究员:每天看论文、测模型、写报告,懂算法、懂模型原理,看 paper ...
过去几周,我对于 Vibe Engineering 的实践有了更多的体会, 今天再次总结一下。其实也能看出来我避免使用 Vibe Coding 这个词,是因为当下的重点已经不再是代码,而是一些更高维度的东西。另外,本文的 AI 含量我会尽量控制在 5 ...
LLM幻觉问题至今没有根治方案。RAG能缓解一部分,但成本高、架构复杂,而且只适用于有外部知识源的场景。而对于模型"应该知道但经常搞错"的那类问题,比如历史事件的时间线、人物履历的细节,RAG帮不上什么忙。Chain-of-Verification( ...
几小时后,20个由他维护的NPM包——包括被广泛使用的 color, strip-ansi, is-fullwidth-code-point 等——被静默替换成包含恶意代码的新版本。这些包每周合计下载量超过 ...
2024年,新加坡。一支名为Butterfly ...
今天刷到 MiniMax 官方账号发布新一代大模型 M2.1,可以看到两个很明显的趋势,1 虽然是小版本的更新,但是相比上一代提升非常的明显;2 在横向的对比测试中,可以看到M2.1已经跟top模型不相上下,甚至在一些task上达到了sota的水平。 我这两天拿它做了一轮比较硬的测试,前后大概跑了 56 万 token,主要看两件事:编程能力和 Agent ...