最近跟几个做AI落地的朋友聊,大家都在吐槽同一个问题:Agent好用是好用,但真的"烧钱"。
一个稍微复杂的任务,来回调十几二十次大模型,Token 哗哗地消耗啊,一天下来账单真的受不了。
分享几个省钱的招:
第一,给 Agent加个="刹车"。设定最大轮次上限,超过就终止或降级,别让它在死循环里烧Token。
第二,缓存和共享上下文。同一个工具描述、系统提示、上下文块反复传,是大头开销。能缓存就缓存,能把多个调用做上下文复用就别重复传。
第三,模型选型要"丰俭由人"。简单任务用小模型,复杂推理才上大模型,动态路由调度,成本能砍掉一半不止。