YC科技资讯网

我之前做猫咪塔罗用的是 Nano Banana Pro,大概用了 70 美元的

我之前做猫咪塔罗用的是 Nano Banana Pro,大概用了 70 美元的 Token。制作过程完全符合 80/20 法则:80% 的 Token 花在了 20% 的牌上。大部分牌都可以一次成功,但有少数就很容易出错,需要多次抽卡。

容易出错的主要是权杖、宝剑、星币的数字牌,尤其是数字较大的牌,生成时很可能出现物品数量不正确的情况。这是模型的先天缺陷。无论扩散模型还是多模态生成模型,在生成时都遵循“视觉优先于语言”的原则,很难严格遵守设定的物品数量。

其中最难生成的是权杖十。我估计至少花了 30 美元在这张牌上。不仅需要大量抽卡,对提示词也进行了反复优化。

刚才试了一下 GPT Image 2,在这个问题上明显比 Nano Banana Pro 强。虽然对物品数量的遵循仍然做不到百分之百准确,但一般不超过三次就能得到一个正确结果。

图一为之前 Nano Banana Pro 的生成结果。图二为 GPT Image 2 的生成结果。