YC科技资讯网

小米也发了一篇解释 XLA 的文章之所以叫 XLA 而不是 VLA,是因为原生多

小米也发了一篇解释 XLA 的文章

之所以叫 XLA 而不是 VLA,是因为原生多模态输入,不只是 V 的视觉。

同样也不输出 CoT,因为逻辑推理不一定要用语言来体现,而且输出文本浪费时间,这也是俺一直说的,符合更多共识的做法。