大模型幻觉,究竟是怎么来的?谷歌、苹果等机构研究人员发现,大模型知道的远比表现的要多。它们能够在内部编码正确答案,却依旧输出了错误内容。
它们可能在内部编码了正确答案,却持续生成错误答案。
不只是看最终的输出,而是分析「确切的答案token」,如若修改,将会改变答案的正确性的相应token。