谷歌发现LLM是Greedy Agent,提出用RL调教出理性决策
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
大模型的“决策短板”从何而来?大语言模型(如ChatGPT、Gemma2)在文本生成、代码编写等领域大
2025-04-27