倪光南 院士
探讨RAG技术、AI代理及AI伦理挑战
最新研究指出,AI聊天机器人在约一半情况下会提供存在问题的医疗建议。
来自美国、加拿大和英国的研究团队对五款主流平台ChatGPT、Gemini、Meta AI、Grok和DeepSeek进行了测试。他们围绕五类健康主题提出10个问题。本周发表在《BMJ Open》的结果显示,在全部回复中,约50%存在问题,其中近20%被评估为严重问题。
研究发现,这些模型在封闭式问题以及疫苗、癌症等领域表现相对较好,但在开放式提问以及干细胞、营养等话题上表现明显下滑。
研究人员指出,回答通常语气非常确定,但缺乏可靠依据,没有任何一个模型能够提供完整且准确的参考来源。同时,仅有两次拒绝回答的情况,且均来自Meta AI。
这一结果进一步引发外界对生成式AI使用方式的担忧。这类系统既没有医疗资质,也缺乏进行临床判断的能力,却正被越来越多用户用于健康咨询。
OpenAI表示,每周有超过2亿用户向ChatGPT咨询健康相关问题,并在1月推出面向普通用户和医疗专业人士的健康工具。Anthropic也在同月宣布,将为Claude引入医疗服务能力。
研究作者警告,在缺乏公众教育和监管的情况下,大规模部署AI聊天机器人可能加剧错误信息传播。研究人员写道,这些结果凸显出明显的行为局限,也表明有必要重新评估AI聊天机器人在公共医疗沟通中的使用方式,因为系统可能生成听起来权威但实际上并不可靠的回答。
关注公众号
立刻获取最新消息及人工咨询