几个月来,极其私密和敏感的 ChatGPT 对话一直泄露到一个意想不到的地方:Google Search Console (GSC),这是一个开发者通常用来监控搜索流量的工具,而不是用来窥探私人聊天的工具。
通常情况下,网站管理员访问 Google Search Console (GSC) 性能报告时,会看到基于关键词或短语的查询,这些关键词或短语是互联网用户在 Google 中输入以查找相关内容时使用的。但从今年 9 月开始,GSC 中也出现了奇怪的查询,有时甚至超过 300 个字符。这些聊天记录仅显示用户输入的内容,似乎是一些不知情的用户在与聊天机器人互动,希望解决人际关系或业务问题,他们可能认为这些对话会保持私密。
Quantable 是一家分析咨询公司的老板 Jason Packer,上个月在一篇详细的博客文章中率先指出了这个问题。
为了查明泄露的真正原因,他与“网络侦探”兼网站优化顾问斯洛博丹·马尼奇 (Slobodan Manić) 联手。他们共同开展的测试表明,他们可能已经发现了“OpenAI 直接抓取谷歌搜索并引用真实用户提示的首个确凿证据”。他们的调查似乎证实,这家人工智能巨头正在侵犯用户隐私,在某些情况下,为了维持用户参与度,他们会获取谷歌原本不会分享的搜索数据。
OpenAI 拒绝了 Ars 的请求,即确认 Packer 和 Manić 在他们的博客中提出的理论是否正确,或者回答他们提出的任何其他可能帮助用户确定问题范围的问题。
然而,OpenAI 的一位发言人证实,该公司“已经意识到”这个问题,并且已经“解决”了一个“暂时影响少量搜索查询路由方式”的故障。
Packer告诉Ars,他“非常高兴OpenAI能够迅速解决这个问题”。但他指出,OpenAI的回应未能确认OpenAI是否在抓取谷歌的数据,这让人怀疑问题是否真的彻底解决了。
谷歌拒绝置评。
比之前的 ChatGPT 泄露事件“更奇怪”
Packer在GSC上看到的第一个奇怪的ChatGPT查询,是一位疑似女性用户提出的,语无伦次的意识流问题。她请求ChatGPT评估某些行为,以帮助她判断一个捉弄她的男孩是否对她有意思。另一个奇怪的查询似乎来自一位办公室经理,他在分享业务信息的同时,也在策划重返办公室的公告。
这只是他在一个网站上审阅的200多条查询中的两条——其中“有些查询相当离谱”,帕克告诉Ars。帕克在他的博客中总结道,这些查询应该“提醒我们,提示信息并不像你想象的那样私密!”
帕克怀疑这些查询与《信息报》(The Information)8月份的报道有关,该报道援引消息人士的话称,OpenAI正在抓取谷歌搜索结果来驱动ChatGPT的回复。消息人士称,OpenAI依赖谷歌来回答ChatGPT提出的关于时事(例如新闻或体育)的信息请求。
OpenAI尚未证实其正在抓取谷歌搜索引擎结果页面(SERP)。然而,帕克认为,他对ChatGPT泄露数据的测试可能表明,OpenAI不仅会抓取“一般的SERP以获取数据”,还会向谷歌搜索发送用户提示。
马尼奇帮助帕克解开了这个谜题的很大一部分。他发现,这些奇怪的查询之所以出现在某个网站的谷歌搜索中心(GSC)中,是因为该网站在谷歌搜索“https://openai.com/index/chatgpt/”时排名很高——“https://openai.com/index/chatgpt/”是 ChatGPT 的网址,而这个网址被附加到出现在 GSC 中的每个奇怪查询的开头。
谷歌似乎对URL进行了标记化处理,将其拆分为对关键词“openai + index + chatgpt”的搜索。Parker和Manić提出,因此,使用谷歌搜索网站(GSC)且在这些关键词上排名靠前的网站很可能遇到ChatGPT泄露事件,包括那些报道过先前ChatGPT泄露事件的网站,这些泄露事件中聊天记录被谷歌搜索结果索引。Ars利用他们的建议在GSC中查找查询,从而验证了类似的字符串。
“不过别搞混了,这跟谷歌索引我们不想让他们索引的内容是完全不同的ChatGPT错误,”帕克写道。“更奇怪,但没那么严重。”
目前尚不清楚 OpenAI 究竟修复了什么,但 Packer 和 Manić 提出了一种可能的聊天记录泄露途径。ChatGPT 用户访问 Google Search Console (GSC) 中发现的每个奇怪查询的起始 URL 时,会遇到一个似乎存在漏洞的提示框,导致“该页面的 URL 被添加到提示框中”。他们解释说,问题似乎在于:
通常情况下,ChatGPT 5 会在认为需要时进行网络搜索,尤其是在搜索一些比较冷门或需要近期搜索的内容时。但是,这个存在漏洞的提示框还包含查询参数“hints=search”,导致它几乎总是执行搜索:https://chatgpt.com/?hints=search&openaicom_referred=true&model=gpt-5
帕克在他的博客中指出,显然其中一些搜索依赖于谷歌,错误地将用户在提示框中输入的任何内容(前面加上“https://openai.com/index/chatgpt/”)发送到了GSC。正如帕克解释的那样,“我们知道它一定是抓取了这些内容,而不是使用API或某种私有连接——因为其他选项不会显示在GSC中。”
帕克声称,这意味着“OpenAI会将任何需要谷歌搜索的提示信息分享给谷歌和任何为其进行数据抓取的人”,“然后还会分享给搜索结果中出现的网站!天哪。”
在帕克看来,过去两个月里,所有使用谷歌搜索的 ChatGPT 提示都有可能被泄露。
OpenAI 声称只有少量查询被泄露,但拒绝提供更精确的估计。因此,目前尚不清楚每周使用 ChatGPT 的 7 亿用户中,有多少人的查询请求被路由到 Google Search Console (GSC)。
OpenAI 的回应让用户“仍有疑问”。
8月份,ChatGPT提示出现在谷歌搜索结果中后,OpenAI澄清说,是用户点击了某个复选框,将这些提示公开,OpenAI辩称这“足够清晰”。但后来,由于用户明显感到被误导而公开了私人聊天记录,这家人工智能公司紧急从谷歌搜索结果页面(SERP)中移除了这些聊天记录。
Packer告诉Ars,之前的泄露事件与GSC泄露事件的一个主要区别在于,前一次丑闻中受害的用户,至少在某种程度上,“不得不主动分享”他们泄露的聊天记录。而在最近的这次事件中,“没有人点击分享”,也没有合理的办法来阻止他们的聊天记录被曝光。
“OpenAI 的发展速度是否太快以至于没有考虑到隐私问题,还是他们根本不在乎?”帕克在他的博客中提出了这样的疑问。
对于一些用户来说,最令人不安的是——除非他们的提示信息可能包含识别信息,否则聊天记录中不会关联到他们的身份——与之前的丑闻不同,似乎没有任何方法可以从 GSC 中删除泄露的聊天记录。
Packer 和 Manić 仍然对 OpenAI 的修复方案能在多大程度上阻止该问题存在“疑问”。
马尼奇原本希望OpenAI能够确认,在https://chatgpt.com上输入的、会触发谷歌搜索的提示信息是否也受到了影响。但OpenAI并未就此问题,以及关于泄露规模的更广泛问题作出回应。马尼奇最担心的是,OpenAI的抓取行为可能会“加剧谷歌搜索控制台中的‘鳄鱼嘴’现象”,SEO研究人员已经指出,这种令人担忧的趋势会导致展示次数激增,但点击量却下降。
OpenAI 也拒绝澄清 Packer 最关心的问题。他不禁想知道,该公司所谓的“修复”究竟是终止了 OpenAI 对搜索查询的“路由”,从而不再向 Google 搜索发送原始搜索提示,还是他们完全停止了从 Google 搜索抓取数据?
“我们仍然不知道这个漏洞是只存在于那个特定页面,还是普遍存在,”帕克告诉Ars。“无论如何,这都很严重,也表明OpenAI在隐私问题上多么缺乏谨慎。”



发表回复