文章详情

近年来,随着人工智能技术的飞速发展,网络爬虫对维基媒体项目造成的带宽压力日益严重。维基媒体基金会的代表指出,自2024年
2025-04-28 07:33:15
文章详情介绍
近年来,随着人工智能技术的飞速发展,网络爬虫对维基媒体项目造成的带宽压力日益严重。维基媒体基金会的代表指出,自2024年1月以来,用于服务多媒体文件的带宽消耗增加了50%。这一增长主要来源于自动化程序,这些程序不断从维基媒体的开放许可图像库中抓取内容,以供 AI 模型进行训练。
维基媒体基金会的工作人员 Birgit Mueller、Chris Danis 和 Giuseppe Lavagetto 在公开信中表示,这一带宽增加并非源于人类用户,而是由于机器人程序的强大需求。他们强调:“我们的基础设施旨在承受人类用户在高兴趣事件期间的突发流量,但爬虫产生的流量却是前所未有的,给我们带来了越来越大的风险和成本。”
根据维基媒体的统计,约65% 的高成本内容流量是由这些爬虫生成的,尽管爬虫只占页面浏览量的35%。这是因为维基媒体的缓存方案将热门内容分发到全球各地的数据中心以提高性能,而爬虫在访问页面时并不考虑内容的受欢迎程度,因此会请求不那么受欢迎的内容,这使得内容必须从核心数据中心获取,消耗了更多的计算资源。
在过去的一年中,关于网络爬虫的过度抓取问题已经引起了多个开源项目的关注。例如,Git 托管服务 Sourcehut、Diaspora 开发者 Dennis Schubert、修理网站 iFixit 和 ReadTheDocs 等均对此表示不满。他们都反映了 AI 爬虫在内容抓取中表现出的过度需求。
维基媒体基金会在其2025/2026年的年度规划中提出了 “减少爬虫生成的流量” 的目标,计划减少20% 的请求率和30% 的带宽使用。他们希望能够优先考虑人类用户的使用体验,并支持维基媒体项目和贡献者。
虽然许多网站认识到为爬虫提供带宽是商业的一部分,但随着像 ChatGPT 这样的生成 AI 的普及,爬虫的抓取行为变得愈发激进,甚至可能对源网站的存在构成威胁。维基媒体基金会承认,虽然 Wikipedia 和 Wikimedia Commons 对机器学习模型的训练非常重要,但他们必须优先考虑人类用户的需求。
为应对这一挑战,已经出现了一些工具来对抗爬虫的过度抓取行为,例如数据中毒项目 Glaze、Nightshade 和 ArtShield,以及网络工具 Kudurru、Nepenthes 等。然而,现有的机器人协议(robots.txt)并不能完全有效地限制这些爬虫的行为,尤其是它们可能会伪装成其他爬虫以规避封锁。
划重点:
🌐 爬虫对维基媒体带宽的消耗增加50%,主要来自于 AI 模型的内容抓取。
🤖 约65% 的高成本内容流量由爬虫生成,虽然爬虫只占页面浏览量的35%。
📉 维基媒体基金会计划在2025/2026年减少爬虫生成的流量,优先考虑人类用户的需求。
最新星火攻略
更多- 火影忍者中的面具男真相大揭秘——带土角色的深度分析与游戏内涵探讨
- OpenAI o3 模型的运算费用激增:单次处理任务的支出从 3000 美元飙升至 30000 美元,成本上涨引发广泛关注
- B站未满十八岁可以接广告吗2024:青少年游戏主播的机遇与挑战,探讨年轻创作者的广告权益
- Gemini-2.5-pro在MathArena评测中展现出色的数学表现,明显领先于其他模型的竞争
- 饿了么全新推出“AI入驻智能经理”功能 新商家上线仅需5分钟轻松搞定
- NotebookLM 新推出的“Discover sources”功能,智能系统自动扫描网络信息源,便捷搜集相关主题资料
- NotebookLM推出全新“Discover Sources”功能:重新定义信息收集与研究体验的创新之道
- OpenAI 强调英国需要前瞻性的版权政策以促进人工智能的健康发展与创新
- 百度推出飞桨框架3.0,推动智能开发在大模型时代的全面升级与创新
- WOW世界任务:欣赏艾泽拉斯的无尽旅程与探索魅力
- 2024年全球移动发行商收入榜单发布,OpenAI首次进入榜单引发关注
- Speech-02全新上线:与Hedra合作提升语音驱动内容的质量与创新性
- 维多利亚2游戏秘籍详解与全方位指南,让你轻松掌握游戏技巧和攻略
- ChatGPT再次推出图片生成功能升级 此次甚至能够生成草书字体的作品了
- Meta新款高档智能眼镜“Hypernova”详情曝光:配备内置显示屏,售价可能高达1400美元
最新星火智能
更多- 无需依赖ChatGPT,轻松打造吉卜力风格图像的5个推荐平台
- 设计师又迎挑战!即梦3.0内测:轻松生成2K商业海报,复杂场景与文字处理无压力
- 谷歌DeepMind展望2030年:AGI有望超越人类能力并提出相应的安全策略
- Tinder联手OpenAI推出AI互动调情游戏“Game Game”,引发广泛争议与讨论
- 地下城徽章的使用方法详解及注意事项,如何有效利用地下城徽章提高游戏体验
- OpenAI正式发布首个AI Agent评测标准PaperBench,以提升人工智能代理的性能和可比性
- 推箱子第13关详细攻略与技巧解析,助你轻松通关推箱子13关的窍门与策略
- OpenAI 设立全新委员会,致力于推进最强非营利组织的发展和壮大
- 谷歌Gemini项目负责人Sissie Hsiao即将辞任 新任实验室副总裁将接掌该职务
- dnf周年庆具体时间是在哪一天 DNF周年庆到底是什么时候举行的
- 欧美妆和日韩妆区别777ccc:立体感与清新美的碰撞与结合
- Lumai成功融资1000万美元,助力AI革命的3D光学计算技术引领未来
- Anthropic推出Claude for Education:AI导师助力学生提升批判性思维能力的全新探索
- 即梦 AI 3.0 版本灰度测试:中文文本生成能力显著增强,表现突破预期
- OpenAI 的 o3 模型成本调整:每个任务的价格可能会达到惊人的 30,000 美元
最新星火游戏
更多








