Meta低调部署网络爬虫机器人为其AI模型收集数据

日期：2024-12-23 作者：kjsgdjkags caijiyuan 评论：0 移动：http://www78564.xrbh.cn/mobile/news/30522.html

核心提示：近日，Meta在未公开宣布的情况下推出了新的网络爬虫机器人Meta External Agent，该爬虫机器人旨在搜索互联网并收集大量数据，以

近日，meta在未公开宣布的情况下推出了新的网络爬虫机器人meta External Agent，该爬虫机器人旨在搜索互联网并收集大量数据，以支持meta的人工智能模型。这一消息由三家专注于网络抓取器追踪的公司联合披露，引起了业界的广泛关注。

据悉，meta External Agent与OpenAI的网络爬虫机器人GPTBot在功能上有诸多相似之处，均具备抓取网络上的多样化数据作为AI训练素材的能力，包括但不限于新闻文章中的文本内容、在线讨论群组中的用户对话等。这些数据对于提升AI模型的理解能力、语言处理能力及创造性至关重要。

尽管meta在7月底通过更新其面向开发者的公司网站“暗示”了新爬虫meta External Agent的存在，但公司并未正式公开宣布这一消息。这款新爬虫具备绕过某些网站robots.txt规则的能力，这意味着它能够无视部分网站对爬虫访问的限制，从而获取更为广泛的数据资源。值得注意的是，robots.txt虽然为网站管理员提供了一种设定爬虫访问权限的机制，但其本质上并非强制执行的法律条款，因此，一些网络爬虫，尤其是专注于数据采集的爬虫，可能会选择性地忽略这些规则。

与OpenAI的GPTBot相比，meta External Agent在初期似乎并未引起广泛的屏蔽反应。Dark Visitors的数据显示，全球近25％的最受欢迎网站已选择屏蔽GPTBot，而仅有2％的网站对新爬虫采取了屏蔽措施。

meta的Llama模型作为当前最大的大型语言模型（LLM）之一，其性能的提升离不开高质量数据的支持。虽然meta未透露新版本的Llama 3模型所使用的具体训练数据来源，但其早期版本充分利用了包括Common Crawl在内的多个大型数据集。如今，新爬虫的推出进一步印证了meta对于不断扩充和更新AI训练数据集的坚定决心。

本文地址：http://www78564.xrbh.cn/news/30522.html 迅博思语 http://www78564.xrbh.cn/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

标签： 爬虫数据

更多>同类最新资讯

0 条相关评论

文章列表

相关文章

最新动态

推荐图文

最新资讯

点击排行

• python3爬虫(5)：财务报表爬取入库	• 一本Python爬虫的书，凭什么能畅销10W册
• Python3爬虫入门(一)	• python新闻内容爬虫专用包newspaper详细教程
• 开源爬虫汇总表	• Java通过爬虫获取微信公众号文章信息和样式
• Python爬虫进阶——Xpath解析数据并爬取一个I	• python爬虫快速入门之---Scrapy 从入门到包吃包
• Python网络爬虫之数据解析（一）	• python网络爬虫第三方库_Python常用第三方库大

乐山到北京天坛公园景	大城县主题活动走进广
DITO电信：菲律宾跌宕	结婚三年了，还要去领
西宁一小孩“豪掷”7	超越破案猎奇，《利剑
鼻尖鼻孔窄朝天鼻，这	中信证券：AI是半导体
《仲夏六日谈》第四季	童心绘温情妙笔赞家
8月A股展望：告别水牛

Meta低调部署网络爬虫机器人 为其AI模型收集数据

Meta低调部署网络爬虫机器人为其AI模型收集数据