商务服务
Meta低调部署网络爬虫机器人 为其AI模型收集数据
2024-12-23 23:35

近日,meta在未公开宣布的情况下推出了新的网络爬虫机器人meta External Agent,该爬虫机器人旨在搜索互联网并收集大量数据,以支持meta的人工智能模型。这一消息由三家专注于网络抓取器追踪的公司联合披露,引起了业界的广泛关注。

据悉,meta External Agent与OpenAI的网络爬虫机器人GPTBot在功能上有诸多相似之处,均具备抓取网络上的多样化数据作为AI训练素材的能力,包括但不限于新闻文章中的文本内容、在线讨论群组中的用户对话等。这些数据对于提升AI模型的理解能力、语言处理能力及创造性至关重要。

尽管meta在7月底通过更新其面向开发者的公司网站“暗示”了新爬虫meta External Agent的存在,但公司并未正式公开宣布这一消息。这款新爬虫具备绕过某些网站robots.txt规则的能力,这意味着它能够无视部分网站对爬虫访问的限制,从而获取更为广泛的数据资源。值得注意的是,robots.txt虽然为网站管理员提供了一种设定爬虫访问权限的机制,但其本质上并非强制执行的法律条款,因此,一些网络爬虫,尤其是专注于数据采集的爬虫,可能会选择性地忽略这些规则。

与OpenAI的GPTBot相比,meta External Agent在初期似乎并未引起广泛的屏蔽反应。Dark Visitors的数据显示,全球近25%的最受欢迎网站已选择屏蔽GPTBot,而仅有2%的网站对新爬虫采取了屏蔽措施。

meta的Llama模型作为当前最大的大型语言模型(LLM)之一,其性能的提升离不开高质量数据的支持。虽然meta未透露新版本的Llama 3模型所使用的具体训练数据来源,但其早期版本充分利用了包括Common Crawl在内的多个大型数据集。如今,新爬虫的推出进一步印证了meta对于不断扩充和更新AI训练数据集的坚定决心。

    以上就是本篇文章【Meta低调部署网络爬虫机器人 为其AI模型收集数据】的全部内容了,欢迎阅览 ! 文章地址:http://www78564.xrbh.cn/news/30522.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 迅博思语移动站 http://www78564.xrbh.cn/mobile/ , 查看更多   
最新文章
LG 推出三款 OLED GX9s 智能显示器:21:9 曲面屏,内置 webOS
IT之家 4 月 21 日消息,LG 电子本月 3 日向美国市场发布了三款 LG UltraGear OLED GX9s 系列智能显示器。这三款显示器均采用
北斗导航苹果版北斗导航手机版下载「北斗导航苹果版」
北斗导航苹果版是一款专业的手机导航软件,使用的是中国自有的地基授时系统进行定位导航,可在全球范围内全天候、全天时为各类用
盒马、京东、拼多多,官宣放大招!
4月11日,盒马宣布,面向中国外贸企业开放入驻通道,绿色通道24小时专人加急处理,简化认证流程,缩短审核认证周期。除了24小时
买手机要看哪些配置?怎么挑选手机主要看什么?手机配置「买手机要看哪些配置?怎么挑选手机主要看什么?」
网购消费查券省钱上【百佣】App,只需3步操作,同一个商品用券更便宜。在购买手机时,了解手机配置是非常重要的。本文将介绍买手
给力!长沙县、长沙经开区政企合力放大招,就地过年成优选长沙手机「给力!长沙县、长沙经开区政企合力放大招,就地过年成优选」
记者获悉,为深入贯彻落实党中央、国务院、省、市关于2021年春节期间疫情防控“就地过年”倡导,1月22日,长沙县人民政府、 长沙
戈雅夏日皮肤突袭,铠无双限定皮肤巨帅,瑶双喜临门
最近王者荣耀给公孙离出了一款新皮肤,公孙离的这款新皮肤,也是一款FMVP皮肤。这款皮肤的质量还是非常不错的,而且价格也不贵,
阅见伊犁|广州读书月公布广州、伊犁等六地共读书单
四月的风拂过珠江,木棉的火焰点燃了岭南的春意;同一阵风掠过天山,伊犁河谷的杏花正以漫山遍野的雪白回应。4月1日,在“书香羊
红米Turbo4发布,性价比是否能超越真我Neo7?红米手机4「红米Turbo4发布,性价比是否能超越真我Neo7?」
近日,红米正式发布了其最新中端手机——红米Turbo4,起售价1999元。这款手机在多方面进行了升级,尤其在防尘防水、定位技术和电
应对手机没电的实用技巧与应变策略分享手机没电了怎么办「应对手机没电的实用技巧与应变策略分享」
  在这个信息化的时代,手机几乎成了我们生活中不可或缺的一部分。无论是工作、学习,还是社交、娱乐,手机都扮演着重要的角色