推广 热搜: 公司  快速  上海  中国  企业    未来  政策  系统  公司2 

Meta低调部署网络爬虫机器人 为其AI模型收集数据

   日期:2024-12-23     作者:kjsgdjkags    caijiyuan   评论:0    移动:http://www78564.xrbh.cn/mobile/news/30522.html
核心提示:近日,Meta在未公开宣布的情况下推出了新的网络爬虫机器人Meta External Agent,该爬虫机器人旨在搜索互联网并收集大量数据,以

近日,meta在未公开宣布的情况下推出了新的网络爬虫机器人meta External Agent,该爬虫机器人旨在搜索互联网并收集大量数据,以支持meta的人工智能模型。这一消息由三家专注于网络抓取器追踪的公司联合披露,引起了业界的广泛关注。

据悉,meta External Agent与OpenAI的网络爬虫机器人GPTBot在功能上有诸多相似之处,均具备抓取网络上的多样化数据作为AI训练素材的能力,包括但不限于新闻文章中的文本内容、在线讨论群组中的用户对话等。这些数据对于提升AI模型的理解能力、语言处理能力及创造性至关重要。

尽管meta在7月底通过更新其面向开发者的公司网站“暗示”了新爬虫meta External Agent的存在,但公司并未正式公开宣布这一消息。这款新爬虫具备绕过某些网站robots.txt规则的能力,这意味着它能够无视部分网站对爬虫访问的限制,从而获取更为广泛的数据资源。值得注意的是,robots.txt虽然为网站管理员提供了一种设定爬虫访问权限的机制,但其本质上并非强制执行的法律条款,因此,一些网络爬虫,尤其是专注于数据采集的爬虫,可能会选择性地忽略这些规则。

与OpenAI的GPTBot相比,meta External Agent在初期似乎并未引起广泛的屏蔽反应。Dark Visitors的数据显示,全球近25%的最受欢迎网站已选择屏蔽GPTBot,而仅有2%的网站对新爬虫采取了屏蔽措施。

meta的Llama模型作为当前最大的大型语言模型(LLM)之一,其性能的提升离不开高质量数据的支持。虽然meta未透露新版本的Llama 3模型所使用的具体训练数据来源,但其早期版本充分利用了包括Common Crawl在内的多个大型数据集。如今,新爬虫的推出进一步印证了meta对于不断扩充和更新AI训练数据集的坚定决心。

本文地址:http://www78564.xrbh.cn/news/30522.html    迅博思语 http://www78564.xrbh.cn/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
标签: 爬虫 数据
 
更多>同类最新资讯
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新资讯
点击排行
网站首页  |  二维码  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号