商务服务
Meta低调部署网络爬虫机器人 为其AI模型收集数据
2024-12-23 23:35

近日,meta在未公开宣布的情况下推出了新的网络爬虫机器人meta External Agent,该爬虫机器人旨在搜索互联网并收集大量数据,以支持meta的人工智能模型。这一消息由三家专注于网络抓取器追踪的公司联合披露,引起了业界的广泛关注。

据悉,meta External Agent与OpenAI的网络爬虫机器人GPTBot在功能上有诸多相似之处,均具备抓取网络上的多样化数据作为AI训练素材的能力,包括但不限于新闻文章中的文本内容、在线讨论群组中的用户对话等。这些数据对于提升AI模型的理解能力、语言处理能力及创造性至关重要。

尽管meta在7月底通过更新其面向开发者的公司网站“暗示”了新爬虫meta External Agent的存在,但公司并未正式公开宣布这一消息。这款新爬虫具备绕过某些网站robots.txt规则的能力,这意味着它能够无视部分网站对爬虫访问的限制,从而获取更为广泛的数据资源。值得注意的是,robots.txt虽然为网站管理员提供了一种设定爬虫访问权限的机制,但其本质上并非强制执行的法律条款,因此,一些网络爬虫,尤其是专注于数据采集的爬虫,可能会选择性地忽略这些规则。

与OpenAI的GPTBot相比,meta External Agent在初期似乎并未引起广泛的屏蔽反应。Dark Visitors的数据显示,全球近25%的最受欢迎网站已选择屏蔽GPTBot,而仅有2%的网站对新爬虫采取了屏蔽措施。

meta的Llama模型作为当前最大的大型语言模型(LLM)之一,其性能的提升离不开高质量数据的支持。虽然meta未透露新版本的Llama 3模型所使用的具体训练数据来源,但其早期版本充分利用了包括Common Crawl在内的多个大型数据集。如今,新爬虫的推出进一步印证了meta对于不断扩充和更新AI训练数据集的坚定决心。

    以上就是本篇文章【Meta低调部署网络爬虫机器人 为其AI模型收集数据】的全部内容了,欢迎阅览 ! 文章地址:http://www78564.xrbh.cn/news/30522.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 迅博思语移动站 http://www78564.xrbh.cn/mobile/ , 查看更多   
最新文章
哈尔滨威尔特制衣厂
我是哈尔滨威尔特制衣厂的肖庭波,联系地址是哈尔滨服装城附近哈西商厦,我们公司是在黑龙江哈尔滨的个体私营公司,公司专注于服装
节到张家界武陵源必去地
节到张家界武陵源必去地长假想找个地方玩玩?张家界武陵源绝对是个好选取,这里风景绝美空气清新关键是人虽然多,但美景还是能让
超节点成WAIC焦点 未来国产GPU替代率或超80%
在人工智能产业蓬勃发展的当下,算力作为其核心驱动力,重要性不言而喻。然而,国产算力在前进的道路上却面临着诸多阻碍,发展现
原创樊振东上新闻联播了!加盟德甲真相曝光,背后战略价值惊人
央视《新闻联播》在体育强国专题报道中播放了网球选手郑钦文和乒乓球运动员樊振东的画面。 整个乒乓球项目只出现了樊振东一人,
山姆上新「周黑鸭风味鸭肉酱」,瑞幸推出乳酸菌美式和乳酸菌冰茶...|一周热闻
新产品1、20年来最大创新!百事在北美推出益生元可乐2、特别添加专利乳酸菌!瑞幸上新「乳酸菌美式」和「乳酸菌冰茶」3、美容成
多款新车与全域AI技术惊艳WAIC,吉利智能科技进入爆发期
原创|Jaden  编辑|Cong在正在举办的2025世界人工智能大会(WAIC 2025)上,集团携阶跃星辰联合参展,9X、10EM-P、A7和吉利银
云南施甸县:“善洲青苗课堂”守护青少年健康成长
中国青年报客户端讯(中青报·中青网记者 张文凌)今年暑假,共青团云南保山市施甸县委依托“返家乡”“三下乡”社会实践大学生
一年60万赴美留学值吗?这届留学生开始找“平替”
21世纪经济报道记者陈洁 实习生张星雨 广州、重庆报道从7月中旬开始,多省份陆续公布本科普通批,高校录取工作逐步推进。然而,
惠民贷延期还款会影响分期吗?2025最新解析指南,必看避坑省钱秘籍!
惠民贷延期还款会影响分期吗?2025最新解析指南,必看避坑省钱秘籍!惠民贷推迟还款是许多人应急时的救命稻草,但推迟会不会作用
舟山进口茶叶中文标签备案
,公司自有进出口权,酒类商品批发许可证、食品流通许可证、中国食品土畜牧进出口商会会员证、对外贸易经营者备案登记证、自理报