商务服务
Meta低调部署网络爬虫机器人 为其AI模型收集数据
2024-12-23 23:35

近日,meta在未公开宣布的情况下推出了新的网络爬虫机器人meta External Agent,该爬虫机器人旨在搜索互联网并收集大量数据,以支持meta的人工智能模型。这一消息由三家专注于网络抓取器追踪的公司联合披露,引起了业界的广泛关注。

据悉,meta External Agent与OpenAI的网络爬虫机器人GPTBot在功能上有诸多相似之处,均具备抓取网络上的多样化数据作为AI训练素材的能力,包括但不限于新闻文章中的文本内容、在线讨论群组中的用户对话等。这些数据对于提升AI模型的理解能力、语言处理能力及创造性至关重要。

尽管meta在7月底通过更新其面向开发者的公司网站“暗示”了新爬虫meta External Agent的存在,但公司并未正式公开宣布这一消息。这款新爬虫具备绕过某些网站robots.txt规则的能力,这意味着它能够无视部分网站对爬虫访问的限制,从而获取更为广泛的数据资源。值得注意的是,robots.txt虽然为网站管理员提供了一种设定爬虫访问权限的机制,但其本质上并非强制执行的法律条款,因此,一些网络爬虫,尤其是专注于数据采集的爬虫,可能会选择性地忽略这些规则。

与OpenAI的GPTBot相比,meta External Agent在初期似乎并未引起广泛的屏蔽反应。Dark Visitors的数据显示,全球近25%的最受欢迎网站已选择屏蔽GPTBot,而仅有2%的网站对新爬虫采取了屏蔽措施。

meta的Llama模型作为当前最大的大型语言模型(LLM)之一,其性能的提升离不开高质量数据的支持。虽然meta未透露新版本的Llama 3模型所使用的具体训练数据来源,但其早期版本充分利用了包括Common Crawl在内的多个大型数据集。如今,新爬虫的推出进一步印证了meta对于不断扩充和更新AI训练数据集的坚定决心。

    以上就是本篇文章【Meta低调部署网络爬虫机器人 为其AI模型收集数据】的全部内容了,欢迎阅览 ! 文章地址:http://www78564.xrbh.cn/news/30522.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 迅博思语移动站 http://www78564.xrbh.cn/mobile/ , 查看更多   
最新文章
卢俊卿公益巡讲烟台开讲,《赢在下半场》的“破浪三悟”
8月11日,天九共享集团创始人卢俊卿携《赢在下半场》巡回演讲登陆烟台。在全球经济深度调整与中国高质量发展的关键节点,烟台这
大城县主题活动走进广安镇李零巨村
为充分发挥统一战线资源优势,丰富群众精神文化生活,提升基层科技水平与健康意识,8月12日,大城县“送文化、送科技、送健康”
当海参成为“储户”,金融活水滋养大连海洋牧场
在大连的壮阔海疆之间,波光粼粼处,一场关乎海洋未来的革命正蓬勃兴起——海洋牧场建设如浪潮般奔涌向前。这抹深蓝画卷中,大连
华致金茅台酒收购全国回收交易简单
海淀区、东城区、西城区、宣武区、丰台区、朝阳区、崇文区、大兴区、石景山区、门头沟区、房山区、通州区、顺义区、怀柔区、昌平
廊坊开发区2025年公开选调工作人员公告
为促进廊坊经济技术开发区高质量发展,根据工作需要,拟在全市范围内公开选调工作人员。具体公告如下:一、选调岗位及名额。本次
青年路街道新竹社区积极推进文明社区建设
在我省持续推进“培树新风尚 文明月月行”活动的大背景下,7月作为文明社区建设月,长春市绿园区青年路街道新竹社区积极响应,将
本周六,流动车管所继续上门服务!
为方便广大市民和企业就近办理车驾管业务,天津市公安局交通管理总队车管所将于2025年8月16日9:00-11:00在天津市河西区太湖路18
企业家茅台酒瓶包装回收与我联系上门今日持续找寻
海淀区、东城区、西城区、宣武区、丰台区、朝阳区、崇文区、大兴区、石景山区、门头沟区、房山区、通州区、顺义区、怀柔区、昌平
NMN哪个牌子好?2025年十大NMN品牌排名,助你提升细胞活力
一提到“延缓衰老”,多数人立刻想到跑步、吃沙拉、晚上十点前关灯。确实,这些好习惯能给身体打个“补丁”,但时间从不讲情面,
多彩社区活动“燃”动盛夏
本报讯(记者 刘飞 通讯员 任涵)为丰富居民生活、提升社区凝聚力和居民幸福感,固安县持续开展形式多样的社区活动。7月17日,由