推广 热搜: 公司  快速  上海  中国  企业    未来  政策  系统  公司2 

“视频/图像语义感知和理解”讲习班报名火热进行中

   日期:2024-11-10     作者:xinet    caijiyuan   评论:0    移动:http://www78564.xrbh.cn/mobile/news/26986.html
核心提示:模拟人眼视觉系统来感知与理解图像/视频是人工智能与计算机视觉领域的核心任务,它不仅是图像检索、对象追踪、行为分析等高级视

640.jpg

“视频/图像语义感知和理解”讲习班报名火热进行中

模拟人眼视觉系统来感知与理解图像/视频是人工智能与计算机视觉领域的核心任务,它不仅是图像检索、对象追踪、行为分析等高级视觉任务的研究基础,同时也广泛应用于自动驾驶、工业控制、卫星遥感以及医疗诊断等诸多领域,市场前景巨大。2020年前后,深度学习领域涌现出大量前沿技术和研究热点,如图神经网络、视觉大模型、Transformer、对抗生成网络等。虽然这些前沿技术为解决图像/视频感知与理解任务带来了新的契机,但也面临一系列新的挑战,如不同模态数据间的对齐和配准、大规模图像/视频数据的特征提取与表达、资源受限下的可靠性计算和性能平衡、训练样本缺乏和不平衡等等。第22期CSIG图像图形学科前沿讲习班(Advanced Lectures on Image and Graphics,简称IGAL)于2023年5月20日-21日在南京举办,本期讲习班主题为“视频/图像语义感知和理解”,由南京邮电大学周全副教授和高广谓副研究员担任学术主任。通过邀请相关领域知名专家和杰出学者作报告,分享视频/图像语义感知和理解领域的研究进展和前沿成果,并探讨未来的研究方向。讲习班在促使学员在了解学科热点、提高学术水平的同时,增近相关研究领域科研顶尖学者和企业创新人才之间的学术交流。

组织单位

主办单位:中国图象图形学学会

承办单位:南京邮电大学通信与信息工程学院、南京邮电大学先进技术研究院、CSIG机器视觉专委会、江苏省人工智能学会

1682746536216110.png 

周全,南京邮电大学通信与信息工程学院副教授,硕士生导师。中国计算机学会和中国图象图形学学会高级会员。中国计算机学会(CCF)计算机视觉专委会、中国图象图形学学会(CSIG)机器视觉专委会、视觉大数据专委会、中国自动化学会(CAA)模式识别与机器智能专委会、中国人工智能学会(CAAI)模式识别专委会、江苏省自动化学会(JSAA)模式识别专委会常务委员、江苏省计算机学会(JSCS)图形图像专委会委员。目前主要从事图像语义分割与理解,医学图像分割,轻量化网络设计等方面的研究工作。主持国家自然科学基金面上项目、江苏省自然科学基金、江苏省“青蓝工程”青年骨干教师,以及参与国家重点研发计划等多项国家和省部级项目,以第一作者和通信作者发表学术论文70余篇,包括IEEE TIP/TITS/TMI/TNNLS、PR等,申请及获批发明专利10余项。目前担任IEEE TPAMI/TIP/TMM/TCSVT/TCYB/TNNLS/TITS、PR 等70多个SCI 期刊审稿人,并担任IEEE/SPIE ISAIR2019-2023、ACPR 2023、IEEE ICME2019和PRCV2022领域主席。同时担任SCI期刊Computer & Electrical Engineering和Cognitive Robotics编辑,以及IEEE TMM、PR、MMTA 和Visual Intelligence 等期刊的客座编辑。

 

1682746563347839.png

高广谓,南京邮电大学先进技术研究院副研究员,硕士生导师。研究方向涉及低质视觉内容感知与理解(具体包括低质图像复原、轻量化图像分析与理解等)。目前主持国家自然科学基金面上项目、江苏省自然科学基金优秀青年基金项目、江苏省“六大人才高峰”高层次人才项目各1项,参与国家自然科学基金重点项目、科技创新2030-“新一代人工智能”重大项目各1项。曾任日本国立信息学研究所客座研究员(2019-2021)。近年来在国际权威期刊IEEE TIP/TMM/TCSVT/TIFS/TITS、PR以及权威会议AAAI、IJCAI上发表论文70余篇,ESI高被引论文1篇 (Google Scholar显示被引用1500余次)。 获江苏省科学技术奖一等奖(7/11)等奖项。IEEE和CCF高级会员,国际期刊Cognitive Robotics副主编、国际期刊Computers and Electrical Engineering客座编辑,ICME 2021/ 2022 领域主席,AAAI 2023 Senior PC, ISAIR常务委员,VALSE执行AC, 中国计算机学会计算机视觉专委会委员,中国人工智能学会模式识别专委会委员,中国自动化学会模式识别与机器智能专委会委员,中国图象图形学学会机器视觉专委会委员,江苏省人工智能学会模式识别专委会委员。长期担任IEEE TPAMI/TIFS/TIP/TMM/TCSVT/TCYB/TNNLS 等十几个国际SCI期刊审稿人。

日程安排

时间:2023年05月20日-21日

地点:南京邮电大学三牌楼校区科技会堂一楼报告厅

1683618550986.jpg

图片3.png

张艳宁

西北工业大学

报告题目:视频图像理解与认知

报告人简介:张艳宁,西北工业大学教授,校长助理(兼研究生院院长、学科办主任)。长江学者特聘教授,中组部首批万人领军人才,973项目技术首席,兼任中国图象图形学学会副理事长等。长期致力于图像处理、模式识别、计算机视觉与智能信息处理等的研究,并与航天、航空等方面的国家重大需求相结合。先后承担973项目、国家自然科学基金重点项目、863等40余项国家级项目。在IEEE TPAMI、IEEE TIP、IJCV、CVPR、ICCV等国内外本领域权威期刊和重要国际会议上发表论文百余篇,出版专著3部,获国家授权发明专利50余项,以第一完成人获国家技术发明二等奖1项、国家教学成果二等奖1项、国防技术发明一等奖2项、省部级科技进步一等奖1项。

报告摘要:视觉是人感知与理解世界的一项重要信息来源,随着传感器及数字媒体技术的发展,产生了海量的视频图像数据,巨大的视频数据量迫切地需要能够像人类一样自动分析视频内容的智能化方法。本次报告将围绕智能视频图像理解与认知技术展开,重点介绍本团队在多模态目标跟踪、视频显著性预测、视频异常检测及预测、行为识别及预测、视频检索、视频摘要生成等方向的最新研究工作。

图片7.png

王井东

百度

报告题目:视觉识别:Transformer方法与基础模型

报告人简介:王井东,百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。2001年和2004年在清华大学获得学士和硕士学位,2007年在香港科技大学获得博士学位。研究领域为计算机视觉、深度学习及多媒体搜索。他的代表工作包括高分辨率神经网络(HRNet)、基于有监督的区域特征融合(DRFI)的显著目标检测、以及基于近邻图的大规模最近邻搜索(NGS,SPTAG)等。在微软工作期间,科研成果10多次转化到微软的关键产品和业务中去,包括搜索、广告、OCR、小冰聊天机器人等。加入百度以来,带领团队研发的技术,已经广泛应用于百度的搜索、智能云以及自动驾驶等重要产品和业务中。他曾担任过许多人工智能会议的领域主席,如 NerIPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等。他现在是IEEE TPAMI和IJCV的编委会成员,曾是IEEE TMM和IEEE TCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遴选为国际电气电子工程师学会和国际模式识别学会会士 (IEEE/IAPR Fellow)、国际计算机协会杰出会员 (ACM Distinguished Member)。

报告摘要:本报告主要分享两部分内容。第一部分是基于Transformer的视觉识别算法介绍,主要包括基于 Transformer和Depthwise卷积关联性的主干网络 DWNet(比类似的方法 ConNeX早公开)、HRNet的Transformer版本HRFormer、较早应用于语义分割的 Transformer方法 OCRNet、目标检测方法 Conditional DETR和Group DETR,以及多视图 3D目标检测 CAPE。第二部分是百度文心·CV 大模型VIMER,以数据为中心的算法和应用,主要包括自监督表征学习算法 Context Autoencoder(CAE)算法及其推广、基于 CAE 的工业视觉大模型/OCR文字识别大模型/人体大模型等、图文对比预训练大模型在自动驾驶数据挖掘中的应用,以及基于多任务学习的交通感知大模型。

图片2.png

穆亚东

北京大学

报告题目:视觉-语言感知与控制

报告人简介:穆亚东,北京大学研究员、长聘副教授、博士生导师,先后在北京大学获得理学学士和理学博士学位。曾在新加坡国立大学、美国哥伦比亚大学、华为香港诺亚方舟实验室、美国电话电报公司研究院(AT&T Labs)担任研究职位,主要研究领域为计算机视觉和机器学习,入选中组部海外高层次人才计划青年项目,在国际主流会议和期刊发表论文100余篇,其中在CVPR等中国计算机学会论文推荐列表A类会议和T-PAMI等IEEE汇刊发表论文超过70篇,申请PCT、美国或中国专利20余项。获得陕西省自然科学一等奖、国际会议SIGIR最佳论文提名奖、北京大学京东方奖教金等。担任多媒体领域旗舰期刊IEEE Transactions on Multimedia的编委,多次担任计算机视觉领域顶级会议(如CVPR、ACM Multimedia)的领域主席。近期研究工作包括视觉语言学习、机械臂抓取、结构化物体姿态估计与运动合成、基于谱分析理论的神经网络设计、视频语义分析技术等。

报告摘要:本报告主要介绍视觉-语言感知与控制这一前沿研究方向的最新进展。现代自动化系统(例如自动驾驶汽车和家用机器人)通常依赖多模态感知输入(包括视觉、语言或点云数据等)来执行下一个动作,存在模态对齐、动作策略学习等研究难题。本次报告将介绍该方向的几个关键技术挑战以及我们的研究成果,主要是视觉-语言的时空定位和导航等,包括基于弱监督信息的视觉定位、视觉-语言基础模型ECLIP、具有空间路径先验或树型Transformer的视觉语言导航等。最后,还将讨论这一新兴领域的发展趋势。

图片6.png

林巍峣

上海交通大学

报告题目:基于参数化表示的视觉目标与行为感知

报告人简介:林巍峣,上海交通大学教授。分别于2003年和2005年获得上海交通大学学士和硕士学位,并于2010年获得美国华盛顿大学获得博士学位。主要研究方向包括计算机视觉、视频行为理解、视频及语义信息编码等。在相关领域发表论文100余篇,获得授权专利20余项,研究成果获得多项国内外奖励和荣誉。

报告摘要:视觉目标与行为的感知一直是图像视频智能分析与识别领域的关键问题,由于图像视频中目标对象和行为的随意性,其感知性能和感知复杂度一直存在较大的局限。为解决上述问题,我们从参数化表示的角度,研究三个层次的视觉目标与行为感知问题,即参数驱动的大范围目标检测、参数化表示的时空行为定位、以及参数化对齐的时序行为步骤挖掘。上述方法在感知性能和感知速度方面都取得较好的提升。最后,介绍一些相关的实际应用。

 

图片4.png

李泽超

南京理工大学

报告题目:细粒度视觉内容分析与推理

报告人简介:李泽超,“万人计划”青年拔尖人才,南京理工大学计算机科学与工程学院/人工智能学院教授、博士生导师,“社会安全信息感知与系统”工信部重点实验室副主任,分别于2008年和2013年毕业于中国科学技术大学和中国科学院自动化研究所。研究兴趣主要是媒体智能分析、计算机视觉等。发表ACM/IEEE Transactions和CCF-A类会议论文70余篇;入选2022年全球前2%顶尖科学家,2020-2022年连续3年入选爱思唯尔中国高被引学者;获得江苏省科学技术一等奖2项、中国电子学会自然科学一等奖1项等;主持科技创新2030“新一代人工智能”重大项目课题、国家自然科学基金联合基金重点项目、江苏省杰出青年基金等;担任IEEE TNNLS、Information Sciences等期刊编委。

报告摘要:图像视频大数据智能分析与识别在多种实际应用中具有至关重要的作用,比如无人驾驶、网络空间内容安全以及社会公共安全等。然而实际应用中图像视频内容类别粒度多样。为此,我们研究了开放环境下细粒度视觉内容分析与推理问题,主要是小样本细粒度识别、弱监督视觉细粒度分析推理、细粒度哈希等,提出了基于知识迁移的小样本识别、深度协同因子分解模型、基于区域定位哈希的细粒度图像检索、基于注意力金字塔特征的细粒度小样本识别方法等。最后介绍一些相关的实际应用。

图片8.png

宋井宽

电子科技大学

报告题目:多媒体紧致表征与分析

报告人简介:宋井宽,电子科技大学教授,国家“青年特聘专家”。主要研究方向为多媒体理解。在多媒体、计算机视觉、人工智能等领域的重要会议和期刊发表论文180余篇,谷歌学术引用10000余次。担任国际SCI期刊IEEE TMM、ACM TOMM等编委,担任多个期刊的评审和多个国际顶级会议(MM'18-'22, IJCAI'18)的领域主席。主持自然科学基金委重点、科技部重点研发课题等多项国家级项目。

报告摘要:在当今的大数据时代,多媒体系统已成为了至关重要的基础设施。随着AIGC技术取得显著突破,多媒体数据在数以亿万级地不断产生着。如此庞大的数据规模使得多媒体系统在进行任何数据处理时,都将产生巨大的资源消耗。因此,研究者尝试通过多媒体紧致表征来解决上述困境。这一技术将原始数据压缩为简短的二值化编码,通过硬件加速方法,上述处理的空间和时间复杂度都得到了显著下降。由于种种优势,它已在很多场景中得到应用,并得到了长期关注。本次报告将围绕这一方法的两种主要技术:哈希和量化,对多媒体紧致表征中的经典算法和最新进展进行简要介绍。紧接着,还将介绍多媒体紧致表征在三种场景中的应用,包括快速检索、视觉压缩和模型压缩等。在上述场景中,本报告根据不同任务设计,介绍针对紧致表征“如何保留关键信息”、“如何实现离散优化”两类核心问题。

 

图片9.png 

严骏驰

上海交通大学

报告题目:端到端自动驾驶

报告人简介:严骏驰,CCF优博/杰出会员,上海交通大学计算机系副教授。科技部2030新一代人工智能青年项目负责人、优青、教育部资源建设深度学习首席专家。曾任IBM研究院首席研究员。主要研究方向为机器学习。发表CCF-A类第一/通讯作者论文过百篇,引用超万次。任ICML、NeurIPS领域主席、Pattern Recognition编委。

报告摘要:自动驾驶是学界与业界近两年的研究热点之一,其目标为给定传感器输入,安全、舒适、快速的到达乘客目的地。端到端自动驾驶方法,不同于传统的模块化方法,其设计上将所有的感知、预测、决策的组件以可导的方式连接起来,以期做到高效特征共享与减小累计误差。本次讲座将介绍自动驾驶与端到端方法的背景与基础知识,以及最新的进展。

 

图片10.png

王兴刚

华中科技大学

报告题目:基于Transformer的驾驶场景感知和大规模预训练

报告人简介:王兴刚,华中科技大学,电信学院,教授,博士生导师,入选国家青年人才计划,Elsevier Image and Vision Computing期刊共同主编。主要研究方向为视觉目标检测与分割,在IEEE TPAMI、IJCV、CVPR、ICML等顶级期刊会议发表学术论文50余篇,谷歌学术引用次数1.7万余次,其中CCNet方法在AlphaFold中作为骨干网络被使用,ByteTrack方法在ECCV2022最具影响力论文中排名第一。担任CVPR 2022、ICCV 2023、ICIG 2023领域主席,Pattern Recognition等期刊编委。入选了中国科协青年人才托举工程,获CSIG青年科学家奖,CAAI吴文俊人工智能优秀青年奖,CVMJ 2021最佳论文奖,湖北省自然科学二等奖,华中科技大学青年五四奖章等,指导学生获2022年全国“互联网+”大赛金奖。

报告摘要:Transformer网络已经成为学习视觉表征和完成视觉任务的基础。面向自动驾驶场景的2D/3D目标检测、分割、跟踪、运动预测、路径规划任务,我们给出了基于Transformer的一整套解决方案,以Query作为目标的表征,通过自注意力和交叉注意力来实现时空一体化的场景表征和目标-场景交互学习,得到了一系列实时性高、精度高的驾驶场景感知方法。此外,我们还基于Transformer构建了大规模视觉语言预训练,推出了EVA视觉基础模型用以探索大规模视觉表征的极限,可以有效地将EVA扩展到10亿个参数,并在图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的具有代表性的视觉下游任务上创造新记录。

1. 本期讲习班限报140人,根据缴费先后顺序录取,报满为止。

2. 2023年5月19日(含)前注册并缴费:CSIG会员2000元/人,非会员2500元/人(赠送1年CSIG会员);现场缴费:会员、非会员均为3000元/人;CSIG团体会员参加,按CSIG会员标准缴费;同一单位组团(5人及以上)报名,均按CSIG会员标准缴费。

3. 注册费包括讲课资料和2天会议期间午餐,其它食宿、交通自理。

4. 会议注册网址:https://conf.csig.org.cn/10350.html

640 (1).png

5. 参会通知和会议资料将于5月19日前发至您的手机和邮箱,报名时请预留不会拦截外部邮件的邮箱,并请留意垃圾邮件和被拦截的短信。

6. 讲习班培训证书于结营仪式统一发放。

 

联系方式

   人:黄老师

 联系电话:010-82544754

     箱:igal@csig.org.cn

 

本文地址:http://www78564.xrbh.cn/news/26986.html    迅博思语 http://www78564.xrbh.cn/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新资讯
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新资讯
点击排行
网站首页  |  二维码  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号