计算机科学与技术学院（软件学院）

个人简介

王铮
浙江工业大学计算机学院朝晖特聘副研究员，多模态视觉视觉课题组（Collaborate with 白琮教授），CCF-MM执行委员，2025浙江省科协青年人才托举项目

科研方向
Large Multimodal Modal
Reasoning with Agent, Embodied LMM, Long-tailed Knowledge Discovering & Debiasing
Long Video Understanding
Cache Compression, Instruction Tuning
AI4Science
Global Climate Model, Precipitation Forecasting, Physical Infused Model
科研项目
弱相关场景下视频文本语义对齐方法研究，国自然青年科学基金项目，主持，2024.1-2026.12
面向长视频理解的上下文扩展方法研究，省自然探索项目，主持，2025.1-2026.12
视频内容生成与鉴别方法研究，国自然重点项目，参与，2021.1-2025.12
数据安全与隐私保护下的机器学习技术，科技创新2030—“新一代人工智能”重大项目，参与，2021.1-2027.12
科研奖项
面向智能制造的跨域融合感知关键技术及应用，上海市科学技术奖技术发明奖，参与，2023
教育经历
博士，2022年，复旦大学FVL实验室 (Supervised by 姜育刚教授，陈静静教授)
学士，2017年，浙江工业大学计算机学院，健行荣誉生

论文发表

2026
Zheng Wang, Haoran Chen, Haoxuan Qin, Zhipeng Wei, Tianwen Qian, Cong Bai. Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding. CVPR, 2026. (计算机视觉顶会，CCF-A) [Project]
Yifei Wang, Zhenkai Li, Tianwen Qian, Huanran Zheng, Zheng Wang, Yuqian Fu, Xiaoling Wang. StreamEQA: Towards Streaming Video Understanding for Embodied Scenarios. CVPR Findings, 2026. [Project]
Pengxiang Ouyang, Qing Ma, Zheng Wang, Cong Bai. PMPGuard: Catching Pseudo-Matched Pairs in Remote Sensing Image-Text Retrieval. AAAI, 2026. (人工智能顶会，CCF-A)
2025
Meiyi Lu, Liangyuan Chen, Kaiqi Hu, Jinwen Yuan, Jingxiang Cai, Zheng Wang, Cong Bai. ZJUT-MM@MUCG Challenge: Agent Network for Multimodal Video Understanding. MUCG@ACM MM 2025. (Oral) [Project]
Zheng Wang, Boxian He, Chunjiao Wang, Bin Xu, Cong Bai. Precipitation Retrieval Integrating Multiple Satellite Observations: A Dataset and A Framework. TGRS, 2025. (地信与遥感顶刊，中科院一区) [Project]
Zheng Wang, Kai Ying, Bin Xu, Chunjiao Wang, Cong Bai. From Swath to Full-Disc: Advancing Precipitation Retrieval with Multimodal Knowledge Expansion. KDD 2025. (数据挖掘顶会, CCF-A) [Project]
Hui Zhang, Zheng Wang, Zxuan Wu, and Yu-Gang Jiang. DiffusionAD: Denoising Diffusion for Anomaly Detection. TPAMI, 2025. (模式识别顶刊, CCF-A) [Project]
Zheng Wang, Kun Huang, Zenrong Lin, Cong Bai. Event-Driven Hybrid and Cross-Stage Guide for Video Corpus Moment Retrieval. ICMR, 2025. (多媒体会议, CCF-B) [Project]
Zengrong Lin*, Zheng Wang*, Tianwen Qian, Pan Mu, Sixian Chan, Cong Bai. NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval. CVPR, 2025. (人工智能顶会, CCF-A) [Project]
Zheng Wang, Hanyi Zhang, Cong Bai. Physics-infused Convolution Network for Radar-Based Precipitation Nowcasting. ICASSP, 2025. (信号处理会议, CCF-B) [Project]
Lei Wang, Zheng Wang, Wenjun Hu, Cong Bai. RainHCNet: Hybrid High-Low Frequency and Cross-Scale Network for Precipitation Nowcasting. JSTAR, 2025. (地球观测遥感期刊) [Project]
Chao Wang, Luning Zhang, Zheng Wang, Yang Zhou. Can Large Language Models Unveil the Mysteries? An Exploration of Their Ability to Unlock Information in Complex Scenarios. arXiv preprint arxiv:2502.19973.
2024
Zheng Wang*, Xiankang He*, Kaiyang Lan, Ying Cui, Dongyan Guo. TDCL: Dense Semantic Contrastive Learning for Vision-Language Tracking. ECAI, 2024. (Full Talk, 人工智能会议，CCF-B)
Pengxiang Ouyang, Jianan Chen, Qing Ma, Zheng Wang, Cong Bai. Distinguishing Visually Similar Images: Triplet Contrastive Learning Framework for Image-text Retrieval. ICME, 2024. (Oral, 多媒体会议, CCF-B)
Wentao Tian, Zheng Wang, Yuqian Fu, Jingjing Chen, and Lechao Cheng. Open-Vocabulary Video Relation Extraction. AAAI, 2024. (人工智能顶会，CCF-A) [Project]
2023
Hui Zhang, Zuxuan Wu, Zheng Wang, Zhineng Chen, and Yu-Gang Jiang. Prototypical Residual Networks for Anomaly Detection and Localization. CVPR, 2023. (计算机视觉顶会，CCF-A)
2022
Jianggang Zhu*, Zheng Wang*, Jingjing Chen, Yi-Ping Phoebe Chen, Yu-Gang Jiang. Balanced Contrastive Learning for Long-Tailed Visual Recognition. CVPR, 2022. (计算机视觉顶会，CCF-A)
Jingmian Cai*, Zheng Wang*, Huazhu Fu, Jingjing Chen, Yu-Gang Jiang. Data-free Network Debiasing for Long-Tailed Visual Recognition. ICME, 2022.(多媒体会议，CCF-B)
2021
Zheng Wang, Jingjing Chen, and Yu-Gang Jiang. Visual Co-Occurrence Alignment Learning for Weakly- Supervised Video Moment Retrieval. ACM MM, 2021. (多媒体顶会，CCF-A)
ZhengWang, Jianguo Li, and Yu-Gang Jiang. Story-driven Video Editing.  TMM, 2021.(多媒体顶刊， SCI TOP期刊)
2020, ..
王铮, 翁泽佳, 王锐, 陈静静, 姜育刚. 基于长短时预测一致性的大规模视频语义识别算法. 中国科学:信息科学,2020. (北大核心，CCF-A)
You Qiaoben, Zheng Wang, Jianguo Li, Yinpeng Dong, Yu-Gang Jiang, and Jun Zhu. Composite Binary Decomposition Networks. AAAI, 2019. (人工智能顶会，CCF-A)

指导学生

25博士
王骋誉，气象智能体（Co-supervised with 白琮）
25硕士
陈良圆，基于数据混合的智能体推理能力泛化
胡凯琦，基于可验证评分细则的智能体推理能力泛化
洪升，多源多模态降水反演和预报（Co-supervised with 白琮）
林佳杰，全球中期降水预报（Co-supervised with 白琮）
24硕士
陈浩然，视觉多模态Agent（Co-supervised with 白琮）
洪滔，    联合降雨估计与预测（Co-supervised with 白琮）
23硕士
    黄堃，多粒度视频语义检索（Co-supervised with 白琮）
应楷，降雨计算外扩（Co-supervised with 白琮）
22硕士
    何波贤，异构数据降雨计算（Co-supervised with 白琮）
    张晗奕，基于物理模型的临近降雨预测（Co-supervised with 白琮）
王磊，   临近降雨预测（湖师范，Co-supervised with 白琮）
何贤康，语言引导的视觉跟踪（Co-supervised with 郭东岩）
    田文韬，视频关系提取（复旦，Co-supervised with 陈静静）
23本科
  秦浩轩、蔡景翔、袁锦文
22本科
孔焓彬，长尾视觉知识挖掘
卢美伊，视频长上下文拓展
21本科
    林曾荣，跨模态语义检索中的Hubness问题
教学授课
24春《自然语言理解与处理》（大规模语言模型：从理论到实践）
25/24/23秋《人机交互与界面设计》（智能界面+Figma实现的界面设计）

学术竞赛
第十四届中国大学生服务外包创新创业大赛三等奖
第十四届中国大学生服务外包创新创业大赛东部赛区二等奖
社会服务
期刊审稿
TPAMI, TIP, TMM, TNNLS, TCSVT, TOMM, Neurocomputing, MVAP, DMKD
会议审稿
CVPR26/25/23，ICCV25，ACMMM26-22, ECCV26/24, CAI24, ACL23，AAAI25/23, BMVC22, ICME22/25/26，ACML25，ACMMM ASIA 2025, WACV26

个人简介

王铮
浙江工业大学计算机学院朝晖特聘副研究员，多模态视觉视觉课题组（Collaborate with 白琮教授），CCF-MM执行委员，2025浙江省科协青年人才托举项目

科研方向
Large Multimodal Modal
Reasoning with Agent, Embodied LMM, Long-tailed Knowledge Discovering & Debiasing
Long Video Understanding
Cache Compression, Instruction Tuning
AI4Science
Global Climate Model, Precipitation Forecasting, Physical Infused Model
科研项目
弱相关场景下视频文本语义对齐方法研究，国自然青年科学基金项目，主持，2024.1-2026.12
面向长视频理解的上下文扩展方法研究，省自然探索项目，主持，2025.1-2026.12
视频内容生成与鉴别方法研究，国自然重点项目，参与，2021.1-2025.12
数据安全与隐私保护下的机器学习技术，科技创新2030—“新一代人工智能”重大项目，参与，2021.1-2027.12
科研奖项
面向智能制造的跨域融合感知关键技术及应用，上海市科学技术奖技术发明奖，参与，2023
教育经历
博士，2022年，复旦大学FVL实验室 (Supervised by 姜育刚教授，陈静静教授)
学士，2017年，浙江工业大学计算机学院，健行荣誉生

论文发表

2026
Zheng Wang, Haoran Chen, Haoxuan Qin, Zhipeng Wei, Tianwen Qian, Cong Bai. Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding. CVPR, 2026. (计算机视觉顶会，CCF-A) [Project]
Yifei Wang, Zhenkai Li, Tianwen Qian, Huanran Zheng, Zheng Wang, Yuqian Fu, Xiaoling Wang. StreamEQA: Towards Streaming Video Understanding for Embodied Scenarios. CVPR Findings, 2026. [Project]
Pengxiang Ouyang, Qing Ma, Zheng Wang, Cong Bai. PMPGuard: Catching Pseudo-Matched Pairs in Remote Sensing Image-Text Retrieval. AAAI, 2026. (人工智能顶会，CCF-A)
2025
Meiyi Lu, Liangyuan Chen, Kaiqi Hu, Jinwen Yuan, Jingxiang Cai, Zheng Wang, Cong Bai. ZJUT-MM@MUCG Challenge: Agent Network for Multimodal Video Understanding. MUCG@ACM MM 2025. (Oral) [Project]
Zheng Wang, Boxian He, Chunjiao Wang, Bin Xu, Cong Bai. Precipitation Retrieval Integrating Multiple Satellite Observations: A Dataset and A Framework. TGRS, 2025. (地信与遥感顶刊，中科院一区) [Project]
Zheng Wang, Kai Ying, Bin Xu, Chunjiao Wang, Cong Bai. From Swath to Full-Disc: Advancing Precipitation Retrieval with Multimodal Knowledge Expansion. KDD 2025. (数据挖掘顶会, CCF-A) [Project]
Hui Zhang, Zheng Wang, Zxuan Wu, and Yu-Gang Jiang. DiffusionAD: Denoising Diffusion for Anomaly Detection. TPAMI, 2025. (模式识别顶刊, CCF-A) [Project]
Zheng Wang, Kun Huang, Zenrong Lin, Cong Bai. Event-Driven Hybrid and Cross-Stage Guide for Video Corpus Moment Retrieval. ICMR, 2025. (多媒体会议, CCF-B) [Project]
Zengrong Lin*, Zheng Wang*, Tianwen Qian, Pan Mu, Sixian Chan, Cong Bai. NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval. CVPR, 2025. (人工智能顶会, CCF-A) [Project]
Zheng Wang, Hanyi Zhang, Cong Bai. Physics-infused Convolution Network for Radar-Based Precipitation Nowcasting. ICASSP, 2025. (信号处理会议, CCF-B) [Project]
Lei Wang, Zheng Wang, Wenjun Hu, Cong Bai. RainHCNet: Hybrid High-Low Frequency and Cross-Scale Network for Precipitation Nowcasting. JSTAR, 2025. (地球观测遥感期刊) [Project]
Chao Wang, Luning Zhang, Zheng Wang, Yang Zhou. Can Large Language Models Unveil the Mysteries? An Exploration of Their Ability to Unlock Information in Complex Scenarios. arXiv preprint arxiv:2502.19973.
2024
Zheng Wang*, Xiankang He*, Kaiyang Lan, Ying Cui, Dongyan Guo. TDCL: Dense Semantic Contrastive Learning for Vision-Language Tracking. ECAI, 2024. (Full Talk, 人工智能会议，CCF-B)
Pengxiang Ouyang, Jianan Chen, Qing Ma, Zheng Wang, Cong Bai. Distinguishing Visually Similar Images: Triplet Contrastive Learning Framework for Image-text Retrieval. ICME, 2024. (Oral, 多媒体会议, CCF-B)
Wentao Tian, Zheng Wang, Yuqian Fu, Jingjing Chen, and Lechao Cheng. Open-Vocabulary Video Relation Extraction. AAAI, 2024. (人工智能顶会，CCF-A) [Project]
2023
Hui Zhang, Zuxuan Wu, Zheng Wang, Zhineng Chen, and Yu-Gang Jiang. Prototypical Residual Networks for Anomaly Detection and Localization. CVPR, 2023. (计算机视觉顶会，CCF-A)
2022
Jianggang Zhu*, Zheng Wang*, Jingjing Chen, Yi-Ping Phoebe Chen, Yu-Gang Jiang. Balanced Contrastive Learning for Long-Tailed Visual Recognition. CVPR, 2022. (计算机视觉顶会，CCF-A)
Jingmian Cai*, Zheng Wang*, Huazhu Fu, Jingjing Chen, Yu-Gang Jiang. Data-free Network Debiasing for Long-Tailed Visual Recognition. ICME, 2022.(多媒体会议，CCF-B)
2021
Zheng Wang, Jingjing Chen, and Yu-Gang Jiang. Visual Co-Occurrence Alignment Learning for Weakly- Supervised Video Moment Retrieval. ACM MM, 2021. (多媒体顶会，CCF-A)
ZhengWang, Jianguo Li, and Yu-Gang Jiang. Story-driven Video Editing.  TMM, 2021.(多媒体顶刊， SCI TOP期刊)
2020, ..
王铮, 翁泽佳, 王锐, 陈静静, 姜育刚. 基于长短时预测一致性的大规模视频语义识别算法. 中国科学:信息科学,2020. (北大核心，CCF-A)
You Qiaoben, Zheng Wang, Jianguo Li, Yinpeng Dong, Yu-Gang Jiang, and Jun Zhu. Composite Binary Decomposition Networks. AAAI, 2019. (人工智能顶会，CCF-A)

指导学生

25博士
王骋誉，气象智能体（Co-supervised with 白琮）
25硕士
陈良圆，基于数据混合的智能体推理能力泛化
胡凯琦，基于可验证评分细则的智能体推理能力泛化
洪升，多源多模态降水反演和预报（Co-supervised with 白琮）
林佳杰，全球中期降水预报（Co-supervised with 白琮）
24硕士
陈浩然，视觉多模态Agent（Co-supervised with 白琮）
洪滔，    联合降雨估计与预测（Co-supervised with 白琮）
23硕士
    黄堃，多粒度视频语义检索（Co-supervised with 白琮）
应楷，降雨计算外扩（Co-supervised with 白琮）
22硕士
    何波贤，异构数据降雨计算（Co-supervised with 白琮）
    张晗奕，基于物理模型的临近降雨预测（Co-supervised with 白琮）
王磊，   临近降雨预测（湖师范，Co-supervised with 白琮）
何贤康，语言引导的视觉跟踪（Co-supervised with 郭东岩）
    田文韬，视频关系提取（复旦，Co-supervised with 陈静静）
23本科
  秦浩轩、蔡景翔、袁锦文
22本科
孔焓彬，长尾视觉知识挖掘
卢美伊，视频长上下文拓展
21本科
    林曾荣，跨模态语义检索中的Hubness问题
教学授课
24春《自然语言理解与处理》（大规模语言模型：从理论到实践）
25/24/23秋《人机交互与界面设计》（智能界面+Figma实现的界面设计）

学术竞赛
第十四届中国大学生服务外包创新创业大赛三等奖
第十四届中国大学生服务外包创新创业大赛东部赛区二等奖
社会服务
期刊审稿
TPAMI, TIP, TMM, TNNLS, TCSVT, TOMM, Neurocomputing, MVAP, DMKD
会议审稿
CVPR26/25/23，ICCV25，ACMMM26-22, ECCV26/24, CAI24, ACL23，AAAI25/23, BMVC22, ICME22/25/26，ACML25，ACMMM ASIA 2025, WACV26

教师个人主页

导航

王铮

个人简介

个人简介

链接