Yuqian Yuan 袁瑜谦

PhD Student

Zhejiang University
Email: yuanyuqian@zju.edu.cn

About me

I'm currently a PhD student in Zhejiang University, advised by Prof. Wenqiao Zhang and Prof. Jun Xiao. Previously, I was also advised by Prof. Jianke Zhu. My research focuses on advancing Visual Understanding, Vision-Language Models and Embodied AI, particularly in:

Fine-grained spatial-temporal understanding with VLMs: PixelRefer, VideoRefer, Osprey
General VLMs for image/video understanding: VideoLLaMA 3, TokenPacker
Embodied spatial understanding & reasoning & action: RynnBrain, RynnVLA-002, RynnEC, EOC-Bench, ECBench

Before, I mainly focus on the field of the techniques for object detection, image segmentaion under minimal human supervision, including label-efficient /weakly-supervised /un-supervised approaches.

News

[2026.2]: We released RynnBrain, an embodied foundation model grounded in physical reality.
[2025.11]: We released RynnVLA-002, a unified vision-language-action and world model.
[2025.10]: We released PixelRefer, a new unified pixel-level MLLM framework for fine-grained regional understanding.
[2025.9]: Our EOC-Bench is accepted by NeurIPS 2025.
[2025.8]: We released RynnEC , a video MLLM specifically designed for embodied cognition tasks.
[2025.6]: We released the EOC-Bench , an object-centric embodied cognition benchmark in dynamic egocentric scenarios.
[2025.5]: One paper, TokenPacker is accepted by IJCV 2025.
[2025.4]: Our VideoRefer and VideoRefer-Bench have been discussed and adopted by NVIDIA & UC Berkely in their DAM work.
[2025.2]: Two papers are accepted by CVPR 2025.
[2025.2]: We released the VideoRefer-700K dataset on HuggingFace. Please see the VideoRefer Suite for the details.
[2025.1]: We released VideoLLaMA3, frontier multimodal foundation models for both image and video understanding.

Publications&Preprints

RynnBrain: Open Embodied Foundation Models

Ronghao Dang*, Jiayan Guo*, Bohan Hou*, Sicong Leng*, Kehan Li*, Xin Li*, Jiangpin Liu*, Yunxuan Mao*, Zhikai Wang*, Yuqian Yuan*, Minghao Zhu*, Xiao Lin, Yang Bai, Qian Jiang, Yaxi Zhao, Minghua Zeng, Junlong Gao, Yuming Jiang, Jun Cen, Siteng Huang, Liuyi Wang, Wenqiao Zhang, Chengju Liu, Jianfei Yang, Shijian Lu, Deli Zhao (Core contributors in alphabetical order)

Technical Report, 2025

[Paper] [Code] [Project Page]

RynnVLA-002: A Unified Vision-Language-Action and World Model

Jun Cen*, Siteng Huang*, Yuqian Yuan*, Kehan Li*, Hangjie Yuan, Chaohui Yu, Yuming Jiang, Jiayan Guo, Xin Li, Hao Luo, Fan Wang, Deli Zhao, Hao Chen

Arxiv, 2025

[Paper] [Code]

PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

Yuqian Yuan, Wenqiao Zhang, Xin Li, Shihao Wang, Kehan Li, Wentong Li, Jun Xiao, Lei Zhang, Beng Chin Ooi

Arxiv, 2025

[Paper] [Code] [Demo]

RynnEC: Bringing MLLMs into Embodied World

Ronghao Dang*, Yuqian Yuan*, Yunxuan Mao*, Kehan Li*, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao

Technical Report, 2025

[Paper] [Code] [Blog] [Demo] [Video]

EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?

Yuqian Yuan*, Ronghao Dang*, Long Li*, Wentong Li*, Diao Jiao, Xin Li, Deli Zhao, Fan Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang

NeurIPS, 2025

[Paper] [Project Page] [Code] [HuggingFace] [LeaderBoard]

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

Yuqian Yuan, Hang Zhang, Wentong Li, Zesen Cheng, Boqiang Zhang, Long Li, Xin Li, Deli Zhao, Wenqiao Zhang, Yueting Zhuang, Jianke Zhu, Lidong Bing

CVPR, 2025

[paper] [code] [project page]

ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark

Ronghao Dang*, Yuqian Yuan*, Wenqi Zhang*, Yifei Xin, Boqiang Zhang, Long Li, Liuyi Wang, Qinyang Zeng, Xin Li, Lidong Bing

CVPR, 2025

[paper] [code] [project page]

TokenPacker: Efficient Visual Projector for Multimodal LLM

Wentong Li*, Yuqian Yuan*, Jian Liu, Dongqi Tang, Song Wang, Jianke Zhu, Lei Zhang

IJCV, 2025

[paper] [code] [知乎]

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Boqiang Zhang*, Kehan Li*, Zesen Cheng*, Zhiqiang Hu*, Yuqian Yuan*, Guanzheng Chen*, Sicong Leng*, Yuming Jiang*, Hang Zhang*, Xin Li*, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao

Technical Report, 2025

[paper] [code]

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi

ICML, 2025 (Spotlight)

[paper] [code]

Osprey: Pixel Understanding with Visual Instruction Tuning

Yuqian Yuan*, Wentong Li*, Jian Liu, Dongqi Tang, Xinjie Luo, Chi Qin, Lei Zhang, Jianke Zhu

CVPR, 2024

[paper] [code] [video demo] [知乎]

Label-efficient Segmentation via Affinity Propagation

Wentong Li*, Yuqian Yuan*, Song Wang, Wenyu Liu, Dongqi Tang, Jian Liu, Jianke Zhu, Lei Zhang

NeurIPS, 2023

[paper] [code] [project page] [知乎]

Point2Mask: Point-supervised Panoptic Segmentation via Optimal Transport

Wentong Li, Yuqian Yuan, Song Wang, Jianke Zhu, Jianshu Li, Jian Liu, Lei Zhang

ICCV, 2023

[paper] [code]

Research Intern

Alibaba DAMO Academy | Hangzhou | Jul.2024 - Present
Topic: Video understanding with MLLM, Embodied AI
Mentor: Xin Li, Lidong Bing
Ant Group | Hangzhou | Apr.2024 - Jul.2024
Topic: Image understanding with MLLM, Image Tampering Detection and Segmentation

Invited Talks

Sept 19, 2025: REAL Lab @ ZJU. Topic: Fine-grained Pixel-level Understanding: From general scene to embodied.
Jun 5, 2025: AI TIME. Topic: VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM.
Jun 10, 2024: AntGroup. Topic: Frontier Multimodal Large Models.

Honors

National Scholarship, 2021
Silver Medal, China Collegiate Programming Contest for Girls, 2021, 2020
Honorable Mention, The 45th ICPC Asia Regional Contest, 2021
Best Girl's Team, Jiangsu Collegiate Programming Contest, 2021
The 17th place, China Collegiate Programming Contest for Girls, 2020
Second Prize, The 11th "Blue Bridge Cup" National Software Competition Final, 2020