Publications | Xiangyu Yue

ECCV

X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding

Peiwen Sun*, Xudong Lu*, Huadai Liu*, Yang Bo, Dongming Wu, Huankang Guan, Minghong Cai, Jinpeng Chen, Xintong Guo, Shuhan Li, Fang Liu, Rui Liu, Xiangyu Yue

European Conference on Computer Vision (ECCV), 2026

Paper Project

ECCV

GIDE: Unlocking Diffusion LLMs for Precise Training-Free Image Editing

Zifeng Zhu, Jiaming Han, Jiaxiang Zhao, Minnan Luo, Xiangyu Yue

European Conference on Computer Vision (ECCV), 2026

Paper Code

ECCV

VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning

Lingxiao Li, Yifan Wang, Xinyan Gao, Chen Tang, Xiangyu Yue, Chenyu You

European Conference on Computer Vision (ECCV), 2026

Paper

ECCV

Distill on a Diet: Efficient Knowledge Distillation via Learnable Data Pruning

Yifan Wu*, Yiqi Wang*, Xichen Ye*, Wenjing Yan, Xiaoqiang Li, Cheng Jin, Xiangyu Yue, Weizhong Zhang

European Conference on Computer Vision (ECCV), 2026

Paper Code

ICML

Twins: Learn to Predict Unified Representations with Focal Loss

Kaixiong Gong*, Xin Cai*, Bin Lin, Hao Wang, Yunlong Lin, Mingzhe Zheng, Bohao Li, Jian-Wei Zhang, Miles Yang, Zhao Zhong, Liefeng Bo, Xiangyu Yue

International Conference on Machine Learning (ICML), 2026

Paper

ICML

SpaceVista: All-Scale Visual Spatial Reasoning from mm to km

Peiwen Sun, Shiqiang Lang, Dongming Wu, Yi Ding, Kaituo Feng, Huadai Liu, Zhen Ye, Rui Liu, Yun-Hui Liu, Jianan Wang, Xiangyu Yue

International Conference on Machine Learning (ICML), 2026

Paper Project Code

ICML

Elastic Diffusion Transformer

Jiangshan Wang, Zeqiang Lai, Jiarui Chen, Jiayi Guo, Hang Guo, Xiu Li, Xiangyu Yue, Chunchao Guo

International Conference on Machine Learning (ICML), 2026

Paper Code

ICML

MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

Jiaxu Wang, Yicheng Jiang, Tianlun He, Jingkai Sun, Qiang Zhang, Junhao He, Jiahang Cao, Zesen Gan, Mingyuan Sun, Qiming Shao, Xiangyu Yue

International Conference on Machine Learning (ICML), 2026

Paper

ICML

VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu

International Conference on Machine Learning (ICML), 2026

Paper Project Code

ICML

MIND: Multi-rationale INtegrated Discriminative Reasoning Framework for Multi-modal Large Models

Chuang Yu, Jinmiao Zhao, Mingxuan Zhao, Yunpeng Liu, Xiujun Shu, Yuanhao Feng, Bo Wang, Xiangyu Yue

International Conference on Machine Learning (ICML), 2026

Paper Code

RSS

RISE: Self-Improving Robot Policy with Compositional World Model

Jiazhi Yang*, Kunyang Lin*, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li

Robotics: Science and Systems (RSS), 2026

Paper Project

ICRA

Learning Structural Latent Points for Efficient Visual Representations in Robotic Manipulation

Yicheng Jiang*, Jiaxu Wang*, Junhao He, Zesen Gan, Junhao Li, Qiang Zhang, Jingkai Sun, Jiahang Cao, Mingyuan Sun, Xiangyu Yue, Qiming Shao

IEEE International Conference on Robotics and Automation (ICRA), 2026

Paper arXiv

AAAI

SpatialLogic-Bench: A Diagnostic Benchmark for Task-Oriented Spatiotemporal Reasoning

Xiaoda Yang, Shenzhou Gao, Can Wang, Jiahe Zhang, Menglan Tang, Jingyang Xue, Sheng Liu, Peijian Zhang, Yao Mu, Xiangyu Yue

AAAI Conference on Artificial Intelligence (AAAI), 2026

Paper

ACL Oral

Probing Audio-Visual Reasoning in Multimodal Language Models through the Lens of Audio

Kaixiong Gong*, Kaituo Feng*, Bohao Li*, Yibing Wang, Mofan Cheng, Shijia Yang, Jiaming Han, Benyou Wang, Yutong Bai, Zhuoran Yang, Xiangyu Yue

Annual Meeting of the Association for Computational Linguistics (ACL), 2026 (Oral)

Paper Project

ACL

AdaTooler-V: Adaptive Tool-Use for Images and Videos

Chaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue

Findings of the Association for Computational Linguistics (ACL Findings), 2026

Paper arXiv Code

ACL

Exploring Reasoning Reward Model for Agents

Kaixuan Fan, Kaituo Feng, Manyuan Zhang, Tianshuo Peng, Zhixun Li, Yilei Jiang, Shawn Chen, Peng Pei, Xunliang Cai, Xiangyu Yue

Findings of the Association for Computational Linguistics (ACL Findings), 2026

Paper arXiv Code

ACL

Learning While Staying Curious: Entropy-Preserving Supervised Fine-Tuning via Adaptive Self-Distillation for Large Reasoning Models

Hao Wang*, Hao Gu*, Hongming Piao, Kaixiong Gong, Yuxiao Ye, Xiangyu Yue, Sirui Han, Yike Guo, Dapeng Wu

Annual Meeting of the Association for Computational Linguistics (ACL), 2026

Paper Code

CVPR

StyleDoctor: Towards Specialist Reward Model for Style-centric Generation Tasks

Xilin He, Xiaole Xian, Xiangyu Yue, Muhammad Haris Khan

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026

Paper

CVPR

LATTICE: Democratize High-Fidelity 3D Generation at Scale

Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Qingxiang Lin, Jingwei Huang, Chunchao Guo, Xiangyu Yue

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026

Paper Project Code

CVPR Highlight

NaTex: Seamless Texture Generation as Latent Color Diffusion

Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Xin Yang, Xin Huang, Jingwei Huang, Xiangyu Yue, Chunchao Guo

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026 (Highlight)

Paper Project Code

CVPR

3D-Aware Multi-Task Learning with Cross-View Correlations for Dense Scene Understanding

Xiaoye Wang, Chen Tang, Xiangyu Yue, Wei-Hong Li

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026

Paper Code

CVPR

OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models

Zhenyu Wu, Jingjing Xie, Zehao Li, Bowen Yang, Qiushi Sun, Zhaoyang Liu, Zhoumianze Liu, Yu Qiao, Xiangyu Yue, Zun Wang, Zichen Ding

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026

Paper Code

CVPR

Transition Models: Rethinking the Generative Learning Objective

Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026

Paper Code

CVPR

Language Does Matter for Cross-Domain Few-Shot Visual Feature Enhancement

Fei Zhou, Xiwen Zhang, Qingqing Qiu, Lei Zhang, Wei Wei, Chen Ding, Yi Zhang, Liang Li, Xiangyu Yue, Yanning Zhang

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026

Paper Code

CVPR

MMBench-GUI: A Unified Hierarchical Evaluation Framework for Multi-Platform GUI Agents

Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026

Paper Code

CVPR

OneThinker: All-in-one Reasoning Model for Image and Video

Kaituo Feng, Manyuan Zhang, Hongyu Li, Kaixuan Fan, Shuang Chen, Yilei Jiang, Dian Zheng, Peiwen Sun, Yiyuan Zhang, Haoze Sun, Yan Feng, Peng Pei, Xunliang Cai, Xiangyu Yue

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026

Paper Code

CVPR

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

Minghong Cai, Qiulin Wang, Zongli Ye, Wenze Liu, Quande Liu, Weicai Ye, Xintao Wang, Pengfei Wan, Kun Gai, Xiangyu Yue

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Findings, 2026

Paper arXiv

CVPR

Evolve Vision-Language-Action Model into an Agent with On-the-fly Tool-use

Ding Yi, Yanzhao Yu, Xili Dai, Xianbiao Qi, Peiwen Sun, Xueqian Wang, Xiangyu Yue, Jianan Wang

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Findings, 2026

Paper

ICLR

PreciseCache: Precise Feature Caching for Efficient and High-fidelity Video Generation

Jiangshan Wang, Kang Zhao, Jiayi Guo, Jiayu Wang, Hang Guo, Chenyang Zhu, Xiu Li, Xiangyu Yue

International Conference on Learning Representations (ICLR), 2026

Paper OpenReview

ICLR

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

Kaixuan Fan*, Kaituo Feng*, Haoming Lyu, Dongzhan Zhou, Xiangyu Yue

International Conference on Learning Representations (ICLR), 2026

Paper OpenReview Code

ICLR

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

Zhaoyang Liu, Jingjing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang

International Conference on Learning Representations (ICLR), 2026

Paper OpenReview Code

ICLR

MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

Sihan Yang*, Runsen Xu*, Yiman Xie, Sizhe Yang, Mo Li, Jingli Lin, Chenming Zhu, Xiaochen Chen, Haodong Duan, Xiangyu Yue, Dahua Lin, Tai Wang, Jiangmiao Pang

International Conference on Learning Representations (ICLR), 2026

Paper OpenReview Code

ICLR

Consistent Noisy Latent Rewards for Trajectory Preference Optimization in Diffusion Models

Xiaole Xian, Xilin He, Wenting Chen, Wenshuang Liu, Wenqi Mu, Yancheng He, Liang Li, Yi Zhang, Xiangyu Yue

International Conference on Learning Representations (ICLR), 2026

Paper OpenReview

TPAMI

Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

Paper arXiv

NeurIPS

Video-R1: Reinforcing Video Reasoning in MLLMs

Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Junfei Wu, Xiaoying Zhang, Benyou Wang, Xiangyu Yue

NeurIPS 2025 Most Influential Paper Top 10

Advances in Neural Information Processing Systems (NeurIPS), 2025

Paper Code

NeurIPS

Native-Resolution Image Synthesis

Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang

Advances in Neural Information Processing Systems (NeurIPS), 2025

Paper Project Code

NeurIPS Highlight

ReSim: Reliable World Simulation for Autonomous Driving

Jiazhi Yang, Kashyap Chitta, Shenyuan Gao, Long Chen, Yuqian Shao, Xiaosong Jia, Hongyang Li, Andreas Geiger, Xiangyu Yue, Li Chen

Advances in Neural Information Processing Systems (NeurIPS), 2025 (Highlight)

Paper Project

NeurIPS

Learning to Integrate Diffusion ODEs by Averaging the Derivatives

Wenze Liu, Xiangyu Yue

Advances in Neural Information Processing Systems (NeurIPS), 2025

Paper Code

NeurIPS

Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations

Jiaming Han, Hao Chen, Yang Zhao, Hanyu Wang, Qi Zhao, Ziyan Yang, Hao He, Xiangyu Yue, Lu Jiang

Advances in Neural Information Processing Systems (NeurIPS), 2025

Paper Project

NeurIPS

Fira: Can We Achieve Full-rank Training of LLMs under Low-rank Constraint?

Xi Chen, Kaituo Feng, Changsheng Li, Xunhao Lai, Xiangyu Yue, Ye Yuan, Guoren Wang

Advances in Neural Information Processing Systems (NeurIPS), 2025

Paper Code

ICCV