Wenhan Luo - Publications

Wenhan Luo - List of Publications

	EchoStyle: Unlocking High-Fidelity Video Stylization with Reverse Data Synthesis, Huaqiu Li, Jiahao Wang, Sijia Cai, Hualian Sheng, Bing Deng, Jieping Ye, Wenhan Luo, European Conference on Computer Vision (ECCV), 2026. [arXiv] [Project Page] [Code] [Hugging Face Model]
	ROAR-3D: Routing Arbitrary Views for High-Fidelity 3D Generation, Hanxiao Sun, Mingxin Yang, Shuhui Yang, Zebin He, Xintong Han, Hongbo Fu, Chunchao Guo, Wenhan Luo, European Conference on Computer Vision (ECCV), 2026. [arXiv] [Project Page] [Code]
	LUNA: Learning Universal 3D Human Animation Beyond Skinning, Peng Li, Rawal Khirodkar, Junxuan Li, Yuan Dong, Chen Cao, Yuan Liu, Wenhan Luo, Yike Guo, Shunsuke Saito, European Conference on Computer Vision (ECCV), 2026. [arXiv] [Project Page]
	OmniX: Any-view and Any-time 4D reconstruction via Feed-forward Trajectory Fields, Yanqin Jiang, Tengfei Wang, Zhenwei Wang, Chenjie Cao, Junta Wu, Wenhan Luo, Weiming Hu, Jin Gao, Chunchao Guo, European Conference on Computer Vision (ECCV), 2026. [arXiv] [Project Page] [Code] [Hugging Face Model]
	LlamaSeg: Image Segmentation via Autoregressive Mask Generation, Jiru Deng, Tengjin Weng, Tianyu Yang, Wenhan Luo, Zhiheng Li, Wenhao Jiang, European Conference on Computer Vision (ECCV), 2026. [arXiv] [Code]
	Multimodal deep learning model for AI-based functional prognostic risk stratification in patients undergoing radical nephrectomy, Yunhan Luo, Yatian Wang, Xiangpeng Zou, Shiying Tang, Xin Luo, Zhaohui Zhou, Longbin Xiong, Yulu Peng, Chunsen Yang, Ning Wang, Haitian Song, Gaoyu Zou, Jinhao Shi, Xiangyu Zi, Ming Gao, Nan Jia, Ping Yang, Fengfeng Yang, Zaosong Zheng, Peng Wu, Wen Dong, Pei Dong, Shengjie Guo, Hui Han, Shimiao Zhu, Jinchao Chen, Junhang Luo, Wei Zhai, Yawen Xu, Jianhui Chen, Yu Fan, Le Qu, Xiaonan Chen, Jiaxin Zhuang, Hao Chen, Chunping Yu, Xuepei Zhang, Qifeng Liu, Fangjian Zhou, Shudong Zhang, Wenhan Luo, Xin Yao, Zhiling Zhang, Nature Communications, 2026. [PDF]
	Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling, Gongye Liu, Bo Yang, Yida Zhi, Zhizhou Zhong, Lei Ke, Didan Deng, Han Gao, Yongxiang Huang, Kaihao Zhang, Hongbo Fu, Wenhan Luo, International Conference on Machine Learning (ICML), 2026. [arXiv] [Code]
	Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models, Zixuan Ye, Quande Liu, Cong Wei, Yuanxing Zhang, Xintao Wang, Pengfei Wan, Kun Gai, Wenhan Luo, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2026. [arXiv] [Project Page]
	MRD: Multi-resolution Retrieval-Detection Fusion for High-Resolution Image Understanding, Fan Yang, Xingping Dong, Xin Yu, Wenhan Luo, Wei Liu, Kaihao Zhang, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2026. [arXiv]
	STiTch: Semantic Transition and Transportation in Collaboration for Training-Free Zero-Shot Composed Image Retrieval, Miaoge Li, Dongsheng Wang, Zening Sun, Jinsen Zhang, Wenhan Luo, Jingcai Guo, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2026. [arXiv]
	CogniEdit: Dense Gradient Flow Optimization for Fine-Grained Image Editing, Yan Li, Lin Liu, Xiaopeng Zhang, Wei Xue, Wenhan Luo, Yike Guo, Qi Tian, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2026. [arXiv]
	UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass, Mengfei Li, Peng Li, Zheng Zhang, Jiahao Lu, Chengfeng Zhao, Wei Xue, Qifeng Liu, Sida Peng, Wenxiao ZHANG, Wenhan Luo, Yuan Liu, Yike Guo, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2026. [arXiv] [Project Page] [Code]
	FlowSteer: Guiding Few-Step Image Synthesis with Authentic Trajectories, Lei Ke, Hubery Yin, Gongye Liu, Zhengyao Lv, Jingcai Guo, Chen Li, Wenhan Luo, Yujiu Yang, Jing Lyu, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2026. [arXiv]
	UNIC: Unified In-Context Video Editing, Zixuan Ye, Xuanhua He, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qifeng Chen, Wenhan Luo, International Conference on Learning Representations (ICLR), 2026. [arXiv] [Project Page]
	Pixel-Perfect Puppetry: Precision-Guided Enhancement for Face Image and Video Editing, Yan Li, Zhenyi Wang, Guanghao Li, Wei Xue, Wenhan Luo, Yike Guo, International Conference on Learning Representations (ICLR), 2026. [OpenReview Link]
	HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts, Xinyu Liu, Yingqing He, Lanqing Guo, Xiang Li, Bu Jin, Yan Li, Chi-Min Chan, Wei Xue, Wenhan Luo, Qifeng Liu, Yike Guo, International Journal of Computer Vision (IJCV), vol. 134, 2026. [arXiv] [Project Page] [Code]
	Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation, Zhe Kong, Feng Gao, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Xunliang Cai, Guanying Chen, Wenhan Luo, Neural Information Processing Systems (NeurIPS), 2025. [arXiv] [Project Page] [Code] [Hugging Face Model] [Gradio]
	Foundation Cures Personalization: Improving Personalized Models' Prompt Consistency via Hidden Foundation Knowledge, Yiyang Cai, Zhengkai Jiang, Yulong Liu, Chunyang Jiang, Wei Xue, Yike Guo, Wenhan Luo, Neural Information Processing Systems (NeurIPS), 2025. [PDF] [Project Page] [Code]
	MaterialMVP: Illumination-Invariant Material Generation via Multi-view PBR Diffusion, Zebin He, Mingxin Yang, Shuhui Yang, Yixuan Tang, Tao Wang, Kaihao Zhang, Guanying Chen, Yuhong Liu, Jie Jiang, Chunchao Guo, Wenhan Luo, Proc. of International Conference on Computer Vision (ICCV), Hawaii, USA, 2025. (Highlight) [arXiv] [Project Page] [Code]
	MOERL: When Mixture-of-Experts Meet Reinforcement Learning for Adverse Weather Image Restoration, Tao Wang, Peiwen Xia, Bo Li, Peng-Tao Jiang, Zhe Kong, Kaihao Zhang, Tong Lu, Wenhan Luo, Proc. of International Conference on Computer Vision (ICCV), Hawaii, USA, 2025. [PDF]
	Sampling Enhanced Contrastive Multi-View Remote Sensing Data Clustering with Long-Short Range Information Mining, Renxiang Guan, Tianrui Liu, Wenxuan Tu, Chang Tang, Wenhan Luo, Xinwang Liu IEEE Transactions on Knowledge and Data Engineering (TKDE), vol. 37, pp. 5598-5612, 2025. [PDF]
	Multi-View Large Reconstruction Model via Geometry-Aware Positional Encoding and Attention, Mengfei Li, Xiaoxiao Long, Yixun Liang, Weiyu Li, Yuan Liu, Peng Li, Wenhan Luo, Wenping Wang, Yike Guo, IEEE Transactions on Visualization and Computer Graphics (TVCG), vol. 31, pp. 8564-8577, 2025. [arXiv] [Project Page] [Code]
	VideoVista-CulturalLingo: 360° Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension, Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang, The 63rd Annual Meeting of the Association for Computational Linguistics (ACL), 2025. [arXiv] [Project Page] [Github] [Hugging Face]
	DAM-VSR: Disentanglement of Appearance and Motion for Video Super-Resolution, Zhe Kong, Le Li, Yong Zhang, Feng Gao, Shaoshu Yang, Tao Wang, Kaihao Zhang, Zhuoliang Kang, Xiaoming Wei, Guanying Chen, Wenhan Luo, ACM SIGGRAPH, 2025. [PDF] [Project Page] [Code]
	CMD: Controllable Multiview Diffusion for 3D Editing and Progressive Generation, Peng Li, Suizhi Ma, Jialiang Chen, Yuan Liu, Congyi Zhang, Wei Xue, Wenhan Luo, Alla Sheffer, Wenping Wang, Yike Guo, ACM SIGGRAPH, 2025. [PDF] [Project Page]
	MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration, Zhi Jin, Yuwei Qiu, Kaihao Zhang, Hongdong Li, Wenhan Luo, IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI), vol. 47, pp. 5990–6005, 2025. (Highly Cited Paper & Hot Paper) [arXiv] [Code]
	LLDiffusion: Learning Degradation Representations in Diffusion Models for Low-Light Image Enhancement, Tao Wang, Kaihao Zhang, Yong Zhang, Wenhan Luo, Bjorn Stenger, Tong Lu, Tae-Kyun Kim, Wei Liu, Hongdong Li, Pattern Recognition, vol. 166, pp. 111628, 2025. (Highly Cited Paper & Hot Paper) [arXiv] [Code]
	StyleMaster: Stylize Your Video with Artistic Generation and Translation, Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2025. [arXiv] [Github] [Project Page]
	PSHuman: Photorealistic Single-image 3D Human Reconstruction using Cross-Scale Multiview Diffusion and Explicit Remeshing, Peng Li, Wangguandong Zheng, Yuan Liu, Tao Yu, Yangguang Li, Xingqun Qi, Xiaowei Chi, Siyu Xia, Yan-Pei Cao, Wei Xue, Wenhan Luo, Yike Guo, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2025. [arXiv] [Github] [Project Page] [Hugging Face Demo]
	OSV: One Step is Enough for High-Quality Image to Video Generation, Xiaofeng Mao, Zhengkai Jiang, Fu-Yun Wang, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang, Wenhan Luo, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2025. [PDF]
	Towards Multiple Character Image Animation Through Enhancing Implicit Decoupling, Jingyun Xue, Hongfa Wang, Qi Tian, Yue Ma, Andong Wang, Zhiyuan Zhao, Shaobo Min, Wenzhe Zhao, Kaihao Zhang, Heung-Yeung Shum, Wei Liu, Mengyang Liu, Wenhan Luo, International Conference on Learning Representations (ICLR), 2025. [PDF] [Project Page] [API in Tencent Cloud]
	Co³Gesture: Towards Coherent Concurrent Co-speech 3D Gesture Generation with Interactive Diffusion, Xingqun Qi, Yatian Wang, Hengyuan Zhang, Jiahao Pan, Wei Xue, Shanghang Zhang, Wenhan Luo, Qifeng Liu, Yike Guo, International Conference on Learning Representations (ICLR), 2025. [PDF] [Project Page]
	Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts, Yunxin Li, Shenyuan Jiang, Baotian Hu, Longyue Wang, Wanqi Zhong, Wenhan Luo, Lin Ma, Min Zhang, IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI), vol. 47, pp. 3424-3439, 2025. [arXiv] [Code] [Project Page] [Model]
	Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention, Peng Li, Yuan Liu, Xiaoxiao Long, Feihu Zhang, Cheng Lin, Mengfei Li, Xingqun Qi, Shanghang Zhang, Wenhan Luo, Ping Tan, Wenping Wang, Qifeng Liu, Yike Guo, Neural Information Processing Systems (NeurIPS), 2024. [arXiv] [Code] [Project Page] [Hugging Face Demo] [Model]
	Discovering Sparsity Allocation for Layer-wise Pruning of Large Language Models, Lujun Li, Peijie Dong, Zhenheng Tang, Xiang Liu, Qiang Wang, Wenhan Luo, Wei Xue, Qifeng Liu, Xiaowen Chu, Yike Guo, Neural Information Processing Systems (NeurIPS), 2024. [PDF]
	DREAM: Domain-agnostic Reverse Engineering Attributes of Black-box Model, Rongqing Li, Jiaqi Yu, Changsheng Li, Wenhan Luo, Ye Yuan, Guoren Wang, IEEE Transactions on Knowledge and Data Engineering (TKDE), vol. 36, pp. 8009-8022, 2024. [PDF]
	APPTracker+: Displacement Uncertainty for Occlusion Handling in Low-Frame-Rate Multiple Object Tracking, Tao Zhou, Qi Ye, Wenhan Luo, Haizhou Ran, Zhiguo Shi, Jiming Chen, International Journal of Computer Vision (IJCV), vol. 133, pp. 2044–2069, 2024. [PDF]
	Dual Teacher Knowledge Distillation with Domain Alignment for Face Anti-spoofing, Zhe Kong, Wentian Zhang, Tao Wang, Kaihao Zhang, Yuexiang Li, Xiaoying Tang, Wenhan Luo, IEEE Trans. on Circuits and Systems for Video Technology (TCSVT), vol. 34, pp. 13177-13189, 2024. [PDF]
	Blind Face Video Restoration with Temporal Consistent Generative Prior and Degradation-Aware Prompt, Jingfan Tan, Hyunhee Park, Ying Zhang, Tao Wang, Kaihao Zhang, Xiangyu Kong, Pengwen Dai, Zikun Liu, Wenhan Luo, The 32rd ACM International Conference on Multimedia (ACM MM), 2024. [PDF]
	OMG: Occlusion-friendly Personalized Multi-concept Generation In Diffusion Models, Zhe Kong, Yong Zhang, Tianyu Yang, Tao Wang, Kaihao Zhang, Bizhu Wu, Guanying Chen, Wei Liu, Wenhan Luo, European Conference on Computer Vision (ECCV), 2024. [PDF] [Code] [Project Page] [Hugging Face (OMG+LoRAs)] [Hugging Face (OMG+InstantID)]
	Prompting Future Driven Diffusion Model for Hand Motion Prediction, Bowen Tang, Kaihao Zhang, Wenhan Luo, Wei Liu, Hongdong Li, European Conference on Computer Vision (ECCV), 2024. [PDF]
	Auto-GAS: Automated Proxy Discovery for Training-free Generative Architecture Search, Lujun Li, Haosen Sun, Shiwen Li, Peijie Dong, Wenhan Luo, Wei Xue, Qifeng Liu, Yike Guo, European Conference on Computer Vision (ECCV), 2024. [PDF]
	AttnZero: Efficient Attention Discovery for Vision Transformers, Lujun Li, Zimian Wei, Peijie Dong, Wenhan Luo, Wei Xue, Qifeng Liu, Yike Guo, European Conference on Computer Vision (ECCV), 2024. [PDF]
	DetKDS: Knowledge Distillation Search for Object Detectors, Lujun Li, Yufan Bao, Peijie Dong, Chuanguang Yang, Anggeng Li, Wenhan Luo, Qifeng Liu, Wei Xue, Yike Guo, International Conference on Machine Learning (ICML), 2024. [PDF]
	DeMPAA: Deployable Multi-Mini-Patch Adversarial Attack for Remote Sensing Image Classification, Jun-Jie Huang, Ziyue Wang, Tianrui Liu, Wenhan Luo, Zihan Chen, Wentao Zhao, Meng Wang, IEEE Trans. on Geoscience and Remote Sensing, vol. 62, pp. 1-13, 2024. [PDF]
	Towards Real-World Blind Face Restoration with Generative Diffusion Prior, Xiaoxu Chen, Jingfan Tan, Tao Wang, Kaihao Zhang, Wenhan Luo, Xiaochun Cao, IEEE Trans. on Circuits and Systems for Video Technology (TCSVT), vol. 34, pp. 8494-8508, 2024. [PDF] [Code]
	GridFormer: Residual Dense Transformer with Grid Structure for Image Restoration in Adverse Weather Conditions, Tao Wang, Kaihao Zhang, Ziqian Shao, Wenhan Luo, Bjorn Stenger, Tong Lu, Tae-Kyun Kim, Wei Liu, Hongdong Li, International Journal of Computer Vision (IJCV), vol. 132, pp. 4541-4563, 2024. (Highly Cited Paper & Hot Paper) [PDF] [Code]
	Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation, Xingqun Qi, Jiahao Pan, Peng Li, Ruibin Yuan, Xiaowei Chi, Mengfei Li, Wenhan Luo, Wei Xue, Shanghang Zhang, Qifeng Liu, Yike Guo, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2024. [PDF] [Project Page]
	Context-Aware Integration of Language and Visual References for Natural Language Tracking, Yanyan Shao, Shuting He, Qi Ye, Yuchao Feng, Wenhan Luo, Jiming Chen, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2024. [PDF]
	A Multimodal In-Context Tuning Approach for E-Commerce Product Description Generation, Yunxin Li, Baotian Hu, Wenhan Luo, Lin Ma, Yuxin Ding, Min Zhang, LREC-COLING, 2024. [PDF] [Dataset]
	Aux-NAS: Exploiting Auxiliary Labels with Negligibly Extra Inference Cost, Yuan Gao, Weizhong Zhang, Wenhan Luo, Lin Ma, Jin-Gang Yu, Gui-Song Xia, Jiayi Ma, International Conference on Learning Representations (ICLR), 2024. [PDF]
	Multi-Prior Learning via Neural Architecture Search for Blind Face Restoration, Yanjiang Yu, Puyang Zhang, Kaihao Zhang, Wenhan Luo, Changsheng Li, Ye Yuan, Guoren Wang, IEEE Transactions on Neural Networks and Learning Systems (TNNLS), vol. 36, pp. 3057-3070, 2025. [PDF] [Code]
	Blind Face Restoration for Under-Display Camera via Dictionary Guided Transformer, Jingfan Tan, Xiaoxu Chen, Tao Wang, Kaihao Zhang, Wenhan Luo, Xiaochun Cao, IEEE Trans. on Circuits and Systems for Video Technology (TCSVT), vol. 34, pp. 4914-4927, 2024. [PDF]
	Punctuation-level Attack: Single-shot and Single Punctuation Can Fool Text Models, Wenqiang Wang, Chongyang Du, Tao Wang, Kaihao Zhang, Wenhan Luo, Lin Ma, Wei Liu, Xiaochun Cao, Neural Information Processing Systems (NeurIPS), 2023. [PDF]
	MC-Blur: A Comprehensive Benchmark for Image Deblurring, Kaihao Zhang, Tao Wang, Wenhan Luo, Wenqi Ren, Bjorn Stenger, Wei Liu, Hongdong Li, Ming-Hsuan Yang, IEEE Trans. on Circuits and Systems for Video Technology (TCSVT), vol. 34, pp. 3755-3767, 2024. (Highly Cited Paper & Hot Paper) [PDF] [Dataset]
	Restoring Vision in Hazy Weather with Hierarchical Contrastive Learning, Tao Wang, Guangpin Tao, Wanglong Lu, Kaihao Zhang, Wenhan Luo, Xiaoqin Zhang, Tong Lu, Pattern Recognition, vol. 145, pp. 109956, 2024. [PDF]
	Frequency-oriented Efficient Transformer for All-in-one Weather-degraded Image Restoration, Tao Gao, Yuanbo Wen, Kaihao Zhang, Jing Zhang, Ting Chen, Lidong Liu, Wenhan Luo, IEEE Trans. on Circuits and Systems for Video Technology (TCSVT), vol. 34, pp. 1886-1899, 2024. (Highly Cited Paper) [PDF]
	FnF Attack: Adversarial Attack against Multiple Object Trackers by Inducing False Negatives and False Positives, Tao Zhou, Qi Ye, Wenhan Luo, Kaihao Zhang, Zhiguo Shi, Jiming Chen, Proc. of International Conference on Computer Vision (ICCV), Paris, France, 2023. [PDF] [Project Page] [Code]
	PRIOR: Prototype Representation Joint Learning from Medical Images and Reports, Pujin Cheng, Li Lin, Junyan Lyu, Yijin Huang, Wenhan Luo, Xiaoying Tang, Proc. of International Conference on Computer Vision (ICCV), Paris, France, 2023. [PDF] [Code]
	MB-TaylorFormer: Mutil-branch Efficient Transformer Expanded by Taylor Formula for Image Dehazing, Yuwei Qiu, Kaihao Zhang, Chenxi Wang, Wenhan Luo, Hongdong Li, Zhi Jin, Proc. of International Conference on Computer Vision (ICCV), Paris, France, 2023. [PDF] [Code]
	Homography Guided Temporal Fusion for Road Line and Marking Segmentation, Shan Wang, Chuong Nguyen, Jiawei Liu, Kaihao Zhang, Wenhan Luo, Yanhao Zhang, Sundaram Muthu, Fahira Afzal Maken, Hongdong Li, Proc. of International Conference on Computer Vision (ICCV), Paris, France, 2023. [PDF] [Code]
	InterTracker: Discovering and Tracking General Objects Interacting with Hands in the Wild, Yanyan Shao, Qi Ye, Wenhan Luo, Kaihao Zhang, Jiming Chen, IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2023. [PDF]
	Robust Single Image Reflection Removal Against Adversarial Attacks, Zhenbo Song, Zhenyuan Zhang, Kaihao Zhang, Wenhan Luo, Zhaoxin Fan, Wenqi Ren, Jianfeng Lu, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), USA, 2023. [PDF] [Code]
	Taming Self-Supervised Learning for Presentation Attack Detection: De-Folding and De-Mixing, Zhe Kong, Wentian Zhang, Feng Liu, Wenhan Luo, Haozhe Liu, Linlin Shen, Raghavendra Ramachandra, IEEE Transactions on Neural Networks and Learning Systems (TNNLS), vol. 35, pp. 10639-10650, 2024. [PDF] [Code]
	Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and Transformer-Based Method, Tao Wang, Kaihao Zhang, Tianrun Shen, Wenhan Luo, Bjorn Stenger, Tong Lu, Proc. of the Association for the Advancement of Artificial Intelligence (AAAI), USA, 2023. (Oral) [PDF] [Code]
	Transferring Image-CLIP to Video-Text Retrieval via Temporal Relations, Han Fang, Pengfei Xiong, Luhui Xu, Wenhan Luo, IEEE Transactions on Multimedia (TMM), vol. 25, pp. 7772-7785, 2023. [PDF] [Code]
	T-Net: Deep Stacked Scale-iteration Network for Image Dehazing, Lirong Zheng, Yanshan Li, Kaihao Zhang, Wenhan Luo, IEEE Transactions on Multimedia (TMM), vol. 25, pp. 6794-6807, 2023. [PDF]
	Few-shot Object Counting with Similarity-Aware Feature Enhancement, Zhiyuan You, Kai Yang, Wenhan Luo, Xin Lu, Lei Cui, Xinyi Le, IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2023. (Oral) [PDF] [Code]
	APPTracker: Improving Tracking Multiple Objects in Low-Frame-Rate Videos, Tao Zhou, Wenhan Luo, Zhiguo Shi, Jiming Chen, Qi Ye, The 30th ACM International Conference on Multimedia (ACM MM), 2022. [PDF] [Project Page]
	EDFace-Celeb-1M: Benchmarking Face Hallucination with a Million-scale Dataset, Kaihao Zhang, Dongxu Li, Wenhan Luo, Jingyu Liu, Jiankang Deng, Wei Liu, Stefanos Zafeiriou, IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI), vol. 45, pp. 3968-3978, 2023. [PDF] [Github] [Project Page]
	Deep Image Deblurring: A Survey, Kaihao Zhang, Wenqi Ren, Wenhan Luo, Wei-Sheng Lai, Bjorn Stenger, Ming-Hsuan Yang, Hongdong Li, International Journal of Computer Vision (IJCV), vol. 130, pp. 2103-2130, 2022. (Highly Cited Paper) [PDF]
	Beyond Monocular Deraining: Parallel Stereo Deraining Network Via Semantic Prior, Kaihao Zhang, Wenhan Luo, Yanjiang Yu, Wenqi Ren, Fang Zhao, Changsheng Li, Lin Ma, Wei Liu, Hongdong Li, International Journal of Computer Vision (IJCV), vol. 130, pp. 1754-1769, 2022. [PDF] [Github]
	Aesthetic Text Logo Synthesis via Content-aware Layout Inferring, Yizhi Wang, Guo Pu, Wenhan Luo, Yexin Wang, Pengfei Xiong, Hongwen Kang, Zhouhui Lian, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), USA, 2022. [PDF] [Dataset/Code]
	Enhanced Spatio-Temporal Interaction Learning for Video Deraining: A Faster and Better Framework, Kaihao Zhang, Dongxu Li, Wenhan Luo, Wenqi Ren, Wei Liu, IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI), vol. 45, pp. 1287-1293, 2023. (Highly Cited Paper) [arXiv] [Dataset/Code]
	Dual Attention-in-Attention Model for Joint Rain Streak and Raindrop Removal, Kaihao Zhang, Dongxu Li, Wenhan Luo, Wenqi Ren, IEEE Trans. on Image Processing (TIP), vol. 30, pp. 7608-7619, 2021. [PDF]
	Deep Dense Multi-scale Network for Snow Removal Using Semantic and Geometric Priors, Kaihao Zhang, Rongqing Li, Yanjiang Yu, Wenhan Luo, Changsheng Li, IEEE Trans. on Image Processing (TIP), vol. 30, pp. 7419-7431, 2021. (Highly Cited Paper) [PDF] [Dataset/Code]
	Benchmarking Ultra-High-Definition Image Super-resolution, Kaihao Zhang, Dongxu Li, Wenhan Luo, Wenqi Ren, Bjorn Stenger, Wei Liu, Hongdong Li, Ming-Hsuan Yang, Proc. of International Conference on Computer Vision (ICCV), 2021. [PDF] [Dataset]
	Blind Motion Deblurring Super-Resolution: When Dynamic Spatio-Temporal Learning Meets Static Image Understanding, Wenjia Niu, Kaihao Zhang, Wenhan Luo, Yiran Zhong, IEEE Trans. on Image Processing (TIP), vol. 30, pp. 7101-7111, 2021. [PDF]
	LAGA-Net: Local-And-Global Attention Network for Skeleton Based Action Recognition, Rongjie Xia, Yanshan Li, Wenhan Luo, IEEE Transactions on Multimedia (TMM), vol. 24, pp. 2648-2661, 2022. [PDF]
	Towards Distraction-Robust Active Visual Tracking, Fangwei Zhong, Peng Sun, Wenhan Luo, Tingyun Yan, Yizhou Wang, International Conference on Machine Learning (ICML), 2021. [PDF] [Code] [Environment]
	Single Image Dehazing via Dual-Path Recurrent Network, Xiaoqin Zhang, Runhua Jiang, Tao Wang, Wenhan Luo, IEEE Trans. on Image Processing (TIP), vol. 30, pp. 5211-5222, 2021. [PDF]
	Liquid Warping GAN with Attention: A Unified Framework for Human Image Synthesis, Wen Liu, Zhixin Piao, Zhi Tu, Wenhan Luo, Lin Ma, Shenghua Gao, IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI), vol. 44, pp. 5114-5132, 2022. [PDF] [Code]
	Multidimensional Local Binary Pattern for Hyperspectral Image Classification, Yanshan Li, Haojin Tang, Weixin Xie, Wenhan Luo, IEEE Trans. on Geoscience and Remote Sensing, vol. 60, pp. 1-13, 2022. [PDF]
	Disentangled Feature Networks for Facial Portraits Generation, Kaihao Zhang, Wenhan Luo, Lin Ma, Wenqi Ren, Hongdong Li, IEEE Transactions on Multimedia (TMM), vol. 24, pp. 1378-1388, 2022. [PDF]
	Multiple Object Tracking: A Literature Review, Wenhan Luo, Junliang Xing, Anton Milan, Xiaoqin Zhang, Wei Liu, Tae-Kyun. Kim, Artificial Intelligence, vol. 293, pp. 103448, 2021. (Highly Cited Paper) [PDF]
	Multi-level Fusion and Attention-guided CNN for Image Dehazing, Xiaoqin Zhang, Tao Wang, Wenhan Luo, Pengcheng Huang, IEEE Trans. on Circuits and Systems for Video Technology (TCSVT), vol. 31, pp. 4162-4173, 2021. (Highly Cited Paper) [PDF]
	Coupled Network for Robust Pedestrian Detection with Gated Multi-Layer Feature Extraction and Deformable Occlusion Handling, Tianrui Liu, Wenhan Luo, Lin Ma, Junjie Huang, Tania Stathaki, Tianhong Dai, IEEE Trans. on Image Processing (TIP), vol. 30, pp. 754-766, 2021. [PDF]
	STFlow: Self-Taught Optical Flow Estimation Using Pseudo Labels, Zhe Ren, Wenhan Luo, Junchi Yan, Xiaokang Yang, Alan Yuille, Hongyuan Zha, IEEE Trans. on Image Processing (TIP), vol. 29, pp. 9113-9124, 2020. [PDF]
	Every Moment Matters: Detail-Aware Networks to Bring a Blurry Image Alive, Kaihao Zhang, Wenhan Luo, Bjorn Stenger, Wenqi Ren, Lin Ma, Hongdong Li The 28th ACM International Conference on Multimedia (ACM MM), 2020. (Oral) [PDF]
	Distractor-Aware Discrimination Learning for Online Multiple Object Tracking, Zongwei Zhou, Wenhan Luo, Qiang Wang, Junliang Xing, Weiming Hu, Pattern Recognition, vol. 107, pp. 107512, 2020. [PDF]
	Beyond Monocular Deraining: Stereo Image Deraining via Semantic Understanding, Kaihao Zhang, Wenhan Luo, Wenqi Ren, Jingwen Wang, Fang Zhao, Lin Ma, Hongdong Li, European Conference on Computer Vision (ECCV), UK, 2020. [PDF] [Dataset (zzkd)] [Code (ehl2)] [Results (yb4y)] [Github]
	Deblurring by Realistic Blurring, Kaihao Zhang, Wenhan Luo, Yiran Zhong, Lin Ma, Bjorn Stenger, Wei Liu, Hongdong Li, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), USA, 2020. (Oral) [PDF] [Dataset/Code]
	Fine-grained Image-to-Image Transformation towards Visual Recognition, Wei Xiong, Yutong He, Yixuan Zhang, Wenhan Luo, Lin Ma, Jiebo Luo, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), USA, 2020. [PDF] [Project Page]
	Video Deblurring via Spatiotemporal Pyramid Network and Adversarial Gradient Prior, Tao Wang, Xiaoqin Zhang, Runhua Jiang, Li Zhao, Huiling Chen, Wenhan Luo, Computer Vision and Image Understanding (CVIU), vol. 203, pp. 103135, 2021. [PDF]
	AD-VAT+: An Asymmetric Dueling Mechanism for Learning and Understanding Visual Active Tracking, Fangwei Zhong, Peng Sun, Wenhan Luo, Tingyun Yan, Yizhou Wang, IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI), vol. 43, pp. 1467-1482, 2021. [PDF] [Code] [Demo] [Dataset] [Environment]
	Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis, Wen Liu, Zhixin Piao, Jie Min, Wenhan Luo, Lin Ma, Shenghua Gao, Proc. of International Conference on Computer Vision (ICCV), Korea, 2019. [PDF] [Project Page] [Code] [Dataset]
	Weakly-Supervised Spatio-Temporally Grounding Natural Sentence in Video, Zhenfang Chen, Lin Ma, Wenhan Luo, Kwan-Yee K Wong, The 57th Annual Meeting of the Association for Computational Linguistics (ACL), Italy, 2019. (Oral) [PDF] [Code]
	Face Anti-Spoofing: Model Matters, So Does Data, Xiao Yang, Wenhan Luo, Linchao Bao, Yuan Gao, Dihong Gong, Shibao Zheng, Zhifeng Li, Wei Liu, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), USA, 2019. [PDF]
	Learning Joint Gait Representation via Quintuplet Loss Minimization, Kaihao Zhang, Wenhan Luo, Lin Ma, Wei Liu, Hongdong Li, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), USA, 2019. (Oral) [PDF]
	Residual Regression with Semantic Prior for Crowd Counting, Jia Wan, Wenhan Luo, Baoyuan Wu, Antoni Chan, Wei Liu, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), USA, 2019. [PDF] [Project Page] [Code]
	Learning to Compose Dynamic Tree Structures for Visual Contexts, Kaihua Tang, Hanwang Zhang, Baoyuan Wu, Wenhan Luo, Wei Liu, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), USA, 2019. (Oral & Best Paper Finalist) [arXiv] [Code]
	Bi-Real Net: Binarizing Deep Network towards Real-Network Performance, Zechun Liu, Wenhan Luo, Baoyuan Wu, Xin Yang, Wei Liu, Kwang-Ting Cheng, International Journal of Computer Vision (IJCV), vol. 128, pp. 202-219, 2020. [PDF] [arXiv] [Code]
	AD-VAT: An Asymmetric Dueling Mechanism for Learning Visual Active Tracking, Fangwei Zhong, Peng Sun, Wenhan Luo, Tingyun Yan, Yizhou Wang, International Conference on Learning Representations (ICLR), New Orleans, USA, 2019. [OpenReview Link] [Code] [Dataset] [Environment]
	End-to-end Active Object Tracking and Its Real-world Deployment via Reinforcement Learning, Wenhan Luo, Peng Sun, Fangwei Zhong, Wei Liu, Tong Zhang, Yizhou Wang, IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI), vol. 42, pp. 1317-1332, 2020.* [arXiv] [Project Page] [Code] [Environment]
	Cousin Network Guided Sketch Recognition via Latent Attribute Warehouse, Kaihao Zhang, Wenhan Luo, Lin Ma, Hongdong Li, Proc. of the Association for the Advancement of Artificial Intelligence (AAAI), Hawaii, USA, 2019. (Spotlight) [PDF]
	Adversarial Spatio-Temporal Learning for Video Deblurring, Kaihao Zhang, Wenhan Luo, Yiran Zhong, Lin Ma, Wei Liu, Hongdong Li, IEEE Trans. on Image Processing (TIP), vol. 28, no. 1, pp. 291-301, 2019. [arXiv] [Code]
	Trajectories as Topics: Multi-Object Tracking by Topic Discovery, Wenhan Luo, Bjorn Stenger, Xiaowei Zhao, Tae-Kyun Kim, IEEE Trans. on Image Processing (TIP), vol. 28, no. 1, pp. 240-252, 2019. [PDF]
	Bi-Real Net: Enhancing the Performance of 1-bit CNNs with Improved Representational Capability and Advanced Training Algorithm, Zechun Liu, Baoyuan Wu, Wenhan Luo, Xin Yang, Wei Liu, Kwang-Ting Cheng, European Conference on Computer Vision (ECCV), Germany, 2018. [PDF] [Code]
	End-to-end Active Object Tracking via Reinforcement Learning, Wenhan Luo, Peng Sun, Fangwei Zhong, Wei Liu, Tong Zhang, Yizhou Wang, International Conference on Machine Learning (ICML), Sweden, 2018. [PDF] [Project Page] [Code] [Demo]
	Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks, Wei Xiong, Wenhan Luo, Lin Ma, Wei Liu, Jiebo Luo, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), USA, 2018. [arXiv] [Project Page] [Code] [Dataset]
	Real-Time Neural Style Transfer for Videos, Haozhi Huang, Hao Wang, Wenhan Luo, Lin Ma, Wenhao Jiang, Xiaolong Zhu, Zhifeng Li, Wei Liu, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), USA, 2017. [PDF]
	Automatic Topic Discovery for Multi-object Tracking, Wenhan Luo, Bjorn Stenger, Xiaowei Zhao, Tae-Kyun Kim, Proc. of the Association for the Advancement of Artificial Intelligence (AAAI), Austin, Texas, USA, 2015. (Oral) [PDF]
	Bi-label Propagation for Generic Multiple Object Tracking, Wenhan Luo, Tae-Kyun Kim, Bjorn Stenger, Xiaowei Zhao, Roberto Cipolla, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), Columbus, Ohio, USA, 2014. [PDF]
	Unified Face Analysis by Iterative Multi-Output Random Forests, Xiaowei Zhao, Tae-Kyun Kim, Wenhan Luo, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), Columbus, Ohio, USA, 2014. [PDF]

Generic Object Crowd Tracking by Multi-Task Learning, Wenhan Luo, Tae-Kyun Kim, Proc. of British Machine Vision Conference (BMVC), Bristol, UK, 2013. [PDF]

Active Contour-Based Visual Tracking by Integrating Colors, Shapes and Motions, Weiming Hu, Xue Zhou, Wei Li, Wenhan Luo, Xiaoqin Zhang, Steve Maybank, IEEE Trans. on Image Processing (TIP), vol. 22, no. 5, pp. 1778-1792, 2013. [PDF]

Single and Multiple Object Tracking Using Log-Euclidean Riemannian Subspace and Block-Division Appearance Model, Weiming Hu, Xi Li, Wenhan Luo, Xiaoqin Zhang, Steve Maybank, Zhongfei Zhang, IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI), vol. 34, no. 12, pp. 2420-2440, 2012. [PDF]

Robust Visual Tracking via Transfer Learning, Wenhan Luo, Xi Li, Wei Li, Weiming Hu, IEEE International Conference on Image Processing (ICIP), 2011.

Efficient Block-division Model for Robust Multiple Object Tracking, Wenhan Luo, Xiaoqin Zhang, Yang Liu, Xi Li, Weiming Hu, Wei Li, IEEE International Conference on Acoustics,Speech, and Signal Processing (ICASSP), 2011.

Tech Report
	HOMIE: Human-object Centric Video Personalization via Multimodal Intelligent Enhancement, Yiyang Cai, Yi, Nan Chen, Rongchang Xie, Junwen Pan, Chunyang Jiang, Cheng Chen, Wen Zhou, Zhenbang Sun, Wei Xue, Wenhan Luo, Yike Guo, arXiv:2607.18217. [arXiv] [Project Page] [Code] [Hugging Face Model]
	NormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning, Tianlin Pan, Lianyu Pang, Cheng Da, Huan Yang, Changqian Yu, Kun Gai, Wenhan Luo, arXiv:2606.27771. [arXiv] [Project Page] [Code]
	DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation, Nan Chen, Yiyang Cai, Rongchang Xie, Junwen Pan, Cheng Chen, Weinan Jia, Zhuowei Chen, Wen Zhou, Zhenbang Sun, Wenhan Luo, arXiv:2606.26058. [arXiv] [Project Page] [Code]
	MaskAlign: Token-Subset Representation Alignment for Efficient Diffusion Training, Lianyu Pang, Tianlin Pan, Cheng Da, Changqian Yu, Huan Yang, Kun Gai, Song Guo, Wenhan Luo, arXiv:2606.08788. [arXiv] [Project Page] [Code]
	Tango3D: Towards Alignment for Global and Local 2D-3D Correspondence, Zebin He, Mingxin Yang, Shuhui Yang, Hanxiao Sun, Xintong Han, Chunchao Guo, Wenhan Luo, arXiv:2605.19727. [arXiv] [Project Page] [Code]
	VCR: Learning Valid Contextual Representation for Incomplete Wearable Signals, Yuxuan Weng, Wenhan Luo, Qijia Shao, arXiv:2605.18837. [arXiv] [Project Page] [Code]
	Attention Hijacking: Response Manipulation Across Queries in Vision-Language Models, Zhiqiang Wang, Dongrui Liu, Yan Li, Zonghao Ying, Wei Xue, Wenhan Luo, Yike Guo, arXiv:2605.17310. [arXiv] [Project Page] [Code]
	Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models, Yicheng Ji, Zhizhou Zhong, Jun Zhang, Qin Yang, XiTai Jin, Ying Qin, Wenhan Luo, Shuiyang Mao, Wei Liu, Huan Li, arXiv:2605.09681. [arXiv] [Project Page] [Code]
	AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement, Zhizhou Zhong, Yicheng Ji, Zhe Kong, Yiying Liu, Jiarui Wang, Jiasun Feng, Lupeng Liu, Xiangyi Wang, Yanjia Li, Yuqing She, Ying Qin, Huan Li, Shuiyang Mao, Wei Liu, Wenhan Luo, arXiv:2511.23475. [arXiv] [Project Page] [Code] [Gradio] [Hugging Face Model]
	InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing, Shaoshu Yang, Zhe Kong, Feng Gao, Meng Cheng, Xiangyu Liu, Yong Zhang, Zhuoliang Kang, Wenhan Luo, Xunliang Cai, Ran He, Xiaoming Wei, arXiv:2508.14033.* [arXiv] [Project Page] [Code]
	Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models, Yunxin Li, Zhenyu Liu, Zitao Li, Xuanyu Zhang, Zhenran Xu, Xinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang, arXiv:2505.04921, 2025. [arXiv] [Github]

Thesis

Generic Multiple Object Tracking, Dept. of Electrical and Electronic Engineering, Imperial College London, 2016. [PDF]

Tech Report

Thesis