01、学校招生要求
香港中文大学(CUHK)信息工程系博士项目主要面向有志于在信息工程领域进行创新研究的优秀学生。根据学校最新政策,申请者需满足以下条件:
学历要求
·拥有被认可大学的硕士学位(研究型或授课型)或学士学位
·应届毕业生在课程开始前取得所需学历资格亦可申请
·若申请者拥有研究型硕士学位,博士常规学习期限为36个月;若只有学士学位,则为48个月
英语能力要求(满足以下条件之一)
·本科或研究生阶段使用英语作为教学语言
·托福(TOEFL)成绩不低于79分
·雅思(IELTS)成绩不低于6.5分
·在香港高级程度会考或高等程度会考英语科目取得合格分数
·香港中等文凭考试(HKDSE)英文科目取得4级或以上成绩
学术成绩要求
·本科/硕士平均成绩达到B以上或GPA达到3.0以上(满分4分)
·百分制计算的学校要求成绩达到80%以上
·对于申请研究型博士,建议来自211/985高校或国际知名学府
研究能力要求
·具备扎实的数学基础和编程能力
·有科研经历、发表过学术论文者优先考虑
·有参与相关领域国际会议或项目经验者优先
申请流程
·在线提交申请材料(含个人陈述、研究计划、学历证明、成绩单、推荐信等)
·参加面试(通常含研究能力测试和英语能力测试)
·最终录取(录取时间为每年春季和秋季)
联系方式
岳翔宇教授招收2026年入学的全奖博士生,以及访问学者/实习生。有意向的同学可通过以下方式联系:
·岳教授实验室提供万卡级算力资源支持
·为博士生提供伯克利/斯坦福/MIT访问通道
·提供头部企业实习内推机会
·支持跨实验室合作
值得注意的是,香港中文大学信息工程系PhD项目通常更倾向于录取博士申请者而非硕士研究生(MPhil)。获得全额奖学金的博士生每年可获得约24万港币(最高可达40万港币)的资助,足以覆盖学费和生活费。
02、教授研究方向
岳翔宇教授是香港中文大学信息工程系的助理教授,同时任职于多媒体实验室(MMLab)。他拥有极其优秀的学术背景:加州伯克利大学博士(师从EDA之父Alberto Sangiovanni院士)、斯坦福大学硕士以及南京大学本科学位。
学术成就
·曾获Lotfi A. Zadeh最佳论文奖
·担任CVPR/NeurIPS/ICML等顶级会议的领域主席
·在Google Research、Google [X] Robotics、百度AI研究院和腾讯AI实验室等知名机构有研究经历
核心研究领域
岳教授的研究方向主要集中在以下几个领域:
1.多模态学习与多模态大模型
·开发能够理解和处理多种输入模态(图像、文本、音频、视频等)的统一框架
·研究模态间的对齐、融合和交互机制
·提出了OneLLM框架,能够将八种不同模态与语言进行统一对齐
2.生成式AI与大模型
·研究视觉-语言模型的结构设计与训练方法
·探索大规模预训练模型的知识迁移与适应机制
·开发高效的模型微调与部署技术
3.具身智能与机器人学习
·研究如何将大语言模型与物理世界交互结合
·探索基于视觉-语言模型的机器人控制与决策
·解决机器人在现实世界中的感知与操作问题
4.AI4Science科学发现
·利用AI技术加速科学研究与发现
·开发专用于科学领域的多模态模型
·探索AI在医疗、化学、物理等领域的应用
代表性工作
岳教授近期的代表性工作包括:
· OneLLM:一个统一的框架,能够将八种不同模态与语言进行对齐,在CVPR 2024发表
· Meta-Transformer:一个统一的多模态学习框架,能够处理12种不同模态的数据
· Multimodal Pathway:改进Transformer架构,利用不同模态的数据提升模型性能
· ScreenCoder:通过模块化多模态代理推进前端自动化中的视觉到代码生成
· RAP-MLLM:个性化多模态助手系统,能够理解和记忆用户特定的视觉概念
03、创新研究想法
基于岳教授的研究方向,以下是几个具有发展潜力的创新研究方向:
面向低资源场景的多模态迁移学习
研究目标:开发能够从资源丰富模态(如图像-文本)高效迁移知识到资源匮乏模态(如点云-文本)的方法。
技术路线:
1.设计跨模态知识蒸馏框架,从预训练的大规模图像-文本模型向其他模态投影模块传递知识
2.探索模态不变特征表示,减少不同模态间的分布差异
3.构建统一的零样本/少样本学习框架,实现对新模态的快速适应
4.开发模态自适应的指令微调策略,减少对标注数据的依赖
应用场景:医疗影像分析、工业缺陷检测、自动驾驶等对标注数据要求高且获取困难的领域。
多模态大模型的安全对齐与防御
研究目标:提高多模态大模型对抗攻击的鲁棒性,并确保模型输出符合安全伦理标准。
技术路线:
1.设计针对多模态输入的对抗样本检测与防御机制
2.开发跨模态安全推理数据集与评估基准
3.研究基于隐层状态的jailbreak攻击检测方法
4.构建多模态模型的红队测试系统,系统性评估和提升模型安全性
5.设计平衡模型有用性与安全性的新型训练与对齐方法
应用价值:保障多模态AI系统在关键领域应用的安全性,减少误用风险。
具身智能体的多阶段长期规划
研究目标:使机器人能够基于视觉-语言模型进行多步骤的复杂任务规划与执行。
技术路线:
1.开发反思性规划框架,使机器人能够在执行过程中不断调整计划
2.结合语义理解和几何指导,实现更精确的人体动作生成与模仿
3.探索多模态大模型在机器人策略学习中的应用
4.构建支持长期记忆与知识累积的机器人认知架构
5.设计低功耗、高效的边缘计算方案,使复杂模型能够在机器人平台上运行
应用前景:家庭服务机器人、工业自动化、辅助医疗等需要长期规划与执行的场景。
多模态预训练模型的高效部署
研究目标:降低多模态大模型的部署门槛,实现在资源受限设备上的高效运行。
技术路线:
1.设计轻量级多模态编码器,减少计算资源需求
2.探索动态路由机制,根据输入内容自适应调整计算资源分配
3.开发模态特定的量化与剪枝技术,针对不同模态的特点进行优化
4.研究多设备协同推理框架,将模型计算任务分布到多个设备上
5.构建模型-硬件协同设计方法,最大化利用硬件特性
落地价值:使多模态AI能够在移动设备、边缘计算节点等资源受限环境中运行,扩大应用范围。