国家卓越工程师学院

“与大师面对面”名师讲坛（2025-12-24）（彭宇新，剖析Gemini 3：技术、挑战与启示）

发布日期：2025-12-23 浏览量：

报告题目：剖析Gemini 3：技术、挑战与启示

时间：2025年12月24日 14:00

地点：机械楼一层多功能厅

主办单位：研究生工作部

承办单位：计算机科学与技术学院

主讲人介绍：彭宇新，北京大学二级教授、博雅特聘教授，IEEE/CAAI/CIE/CSIG Fellow，2019年国家杰出青年科学基金获得者（2025年获延续资助），2019年国家万人计划科技创新领军人才，2018年科技部中青年科技创新领军人才，863项目首席专家，中国工程院“人工智能2.0”规划专家委员会专家，中国人工智能产业创新联盟专家委员会主任，中国图象图形学学会副理事长，北京图象图形学学会副理事长。主要研究方向为多媒体分析、计算机视觉、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步奖一等奖，2008年获北京大学宝钢奖教金优秀奖，2017年获北京大学教学优秀奖。主持了863、国家自然基金重点（2项）、北京自然基金联合基金重点、发改委专项等40多个项目。发表TPAMI、IJCV、CVPR、NeurIPS、ICML等ACM/IEEE Trans.和CCF A类论文160多篇，获最佳论文奖2次。参加10届（10年）由美国国家标准与技术研究院（NIST）举办的国际评测TRECVID视频搜索比赛，均获第一名，参赛队伍包括斯坦福大学、卡内基梅隆大学、牛津大学等。成果应用于国家网信办、公安部、国家广播电视总局等重要单位以及华为、腾讯、快手、蔚来、美团、中国电信、中国铁塔等头部企业。担任IEEE TCSVT高级领域编委、IEEE TMM等期刊编委，培养博士生获中国计算机学会、中国电子学会等优博。

讲座内容介绍：2025年全球大模型发展普遍面临增速放缓的问题，包括OpenAI、DeepSeek等最新发布的大模型已从“智力竞赛”退化为“成本竞赛”，而谷歌发布的Gemini 3大模型却实现了性能和体验的双重突破。本报告从Gemini 3的核心技术出发，围绕原生多模态、深度思考与推理、智能体规划三大技术亮点，剖析Gemini 3性能突破背后的原因，同时也通过实测案例揭示Gemini 3在视觉内容理解与生成上仍面临的关键挑战。针对上述挑战，介绍了本团队的最新研究进展，包括多模态大模型的细粒度图像识别、图像思考和运动可控视频生成。最后，报告总结了Gemini 3对大模型领域带来的启示，为国产大模型的发展提供参考。