余宙教授(左)和邵镇炜
记者 沈积慧 通讯员 程振伟
半个月前,在人工智能发展历史中具有里程碑意义的GPT-4震撼发布,它比GPT-3.5获得了一项新的强大技能——图像理解。简单来说,它能和人类一样“看图说话”。
在这次升级前,一位杭州电子科技大学计算机专业的研究生已通过一个小型模型,让原本只能理解语言文本的ChatGPT和GPT-3有了一双“眼睛”。这项技术在评测数据集上的准确率超越了谷歌旗下的DeepMind,也就是推出AlpahGO那家公司研发的大型模型,同时所需的计算资源也大大减少。
目前,他的论文已被全球计算机顶级视觉会议CVPR2023收录。
通过一张照片知道是哪个音乐会现场
这种让ChatGPT和GPT-3学会看图的方法被称为Prophet,由杭州电子科技大学和合肥工业大学的团队共同开发。1998年出生的邵镇炜是论文的第一作者,目前正在杭州电子科技大学计算机系攻读硕士研究生。
使用Prophet后,GPT的图像识别能力大幅提高。训练后的GPT-3可以根据输入的一张音乐现场图片,准确回答现场举办的活动是音乐会。再例如,向GPT-3输入一张卧室图片,其中有红色的帷缦和白色的帘子,然后询问帘子的材质,GPT-3给出的答案是:蕾丝。
OK-VQA数据集上的测试结果显示,Prophet的准确率达到了61.1%,超越了DeepMind提出的同类模型Flamingo(57.8%)。在所需的算力资源上,Prophet也远低于Flamingo。
Flamingo需要在1536块谷歌自研的TPUv4高性能计算卡上训练15天,而Prophet仅需一块消费级显卡训练4天。凭借这一研发,邵镇炜发表了第一篇论文并成功入选世界顶级学术会议CVPR。作为三大顶会中唯一的年度学术会议,CVPR收录的论文代表了计算机视觉领域的最新发展方向和最高研究水平。
1岁时被确诊为“进行性脊肌萎缩症”
对邵镇炜来说,这个成绩有着更特殊的意义。1岁时,他被确诊为“进行性脊肌萎缩症”,肢体一级残疾,没有生活自理能力。但他从未放弃,在2017年高考中以第一名的成绩被杭州电子科技大学计算机专业录取,并在学校期间获得多项荣誉,如2018年中国大学生自强之星、2020年度国家奖学金和2021年度浙江省优秀毕业生等。
在本科期间,邵镇炜就开始跟随导师余宙教授进行科研活动,研究方向是跨模态学习。他的人生偶像包括图灵、香农、Geoffrey Hinton(深度学习之父)等计算机领域的巨匠。邵镇炜表示,他和小伙伴们一直在关注GPT系列方法的发展,早在ChatGPT发布之前,就已注意到了GPT-3所蕴藏的巨大潜力和可能性。
由于身体原因,邵镇炜的很多研究在家中完成。四五个月的时间,他逐行编写了实验代码。身体状况也是他选择计算机专业的一个重要原因:“学计算机,只要一台电脑就可以随时随地学习和研究。”
在有限资源下取得突破
Prophet背后的高校团队来自杭电媒体智能实验室(MIL)。该实验室由国家杰出青年俞俊教授负责,实验室近年来围绕多模态学习方向发表了一系列高水平期刊会议论文(TPAMI、IJCV、CVPR等),并多次获得IEEE期刊会议的最佳论文奖。
杭州电子科技大学计算机学院的余宙教授是教育部“复杂系统建模与仿真”实验室副主任,也是邵镇炜那篇论文的第二作者以及通讯作者。“拍一张照片,问机器图像相关的问题,在计算机领域叫视觉问答。比如问机器,一张图片里有几个杯子,这种基于图像的视觉信息的问答用以往的方法已经能完成得很好。”余宙教授进一步解释说,“但是如果问杯子的材质或者品牌,则是一个更加困难的问题,需要机器具备类似人类的生活常识和知识。Prophet方法就是聚焦于这样的视觉问答任务。”
2020年,ChatGPT的前身GPT-3问世,展现出了强大的推理和决策能力。经过与人类思维方式的对齐,GPT-3的能力在接下来的两年内取得了质的提升。
余宙说:“GPT-3所具备的推理能力和丰富的知识,使我们开始思考能否将其作为一个知识库,用于解决需要知识的视觉问答任务。在我们已有的技术积累的背景下,Prophet是我们对于在大模型时代如何开展跨模态领域的学术研究的一次积极思考和尝试。”
在工业界,人工智能研究往往投入大量的计算资源,而Prophet方法则提供了一个用巧劲在高校做大模型研究的思路。通过Prophet方法的实践,邵镇炜和他的团队证明了在有限的资源条件下,也能取得突破性成果。