ChatGPT 之前:我的一段大模型经历

回顾一下 ChatGPT 之前,我参与大模型研发的那段日子。

我们最早是和北京智源人工智能研究院(BAAI)合作做大模型的。那时 GPT-3 刚刚出来,北京市随即立了一个大项目,要做自己的大模型,参与的主要有清华唐杰、孙茂松老师团队,以及人民大学文继荣老师团队。项目一共四个方向:面向中文的预训练大模型、融入知识的大模型、多模态大模型,以及蛋白质序列大模型。

文老师负责多模态方向,后来推出了悟道·文澜大模型。我在其中带的是一个创新中心,从 2020 年年中起步,目标很具体:做一个”个人智能信息助手”。我们以智能信息检索与挖掘为基础,在智能搜索、问答系统、对话机器人这几个方向上打技术底座,再把成果往产品上推——落地的重点场景之一是政务服务,想让普通人查询、办理政务事项时能更省力一些。现在看只是初步的尝试,但在当年,这是一个相当硬的挑战。

当年 WIRED 就这个项目做过一篇报道,其中也提到了我们这条线:

“This is a big project,” Wen says with a big grin. “It takes a lot of computing infrastructure and money.” … Wen says his language system could serve as an intelligent assistant to help citizens perform civic tasks online … Zhanliang Liu, project lead for the effort and previously an engineer at Baidu … says his team has built a prototype [for one such government service]. “It is a really tough challenge,” he says.