启明新闻

对话 | 开源力量推动生成式AI的发展 | 世界人工智能大会

2023/08/11

编者按:在由启明创投主办的2023世界人工智能大会“生成式AI与大模型:变革与创新”论坛上,人工智能等技术前沿领域的著名专家与学者,顶级投资人和领军创业者汇聚一堂,共同探索中国科技创新的驱动力量。

本次论坛是大会唯一一场由创投机构主办的相关论坛,立足创业与投资视角,分享了最新生成式AI前沿信息和实践探索,并发布了行业首份基于对海内外逾百家企业深入调研撰写的生成式AI洞察报告,全方位解读了生成式AI的产业变革和未来十大展望。

本次论坛特邀Hugging Face的中国区负责人王铁震和未尽研究创始人周健工,就开源力量如何推动生成式AI的发展展开深入探讨。

王铁震认为新的一波AI 2.0(生成式AI)模型相比AI 1.0的模型显示出极强的通用性,让每个用户可以使用,而非仅仅是工程师使用的AI工具。闭源模型如ChatGPT和GPT-4虽然是公认效果最好的模型,但存在数据安全、部署成本与可控性等问题,Hugging Face的千亿参数开源大模型BLOOM为用户提供了解决上述问题的机会,让大模型和AI普惠化。此外,Hugging Face也受益于为全世界开发者提供了分享想法、思路和技术的开源社区而蓬勃发展。

作为全球性的模型开源社区,Hugging Face上有25万个模型,而平台仅有200名员工,周健工表示这令人感到吃惊,并指出业界需要集思广益来思考AI如何普惠更多的人与行业,以及如何在发展过程中确保大模型的可信和安全等问题。

以下为精编整理的对话实录。

01/
通过开源大模型的普惠化
解决数据安全、部署成本与可控性等问题

周健工:今天非常荣幸和大家探讨这个非常重要的话题,关于开源大模型。刚才Alex(启明创投合伙人周志峰)在演讲中提及高科技公司出现了一个很明显的特征——越来越少的员工创造出估值越来越大的公司。我就问了Hugging Face的中国区负责人王铁震目前公司有多少员工?他说有200人。我也很惊讶,Hugging Face被称为全球大模型开源社区的GitHub,在开源社区里面无人不知无人不晓,但是只有200人。这场对话一定是有价值的。

昨天我问王铁震最近在忙什么?他说我最近半年都在学习。第一个问题,您这半年学习了什么?通过学习,您对生成式AI的行业前景有怎样的新感悟?

王铁震:过去五六年,我在谷歌都是在进行人工智能方面的工作。我们当时做谷歌人工智能训练框架,涉及服务器、手机等。我发现那一波人工智能和现在这一波AI 2.0时代的生成式AI非常不一样。以前的模型其实不那么聪明,通用性不好,所以面对每一个场景,都需要重新训练。所以它是一个2B、面向开发者的AI工具,并不是普通人也能用起来的AI工具。

去年大概10月、11月,我发现现在这一波的AI浪潮非常不一样。使用Stable Diffusion最多的不是AI圈的人,而是学艺术、设计的人。ChatGPT出现后,我发现美国普通的学生已经应用ChatGPT写作业了。当时我正好有一个契机加入Hugging Face,加入进来后,我就学习了比较新的技术。除此之外,我还向开发者学习。因为这是一个2C的产品,每个人都使用它,将它与自己的需求、领域结合起来。我也是向大家学习怎样使用该技术解决问题,当看到一些比较创新的想法后,我非常开心。前六个月我基本都在学习中,每天都非常充实,感觉24小时完全不够用。

周健工:其实Hugging Face是受到中国研究人员和开发者重视的一个平台。最近的大模型,尤其是ChatGPT和GPT推出之后,很快Meta推出一个Llama,且越来越多的开源模型被推出。在行业内很自然地产生了一个争论,即闭源和开源模型,它们是怎么共同推进生成式AI往前发展的?它们各自有什么特点和不足?

王铁震:我们以大模型为例。大家最熟悉的大模型ChatGPT是一个闭源的模型。毋庸置疑,ChatGPT及GPT-4是效果最好的模型。很多企业在创业的早期,其实也都是选择ChatGPT,直接给出一些Prompt,就可以很快把产品做出来。但是随着规模的扩大,或者领域要求的变化,就会发现数据安全、企业部署的场景及部署的成本等一些功能上的问题,其实ChatGPT并不能完全满足需求。因此,企业就希望拥有一个可控、可调节、可修改的大模型。

Hugging Face赞助的一个开源组织叫Big Science,做千亿级的模型Bloom。当时,我们使用A100训练这个模型花了100多天,成本非常高,且有50多吨的二氧化碳排放。所以,从头训练一个模型是非常不经济的,尤其对于中小型的公司。其他很多做开源大模型的公司把这个模型公布出来,大家可以基于这个模型做一些场景的调优,这对企业来说要求更低,不需要那么多卡和时间,稍微少一点的算力和数据都可以完成。这其实是开源社区带来的非常好的机会。

往更远说,其实开源社区所有的东西都是透明的,譬如这个模型用了什么样的数据,包括最近大家都认为网络有被遗忘的权利,也就是说被闭源模型数据“吃”掉之后,你永远不知道自己的事情是否在互联网上被公布。开源模型所有的数据集都是公开的。我们在研发大模型的时候,做了BigCode模型,其特殊的机制就是可以Opt out。因为数据集、模型训练、模型发布、优化都是网上全部公开的内容,用户随时可以加入,发现这个模型使用的技术。它提供Opt out的机制,就是如果数据不想被大模型“吃”掉,不想用于大模型的训练,就随时可以把它抹掉,这是开源相对于闭源非常大的优势——它使得个人、企业可以按照自己的需求定制。

另外一个优势是开源其实是非常好的工具,它可以在在线的平台团结全世界的所有开发者。只要有一些想法、思路,开发者都可以通过开源的方式加入开源社区,或者通过其他方式把所做的事情快速地与全世界分享。

刚才您提到Stable Diffusion在很短的时间内就已经凝聚了一个非常大的社区,这个技术的采用速度是非常快的,我认为它之所以能做到这一点,其实与蓬勃发展的开源社区是分不开的——每个人都能参与进来,不仅仅是一个公司几百人、几千人才能做这件事。

02/
通过开源方式将大模型普惠化

周健工:世界人工智能大会开幕当天,2018年图灵奖得主、Meta AI基础人工智能研究院团队首席人工智能科学家杨立昆(Yann LeCun)在讲话中表示,现在解决大模型问题的唯一的出路就是开源。您怎么评论这句话?

王铁震:站在Hugging Face的角度,我们其实非常希望通过开源的方式把大模型普惠化,让每个公司、每个人都能拥有自己的大模型来解决一些问题,包括数据隐私、数据安全等。现在很多世界500强的企业都明确规定员工不许使用ChatGPT这种模型,甚至有一些谣言说谷歌的员工也不允许使用Bard模型,就是担心数据、隐私的泄露。

另外,为了让这个模型在某一个领域趋同人的行为,ChatGPT其实做了alignment(对齐),通过开源,每个人都可以根据自己的需求去生成。但是,ChatGPT并不擅长生成网文,而写小说非常需要创造力,生成网文的模型所需的对齐方式和ChatGPT的对齐方式不一样,所以如果只用ChatGPT是无法完成的,你需要有一个自己的模型,根据自己的诉求做微调。

周健工:看到Hugging Face上有25万个模型,我还是非常吃惊,这都是什么样的模型?它们为什么都在你们的平台上?

王铁震:刚才我们聊的其实都是NLP领域的文本大模型,这个在开源社区看来只是万千模型种类中的一种,包括最近特别热门的文生图都是在我们平台上。为什么这么受欢迎?因为每个人可以练自己的LoRA,比如我的形象不在基础的模型里,需要做一些基础的训练,把我的模型发布出去,别人才能使用我的风格去生成。除了文生图之外,最近特别热门的是文生声音。今年声音模型会是一个突破的点,这一领域也会有非常多的模型。

回到您刚才的问题,为什么千千万万的模型都选择在Hugging Face平台上传?分别是技术层面、社区层面的原因。

技术层面上,我们是AI界的GitHub,更方便AI界的人使用的原因之一是我们支持大文件的上传。譬如,一个Stable Diffusion的文件可能就达到4-5G,在GitHub上无法保存。

而且大家基于我们的平台可以做版本控制、开源的协作等,每个人都可以完成,最后会使得开源模型变得更好。技术上我们提供一键部署,把模型快速地部署到亚马逊云上,可以很快地把你的模型放到生产环境中使用。这就是大家为什么会使用Hugging Face的原因。

社区文化上来说,我们其实是一个非常重视开源社区的公司。我们特别希望帮助开源开发者,让更多开发者参与到开源的事业中来。我们特别愿意接受大家的反馈,与大家互动,对第一次贡献代码的开源模型开发者,我们都会提供非常细致的辅导,这很花时间,投入产出比不高,但是为了把开源社区慢慢做起来,我们觉得这是非常有价值的事情。

譬如有人反馈Hugging Face某一个系统的变量名不是特别好,第二天就发现Hugging Face的员工专门围绕这一反馈开始讨论。这个社区文化实际上非常好,每个人到社区里就有一种家的感觉,大家更愿意使用这个平台。

03/
各行各业的人引入具体的场景
助力探索AI的未来发展方向

周健工:谈到社区,Hugging Face有三类用户,第一类是早期的研究者,第二类是开发者,第三类是Hugging Face想真正找到的技术使用者。结合您在中国的这些工作经历,请讲一讲未来Hugging Face社区的发展方向。

王铁震:我们想要做AI的普惠化,希望每个国家及地区、企业都有自己的模型,并且我们希望每个人都能用上生成式AI提高他们的生产力,享受这个技术带来的福祉。

我们早期的工作确实是像您说的,主要关注学术,研究怎么方便开发者更快地创造模型。之后我们设计了一套API的流程,让大家可以用同样的API快速调用所有的Transformer或者是Diffuser base的模型。

慢慢地我们扩展到工业界,抹平学术界和工业界的差异,比如学术界的一个模型很快就能在工业界应用起来。刚才提到,这一波生成式AI对每一个非技术项用户都有很大的帮助,我们希望进一步降低这个方面的门槛。比如,要使用GitHub上的一个repo,对应所需的搭配其实比较麻烦,特别对于非技术项的用户;但Hugging Face提供了很多工具,其中spaces提供了在线的容器环境,开发者可以把模型直接部署在spaces上面,用户看到的不仅是一堆代码、二进制的文件,还有鲜活的应用,直接点击就可以看到这个模型所做的事情。

另外,我们在国内举办了很多活动,希望帮助更多人了解模型。我们最近在小红书上举办了一场基于diffuser的活动,大家可以生成自己的卡通风格的头像,这与普通产品不一样的是我们提供了一个开发的环境,大家可以在执行程序产生图像结果时,调节其中很多参数,可以了解这个模型的内核,慢慢对此产生兴趣,进一步把AI的能力和实际需求结合起来。

我们最近也举办了AI for Gaming的活动,希望研发游戏的人能了解AI的能力,让做AI的人了解游戏场景关注什么,把两者结合起来,我们在这个方向上会做很多特别有意思的探索。

不仅AI的发展能够帮助各行各业的人,其实各行各业的人加入进来,对AI的发展更有帮助,大家可以一起探索前沿未来的方向,因为这不是AI圈内部就能解决的问题,我们要引入具体的场景。

周健工:这一点确实非常重要,AI怎么普惠更多的人和行业。另一方面,AI怎么在发展的过程中解决可信、安全等问题。

最近我看到Hugging Face牵头写了一篇非常有意思的论文,联合行业中的科技公司和顶级高校从两个层面解决上述几个问题。第一个是系统的层面,第二个是社会的层面。我觉得这是平台真正应该负责做的事情。非常感谢您带来了精彩的科普。我们欢迎Hugging Face来中国。谢谢大家。

王铁震:感谢。