对话 | 开源力量推动生成式AI的发展 | 世界人工智能大会

启明新闻

对话 | 开源力量推动生成式AI的发展 | 世界人工智能大会

2023/08/11

编者按：在由启明创投主办的2023世界人工智能大会“生成式AI与大模型：变革与创新”论坛上，人工智能等技术前沿领域的著名专家与学者，顶级投资人和领军创业者汇聚一堂，共同探索中国科技创新的驱动力量。

本次论坛是大会唯一一场由创投机构主办的相关论坛，立足创业与投资视角，分享了最新生成式AI前沿信息和实践探索，并发布了行业首份基于对海内外逾百家企业深入调研撰写的生成式AI洞察报告，全方位解读了生成式AI的产业变革和未来十大展望。

本次论坛特邀Hugging Face的中国区负责人王铁震和未尽研究创始人周健工，就开源力量如何推动生成式AI的发展展开深入探讨。

王铁震认为新的一波AI 2.0（生成式AI）模型相比AI 1.0的模型显示出极强的通用性，让每个用户可以使用，而非仅仅是工程师使用的AI工具。闭源模型如ChatGPT和GPT-4虽然是公认效果最好的模型，但存在数据安全、部署成本与可控性等问题，Hugging Face的千亿参数开源大模型BLOOM为用户提供了解决上述问题的机会，让大模型和AI普惠化。此外，Hugging Face也受益于为全世界开发者提供了分享想法、思路和技术的开源社区而蓬勃发展。

作为全球性的模型开源社区，Hugging Face上有25万个模型，而平台仅有200名员工，周健工表示这令人感到吃惊，并指出业界需要集思广益来思考AI如何普惠更多的人与行业，以及如何在发展过程中确保大模型的可信和安全等问题。

以下为精编整理的对话实录。

01/
通过开源大模型的普惠化
解决数据安全、部署成本与可控性等问题

周健工：今天非常荣幸和大家探讨这个非常重要的话题，关于开源大模型。刚才Alex（启明创投合伙人周志峰）在演讲中提及高科技公司出现了一个很明显的特征——越来越少的员工创造出估值越来越大的公司。我就问了Hugging Face的中国区负责人王铁震目前公司有多少员工？他说有200人。我也很惊讶，Hugging Face被称为全球大模型开源社区的GitHub，在开源社区里面无人不知无人不晓，但是只有200人。这场对话一定是有价值的。

昨天我问王铁震最近在忙什么？他说我最近半年都在学习。第一个问题，您这半年学习了什么？通过学习，您对生成式AI的行业前景有怎样的新感悟？

王铁震：过去五六年，我在谷歌都是在进行人工智能方面的工作。我们当时做谷歌人工智能训练框架，涉及服务器、手机等。我发现那一波人工智能和现在这一波AI 2.0时代的生成式AI非常不一样。以前的模型其实不那么聪明，通用性不好，所以面对每一个场景，都需要重新训练。所以它是一个2B、面向开发者的AI工具，并不是普通人也能用起来的AI工具。

去年大概10月、11月，我发现现在这一波的AI浪潮非常不一样。使用Stable Diffusion最多的不是AI圈的人，而是学艺术、设计的人。ChatGPT出现后，我发现美国普通的学生已经应用ChatGPT写作业了。当时我正好有一个契机加入Hugging Face，加入进来后，我就学习了比较新的技术。除此之外，我还向开发者学习。因为这是一个2C的产品，每个人都使用它，将它与自己的需求、领域结合起来。我也是向大家学习怎样使用该技术解决问题，当看到一些比较创新的想法后，我非常开心。前六个月我基本都在学习中，每天都非常充实，感觉24小时完全不够用。

周健工：其实Hugging Face是受到中国研究人员和开发者重视的一个平台。最近的大模型，尤其是ChatGPT和GPT推出之后，很快Meta推出一个Llama，且越来越多的开源模型被推出。在行业内很自然地产生了一个争论，即闭源和开源模型，它们是怎么共同推进生成式AI往前发展的？它们各自有什么特点和不足？

王铁震：我们以大模型为例。大家最熟悉的大模型ChatGPT是一个闭源的模型。毋庸置疑，ChatGPT及GPT-4是效果最好的模型。很多企业在创业的早期，其实也都是选择ChatGPT，直接给出一些Prompt，就可以很快把产品做出来。但是随着规模的扩大，或者领域要求的变化，就会发现数据安全、企业部署的场景及部署的成本等一些功能上的问题，其实ChatGPT并不能完全满足需求。因此，企业就希望拥有一个可控、可调节、可修改的大模型。

Hugging Face赞助的一个开源组织叫Big Science，做千亿级的模型Bloom。当时，我们使用A100训练这个模型花了100多天，成本非常高，且有50多吨的二氧化碳排放。所以，从头训练一个模型是非常不经济的，尤其对于中小型的公司。其他很多做开源大模型的公司把这个模型公布出来，大家可以基于这个模型做一些场景的调优，这对企业来说要求更低，不需要那么多卡和时间，稍微少一点的算力和数据都可以完成。这其实是开源社区带来的非常好的机会。

往更远说，其实开源社区所有的东西都是透明的，譬如这个模型用了什么样的数据，包括最近大家都认为网络有被遗忘的权利，也就是说被闭源模型数据“吃”掉之后，你永远不知道自己的事情是否在互联网上被公布。开源模型所有的数据集都是公开的。我们在研发大模型的时候，做了BigCode模型，其特殊的机制就是可以Opt out。因为数据集、模型训练、模型发布、优化都是网上全部公开的内容，用户随时可以加入，发现这个模型使用的技术。它提供Opt out的机制，就是如果数据不想被大模型“吃”掉，不想用于大模型的训练，就随时可以把它抹掉，这是开源相对于闭源非常大的优势——它使得个人、企业可以按照自己的需求定制。

另外一个优势是开源其实是非常好的工具，它可以在在线的平台团结全世界的所有开发者。只要有一些想法、思路，开发者都可以通过开源的方式加入开源社区，或者通过其他方式把所做的事情快速地与全世界分享。

刚才您提到Stable Diffusion在很短的时间内就已经凝聚了一个非常大的社区，这个技术的采用速度是非常快的，我认为它之所以能做到这一点，其实与蓬勃发展的开源社区是分不开的——每个人都能参与进来，不仅仅是一个公司几百人、几千人才能做这件事。

02/
通过开源方式将大模型普惠化

周健工：世界人工智能大会开幕当天，2018年图灵奖得主、Meta AI基础人工智能研究院团队首席人工智能科学家杨立昆（Yann LeCun）在讲话中表示，现在解决大模型问题的唯一的出路就是开源。您怎么评论这句话？

王铁震：站在Hugging Face的角度，我们其实非常希望通过开源的方式把大模型普惠化，让每个公司、每个人都能拥有自己的大模型来解决一些问题，包括数据隐私、数据安全等。现在很多世界500强的企业都明确规定员工不许使用ChatGPT这种模型，甚至有一些谣言说谷歌的员工也不允许使用Bard模型，就是担心数据、隐私的泄露。

另外，为了让这个模型在某一个领域趋同人的行为，ChatGPT其实做了alignment（对齐），通过开源，每个人都可以根据自己的需求去生成。但是，ChatGPT并不擅长生成网文，而写小说非常需要创造力，生成网文的模型所需的对齐方式和ChatGPT的对齐方式不一样，所以如果只用ChatGPT是无法完成的，你需要有一个自己的模型，根据自己的诉求做微调。

周健工：看到Hugging Face上有25万个模型，我还是非常吃惊，这都是什么样的模型？它们为什么都在你们的平台上？

王铁震：刚才我们聊的其实都是NLP领域的文本大模型，这个在开源社区看来只是万千模型种类中的一种，包括最近特别热门的文生图都是在我们平台上。为什么这么受欢迎？因为每个人可以练自己的LoRA，比如我的形象不在基础的模型里，需要做一些基础的训练，把我的模型发布出去，别人才能使用我的风格去生成。除了文生图之外，最近特别热门的是文生声音。今年声音模型会是一个突破的点，这一领域也会有非常多的模型。

回到您刚才的问题，为什么千千万万的模型都选择在Hugging Face平台上传？分别是技术层面、社区层面的原因。

技术层面上，我们是AI界的GitHub，更方便AI界的人使用的原因之一是我们支持大文件的上传。譬如，一个Stable Diffusion的文件可能就达到4-5G，在GitHub上无法保存。

而且大家基于我们的平台可以做版本控制、开源的协作等，每个人都可以完成，最后会使得开源模型变得更好。技术上我们提供一键部署，把模型快速地部署到亚马逊云上，可以很快地把你的模型放到生产环境中使用。这就是大家为什么会使用Hugging Face的原因。

社区文化上来说，我们其实是一个非常重视开源社区的公司。我们特别希望帮助开源开发者，让更多开发者参与到开源的事业中来。我们特别愿意接受大家的反馈，与大家互动，对第一次贡献代码的开源模型开发者，我们都会提供非常细致的辅导，这很花时间，投入产出比不高，但是为了把开源社区慢慢做起来，我们觉得这是非常有价值的事情。

譬如有人反馈Hugging Face某一个系统的变量名不是特别好，第二天就发现Hugging Face的员工专门围绕这一反馈开始讨论。这个社区文化实际上非常好，每个人到社区里就有一种家的感觉，大家更愿意使用这个平台。

03/
各行各业的人引入具体的场景
助力探索AI的未来发展方向

周健工：谈到社区，Hugging Face有三类用户，第一类是早期的研究者，第二类是开发者，第三类是Hugging Face想真正找到的技术使用者。结合您在中国的这些工作经历，请讲一讲未来Hugging Face社区的发展方向。

王铁震：因为我们想要做AI的普惠化，希望每个国家及地区、企业都有自己的模型，并且我们希望每个人都能用上生成式AI提高他们的生产力，享受这个技术带来的福祉。

我们早期的工作确实是像您说的，主要关注学术，研究怎么方便开发者更快地创造模型。之后我们设计了一套API的流程，让大家可以用同样的API快速调用所有的Transformer或者是Diffuser base的模型。

慢慢地我们扩展到工业界，抹平学术界和工业界的差异，比如学术界的一个模型很快就能在工业界应用起来。刚才提到，这一波生成式AI对每一个非技术项用户都有很大的帮助，我们希望进一步降低这个方面的门槛。比如，要使用GitHub上的一个repo，对应所需的搭配其实比较麻烦，特别对于非技术项的用户；但Hugging Face提供了很多工具，其中spaces提供了在线的容器环境，开发者可以把模型直接部署在spaces上面，用户看到的不仅是一堆代码、二进制的文件，还有鲜活的应用，直接点击就可以看到这个模型所做的事情。

另外，我们在国内举办了很多活动，希望帮助更多人了解模型。我们最近在小红书上举办了一场基于diffuser的活动，大家可以生成自己的卡通风格的头像，这与普通产品不一样的是我们提供了一个开发的环境，大家可以在执行程序产生图像结果时，调节其中很多参数，可以了解这个模型的内核，慢慢对此产生兴趣，进一步把AI的能力和实际需求结合起来。

我们最近也举办了AI for Gaming的活动，希望研发游戏的人能了解AI的能力，让做AI的人了解游戏场景关注什么，把两者结合起来，我们在这个方向上会做很多特别有意思的探索。

不仅AI的发展能够帮助各行各业的人，其实各行各业的人加入进来，对AI的发展更有帮助，大家可以一起探索前沿未来的方向，因为这不是AI圈内部就能解决的问题，我们要引入具体的场景。

周健工：这一点确实非常重要，AI怎么普惠更多的人和行业。另一方面，AI怎么在发展的过程中解决可信、安全等问题。

最近我看到Hugging Face牵头写了一篇非常有意思的论文，联合行业中的科技公司和顶级高校从两个层面解决上述几个问题。第一个是系统的层面，第二个是社会的层面。我觉得这是平台真正应该负责做的事情。非常感谢您带来了精彩的科普。我们欢迎Hugging Face来中国。谢谢大家。

王铁震：感谢。

对话 | 开源力量推动生成式AI的发展 | 世界人工智能大会

更多新闻