什么是 AI 基础模型?

复制 URL

基础模型是一种经过预训练的机器学习(ML)模型,能够执行一系列的任务。 

直到最近,人工智能(AI)系统仍然是专领域专用的工具,也就是说,它们是针对特定应用或单一用例进行训练的。随着机器学习领域开始出现两个新趋势,基础模型(也称为基本模型)一词开始被大众熟知:

  1. 少量的深度学习架构已被用于各种各样的任务。
  2. 人工智能(AI)模型能够产生与其训练中原本预期的概念不同的新概念。 

基础模型经过编程,学会了一般性的上下文理解,它可以识别和理解数据中的模式、结构和表示。这种对如何沟通和识别模式的基本理解创建了一个基础知识水平,经过进一步修改或微调后,就能执行几乎任何行业的特定领域任务。

 

基础模型要发挥作用,离不开以下两个决定性特征:迁移学习和规模。迁移学习是指一个模型能够将一种情况的信息应用到另一种情况,并运用其内部“知识”来举一反三。

规模则指的是硬件,尤其是图形处理单元(GPU),它允许一个模型同时执行多个计算,也称为并行处理。GPU 对于训练和部署深度学习模型(包括基础模型)至关重要,因为它们提供了快速处理数据和进行复杂统计计算的能力。

深度学习和基础模型
许多基础模型,尤其是用于自然语言处理(NLP)、计算机视觉和音频处理的基础模型,都是利用深度学习技术进行预训练的。深度学习是一项支撑许多(但不是全部)基础模型的技术,也是该领域许多进步成果的驱动力量。深度学习(也称为深度神经学习或深度神经网络)会让计算机通过观察,学习、模仿人类获取知识的方式。 

Transformer 和基础模型
虽然并非所有基础模型都使用 Transformer,但 Transformer 架构已是很流行的一种用于构建涉及文本的基础模型的方式,ChatGPT、BERT 和 DALL-E 2 都使用的是这种架构。Transformer 允许 ML 模型捕获数据序列中元素间的上下文关系和依赖项,从而增强 ML 模型的能力。Transformer 是一种用于 NLP 模型的人工神经网络(ANN);不过,单独使用计算机视觉或语音处理模型的 ML 模型中通常不会用到它们。

基础模型经过训练后,可以依靠从大型数据池中获得的知识来帮助解决问题;这一本领可以在许多方面为企业提供有价值的见解和贡献。基础模型能够执行的一些常规任务包括:

自然语言处理(NLP)
通过识别上下文、语法和语言结构,在 NLP 中训练的基础模型可以从训练数据中生成和提取信息。通过训练将文本与情绪(积极、消极、中立)联系起来,对 NLP 模型进行进一步微调,对于希望分析书面信息(如客户反馈、在线评论或社交媒体帖子)的公司可能会非常有用。NLP 是更广泛的领域,包括开发和应用大型语言模型(LLM)。

计算机视觉
模型能够识别基本的形状和特征后,就可开始识别模式。而如果进一步微调计算机视觉模型,就可以实现自动化的内容审核、面部识别和图像分类。模型还可以根据学到的模式生成新的图像。 

音频/语音处理
模型能够识别语音元素时,就可理解说话者的语音语调,从而促进更有效和包容的交流。虚拟助理、多语言支持、语音命令和文本转录等功能可以提高可访问性和生产力。 

通过进一步微调,企业可以设计更高级的专业机器学习系统,从而满足特定行业的需求,如金融机构的欺诈检测、医疗卫生的基因测序,以及客户服务的聊天机器人等。

进行 AI/ML 评估

许多企业或机构可能没有足够的资源来开发自己的大规模 AI 模型,但通过使用这些基础模型,它们可以获得先进的 AI 能力,从而在 AI 领域取得进展。通过采用基础模型并以此为基础来构建,公司可以克服常见的障碍,例如:

对高质量数据的访问受限:基础模型所基于的数据是大多数企业无法企及的。

模型性能/准确性:基础模型可以在一开始就提供相当优良的准确度,而企业原本可能需要数月乃至数年努力才能建立这样的准确度。 

价值实现时间:训练一个机器学习模型可能需要花费很长时间和许多资源。基础模型提供了一个预训练的起点,企业或机构只需对其进行微调,从而得到定制的结果。 

人才有限:基础模型为企业或机构提供了一种利用 AI/ML 的方式,他们不必在数据科学资源上进行大量投资。

支出管理:使用基础模型可以减少对初始训练所需昂贵硬件的需求。虽然供应和微调最终的模型仍有相关成本,但和训练基础模型本身成本相比,只能算九牛一毛。

 

虽然基础模型有许多令人兴奋的应用,但也有不少潜在的挑战需要注意。

成本
基础模型需要大量资源来开发、训练和部署。基础模型的初始训练阶段需要使用大量的通用数据,消耗数万个 GPU,并且通常需要一群机器学习工程师和数据科学家参与 

可解释性
“黑匣子”是指 AI 程序在其神经网络中执行一项任务并且不显示其工作的状态。这就会造就一种情况——没有人(包括创建算法的数据科学家和工程师)能够准确解释模型如何获取特定的输出。黑匣子模型缺乏可解释性,所以将其用于高风险决策时可能会产生严重后果,尤其是在医疗卫生、刑事司法或金融等行业。这种黑匣子效应可以发生在任何基于神经网络的模型中,而不仅仅是基础模型。 

隐私和安全
基础模型需要访问大量信息,有时包括客户信息或专有的商业数据。如果模型由第三方提供商进行部署或访问,那就必须特别谨慎小心。

准确性和偏见
如果深度学习模型使用的训练数据存在统计学上的偏差,或者不能准确表示总体,则输出就可能存在缺陷。不幸的是,现有的人类偏见通常会传导到人工智能上,从而带来歧视性算法和偏见输出的风险。随着越来越多的企业利用人工智能来提高生产力和性能,至关重要的是制定相关策略,来尽量减少偏见。这要一开始就有包容性的设计,并且要更深远地考虑对所收集的数据是否代表足够的多样性。 

在基础模型方面,我们着重提供底层的工作负载基础架构,包括用来实现这些模型的培训、及时调整、微调和供应的环境。

作为混合云和多云容器开发平台的领导者,红帽® OpenShift® 支持数据科学家和软件开发人员之间开展协作。它可加速跨混合云环境(从数据中心到网络边缘再到多个云)推出智能应用。

借助红帽 OpenShift 数据科学,企业可以访问所需的资源,来快速开发、训练、测试和部署容器化机器学习模型,不必费心去设计和部署 Kubernetes 基础架构。 

红帽 OpenShift AI 拥有成熟可靠的 基础,让客户能够更加可靠地进行扩展,借助本地或云服务使用 OpenShift 的原生 GPU 加速功能来训练基础模型。OpenShift AI 也负责为 IBM watsonx 和 Ansible® Lightspeed 提供支撑。

Ansible Lightspeed 加 IBM watsonx Code Assistant 是一种生成式 AI 服务,可协助开发人员更加高效地创建 Ansible 内容。它可读取用户输入的简单英语,再通过与 IBM watsonx 基础模型交互,为自动化任务生成代码建议,然后用于创建 Ansible Playbook。在红帽 OpenShift 上部署 Ansible Lightspeed,可通过智能自动化和编排来缓解 Kubernetes 中的艰巨任务。

扩展阅读

文章

什么是红帽 OpenShift Operator?

红帽 OpenShift Operator 自动执行 Kubernetes 原生应用实例的创建、配置和管理。

文章

为什么选择红帽 OpenShift Serverless?

红帽 OpenShift Serverless 可扩展 Kubernetes,以部署和管理无服务器工作负载。

文章

为什么选择红帽 OpenShift 服务网格?

使用红帽 OpenShift 服务网格,您能够以统一的方式连接、管理和查看基于微服务的应用。

详细了解 OpenShift

产品

企业级应用平台,包含一系列久经测试的服务,可在您选择的基础架构上将应用推向市场。

出色的软件定义存储,可以随着容器的增减,跨环境为数据提供永久的存储位置。

享受全面支持的沙盒,可在其中快速开发、训练和测试机器学习 (ML) 模型。

一个具有内置安全策略、用于控制 Kubernetes 集群和应用的控制台。

相关资源

培训

免费培训课程

"通过红帽来运行容器"技术概述

免费培训课程

利用微服务架构开发云原生应用

免费培训课程

容器、Kubernetes 和红帽 OpenShift 技术概述