基础模型是如何工作的?
基础模型要发挥作用,离不开以下两个决定性特征:迁移学习和规模。迁移学习是指一个模型能够将一种情况的信息应用到另一种情况,并运用其内部“知识”来举一反三。
规模则指的是硬件,尤其是图形处理单元(GPU),它允许一个模型同时执行多个计算,也称为并行处理。GPU 对于训练和部署深度学习模型(包括基础模型)至关重要,因为它们提供了快速处理数据和进行复杂统计计算的能力。
深度学习和基础模型
许多基础模型,尤其是用于自然语言处理(NLP)、计算机视觉和音频处理的基础模型,都是利用深度学习技术进行预训练的。深度学习是一项支撑许多(但不是全部)基础模型的技术,也是该领域许多进步成果的驱动力量。深度学习(也称为深度神经学习或深度神经网络)会让计算机通过观察,学习、模仿人类获取知识的方式。
Transformer 和基础模型
虽然并非所有基础模型都使用 Transformer,但 Transformer 架构已是很流行的一种用于构建涉及文本的基础模型的方式,ChatGPT、BERT 和 DALL-E 2 都使用的是这种架构。Transformer 允许 ML 模型捕获数据序列中元素间的上下文关系和依赖项,从而增强 ML 模型的能力。Transformer 是一种用于 NLP 模型的人工神经网络(ANN);不过,单独使用计算机视觉或语音处理模型的 ML 模型中通常不会用到它们。
基础模型的用例
基础模型经过训练后,可以依靠从大型数据池中获得的知识来帮助解决问题;这一本领可以在许多方面为企业提供有价值的见解和贡献。基础模型能够执行的一些常规任务包括:
自然语言处理(NLP)
通过识别上下文、语法和语言结构,在 NLP 中训练的基础模型可以从训练数据中生成和提取信息。通过训练将文本与情绪(积极、消极、中立)联系起来,对 NLP 模型进行进一步微调,对于希望分析书面信息(如客户反馈、在线评论或社交媒体帖子)的公司可能会非常有用。NLP 是更广泛的领域,包括开发和应用大型语言模型(LLM)。
计算机视觉
模型能够识别基本的形状和特征后,就可开始识别模式。而如果进一步微调计算机视觉模型,就可以实现自动化的内容审核、面部识别和图像分类。模型还可以根据学到的模式生成新的图像。
音频/语音处理
模型能够识别语音元素时,就可理解说话者的语音语调,从而促进更有效和包容的交流。虚拟助理、多语言支持、语音命令和文本转录等功能可以提高可访问性和生产力。
通过进一步微调,企业可以设计更高级的专业机器学习系统,从而满足特定行业的需求,如金融机构的欺诈检测、医疗卫生的基因测序,以及客户服务的聊天机器人等。
进行 AI/ML 评估
企业采用基础模型为什么会有好处?
许多企业或机构可能没有足够的资源来开发自己的大规模 AI 模型,但通过使用这些基础模型,它们可以获得先进的 AI 能力,从而在 AI 领域取得进展。通过采用基础模型并以此为基础来构建,公司可以克服常见的障碍,例如:
对高质量数据的访问受限:基础模型所基于的数据是大多数企业无法企及的。
模型性能/准确性:基础模型可以在一开始就提供相当优良的准确度,而企业原本可能需要数月乃至数年努力才能建立这样的准确度。
价值实现时间:训练一个机器学习模型可能需要花费很长时间和许多资源。基础模型提供了一个预训练的起点,企业或机构只需对其进行微调,从而得到定制的结果。
人才有限:基础模型为企业或机构提供了一种利用 AI/ML 的方式,他们不必在数据科学资源上进行大量投资。
支出管理:使用基础模型可以减少对初始训练所需昂贵硬件的需求。虽然供应和微调最终的模型仍有相关成本,但和训练基础模型本身成本相比,只能算九牛一毛。
企业采用基础模型将面临哪些挑战?
虽然基础模型有许多令人兴奋的应用,但也有不少潜在的挑战需要注意。
成本
基础模型需要大量资源来开发、训练和部署。基础模型的初始训练阶段需要使用大量的通用数据,消耗数万个 GPU,并且通常需要一群机器学习工程师和数据科学家参与
可解释性
“黑匣子”是指 AI 程序在其神经网络中执行一项任务并且不显示其工作的状态。这就会造就一种情况——没有人(包括创建算法的数据科学家和工程师)能够准确解释模型如何获取特定的输出。黑匣子模型缺乏可解释性,所以将其用于高风险决策时可能会产生严重后果,尤其是在医疗卫生、刑事司法或金融等行业。这种黑匣子效应可以发生在任何基于神经网络的模型中,而不仅仅是基础模型。
隐私和安全
基础模型需要访问大量信息,有时包括客户信息或专有的商业数据。如果模型由第三方提供商进行部署或访问,那就必须特别谨慎小心。
准确性和偏见
如果深度学习模型使用的训练数据存在统计学上的偏差,或者不能准确表示总体,则输出就可能存在缺陷。不幸的是,现有的人类偏见通常会传导到人工智能上,从而带来歧视性算法和偏见输出的风险。随着越来越多的企业利用人工智能来提高生产力和性能,至关重要的是制定相关策略,来尽量减少偏见。这要一开始就有包容性的设计,并且要更深远地考虑对所收集的数据是否代表足够的多样性。
红帽能如何提供帮助?
在基础模型方面,我们着重提供底层的工作负载基础架构,包括用来实现这些模型的培训、及时调整、微调和供应的环境。
作为混合云和多云容器开发平台的领导者,红帽® OpenShift® 支持数据科学家和软件开发人员之间开展协作。它可加速跨混合云环境(从数据中心到网络边缘再到多个云)推出智能应用。
借助红帽 OpenShift 数据科学,企业可以访问所需的资源,来快速开发、训练、测试和部署容器化机器学习模型,不必费心去设计和部署 Kubernetes 基础架构。
红帽 OpenShift AI 拥有成熟可靠的 基础,让客户能够更加可靠地进行扩展,借助本地或云服务使用 OpenShift 的原生 GPU 加速功能来训练基础模型。OpenShift AI 也负责为 IBM watsonx 和 Ansible® Lightspeed 提供支撑。
Ansible Lightspeed 加 IBM watsonx Code Assistant 是一种生成式 AI 服务,可协助开发人员更加高效地创建 Ansible 内容。它可读取用户输入的简单英语,再通过与 IBM watsonx 基础模型交互,为自动化任务生成代码建议,然后用于创建 Ansible Playbook。在红帽 OpenShift 上部署 Ansible Lightspeed,可通过智能自动化和编排来缓解 Kubernetes 中的艰巨任务。