生成式AI简介
课程概述
- 主讲人:Roger Martinez,Google Cloud开发者关系工程师
- 主要内容:
- 生成式AI的定义
- 生成式AI的工作原理
- 生成式AI模型的类型
- 生成式AI的应用
生成式AI的定义
- 生成式AI是一种人工智能技术,能够生成文本、图片、音频等内容。
人工智能与机器学习
- 人工智能(AI)是计算机科学的一个分支,研究如何创建智能体。
- 机器学习是AI的一个分支,通过输入数据训练模型,进行预测。
- 机器学习模型分为监督式和非监督式。
深度学习
- 深度学习是机器学习的一种,使用人工神经网络处理复杂模式。
- 生成式AI是深度学习的一个分支,能够生成新内容。有关深度学习的更多信息,请参阅理解深度学习简介:基础、技术与应用。
生成式与判别模型
- 判别模型用于分类或预测数据点标签。
- 生成模型基于现有数据的概率分布生成新数据实例。
生成式AI的工作原理
- 生成式AI根据训练数据生成新内容,使用统计模型预测可能的回答。
- 生成式语言模型能够生成自然语言文本。
生成式AI的应用
- 生成式AI可用于文本生成、图像生成、音频生成等多种应用。
- Google的多模态AI模型Gemini和对话应用语言模型LaMDA是生成式AI的实例。有关生成式AI的更多应用,请参阅理解生成式AI:概念、模型与应用。
生成式AI的工具
- Vertex AI Studio:快速探索和自定义生成式AI模型。
- Vertex AI Agent Builder:构建生成式AI搜索和对话。
- Gemini:多模态AI模型,能够理解文本、分析图片和音频。
结论
- 生成式AI在各个领域的应用潜力巨大,能够帮助开发者创造新的内容和解决方案。有关生成式AI与AI代理的区别,请参阅理解生成式AI、AI代理与代理AI:关键区别解析。
大家好,欢迎学习“生成式AI简介”课程 还不知道什么是生成式AI吗? 本课程将回答这一问题
我是Roger Martinez Google Cloud的开发者关系工程师 我负责帮助开发者
学习如何使用Google Cloud 在本课程中,我将介绍四项内容 生成式AI的定义
生成式AI的工作原理 生成式AI模型的类型 生成式AI应用
不过,让我们停一下 先来了解一下生成式AI的定义 生成式AI现在非常流行,但它究竟是什么呢?
生成式AI是一种 人工智能技术 可生成各类内容
包括文本、图片、音频和合成数据 那什么是人工智能呢? 在为大家介绍
生成式人工智能之前 不妨先来了解一些背景信息 人们经常问的两个问题是
什么是人工智能? 人工智能与机器学习有什么区别? 我们来谈谈这个方面
可以这样理解:AI是一门学科 就像物理学是一门科学学科一样 AI是计算机科学的一个分支
主要研究如何创建智能体 也就是能够自主推理、学习 和行动的系统
前面讲的内容,大家都理解了吧? 从本质上讲,AI研究理论和方法 以求构建能够像人类一样思考和行动的机器
很简单,对吧? 接下来我们谈谈机器学习 机器学习是人工智能的一个分支
它是一个通过输入数据 来训练模型的程序或系统 经过训练的模型可以根据
从未见过的新数据做出有价值的预测 这些数据提取自训练模型所用的数据集 也就是说,机器学习为计算机赋予了
无需明确编程即可学习的能力 那么,机器学习模型具体是什么样的呢? 最常见的两类机器学习模型是
无监督式机器学习模型和监督式机器学习模型 二者的主要区别是 监督式模型会用到标签
加标签的数据添加了标记 标记包括名称、类型或数字等 未加标签的数据没有标记
监督式模型和非监督式模型都有哪些用途呢? 这个图表提供了一个监督式模型 能够解决的问题类型示例
如果你是一家餐厅的老板 你准备供应什么样的餐食? 比如说披萨或饺子
还是披萨吧,我喜欢披萨 你有一些历史数据,包括账单金额 以及根据订单类型,即自提或外卖
记录的不同客户所支付的小费金额 在监督式学习中,模型通过从过去的样本中学习 来预测未来的值
在本例中,模型根据账单总金额数据 以及订单是自提还是外卖 预测未来的小费金额
对了,各位别忘了给外卖员小费 他们很辛苦的 这是非监督式模型
也许能够解决的问题类型示例 在该示例中,你想查看资历和收入 然后将员工分组或聚类
以了解是否有些员工超出平均发展水平 干得漂亮! 非监督式模型旨在探索数据
查看原始数据 并判断这些数据是否能自然分组 开了个好头。下面我们更进一步
以图形方式展示二者之间的差异 因为理解这些概念 是理解生成式AI的基础
在监督式学习中,测试数据值x 被输入到模型中 模型输出预测值
并将其与用于训练该模型的 训练数据进行比较 如果预测的测试数据值
与实际的训练数据值相差很大 我们就称之为有“误差” 模型会尝试减小此误差
直到预测值和实际值较为接近 这是一个经典的优化问题 我们来看看
到目前为止,我们探讨了 人工智能和机器学习之间的区别 以及监督式学习与非监督式学习之间的区别
我们的开头不错,但接下来呢? 我们先来简要探讨一下 机器学习方法的一个分支,即深度学习
处于什么位置 然后,我们会开始探讨生成式AI 机器学习是一个很宽泛的领域 涵盖了各种不同的技术
深度学习是机器学习技术的一种 使用的是人工神经网络 因此能够处理比一般机器学习
更为复杂的模式 人工神经网络的设计灵感来源于人脑 听起来很酷吧?
就像你的大脑一样 它们由许多相互连接的节点,即神经元组成 这些节点或神经元
可以通过处理数据和进行预测来学习执行任务 深度学习模型通常具有多层神经元 因此能够学习比传统机器学习模型
更加复杂的模式 神经网络可以兼用带标签的数据和不带标签的数据 这称为“半监督式学习”
在半监督式学习中,神经网络的训练 使用少量带标签的数据和 大量不带标签的数据
带标签的数据有助于神经网络学习 该任务的基本概念 而不带标签的数据有助于神经网络
将学习的结果泛化到新的样本 现在我们终于要讨论生成式AI 在AI学科中的位置了
生成式AI是深度学习的一个分支 这意味着它采用人工神经网络 可使用监督式、非监督式和半监督式方法
处理带标签和不带标签的数据 大语言模型也是深度学习的一个分支 看吧,就像我刚才说的,现在话题又回到了生成式AI
我说到做到。 深度学习模型,或者更宽泛地说,机器学习模型 可以分成两种类型
也就是生成式和判别式 判别模型是一种用于 分类或预测数据点标签的模型
这类模型通常基于 带标签的数据点数据集进行训练 以学习数据点特征和
标签之间的关系 判别模型经过训练后 就可以用来预测新数据点的标签
生成模型基于学习到的 现有数据的概率分布 生成新的数据实例
生成模型用于生成新内容 请看以下示例 这个判别模型
会学习条件概率分布 也就是给定输入x时,输出y的概率 这是一只狗
模型就能将其判定为狗,而不是猫 这很棒,因为我正好对猫过敏 生成模型
会学习联合概率分布 即x和y的概率,p(x,y) 并预测这是一只狗的条件概率
然后生成一张狗的图片 乖狗狗,就叫它Fred吧 总而言之,生成模型
可以生成新的数据实例 而判别模型 可以区分不同类型的数据实例
再来看一个简单的示例 顶部的图片显示的是传统机器学习模型 该模型尝试学习数据和标签之间的关系
也就是你想要预测的内容 底部的图片显示的是生成式AI模型 该模型尝试学习内容的模式
以便生成新的内容 如果有人让你挑战“这是不是生成式AI”的游戏 你有没有把握?
我会在需要时助你一臂之力 这张插图展示了 区分是否是生成式AI的好方法
如果模型的输出,即y或标签 是数字、概率、或类别时 比如说,垃圾邮件或非垃圾邮件 那它就不是生成式AI
如果模型的输出是自然语言 例如语音或文本、音频 或者像刚才的Fred那样的图片,那它就是生成式AI
让我们运用一些数学知识来展示二者究竟有何不同 用数学方法直观呈现的话,是这样的 如果你很久没有接触过这样的公式了
y=f(x)等式计算的是 不同的输入值对应的输出值 y代表模型输出
f代表计算或模型中使用的函数 x代表公式中 使用的输入值
这里要注意的是,输入值指的是数据 比如逗号分隔值文件、文本文件、音频文件 或者像Fred那样的图片文件
所以模型输出是所有输入的函数 如果y是数字,比如预测的销售额 则表示它不是生成式AI
如果y是一个句子,比如“定义销售额” 则表示它是生成式AI 因为该问题会引发文本回答 回答内容取决于模型在训练时
使用的大量数据 因此,传统的机器学习监督式学习过程 采用训练代码和带标签的数据来构建模型
根据应用场景或问题的不同 模型可用于预测、分类 或聚类
现在,我们来看看相比之下 生成式AI流程有多么强大 生成式AI流程可使用训练代码
各种带标签和不带标签的数据 来构建一个基础模型 之后,基础模型就能生成新的内容了
它可以生成文本、代码、图片、音频 和视频等 从传统编程发展到神经网络
再到生成模型,我们取得了长足的进步 在传统编程时代,我们需要硬编码规则来 辨别猫咪
类型:动物;腿:四条;耳朵:两只 是否有毛:是;喜欢:毛线和猫薄荷;不喜欢:狗 在神经网络时代
我们可以向神经网络发送猫和狗的图片 问“这是一只猫吗” 它就可以预测出是否是猫
最酷的一点是,在生成式AI时代 用户可以自行生成内容 无论是文本、图片、音频、视频等 例如Google的多模态AI模型Gemini 或者对话应用语言模型LaMDA
它们会从互联网上的多个来源 获取规模非常庞大的数据 然后建立基础语言模型 使用这些模型的方式很简单,提问 可以输入文字形式的提示 也可以用口头对话形式给出提示
所以,当你问“什么是猫”时 它会将自己掌握的关于猫的所有内容 全部告诉你 现在,我们来看看正式的官方定义是什么
什么是生成式AI? 生成式AI是一种人工智能 它根据从现有内容中学到的知识 创建新的内容
从现有内容中学习的过程称为“训练” 其结果是创建一个统计模型 收到提示后,生成式AI会使用 此统计模型预测可能的回答
从而生成新的内容 它会学习数据的底层结构 然后生成与其训练所使用的数据 相似的新样本
正如我之前提到的,生成式语言模型可以吸收 从向其展示的样本中学到的知识 然后根据这些知识创建全新的内容 这就是我们使用“生成式”这个词的原因
大语言模型能够 以听起来自然的语言生成新的文本组合 但它只是生成式AI中的一类 生成式图像模型可将图片作为输入 然后输出文本、其他图片或视频
例如,如果输出文本,可以生成直观的问答内容 如果输出图片,可以生成补全的图片 如果输出视频,可以生成动画
生成式语言模型可接受文本作为输入 并可输出更多文本、图片、音频或决策 例如,如果输出文本,可以生成问答内容
如果输出图片,可以生成视频 我刚才提到过,生成式语言模型 通过训练数据来学习语言中的规律
看看这个例子 根据从训练数据中学到的知识 它可以预测如何补全这个句子
“我正在做一个三明治 用的是花生酱和......果冻。” 很简单,对吧? 只需提供一些文本,它就能预测接下来的内容
因此,生成式语言模型是模式匹配系统 它根据提供的数据来了解模式 这是Gemini针对同一问题的回答 Gemini使用海量文本数据训练而成
能够与用户对话,并根据各种提示和问题 生成类似真人反应的文本 看看它的回答有多么详细!
接下来的这个示例比刚才的花生果酱三明治示例 更复杂一些 生命的意义是:
无论问题有多含糊 Gemini总能给出一段符合情境的回答 然后显示可能性最大的回答 生成式AI之所以如此强大 是因为使用了Transformer
Transformer在2018年掀起了一场 自然语言处理变革 概括来讲,Transformer模型 由编码器和解码器组成 编码器对输入序列进行编码,再将它传递给解码器
解码器会学习如何解码相关任务的表示法 不过,Transformer有时也会出现问题 “幻觉”是模型生成的无意义
或存在语法问题的字词或短语 不太妙,对吧? 幻觉可由多种因素引起,比如
用来训练模型的数据不足 训练所用的是噪声数据或脏数据 没有为模型提供充足的上下文
或是没有为模型提供足够的限制条件 幻觉会给Transformer带来不利影响 因为它会让输出文本难以理解
还会让模型更容易生成不正确或误导性的信息 简而言之 幻觉很不好
我们换个稍微走偏一点的话题,聊聊提示 提示是作为输入提供给大语言模型的一小段文本 可用于以多种方式控制模型的输出
提示设计是指创建能够从大语言模型(LLM)中 获得所需输出的提示的过程 就像我刚才说的,生成式AI高度依赖
为其提供的训练数据 它分析输入数据的模式和结构,从而进行“学习” 但使用基于浏览器的提示 用户可以生成自己的内容
下面,我们来简单介绍一下 将文本作为输入时可使用的模型类型 以及这些模型可以解决哪些问题 比如说朋友们每次聊足球 我都听得一头雾水
第一种模型类型是 文本到文本 文本到文本模型使用自然语言 作为输入并生成文本输出
这类模型经过训练 来学习一对文本之间的映射关系 举个例子,从一种语言翻译为 其他语言
第二种是文本转图片模型 文本转图片模型使用大量图片进行训练 并且每张图片都带有简短的文本描述
diffusion模型就是其中的一种 此外,还有文本到视频和文本到3D模型 文本到视频模型旨在 通过文本输入生成视频表示形式
输入文本可以是一个句子 也可以是一段完整的文字 输出则是与输入文本相对应的视频 同样,文本到3D模型可以生成 与用户的文本描述相对应的三维对象
可用于游戏或其他3D领域 最后一个是文本到任务模型 文本到任务模型经训练后 可根据文本输入执行指定任务或操作
这些任务可以是各种操作 比如回答问题、执行搜索 进行预测或采取某种操作 例如,文本到任务模型经训练后可浏览网页界面
或者通过图形界面对文档进行修改 借助这些模型,在观看比赛时 我就能听懂朋友们讨论的内容了
还有一种模型比我刚才提到的模型要大 那就是基础模型,它是一种大型AI模型 基于大量数据进行了预训练 旨在适应(或在微调后适应) 各种类型的下游任务 比如情感分析、图片标注和
对象识别 基础模型有可能彻底改变许多行业 包括医疗保健、金融和客户服务
这类模型甚至还可用于 检测欺诈行为和提供个性化的客户支持 如果你正在寻找基础模型 Vertex AI的Model Garden中就包含 这样的基础模型
语言基础模型包括聊天、文本和代码 视觉基础模型包括Stable Diffusion 该模型已被证明可有效地 根据文本描述生成高质量图片
假设在某个应用场景下 你需要收集客户的一些情绪信息 比如对你的产品或服务的感受 你就可以使用分类任务模型中的 情感分析任务模型
视觉任务也是如此,如需进行人车数量分析 你可以找到适合该应用场景的任务特定模型 以上是我们可以使用的一些基础模型示例 不过,生成式AI能否帮助
编写应用代码呢? 当然可以! 这里所示的是各种生成式AI应用
如你所见,种类非常多 我们来看一个代码生成方面的示例 位于第二列“code”中的 第一项
在该示例中,我输入了一个代码文件转换问题 从Python转换为JSON 在Gemini的提示框中输入 我有一个Pandas DataFrame,包含两列
一列是文件名 一列是生成该文件的小时时间 我想把它转换成一个JSON文件 采用屏幕上显示的格式 Gemini返回了我需要采取的步骤
看这里,输出已转换为JSON格式了 很酷吧? 别着急,还有更厉害的!
我正好在用Google 基于浏览器的免费Jupyter笔记本 可以直接将Python代码 导出到Google Colab 总结一下,Gemini代码生成功能可帮助你
调试源代码行,逐行解释代码 针对数据库编写SQL查询 将代码从一种语言转换成另一种语言 为源代码生成文档和教程
接下来,我将介绍Google Cloud的另外三个 可帮助你充分利用生成式AI的工具 第一个是Vertex AI Studio
借助Vertex AI Studio,你可以快速 探索和自定义生成式AI模型 以便在自己的Google Cloud应用中使用这些模型 Vertex AI Studio提供丰富的工具和资源
可帮助开发者轻松上手创建和部署生成式AI模型 比如说,它提供预训练模型库 用于微调模型的工具 用于将模型部署到生产环境的工具
以及供开发者分享想法和开展协作的社区论坛 接下来是Vertex AI 对于没有太多编码经验的用户来说 它尤为有用
Vertex AI Agent Builder以前称为 Vertex AI Search and Conversation 你可以用它为客户和员工构建 生成式AI搜索和对话 构建时只需编写少量代码或无需编码 并且无需机器学习方面的经验
你可以用Vertex AI创建自己的 聊天机器人、数字助理 自定义搜索引擎、知识库
以及培训应用等等 最后要介绍的是Gemini,这是一种多模态AI模型 与传统的语言模型不同,它不仅可以理解文本
还可以分析图片、理解音频的细微差别 甚至可以解释编程代码 因此,Gemini能够执行AI以前无法完成的复杂任务 得益于其先进的架构 Gemini具有极强的适应性和可伸缩性
适用于范围广泛的应用 Model Garden会不断更新以加入新的模型 现在你应该对生成式AI有了全面的了解
虽然可能还未掌握所有知识 但肯定了解了基本知识 感谢观看我们的视频课程 如果想深入了解如何使用AI 欢迎观看我们的其他视频课程
Heads up!
This summary and transcript were automatically generated using AI with the Free YouTube Transcript Summary Tool by LunaNotes.
Generate a summary for freeRelated Summaries

Understanding Generative AI: Concepts, Models, and Applications
Explore the fundamentals of generative AI, its models, and real-world applications in this comprehensive guide.

掌握ChatGPT与Google Bard的提示语技巧
在本期视频中,杰夫分享了如何通过六个基本元素来构建有效的提示语,以便快速生成高质量的AI回答。了解任务、语境、示范、人设、格式和语气的运用,将帮助你更好地利用ChatGPT和Google Bard。

Understanding Generative AI, AI Agents, and Agentic AI: Key Differences Explained
In this video, Krishna breaks down the essential differences between generative AI, AI agents, and agentic AI. He explains how large language models and image models function, the role of prompts in generative applications, and the collaborative nature of agentic AI systems.

Understanding Introduction to Deep Learning: Foundations, Techniques, and Applications
Explore the exciting world of deep learning, its techniques, applications, and foundations covered in MIT's course.

Comprehensive Introduction to AI: History, Models, and Optimization Techniques
This lecture provides a detailed overview of Artificial Intelligence, covering its historical evolution, core paradigms like modeling, inference, and learning, and foundational optimization methods such as dynamic programming and gradient descent. It also discusses AI's societal impacts, challenges, and course logistics for Stanford's CS221.
Most Viewed Summaries

A Comprehensive Guide to Using Stable Diffusion Forge UI
Explore the Stable Diffusion Forge UI, customizable settings, models, and more to enhance your image generation experience.

Mastering Inpainting with Stable Diffusion: Fix Mistakes and Enhance Your Images
Learn to fix mistakes and enhance images with Stable Diffusion's inpainting features effectively.

How to Use ChatGPT to Summarize YouTube Videos Efficiently
Learn how to summarize YouTube videos with ChatGPT in just a few simple steps.

Pag-unawa sa Denotasyon at Konotasyon sa Filipino 4
Alamin ang kahulugan ng denotasyon at konotasyon sa Filipino 4 kasama ang mga halimbawa at pagsasanay.

Ultimate Guide to Installing Forge UI and Flowing with Flux Models
Learn how to install Forge UI and explore various Flux models efficiently in this detailed guide.