Skip to content

Commit

Permalink
main
Browse files Browse the repository at this point in the history
  • Loading branch information
kinfey committed Nov 9, 2023
1 parent c99f30d commit 0f7b916
Show file tree
Hide file tree
Showing 10 changed files with 30 additions and 30 deletions.
2 changes: 1 addition & 1 deletion 00-course-setup/translations/cn/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -88,7 +88,7 @@ jupyterhub

## 贡献该内容

本课程是一项开源计划。 如果您发现需要改进的地方或问题,请创建 [Pull Request](https://github.com/microsoft/generative-ai-for-beginners/pulls) 或记录 [Github 问题](https://github.com/microsoft/generative-ai-for-beginners/issues)
本课程是一项开源计划。 如果您发现需要改进的地方或问题,请创建 [Pull Request](https://github.com/microsoft/generative-ai-for-beginners/pulls) 或记录 [Github 问题](https://github.com/microsoft/generative-ai-for-beginners/issues?WT.mc_id=academic-105485-koreyst)

课程项目团队将跟踪所有贡献,为开源做出贡献是在生成人工智能领域建立职业生涯的绝佳方式。

Expand Down
2 changes: 1 addition & 1 deletion 01-introduction-to-genai/translations/cn/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -119,7 +119,7 @@

你的任务是阅读更多关于生成式人工智能(https://en.wikipedia.org/wiki/Generative_artificial_intelligence)的内容,并尝试找出一个你现在可以添加生成式人工智能但目前还没有的领域。 与用“旧式方法”做有什么不同,你能做一些你以前做不到的事情吗,或者生成的时候速度更快吗? 写一篇 300 字的摘要,描述您梦想的人工智能初创公司的样子,包括“问题”、“我将如何使用人工智能”、“影响”等标题,还可以选择做一份商业计划。

如果您完成了此任务,您甚至可以准备好申请 Microsoft 的创业孵化器[Microsoft for Startups Founders Hub](https://www.microsoft.com/zh-cn/startups?WT.mc_id=academic-105485-koreyst),我们为您提供 Azure 和 OpenAIc redits 以及相关指导等等
如果您完成了此任务,您甚至可以准备好申请 Microsoft 的创业孵化器[Microsoft for Startups Founders Hub](https://www.microsoft.com/startups?WT.mc_id=academic-105485-koreyst),我们为您提供 Azure 和 OpenAIc redits 以及相关指导等等

## 知识检查

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -63,9 +63,9 @@ LLM 模型有许多不同类型,您选择的模型取决于您的用途、您

对 LLM 进行分类的另一种方法是它们是开源的还是专有的。

开源模型是向公众开放并且任何人都可以使用的模型。 它们通常由创建它们的公司或研究团体提供。 这些模型可以针对 LLMs 的各种用例进行检查、修改和定制。 然而,它们并不总是针对生产用途进行优化,并且可能不如专有模型具备高性能。 此外,开源模型的资金可能有限,并且它们可能无法长期维护或可能无法根据最新研究进行更新。 流行的开源模型的例子包括 [Alpaca](https://crfm.stanford.edu/2023/03/13/alpaca.html)[Bloom](https://sapling.ai/llm/bloom)[ LLaMA](https://sapling.ai/llm/llama)
开源模型是向公众开放并且任何人都可以使用的模型。 它们通常由创建它们的公司或研究团体提供。 这些模型可以针对 LLMs 的各种用例进行检查、修改和定制。 然而,它们并不总是针对生产用途进行优化,并且可能不如专有模型具备高性能。 此外,开源模型的资金可能有限,并且它们可能无法长期维护或可能无法根据最新研究进行更新。 流行的开源模型的例子包括 [Alpaca](https://crfm.stanford.edu/2023/03/13/alpaca.html)[Bloom](https://sapling.ai/llm/bloom)[ LLaMA](https://sapling.ai/llm/llama?WT.mc_id=academic-105485-koreyst)

专有模型是公司拥有的模型,不向公众提供。 这些模型通常针对生产用途进行了优化。 但是,不允许针对特定的使用场景进行检查、修改或定制它们。 另外,它们并不总是免费提供,可能需要订阅或付费才能使用。 此外,用户无法控制用于训练模型的数据,这意味着他们应该委托模型所有者确保对数据隐私和负责任地使用人工智能的承诺。 流行的专有模型的例子包括 [OpenAI 模型](https://platform.openai.com/docs/models/overview)[Google Bard](https://sapling.ai/llm/bard)[Claude 2]https://www.anthropic.com/index/claude-2)。
专有模型是公司拥有的模型,不向公众提供。 这些模型通常针对生产用途进行了优化。 但是,不允许针对特定的使用场景进行检查、修改或定制它们。 另外,它们并不总是免费提供,可能需要订阅或付费才能使用。 此外,用户无法控制用于训练模型的数据,这意味着他们应该委托模型所有者确保对数据隐私和负责任地使用人工智能的承诺。 流行的专有模型的例子包括 [OpenAI 模型](https://platform.openai.com/docs/models/overview)[Google Bard](https://sapling.ai/llm/bard?WT.mc_id=academic-105485-koreyst)[Claude 2]https://www.anthropic.com/index/claude-2)。

### 认识嵌入式,图像生成,文本或代码生成

Expand All @@ -79,7 +79,7 @@ LLMs 还可以根据其产生的输出进行分类。

![Image generation](../../images/Image.png?WT.mc_id=academic-105485-koreyst)

文本或代码生成模型主要是生成文本或代码。 这些模型通常用于文本摘要、翻译和问答。 文本生成模型通常在大型文本数据集上进行训练,例如 [BookCorpus](https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html),并且可用于生成新文本或回答问题。 代码生成模型,例如 [CodeParrot](https://huggingface.co/codeparrot),通常在大型代码数据集(如 GitHub)上进行训练,可用于生成新代码或修复现有代码中的错误。
文本或代码生成模型主要是生成文本或代码。 这些模型通常用于文本摘要、翻译和问答。 文本生成模型通常在大型文本数据集上进行训练,例如 [BookCorpus](https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html),并且可用于生成新文本或回答问题。 代码生成模型,例如 [CodeParrot](https://huggingface.co/codeparrot?WT.mc_id=academic-105485-koreyst),通常在大型代码数据集(如 GitHub)上进行训练,可用于生成新代码或修复现有代码中的错误。

![Text and code generation](../../images/Text.png?WT.mc_id=academic-105485-koreyst)

Expand Down
8 changes: 4 additions & 4 deletions 03-using-generative-ai-responsibly/translations/cn/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -76,7 +76,7 @@

现在我们已经确定了负责任的生成式人工智能的重要性,让我们看看我们可以采取的 4 个步骤来负责任地构建我们的人工智能解决方案:

![缓解循环](../../images/mitigate-cycle.png??WT.mc_id=academic-105485-koreyst)
![缓解循环](../../images/mitigate-cycle.png?WT.mc_id=academic-105485-koreyst)

### 衡量潜在危害

Expand All @@ -88,19 +88,19 @@

现在是时候寻找方法来预防或限制模型及其响应造成的潜在危害了。 我们可以从 4 个不同的层面来看待这个问题:

![缓解层](../../images/mitigation-layers.png??WT.mc_id=academic-105485-koreyst)
![缓解层](../../images/mitigation-layers.png?WT.mc_id=academic-105485-koreyst)

- **模型**。 为正确的用例选择正确的模型。 当应用于更小、更具体的用例时,更大、更复杂的模型(例如 GPT-4)可能会导致更大的有害内容风险。 使用训练数据进行微调还可以降低有害内容的风险。

- **安全系统**。 安全系统是平台上为模型服务的一组工具和配置,有助于减轻伤害。 Azure OpenAI Service 上的内容过滤系统就是一个例子。 系统还应该检测越狱攻击和不需要的活动,例如来自网络机器人的请求。

- **元提示**。 元提示和基础是我们可以根据某些行为和信息指导或限制模型的方法。 这可以使用系统输入来定义模型的某些限制。 此外,提供与系统范围或领域更相关的输出。

它还可以使用检索增强生成 (RAG) 等技术,让模型仅从选定的可信来源中提取信息。 本课程后面有一章关于[构建搜索应用程序](../../../08-building-search-applications/translations/cn/README.md)的内容
它还可以使用检索增强生成 (RAG) 等技术,让模型仅从选定的可信来源中提取信息。 本课程后面有一章关于[构建搜索应用程序](../../../08-building-search-applications/translations/cn/README.md?WT.mc_id=academic-105485-koreyst)的内容

- **用户体验**。 最后一层是用户通过应用程序界面以某种方式直接与模型交互的地方。 通过这种方式,我们可以设计 UI/UX 来限制用户可以发送到模型的输入类型以及向用户显示的文本或图像。 在部署人工智能应用程序时,我们还必须透明地了解我们的生成式人工智能应用程序可以做什么和不能做什么。

我们有一章内容致力于[为人工智能应用程序设计用户体验](../../../12-designing-ux-for-ai-applications/translations/cn/README.md)
我们有一章内容致力于[为人工智能应用程序设计用户体验](../../../12-designing-ux-for-ai-applications/translations/cn/README.md?WT.mc_id=academic-105485-koreyst)

- **评估模型**。 与 LLMs 合作可能具有挑战性,因为我们并不总是能够控制模型训练的数据。 无论如何,我们应该始终评估模型的性能和输出。 衡量模型的准确性、相似性、基础性和输出的相关性仍然很重要。 这有助于为应用相关人员和用户提供透明度和信任。

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -85,7 +85,7 @@ LLM 将提示视为标记序列,其中不同的模型(或模型的版本)

Once a prompt is tokenized, the primary function of the ["Base LLM"](https://blog.openai.com/an-introduction-to-base-and-instruction-tuned-large-language-models-8de102c785a6?WT.mc_id=academic-105485-koreyst) (or Foundation model) is to predict the token in that sequence. Since LLMs are trained on massive text datasets, they have a good sense of the statistical relationships between tokens and can make that prediction with some confidence. Not that they don't understand the _meaning_ of the words in the prompt or token; they just see a pattern they can "complete" with their next prediction. They can continue predicting the sequence till terminated by user intervention or some pre-established condition.

Want to see how prompt-based completion works? Enter the above prompt into the Azure OpenAI Studio [_Chat Playground_](https://oai.azure.com/playground) with the default settings. The system is configured to treat prompts as requests for information - so you should see a completion that satisfies this context.
Want to see how prompt-based completion works? Enter the above prompt into the Azure OpenAI Studio [_Chat Playground_](https://oai.azure.com/playground?WT.mc_id=academic-105485-koreyst) with the default settings. The system is configured to treat prompts as requests for information - so you should see a completion that satisfies this context.

But what if the user wanted to see something specific that met some criteria or task objective? This is where _instruction-tuned_ LLMs come into the picture.

Expand Down
2 changes: 1 addition & 1 deletion 05-advanced-prompts/translations/cn/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -597,7 +597,7 @@ LLM 本质上是不确定的,这意味着每次运行相同的提示时都会
> [!TIP]
> 短语提示要求它改进,限制改进的数量是个好主意。 您还可以要求以某种方式改进它,例如架构、性能、安全性等。
[Solution](../../solution.py)
[Solution](../../../solution.py)

## 知识检查

Expand Down
2 changes: 1 addition & 1 deletion 06-text-generation-apps/translations/cn/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -93,7 +93,7 @@ pip install openai
您需要执行以下步骤:

- 在 Azure [https://azure.microsoft.com/free/](https://azure.microsoft.com/free/?WT.mc_id=academic-105485-koreyst) 上创建帐户。
- 访问 Azure Open AI。 进入到 [https://learn.microsoft.com/zh-cn/azure/ai-services/openai/overview#how-do-i-get-access-to-azure-openai](https://learn.microsoft.com/zh-cn/azure/ai-services/openai/overview#how-do-i-get-access-to-azure-openai?WT.mc_id=academic-105485-koreyst) 并请求访问权限。
- 访问 Azure Open AI。 进入到 [https://learn.microsoft.com/azure/ai-services/openai/overview#how-do-i-get-access-to-azure-openai](https://learn.microsoft.com/azure/ai-services/openai/overview#how-do-i-get-access-to-azure-openai?WT.mc_id=academic-105485-koreyst) 并请求访问权限。

> [!注意]
> 您需要申请访问 Azure Open AI Service 的访问。
Expand Down
4 changes: 2 additions & 2 deletions 08-building-search-applications/translations/cn/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -66,15 +66,15 @@ Today we are going to learn about Azure Machine Learning.

这些脚本执行以下操作:

1. 下载 [AI Show](https://www.youtube.com/playlist?list=PLlrxD0HtieHi0mwteKBOfEeOYf0LJU4O1) 播放列表中每个 YouTube 视频的文字记录。
1. 下载 [AI Show](https://www.youtube.com/playlist?list=PLlrxD0HtieHi0mwteKBOfEeOYf0LJU4O1?WT.mc_id=academic-105485-koreyst) 播放列表中每个 YouTube 视频的文字记录。
2. 使用[OpenAI Functions](https://learn.microsoft.com/azure/ai-services/openai/how-to/function-calling?WT.mc_id=academic-105485-koreyst),尝试 从 YouTube 记录的前 3 分钟中提取演讲者姓名。 每个视频的演讲者姓名存储在名为 `embedding_index_3m.json` 的嵌入索引中。
3. 然后将转录文本分成 **3 分钟的文本片段**。 该片段包含大约 20 个与下一个片段重叠的单词,以确保该片段的嵌入不会被切断并提供更好的搜索上下文。
4. 然后,每个文本片段都会传递到 OpenAI Chat API,将文本总结为 60 个单词。 摘要也存储在嵌入索引 `embedding_index_3m.json` 中。
5. 最后,将片段文本传递到 OpenAI Embedding API。 Embedding API 返回一个由 1536 个数字组成的向量,这些数字表示该段的语义含义。 该段与 OpenAI 嵌入向量一起存储在嵌入索引 `embedding_index_3m.json` 中。

### 向量数据库

为了简单起见,嵌入索引存储在名为 `embedding_index_3m.json` 的 JSON 文件中,并加载到 Pandas Dataframe 中。 但是,在生产中,嵌入索引将存储在向量数据库中,例如 [Azure Cognitive Search](https://learn.microsoft.com/training/modules/improve-search-results-vector-search?WT.mc_id=academic-105485-koreyst), [Redis](https://cookbook.openai.com/examples/vector_databases/redis/readme?WT.mc_id=academic-105485-koreyst), [Pinecone](https://cookbook.openai.com/examples/vector_databases/pinecone/readme), [Weaviate](https://cookbook.openai.com/examples/vector_databases/weaviate/readme)
为了简单起见,嵌入索引存储在名为 `embedding_index_3m.json` 的 JSON 文件中,并加载到 Pandas Dataframe 中。 但是,在生产中,嵌入索引将存储在向量数据库中,例如 [Azure Cognitive Search](https://learn.microsoft.com/training/modules/improve-search-results-vector-search?WT.mc_id=academic-105485-koreyst), [Redis](https://cookbook.openai.com/examples/vector_databases/redis/readme?WT.mc_id=academic-105485-koreyst), [Pinecone](https://cookbook.openai.com/examples/vector_databases/pinecone/readme), [Weaviate](https://cookbook.openai.com/examples/vector_databases/weaviate/readme?WT.mc_id=academic-105485-koreyst)

## 理解余弦相似度

Expand Down
4 changes: 2 additions & 2 deletions 13-continued-learning/translations/cn/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -90,9 +90,9 @@

🔗 [OpenAI's CLIP paper](https://arxiv.org/pdf/2103.00020.pdf?wt.mc_id=github_S-1231_webpage_reactor)

🔗 [OpenAI's DALL-E and CLIP 101: A Brief Introduction](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e)
🔗 [OpenAI's DALL-E and CLIP 101: A Brief Introduction](https://towardsdatascience.com/openais-dall-e-and-clip-101-a-brief-introduction-3a4367280d4e?wt.mc_id=github_S-1231_webpage_reactor)

🔗 [OpenAI's CLIP paper](https://arxiv.org/pdf/2103.00020.pdf)
🔗 [OpenAI's CLIP paper](https://arxiv.org/pdf/2103.00020.pdf?wt.mc_id=github_S-1231_webpage_reactor)

## 第十章 - 创建低代码的人工智能应用

Expand Down
Loading

0 comments on commit 0f7b916

Please sign in to comment.