生成式AI系列（一）：生成式AI时代来临

生成式AI，英文名AI Generated Content，直译为人工智能生成内容。生成式AI时代真正的来临，要以openAI公司发布的chatGPT问世为主要标志。

一. openAI的发展历程

OpenAI成立于2015年12月，由伊隆·马斯克（Elon Musk）、山姆·阿尔特曼（Sam Altman）等人共同创立。

公司的宗旨是推动人工智能的安全性和受益性，以确保人工智能技术对人类的利益产生积极影响。OpenAI在成立初期主要进行人工智能研究和开发，并发布了一些开源工具和研究成果。

GPT系列的发布（2018-2021年）：2018年，OpenAI发布了第一个基于Transformer架构的语言模型GPT（Generative Pre-trained Transformer）。

随后，OpenAI陆续发布了GPT-2和GPT-3，这些模型规模更大、能力更强，被广泛应用于文本生成、对话系统和其他领域。

GPT-3是由OpenAI在2020年发布的一个大型语言模型。与其前身GPT-2一样，它是一个只有解码器的深度神经网络转换器模型，用一种称为“注意力”的技术取代了循环和卷积架构。这种注意力机制使模型能够有选择地关注其预测为最相关的输入文本片段。它使用了一个2048个标记长的上下文术语，float16（16位）精度，以及迄今为止空前的1750亿个参数，需要350GB的存储空间，因为每个参数占据2个字节的空间，并且已经在许多任务上展示出了强大的“零样本”和“少样本”学习能力。

ChatGPT，（Chat Generative Pre-trained Transformer），是OpenAI开发的人工智能聊天机器人程序，于2022年11月推出。该程序使用基于GPT-3.5、GPT-4架构的大型语言模型并以强化学习训练。ChatGPT目前仍以文字方式交互，而除了可以用人类自然对话方式来交互，还可以用于甚为复杂的语言工作，包括自动生成文本、自动问答、自动摘要等多种任务。如：在自动文本生成方面，ChatGPT可以根据输入的文本自动生成类似的文本（剧本、歌曲、企划等），在自动问答方面，ChatGPT可以根据输入的问题自动生成答案。还有编写和调试计算机程序的能力。ChatGPT于2022年11月发布后，上线5天后已有100万用户，上线两个月后已有上亿用户。

生成式AI系列（一）：生成式AI时代来临

2023年3月14日，openAI发布GPT-4。它“比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。GPT-4是多模态的，它可以将图像和文本作为输入，这使它能够描述不寻常图像中的幽默、总结截屏文本以及回答包含图表的试题。

生成式AI系列（一）：生成式AI时代来临

2024年2月15日，OpenAI发布最新“文生视频”大模型Sora，并同时公布了一系列样片，展现了Sora令人惊叹的视频生成效果。据其官网介绍，Sora继承DALL·E 3的画质和遵循指令能力，能生成长达1分钟的高清视频。

生成式AI系列（一）：生成式AI时代来临

综上，openAI发布的生成式AI技术，代表着当今世界上最先进科技水平。

生成式AI系列（一）：生成式AI时代来临

二. 生成式AI的其他阵营发展历程

2.1 微软

微软在2019年投资了OpenAI，共计注资130亿美元。根据双方协议，微软的Azure云计算为OpenAI的大型模型训练和推理提供了算力支持。此外，OpenAI的新技术商业化时，微软是首选合作伙伴，享有49%的最终收益权。

几乎所有微软的重要产品都集成了AI能力，构成了copilot系列，做到了真正的all in AI：

Microsoft 365 Copilot：这是一个为企业用户设计的AI助手，它集成了企业级安全性、隐私、合规性和负责任的AI，确保数据处理都在用户的Microsoft 365账户内进行。
Bing Chat Enterprise：这是基于Bing搜索引擎的AI聊天功能，为企业用户提供了增强的搜索和信息处理能力。
Windows 11：微软在Windows 11操作系统中集成了AI Copilot，以提供更智能的用户体验。
Microsoft Office 365：Office 365的全系产品，包括Word、Excel、PowerPoint等，都集成了AI Copilot，以帮助用户更高效地完成任务。
Microsoft Edge：在Edge浏览器中，AI Copilot提供了增强的搜索和浏览体验。
Power Platform Copilot：这是Power Platform的一部分，它通过AI驱动的无代码智能方式，帮助用户创建和自动化工作流程。
GitHub Copilot：这是一个为开发者设计的AI工具，可以帮助他们更快、更轻松地编写代码。
Microsoft 安全 Copilot：这是一个利用AI增强安全团队能力的解决方案，帮助团队更有效地处理安全问题。
Microsoft Copilot Studio：这是一个平台，允许用户自定义或创建自己的AI助手，以适应特定的业务需求。
这些产品和服务展示了微软在AI领域的广泛布局，旨在通过AI技术提升用户在各个领域的工作效率和体验。

2.2 Google

《Attention Is All You Need》这篇论文是由Google的研究团队于2017年首次提出并公布的。论文的作者包括Ashish Vaswani等人，他们当时是Google Brain团队的成员。这篇论文提出了Transformer模型，该模型完全基于注意力机制，不依赖于传统的循环神经网络（RNN）或卷积神经网络（CNN），并在自然语言处理（NLP）领域产生了深远的影响：Transformer模型的成功推动了NLP领域的发展，尤其是在预训练语言模型的研究上，这些模型在多项NLP任务上取得了前所未有的成绩。

生成式AI系列（一）：生成式AI时代来临

2023年3月10日，谷歌推出PaLM-E，史上最大的视觉语言模型，具有 5620 亿个参数，集成了可控制机器人的视觉和语言能力。

2023年5月10日，谷歌推出了3400 亿参数的PaLM 2，来对打GPT-4，号称“在参数量更小的情况下，让模型可以更高效地完成更复杂的任务”。

2023年12月6日，外界期待已久的谷歌多模态大模型Gemini （双子座）终于发布，包含三个版本：Nano、Pro和Ultra，Pro对标GPT-3.5，Ultra对标OpenAI在今年3月发布的GPT-4，被谷歌CEO Sundar Pichai称为“谷歌迄今为止能力最强的AI模型”，可以处理文本之外的信息，包括图像、视频和音频。从谷歌发布的演示视频中能看出，Gemini结合了视觉和听觉，充分展示出多模态模型的巨大应用潜力。

生成式AI系列（一）：生成式AI时代来临

2.3 Meta

LLaMA（Large Language Model Meta AI）是由 Meta AI 公司于 2023年2月发布的大型语言模型。它训练了各种模型，这些模型的参数从 70亿到650亿不等。LLaMA 的开发人员报告说，LLaMA 运行的 130亿参数模型在大多数 NLP基准测试中的性能超过了更大的、具有 1750亿参数的 GPT-3 提供的模型，且 LLaMA 的模型可以与 PaLM 和 Chinchilla 等最先进的模型竞争。

2023年7月，Meta 推出了 Llama 2，这是一种可用于商业应用的开源AI模型。

Llama 是自2023年以来最受欢迎的开源大型语言模型之一。它的性能接近于 ChatGPT，并且在服务器、移动硬件、云平台、初创公司和企业等各个层面上，基于 Llama 的整个生态系统都在迅速发展。

以下是关于 Llama 生态的一些重要信息：

下载量和云厂商支持：通过 Hugging Face，Llama 模型的下载量已超过3000万次，其中仅在过去30天内就超过了1000万次。主要云厂商如 AWS、Google Cloud 和 Microsoft Azure 已经在其平台上采用了 Llama 模型，而 Llama 2 在云中的使用也在不断扩大。Google Cloud 和 AWS 总共有超过3500个企业项目基于 Llama 2 模型启动。
创新企业和众包优化：许多初创公司，包括 Anyscale、Replicate、Snowflake、LangSmith 和 Scale AI 等，正在使用或评估 Llama 2。此外，社区已经在 Hugging Face 上微调并发布了7000多个衍生模型，这些模型在标准基准测试中的性能提高了近10%，在一些基准数据集（如 TruthQA）上的性能甚至提高了46%。
开发者社区和硬件支持：在 GitHub 上，已经有超过7000个基于 Llama 构建或提及 Llama 的项目。为了方便将 Llama 引入边缘设备和移动平台，新的工具、部署库、模型评估方法以及 Llama 的“微型”版本正在开发中。此外，社区还扩展了 Llama 以支持更大的上下文，并增加了对其他语言的支持。各大硬件平台，包括 AMD、Intel、NVIDIA 和 Google，都通过软硬件优化提升了 Llama 2 的性能。

对于 Llama 生态的未来，Meta 表示将继续致力于为当今的人工智能提供开放的方法，主要关注多模态、安全责任和社区。

生成式AI系列（一）：生成式AI时代来临

2.4 国内大语言模型发展生态

百度

文心一言是由百度公司开发的大语言模型，能够与人交互、回答问题及协作创作。它被传媒称为国际著名聊天机器人ChatGPT的中国竞争对手。自2023年8月31日已开放全球用户使用。

2023年3月16日：百度在北京总部召开新闻发布会，正式宣布文心一言开始邀请测试。李彦宏展示了文心一言在文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等方面的综合能力。
2023年10月17日：文心一言的最新版本，即文心大模型 4.0正式发布。这一版本在多个方面有显著提升，包括理解、生成、逻辑和记忆能力。

生成式AI系列（一）：生成式AI时代来临

阿里巴巴

阿里巴巴的通义家族是一系列旨在实现类人智慧的通用智能模型。这些模型由阿里巴巴开发，旨在解决大模型通用性和易用性方面的难题。让我们来看看这个家族的一些关键成员和其AI大模型：
通义千问2.0：

这是千亿级参数的大模型，已在超过200个场景中提供服务。
典型使用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等。

通义大模型系列中的其他成员（垂类领域大模型应用）：

通义灵码-智能编码助手
通义智文-AI阅读助手
通义听悟-工作学习AI助手
通义星尘-个性化角色创作平台
通义点金-智能投研助手
通义晓蜜-智能客服
通义仁心-个人专属健康助手
通义法睿-AI法律顾问

这些模型的开源和应用将为中文自然语言处理领域带来更多创新和突破，助力AI从感知智能迈向知识驱动的认知智能。

生成式AI系列（一）：生成式AI时代来临

清华智谱

清华智谱AI（智谱华章）是由清华大学知识工程实验室（KEG）技术成果转化成立的公司，专注于开发新一代认知智能通用模型。智谱AI与清华大学的深度合作，将技术成果在具体产品上落地和推广。以下是智谱AI在大语言模型领域的一些重要产品和成果：

ChatGLM系列：

ChatGLM是智谱AI推出的一系列基础大语言模型。2023年10月27日，智谱AI联合清华大学发布了第三代基础大语言模型ChatGLM3系列，包括基础大语言模型ChatGLM3-6B-Base、对话调优大语言模型ChatGLM3-6B和长文本对话大语言模型ChatGLM3-6B-32K。这些模型在对话生成、长文本处理等方面有所优化。

GLM-130B：

在2022年，智谱AI发布了双语千亿级超大规模预训练模型GLM-130B，构建了高精度通用知识图谱，形成了数据与知识相结合的AI模型。

GLM-4：

GLM-4是智谱AI发布的新一代基座大模型，其整体性能相比上一代大幅提升。GLM-4支持更长的上下文，推理速度更快，大大降低了推理成本。此外，GLM-4提升了智能体能力，能够根据用户意图自动理解、规划复杂指令，并完成复杂任务。

CodeGeeX：

CodeGeeX是智谱AI推出的代码生成模型，它能够理解和生成代码，帮助开发者提高编程效率。

VisualGLM-6B：

VisualGLM-6B是智谱AI推出的具有图片理解能力的多模态对话模型，它在ChatGLM-6B的基础上增加了视觉处理能力，能够处理图像相关任务。

生成式AI系列（一）：生成式AI时代来临

清华智谱chatGLM-6B的开源，推动了中国在人工智能领域的研究和开发取得新的突破，也为全球人工智能的发展做出了积极贡献。

Moonshot

Moonshot AI 是一家专注于大语言模型技术的初创公司，成立于2023年3月。Moonshot AI 的愿景是通过技术创新，寻求将能源转化为智能的最优解，并致力于开发能够与用户共创智能的产品和服务。

以下是Moonshot AI在大语言模型领域的主要发展和产品系列：

Kimi Chat：

Kimi Chat 是 Moonshot AI 推出的首个大模型产品，它是一个智能助手，支持输入20万汉字的长文本。这一技术突破使得Kimi Chat 在全球市场上成为能够支持最长上下文输入长度的大模型服务之一。Kimi Chat 的长文本能力使其能够在多种场景中应用，如市场分析、法务合同处理、文章关键信息梳理等。

长文本技术：

Moonshot AI 在长文本领域实现了重要突破，解决了大模型输入长度受限的问题。这使得大模型能够处理更复杂的任务，如多篇财报分析、长文本内容理解等，极大地扩展了大模型的应用范围。

多语言能力：

Kimi Chat 在中文处理上具有显著优势，支持约20万汉字的上下文，这在多语言大模型服务中是一个显著的进步。这一能力使得Kimi Chat 能够更好地服务于中文用户，提供更准确的理解和响应。

技术创新：

Moonshot AI 的技术团队进行了算法和工程优化，克服了长文本技术的开发挑战，如算力需求、显存压力和显存带宽压力等。这些优化使得Kimi Chat 能够在保持高性能的同时，支持超长文本输入。

投资与合作：

Moonshot AI（月之暗面）最近完成了一轮超过10亿美元的融资。这一轮融资的投资方包括红杉中国、小红书、美团和阿里巴巴等。完成这轮融资后，月之暗面的估值达到了约25亿美元。这标志着自ChatGPT引发全球热潮以来，国内AI大模型公司获得的单轮最大金额融资。

生成式AI系列（一）：生成式AI时代来临

MoonShot闭源大模型，技术先进性强。在国内的知识问答领域，内容生成的质量，个人认为已经超过了文心一言4.0的水平。

其他公司和机构

国内外还有很多生成式AI创新公司和科研机构，例如Athropic、Character.AI、百川智能、零一万物、讯飞星火、昆仑天工、智源研究院等，读者可以自行关注。

三. 全球AI科技新贵

生成式AI系列（一）：生成式AI时代来临

五. 生成式AI时代业界大咖的声音

Bill Gates:
AI是这十年里最重要的事情。构建人工智能与创造微处理器、个人电脑、互联网和手机一样重要。

Elon Musk：
ChatGPT 好得有点可怕了。我们距离危险的强人工智能不远了。

蒂姆·库克
AI正在影响苹果公司。

沃伦·巴菲特
AI将颠覆社会。

李开复
人工智能将会取代人类，完成不属于人类专有的各种重复性工作。爱，才是人类的特质。

马化腾
我们最开始以为这是互联网十年不遇的机会，但是越想越觉得这是几百年不遇的、类似发明电的工业革命一样的机遇。

黄仁勋
我们正处于AI的iPhone时刻，初创公司正在竞相打造颠覆性产品和商业模式，而科技巨头们也在寻求突破。
我们即将进入一个正在经历巨大变革的世界，就像我毕业时遇到个人电脑和晶片革命时一样，我们正处于 AI 的起跑线上。每个行业都将被革命、重生，为新思想做好准备。

李彦宏
要让机器去替代人的体力，这是工业化时代需要解决的问题，现在要解决的是让机器能够像人一样思考。