在2023年问世的新产品涉及到的训练数据集越来越庞大，以数据量最大的ChatGPT

首页发布

#颠覆性科技投资#

AI人工智能，将批量制造“亿万级公司”

一、我们正处于AI发展的开端，其他浪潮的顶端

AI发展速度是互联网的4倍。

从电力到智能手机，从0到100%渗透的时间越来越短，新产品加速渗透。（图1）

最基础的电力从1900年开始发展，1950年左右渗透率达到100%，从0到无限用了50年。

互联网从1990年开始从0发展，花费20年时间达到85%的渗透率。

智能手机达到高渗透率用了15年。而AI行业发展仅需5年，就能达到同一水平。（图2）

AI行业利润2030年或达108万亿美元。

AI、电池技术、机器人等技术年化增速超25%，利润增速大爆发，颠覆掉传统行业。迈睿的投资方向将集中在AI、电池技术、机器人、生物医疗等。

AI行业从2020年10.5万亿美元行业利润，到2030年108万亿美元利润预估值，年化增速26%。

电池技术从2020年1.5万亿美元行业利润，到2030年32万亿利润预估，年化增速35%。

机器人技术从2020年的1680亿美元，到2030年的10万亿美元，年化增速51%。（图3）

二、AI行业基本架构：算力、算法、数据的层次清晰

数据算法算力是核心。

数据是AI根本，是新时代流通货币，也是护城河。（图4）

下图中，横坐标代表时间推移，纵坐标代表训练的数据集的大小。（图5）

那么我们不难发现，随着时间推移，从2020年6月问世的ChatGPT-3，大语言模型（LLM，Large Language Model）数量变多，2023年集中涌现了大量LLM，例如LLAMA、PALM-2以及ChatGPT-4。

在2023年问世的新产品涉及到的训练数据集越来越庞大，以数据量最大的ChatGPT-4举例，该大模型以13万亿个tokens数据集的基础上训练而出。（注：1个token约等于4个英文字符）

LLM如火如荼地发展着，OpenAI、Anthropic、Cohere、Google，包括开源公司Hugging Face等等LLM公司都在以自己的方式快速高效在行业中稳住脚步并尽力开拓新的疆土。（图6）

三、2023年科技巨头主导大模型发展的一年

大公司几乎都没有被小公司弯道超车，有充足的反应时间调整结构和做并购，有了OpenAI模型底座支持后也很难出现观念上的落后。

而大模型向下覆盖小模型也或将成为必然。

下面，我们将以巨头公司OpenAI、Anthropic为例，简单讨论：

1. OpenAI：

OpenAI估值高达1050亿美元，位列行业第一。

2016年12月，OpenAI成立，获1亿美元初始投资，2019年与微软建立战略伙伴关系，随后2023年1月，微软以290亿估值投资100亿美元。

自2019年3月Sam Altman专注投身于OpenAI之后，同年推出GPT-2、2020年6月推出GPT-3、2022年推出GPT-3.5、2023年3月推出GPT-4，一时间名声大噪。

ChatGPT-5也即将在2024年问世。（图7）

ChatGPT已实现10多亿美元年度经常性收益(ARR)，赚钱是王道，赚钱速度快于上一波SaaS风口。

在众多大模型中，其当家产品ChatGPT快速突破并稳居首位，该产品极其善于解决复杂任务，推理表现业界前茅。

从to C流量端看，ChatGPT发布以后占住了chatbot的心智，很快突破了百万用户、1亿用户，现在月活跃用户数量(MAU)稳定在2个多亿、做到了10多亿美元年度经常性收益(ARR)。

而ChatGPT-4的变现能力，成为了其他大模型追逐并赶超的行业榜样。

2. Anthropic：

奋起直追，突破跻身第一梯队的成功案例。

Anthropic估值高达300亿美元，仅次于OpenAI。

团队创始人及核心成员都曾就职于OpenAI，参与研发GPT-2与GPT-3；与此同时，谷歌和亚马逊的投资加速推动Anthropic的扩张。

（注：2023年10月，谷歌加注20亿美金；2023年9月亚马逊投了40亿美金。）

ChatGPT的最强竞品：Claude

下图清楚地把市面上的大语言模型按能力做了分类，横轴为「速度」、纵轴为「推理能力」：越往右，模型的速度越快；越往上，模型的推理能力就越好。（图8）

综合来看，Claude比GPT-4的推理速度更快，推理能力稍逊色；Claude Instant在推理能力和速度上都超越了GPT-3.5 Turbo，Anthropic拥有着ChatGPT-4的最佳竞品Claude。

（注：ELO代表了一种能力值评估系统，分值越高，则说明该产品的技能水平越高。此图中，GPT-4的分值为1181ELO，意味着在此图中，拥有着最强的综合技能，而1155ELO的Claude紧随其后。）

四、2024年决定大模型格局的一年

“是否能够复刻ChatGPT-4”成为关键点。

只有复刻出ChatGPT-4的公司，才具备超过它的潜质。

在全球舞台上，xAI、Transformer及字节跳动都有这个可能性。

大模型的能力随着算力分布而收敛，大模型对信息加工能力比搜索和推荐要更强，这是在搜索和推荐之后，信息分发最重要的核心赛道。

xAI开启了A轮融资。

Elon Musk的xAI公司，最大优势是具有强大的生态系统支持，预计仅SpaceX和Tesla就能提供超过10亿美元ARR。

2023年7月，马斯克推出了xAI，旨在“理解宇宙的真正本质”；

2023年11月5日，发布首个AI大模型Grok，可通过Elon Musk一年前以440亿美元X(前名Twitter)输入数据。

2023年12月5日，xAI向美国证券交易委员会(SEC)提交文件：融资10亿美元，以公司股权形式发售。

Gene Munster表示，在正常情况下，xAI估值在100亿美元左右，但Musk的影响力将把xAI的估值推高到250亿至300亿美元之间。（图9）

出圈核心竞争力：人才、数据及成本。

人才引入，是能否成为头部选手的核心竞争力。（图10）

数据质量及数量、训练成本，是容易被忽视的隐藏竞争力。复刻出ChatGPT-4的时间，会对占有市场份额起绝对性影响。

五、以极其迅猛速度发展的LLM当然是存在不可忽视的风险的

1.数据枯竭或成为最大风险

高质量文本培训数据可能在2026年耗尽，低质量文本数据则会在2060年枯竭，而图像和影像数据预计可坚持到2040至2050年。（图11）

究其根本，数据终会枯竭的原因：
a）市场中数据私有化现象会频发
b）数据产生速度<数据消耗速度

2.风险上，AI幻觉开始浮现

举个例子：鲁迅和周树人是一个人吗？（图12）

到底什么是AI幻觉？简单理解，它是指GPT4或谷歌的PaLM等大语言模型自信地编造事实，并将编造的事实与多个段落的连贯性和一致性编织在一起，且指称为真实信息的情况。（图13）

3.基建与电力可能面临着比GPU更稀缺的风险

Elon Musk说“2024年缺数据中心、2025年缺电。”

Sam Altman说“AI浪潮将会产生大量的能源需求。”

微软已经开始申请建设核电站。

单GPU的用电需求远远高于CPU，随着LLM需求的大幅增加，2-3年前申请的能源指标已不够用了。

我知道大家是冲着博肖来看文的，所以配角就变得没那么重要。我真的有在尽力给博肖加戏，压缩配角戏份，大家看到的版本已经是压缩之后的了都玩过抽木条吧？能抽的我已经抽掉了，再抽就会整个坍塌，故事的逻辑就不能自洽了

其实《无碑》也不算群像文（五十万字以下的故事都不好意思说自己是群像文吧），人物比较多但都围绕着故事主线，和主角联系紧密，这类文不是博肖剧情占比少，而是感情线比重会被压缩，因为本身就是剧情为导向的故事，主角的首要目标并不是“要和喜欢的人在一起”。

对比很明显的《超级偶像》就是纯感情向的故事，啵的目标就是追老婆从来没变过所以那篇就几乎全是他俩对手戏。

《双子》虽然也是警匪题材，但和《彩虹》《海底》的模式不一样，后者围绕“谁是凶手”展开，重点是谜团和诡计，前者围绕“如何打败反派“展开，重点是各方势力的博弈和心理战，所以《双子》其实和《无碑》类似，但也算不上群像。

比如文里的反派大佬疼老婆宠女儿，正确处理方式是用几个场景来展现这一点而不是写这么一句话，再比如高强为什么选择明哲保身？是不是亲眼目睹过黑暗所以心灰意冷？纪云为什么不找对象不成家只想着抓坏蛋？是不是曾经也有一个深爱的恋人但被反派害死了？人物往深了挖都有很多细节可以写，把人物立起来是靠这些细节而不是浮于表面的文字说明。常看到小可爱夸我说故事里每个人物都很立体，我很惭愧，他们离立体还差得远呢但塑造人物是需要篇幅的，而我必须在他们和博肖之间做出取舍，时刻谨记我写的是bx同人、大部分读者最想看的是情感拉扯。

现在每天更新的章节大概包含3-4个场景，字数在4000-5000之间，我需要保证：1️⃣至少有一个场景是bx对手戏，且感情线要出现变化；2️⃣出场人物只包含配角的场景字数不超过本章总字数的1/4；3️⃣剧情线要有新的揭露；4️⃣全章应结束在最能引发好奇心的场景中。

写剧情流故事的时候，我希望既能让对故事逻辑性要求高的读者满意，也能戳到专注于bx感情线的读者的点上，但我也知道我不可能取悦所有人，而且就同人而言，剧情流本来就不讨巧，远没有修罗场、小甜饼、油门一踩上高速那么吸引，所以如果觉得这篇bx对手戏太少了不好看的话，我也很理解，那就等我下次写甜蜜搞笑爱情故事的时候再来看吧

我既期待又不期待的2024在我脑袋里翻江倒海[并不简单]
[收到]先说说期待吧
我会在日复一日的平淡中稳稳工作好好努力[拳头]
我也会在有限的岁月里尽力快乐，享受生活
我有欲望和冲动要去做很多事，看很多风景[太阳]
我也会将精力专注在能给出积极反馈的人事物上
我想多去见陈楚生，也想去听听青春里的陈奕迅
我应该会过得精神富足且充实快乐[开学季][开学季]

那要说不期待呢，其实很简单了
我知道这一年绝大部分的时间都需要我自己度过
所有的开心和不开心都少了爱人的参与
所以快乐都减半，不开心也都随之加倍了[干饭人][干饭人]
我知道这段日子是煲汤的火
我将每天都生活在期待之中
期待重逢期待牵手期待拥抱
期待着与他细品这段岁月熬煮后的甜[微风]
正因为我一直都在被好好爱着
我也从来不惧怕自己在和这份不期待的抗争

有你

我就不会输[NO]