Greg Kamradt对具有长上下文回忆的GPT-4-128K做了压力测试,表现如何↓
-----
128K 上下文令牌非常棒 - 但性能如何?
我想找出答案,所以我做了“大海捞针”分析
一些预期(和意外)的结果
这是我发现的:
发现:
* GPT-4 的召回性能在 73K 代币以上开始下降
* 当要召回的事实位于 7%-50% 文档深度之间时,低召回性能相关
* 如果事实位于文档的开头,则无论上下文长度如何,都会调用该事实
所以呢:
* 无保证 - 不保证您的事实能够被检索到。不要将它们的假设融入到您的应用程序中
* 更少的上下文 = 更高的准确性 - 这是众所周知的,但如果可能的话,请减少发送到 GPT-4 的上下文量,以提高其回忆能力
* 位置很重要 - 也众所周知,但放在文档开头和后半部分的事实似乎更容易被记住
流程概述:
* 使用保罗·格雷厄姆的文章作为“背景”标记。通过 218 篇论文,轻松获得高达 128K 代币
* 在文档中的不同深度放置随机语句。事实证明:“在旧金山最好的事情就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。”
* 请 GPT-4 仅使用提供的上下文回答此问题
* 使用另一个模型(再次是 gpt-4)@LangChainAI evals 评估 GPT-4s 答案
* 冲洗并重复 0%(文档顶部)和 100%(文档底部)之间的 15 倍文档深度以及 15 倍上下文长度(1K 令牌 > 128K 令牌)
进一步采取的后续步骤:
* 此分析的迭代是均匀分布的,有人建议进行 sigmoid 分布会更好(它会在文档的开头和结尾处梳理出更多细微差别)
* 为了严谨起见,应该执行键:值检索步骤。然而,为了保持相关性,我在 PG 论文中写了一句旧金山的台词。
注意:
* 虽然我认为这在方向上是正确的,但需要更多测试才能更牢固地掌握 GPT4 的功能
* 切换提示,结果不同
* 在大上下文长度下运行了 2 次测试,以得出更多性能
* 此测试 API 调用成本约为 200 美元(128K 输入令牌的单次调用成本为 1.28 美元)
#ChatGPT[超话]#
-----
128K 上下文令牌非常棒 - 但性能如何?
我想找出答案,所以我做了“大海捞针”分析
一些预期(和意外)的结果
这是我发现的:
发现:
* GPT-4 的召回性能在 73K 代币以上开始下降
* 当要召回的事实位于 7%-50% 文档深度之间时,低召回性能相关
* 如果事实位于文档的开头,则无论上下文长度如何,都会调用该事实
所以呢:
* 无保证 - 不保证您的事实能够被检索到。不要将它们的假设融入到您的应用程序中
* 更少的上下文 = 更高的准确性 - 这是众所周知的,但如果可能的话,请减少发送到 GPT-4 的上下文量,以提高其回忆能力
* 位置很重要 - 也众所周知,但放在文档开头和后半部分的事实似乎更容易被记住
流程概述:
* 使用保罗·格雷厄姆的文章作为“背景”标记。通过 218 篇论文,轻松获得高达 128K 代币
* 在文档中的不同深度放置随机语句。事实证明:“在旧金山最好的事情就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。”
* 请 GPT-4 仅使用提供的上下文回答此问题
* 使用另一个模型(再次是 gpt-4)@LangChainAI evals 评估 GPT-4s 答案
* 冲洗并重复 0%(文档顶部)和 100%(文档底部)之间的 15 倍文档深度以及 15 倍上下文长度(1K 令牌 > 128K 令牌)
进一步采取的后续步骤:
* 此分析的迭代是均匀分布的,有人建议进行 sigmoid 分布会更好(它会在文档的开头和结尾处梳理出更多细微差别)
* 为了严谨起见,应该执行键:值检索步骤。然而,为了保持相关性,我在 PG 论文中写了一句旧金山的台词。
注意:
* 虽然我认为这在方向上是正确的,但需要更多测试才能更牢固地掌握 GPT4 的功能
* 切换提示,结果不同
* 在大上下文长度下运行了 2 次测试,以得出更多性能
* 此测试 API 调用成本约为 200 美元(128K 输入令牌的单次调用成本为 1.28 美元)
#ChatGPT[超话]#
外媒称赞《星空》DLSS更新:性能大幅提升
早些时间,贝塞斯达在Steam平台发布了《星空》测试版,其中引入了英伟达DLSS功能的官方支持。外媒dsogaming发布了本次更新的效果测评。
测试平台:AMD Ryzen 9 7950X3D、32GB DDR5(6000Mhz)、RTX 4090
游戏内测试区域:新亚特兰蒂斯
测试发现,RTX 4090能够在原生4K/最高画面设置下以超过60fps的速度运行游戏。此外,游戏在1080p和1440p画质下也获得了明显的性能提升。
英伟达DLSS 3帧生成技术可以显著提升《星空》的性能。该功能在RTX4090的加持下,4K画质可以获得稳定的120fps体验。
在使用“帧生成”也时没有遇到任何重大的延迟问题,鼠标移动非常流畅。强烈推荐RTX 40系用户开启该功能。
媒体还提醒广大玩家,DLSS 3 功能有可能会让游戏崩溃。
早些时间,贝塞斯达在Steam平台发布了《星空》测试版,其中引入了英伟达DLSS功能的官方支持。外媒dsogaming发布了本次更新的效果测评。
测试平台:AMD Ryzen 9 7950X3D、32GB DDR5(6000Mhz)、RTX 4090
游戏内测试区域:新亚特兰蒂斯
测试发现,RTX 4090能够在原生4K/最高画面设置下以超过60fps的速度运行游戏。此外,游戏在1080p和1440p画质下也获得了明显的性能提升。
英伟达DLSS 3帧生成技术可以显著提升《星空》的性能。该功能在RTX4090的加持下,4K画质可以获得稳定的120fps体验。
在使用“帧生成”也时没有遇到任何重大的延迟问题,鼠标移动非常流畅。强烈推荐RTX 40系用户开启该功能。
媒体还提醒广大玩家,DLSS 3 功能有可能会让游戏崩溃。
拼爻盘 主6jiwoo 还有好多热卡!快上车
⭐蓝圈5r 其他35r ,A F不可挤,其他可以竞捆,k1=35r/7个5r,捆物现在先不选,后期差不多就会通知大家选捆,按捆价高低先选(eg:k8比k7先选)
为了保障拼车进度,咱们会先收定金$35,最后拼成会扣/拼不成会退,跳车不退⚠️
#nmixx中转站[超话]##nmixx##金智羽#
⭐蓝圈5r 其他35r ,A F不可挤,其他可以竞捆,k1=35r/7个5r,捆物现在先不选,后期差不多就会通知大家选捆,按捆价高低先选(eg:k8比k7先选)
为了保障拼车进度,咱们会先收定金$35,最后拼成会扣/拼不成会退,跳车不退⚠️
#nmixx中转站[超话]##nmixx##金智羽#
✋热门推荐