首页

▼分类导航▲

百川智能Baichuan2-192K，全球最长上下文窗口！一次读完《三体》，拿到7个SOTA（最高水准）

Ailiaili583581年前

公众号：Ailiaili | AI软件网
Ai项目交流群，Ai账号交易充值，Ai软件分享,Ai网站导航,Ai工具大全等
复制公众号

Claude一直以来保持的上下文窗口记录，如今被刷新！

导读

百川智能发布全球最长的上下文窗口大模型，名为Baichuan2-192K，其上下文窗口长度高达192K，相当于约35万个汉字，比GPT-4长14倍，比Claude 2长4.4倍。该模型能够一次性读完一本《三体》。

它能够快速理解并掌握《地球往事》和《黑暗森林》等复杂文本。它可以回答关于文本的各种问题，包括照片上的数字、相机型号、喝酒次数等细节。Baichuan2-192K还能够回答一些冷门问题，例如谁的名字出现次数最多。

大模型的最大限制是上下文窗口大小，例如ChatGPT最多支持32K tokens或2.5万汉字。这对于需要处理长文本的律师、分析师等职业来说是不够的。

更大的上下文窗口可以使模型更好地捕捉上下文相关性，消除歧义，精准生成内容，并缓解“幻觉”问题，提高性能。

同时，长上下文可以与更多垂直场景深度结合，在人们的工作、生活和学习中发挥更大作用。

10项长文本评测7项取得SOTA

Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异。取得10项权威评测中的7个SOTA（最高水准）。LongEval是衡量长窗口模型记忆理解能力的评测榜单，由加州大学伯克利分校联合其他高校发布。

在LongEval上，Baichuan2-192K在长窗口理解方面表现卓越，大幅领先其他模型，即使窗口长度超过100K，性能依然强劲。

相比之下，Claude 2等模型在窗口长度超过80K后整体效果下降严重。

算法与工程优化，实现窗口长度和模型性能的同步提升

困惑度是评估文本生成质量的重要标准，指模型生成符合人类语言习惯的高质量文档的概率越高，困惑度越低，模型越好。

DeepMind测试结果显示，Baichuan2-192K在初始阶段就表现优秀，随着窗口长度增加，其序列建模能力也持续增强。Baichuan2-192K通过算法和工程的优化，实现了窗口长度和模型性能的同步提升。

算法方面，提出了一种针对RoPE和ALiBi动态位置编码的外推方案，增强了模型对长序列依赖的建模能力。

工程方面，整合了多种先进的优化技术，独创了一套全面的4D并行分布式方案，降低了长窗口训练和推理过程中的显存占用。

内测正式开启

Baichuan2-192K已开启内测，其全球领先的长上下文能力已应用于传媒、金融、法律等领域。通过API，Baichuan2-192K可融入更多垂直场景，助力处理和分析巨量内容文档。

对于基金经理、律师、开发者和科研人员，Baichuan2-192K可提供关键信息提取、长篇文章编写、编程辅助等功能。更长的上下文能力有助于处理复杂的多模态输入，实现更好的迁移学习。

本文转载自互联网，若有侵权，请联系我们。本站尊重原创，转载文章仅为传递更多信息之目的。

本文链接：https://ailiaili.cc/post/205.html

猜你喜欢

AI远比你我想象的更“好玩”
...
Ai资讯11个月前
国家发展改革委：以“人工智能 ”行动着力推动新质生产力发展
...
Ai资讯11个月前
重磅：未来一个月，AI大变天
...
Ai资讯11个月前
2024 AI 领域的最新进展与挑战
...
Ai资讯11个月前
AI搜索引擎来了，发布最强AI模型！
...
Ai资讯11个月前
系统认识AI，一篇就够了，8个问题带你认识它
...
Ai资讯12个月前
使用AI写文章的几种方法
随着科技的发展，人工智能（AI）已经无处不在了，AI辅助创作也变得越来越受欢迎。...
Ai资讯12个月前
M4芯片碾压AI PC？iPad Pro打响苹果AI时代“第一枪” | 钛媒体焦点
...
Ai资讯12个月前
奥尔特曼：10年后，OpenAI将产生提高经济价值的AI系统
...
Ai资讯12个月前
沙特阿美引领行业人工智能应用
...
Ai资讯12个月前

【公众号 | 微信群】: $\"二维码\"$
公众号：AI软件网

【 Ai推荐榜】

【 Ai常用工具】

【 Ai最新收录】

【 Ai知识】

【 Ai资讯】