QW

Qwen1.5-110B

基础大模型

Qwen1.5-110B

发布时间: 2024-04-25更新于: 2024-04-28 09:23:50733

在线体验GitHub Hugging Face Compare

模型参数

1100亿

上下文长度

32K

中文支持

支持

推理能力

Qwen1.5-110B 是由阿里巴巴发布的 AI 模型，发布时间为 2024-04-25，定位为基础大模型，参数规模约为 1100.0B，上下文长度为 32K，模型文件大小约 220GB，采用 Tongyi Qianwen RESEARCH LICENSE AGREEMENT 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Qwen1.5-110B

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

32K tokens

最大输出长度

暂无数据

模型类型

基础大模型

发布时间

2024-04-25

模型文件大小

220GB

MoE架构

否

总参数 / 激活参数

1100 亿 / 不涉及

知识截止

暂无数据

Qwen1.5-110B

开源和体验地址

代码开源状态

Tongyi Qianwen RESEARCH LICENSE AGREEMENT

预训练权重开源

Tongyi Qianwen RESEARCH LICENSE AGREEMENT- 免费商用授权

GitHub 源码

https://github.com/QwenLM/Qwen1.5

Hugging Face

https://huggingface.co/Qwen/Qwen1.5-110B

在线体验

暂无在线体验地址

Qwen1.5-110B

官方介绍与博客

官方论文

Qwen1.5-110B: The First 100B+ Model of the Qwen1.5 Series

DataLearnerAI博客

暂无介绍博客

Qwen1.5-110B

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

Qwen1.5-110B

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Qwen1.5-110B

发布机构

阿里巴巴

查看发布机构详情

Qwen1.5-110B

模型解读

简介

Qwen1.5-110B 是Qwen1.5系列的第一个超过1100亿参数的模型。
它在基准测试和聊天机器人领域展示了卓越的性能。
与Meta-Llama3-70B模型相比，在基础模型评估中具有可比性的性能，在聊天评估中表现突出，包括MT-Bench和AlpacaEval 2.0。

模型特点

架构：与Qwen1.5系列的其他模型相似，采用相同的Transformer解码器架构。
效率：包含分组查询注意力（Grouped Query Attention, GQA），在模型服务中效率较高。
上下文长度：支持32K个token的上下文长度。
多语言支持：模型是多语言的，支持包括英语、中文、法语、西班牙语、德语、俄语、韩语、日语、越南语、阿拉伯语等在内的多种语言。

模型质量

进行了一系列的基础语言模型评估，并与Meta-Llama3-70B和Mixtral-8x22B进行了比较。
在MMLU、TheoremQA、GPQA、Hellaswag、BBH、ARC-C、GSM8K、MATH、HumanEval和MBPP等多个基准测试中，Qwen1.5-110B至少与Llama-3-70B模型在基础能力上具有竞争力。

模型	Qwen1.5-110B	Qwen1.5-72B	Llama-3-70B	Mixtral-8x22B
MMLU	80.4	77.5	79.5	77.8
TheoremQA	34.9	29.3	32.0	35.9
GPQA	35.9	36.3	36.4	34.3
Hellaswag	87.5	86.0	88.0	88.7
BBH	74.8	65.5	76.6	69.2
ARC-C	69.6	65.9	68.8	70.7
GSM8K	85.4	79.5	79.2	78.6
MATH	49.6	34.1	41.0	41.7
HumanEval	52.4	41.5	45.7	45.1
MBPP	58.1	53.4	55.1	71.2

性能提升主要来自于模型大小的增加，而不是预训练和后训练方法的大幅改变。

聊天模型测试

在MT-Bench和AlpacaEval 2.0两个聊天模型基准测试中，110B模型的表现显著优于之前发布的72B模型。
这表明更强大、更大型的基础语言模型可以带来更好的聊天模型，即使后训练方法没有太大变化。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码