Qwen3-0.6B 模型信息展示

Qwen3-0.6B 是阿里巴巴云开发的一款先进的大型语言模型，具有强大的推理、指令遵循和多语言处理能力。

基本信息

模型类型：Qwen3 架构
参数规模：0.6 billion (6亿)
上下文长度：32,768 tokens
所需显存：约 1.2 GB
数据类型：Bfloat16
许可证：Apache-2.0
分词器：Qwen2Tokenizer
词汇表大小：151,936

主要特性

双模式功能：
- 思考模式：用于复杂任务如逻辑推理和编码
- 非思考模式：用于一般对话
增强的推理能力：
- 在数学、代码生成和常识推理方面表现优异
人类偏好对齐：
- 在创意写作和多轮对话中表现出色
代理能力：
- 能有效集成外部工具，在复杂任务中实现顶级性能
多语言支持：
- 支持超过100种语言和方言
- 具有强大的指令遵循和翻译能力

训练细节

预训练语料库：在涵盖119种语言的36万亿tokens上进行训练
三层预训练：
- 广泛的语言建模
- 推理技能（STEM、编码）
- 长上下文理解（最长32,768 tokens）
模型架构优化：采用全局批次负载均衡和qk layernorm等精炼训练技术

量化版本

提供4位和8位量化模型选项，以满足不同的显存需求。

适用场景

聊天机器人
内容生成
教育工具
资源受限设备上的应用

相关链接