Qwen3-0.6B 模型信息展示
Qwen3-0.6B 是阿里巴巴云开发的一款先进的大型语言模型,具有强大的推理、指令遵循和多语言处理能力。
基本信息
- 模型类型:Qwen3 架构
- 参数规模:0.6 billion (6亿)
- 上下文长度:32,768 tokens
- 所需显存:约 1.2 GB
- 数据类型:Bfloat16
- 许可证:Apache-2.0
- 分词器:Qwen2Tokenizer
- 词汇表大小:151,936
主要特性
- 双模式功能:
- 思考模式:用于复杂任务如逻辑推理和编码
- 非思考模式:用于一般对话
- 增强的推理能力:
- 人类偏好对齐:
- 代理能力:
- 多语言支持:
- 支持超过100种语言和方言
- 具有强大的指令遵循和翻译能力
训练细节
- 预训练语料库:在涵盖119种语言的36万亿tokens上进行训练
- 三层预训练:
- 广泛的语言建模
- 推理技能(STEM、编码)
- 长上下文理解(最长32,768 tokens)
- 模型架构优化:采用全局批次负载均衡和qk layernorm等精炼训练技术
量化版本
提供4位和8位量化模型选项,以满足不同的显存需求。
适用场景
- 聊天机器人
- 内容生成
- 教育工具
- 资源受限设备上的应用
相关链接