阿里MNN神更新!移动端开源多模态AI支持Qwen-2.5,文本图像语音全搞定!

阿里巴巴开源项目MNN(Mobile Neural Network)发布了其移动端多模态大模型应用MnnLlmApp的最新版本,新增对Qwen-2.5-Omni-3B和7B模型的支持。这款完全开源、运行于移动端本地的大模型应用,支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务,以其高效性能和低资源占用引发开发者广泛关注。AIbase观察到,MNN的此次更新进一步推动了多模态AI在移动端的普及。

阿里MNN神更新!移动端开源多模态AI支持Qwen-2.5,文本图像语音全搞定!

项目地址:

https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md

核心亮点:多模态能力全面增强

新版MnnLlmApp集成了Qwen-2.5-Omni-3B和7B模型,依托阿里云Qwen团队的Thinker-Talker架构,实现对文本、图像、音频和视频的综合处理能力。AIbase了解到,应用支持以下功能:

文本到文本:生成高质量对话、报告或代码,媲美云端模型。

图像到文本:识别图像中的文字或描述场景内容,适用于文档扫描和视觉问答。

音频到文本:高效转录语音,支持多语言语音识别。

文本到图像:通过扩散模型生成高质量图像,满足创意设计需求。

社交媒体反馈显示,开发者对Qwen-2.5-Omni-3B在24GB GPU上的运行表现尤为满意,其在OmniBench基准测试中保留了7B模型90%以上的多模态性能,同时内存占用降低超50%(从60.2GB降至28.2GB)。

技术优势:本地推理与极致优化

MNN框架以其轻量化和高性能著称,专为移动端和边缘设备优化。AIbase编辑团队注意到,新版MnnLlmApp在CPU推理上表现卓越,预填充速度比llama.cpp快8.6倍,解码速度快2.3倍。 应用完全本地运行,无需联网即可处理多模态任务,确保数据隐私不被上传至外部服务器。支持的模型范围广泛,涵盖Qwen、Gemma、Llama、Baichuan等主流开源模型,开发者可通过GitHub直接下载并构建应用。此外,MNN提供FlashAttention-2支持,进一步提升长上下文处理的效率。

应用场景:从开发到生产

MnnLlmApp的多模态能力使其在多种场景中展现潜力:

教育与办公:通过图像到文本功能扫描文档,或用音频到文本转录会议记录。

创意设计:利用文本到图像生成宣传素材或艺术作品。

智能助手:构建本地化语音交互应用,如离线导航或客服助手。

开发者学习:开源代码和详细文档为移动端大模型开发提供了参考范例。

AIbase分析认为,MNN的开源属性和对Qwen-2.5-Omni的支持,使其成为开发者探索移动端多模态AI的理想平台。社交媒体上,开发者表示,MnnLlmApp的推理速度(Llama3.18B预填充28tokens/s)虽未达到顶尖水平,但其多模态集成和易用性足以满足原型开发需求。

行业背景:移动端AI的开源热潮

MNN的更新正值移动端AI竞争升温。DeepSeek的R1模型和Baichuan-Omni近期也推出了开源多模态解决方案,强调本地化部署和低成本。 然而,MNN凭借阿里生态支持和硬件优化(如对Android设备的深度适配)在性能与兼容性上占据优势。AIbase注意到,阿里云已开源超200个生成式AI模型,Qwen系列在Hugging Face的下载量突破8000万,显示出其全球影响力。 MnnLlmApp的iOS版本也已发布,进一步扩大了其跨平台覆盖。

移动端多模态的未来

MnnLlmApp的此次更新标志着多模态AI从云端向边缘设备的加速迁移。AIbase编辑团队预计,随着Qwen-2.5-Omni模型的持续优化(如支持更长视频或更低延迟语音生成),MNN将在智能家居、车载系统和离线助手领域发挥更大作用。然而,社交媒体也指出,应用的模型加载流程(需从源码构建外部模型)仍需简化,以提升用户友好性。 

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

Lovart震撼发布:全球首个设计Agent,一键从创意到成品

2025-5-13 10:00:10

AI新闻资讯

18岁天才高中生独登顶刊,AI解锁150万新天体!斯坦福连夜发offer

2025-5-13 10:15:16

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索