仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
Qwen-VL是阿里云研发的大规模视觉语言模型(LargeVisionLanguageModel,LVLM)。Qwen-VL可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。
https ://github.com/QwenLM/Qwen2.5-VL
模型硬件要求:
Precision
Qwen2.5-VL-3B
Qwen2.5-VL-7B
Qwen2.5-VL-72B
FP32
11.5GB
26.34GB
266.21GB
BF16
5.75GB
13.17GB
133.11GB
INT8
2.87GB
6.59GB
66.5GB
INT4
1.44GB
3.29GB
33.28GB
强大的文档解析能力:将文本识别升级为全文档解析,擅长处理多场景、多语言以及包含各种内置元素(手写文字、表格、图表、化学公式和乐谱)的文档。
精准的对象定位跨格式支持:提升了检测、指向和计数对象的准确性,支持绝对坐标和JSON格式,以实现高级空间推理。
超长视频理解和细粒度视频定位:将原生动态分辨率扩展到时间维度,增强对时长数小时的视频的理解能力,同时能够在秒级提取事件片段。
增强的计算机和移动设备代理功能:借助先进的定位、推理和决策能力,为模型赋予智能手机和计算机上更出色的代理功能。
Messagescontainingaimageslistasavideoandatextquery
Messagescontainingalocalvideopathandatextquery
Messagescontainingavideourlandatextquery
定位最右上角的棕色蛋糕,以JSON格式输出其bbox坐标
请以JSON格式输出图中所有物体bbox的坐标以及它们的名字,然后基于检测结果回答以下问题:图中物体的数目是多少?
请识别出图中所有的文字
Spottingallthetextintheimagewithline-level,andoutputinJSONformat.
提取图中的:[‘发票代码’,’发票号码’,’到站’,’燃油费’,’票价’,’乘车日期’,’开车时间’,’车次’,’座号’],并且按照json格式输出。
系统地介绍大语言模型的提示词工程以及AIAgent的基本概念和设计方法论。许多用户在使用ChatGPT等AI工具时,常常感到困惑:为什么有时候能得到满意的回答,有时候却答非所问?通过本书,读者将学习如何构建有效的AI提示词,以及如何设计合理的对话流程,从而更好地驾驭AI工具。
#留言领书,送三本#
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~