Mobile-Agent项目部署与学习总结(DataWhale AI夏令营)

在这里插入图片描述

前言

你好,我是GISer Liu,一名热爱AI技术的GIS开发者,本文是DataWhale 2024 AI夏令营的最后一期——Mobile-Agent赛道,这是作者的学习文档,这里总结一下,和作者一起学习这个多模态大模型新项目吧😀;


一、准备工作

为了快速实现本次项目准备工作,作者将对应步骤的的流程用图片展示,各位读者只需要按顺序执行即可;

1. API申请

打开阿里云百炼官网,API申请步骤如下:
在这里插入图片描述
复制创建的API KEY;
在这里插入图片描述

这里注意保存获得的API KEY,不要泄露给别人;

我们可以在这里测试一下API接口是否正常:

# Refer to the document for workspace information: https://help.aliyun.com/document_detail/2746874.html    from dashscope import MultiModalConversation
import dashscope
dashscope.api_key = "<your api key>"
def simple_multimodal_conversation_call():"""Simple single round multimodal conversation call."""messages = [{"role": "user","content": [{"image": "https://dashscope.oss-cn-beijing.aliyuncs.com/images/dog_and_girl.jpeg"},{"text": "这是什么?"}]}]responses = MultiModalConversation.call(model='qwen-vl-plus',messages=messages,stream=True)for response in responses:print(response)if __name__ == '__main__':simple_multimodal_conversation_call()

作者输出如下:
在这里插入图片描述
没有问题!


2. Android Studio配置

这里需要下载Android Studio应用

这里无需Android 开发,只是需要借用Android Studio提供的Android虚拟机进行代码调试,以及其提供的Android adb的接口来实现屏幕截图和Agent操作执行的功能;

,安装好以后,详细配置过程如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这一步是为了让AI 可以在桌面看到这个日历应用的图标;

3. MobileAgent项目部署与配置
  • clone项目到本地:
git lfs install
git clone https://www.modelscope.cn/datasets/Datawhale/MobileAgent_V2_Demo_qwenVL.git
cd MobileAgent_V2_Demo_qwenVL

在这里插入图片描述

  • 创建环境:
conda create -n moblieagent python=3.9.19
conda activate moblieagent
  • 复制如下命令在终端执行,安装相关依赖

Mac电脑运行这个:

pip install -r mac_requirements.txt

Win电脑运行这个:

pip install -r win_requirements.txt
  • 运行项目
python run.py
  • 效果如下
    result

二、思路分析

1. 项目基础

本项目是一个基于手机操作的自动化助手系统,旨在通过多模态大模型技术来读取手机屏幕内容,识别屏幕元素,并根据用户的指令自动操作手机。整个项目的核心是结合了文本识别、图像识别和LLM技术,使用了多种深度学习模型来实现手机自动化操作的流程。

2. 平台与技术栈
  • 平台:

    • 项目运行在Android设备上,通过ADB(Android Debug Bridge)接口与手机进行交互。
    • 使用了Python编写逻辑代码,并集成了多种AI模型用于图像处理和文本分析。
  • 技术栈:

    • 图像处理与识别:

      • OCR(光学字符识别): 用于从截图中提取文本内容。使用了 damo/cv_resnet18_ocr-detection-line-level_damodamo/cv_convnextTiny_ocr-recognition-document_damo 两个模型。
      • 图标检测: 使用 GroundingDINO 模型来检测屏幕上的图标。
    • 自然语言处理:

      • Qwen-VL 系列模型: 用于自然语言理解和生成,模型的选择可以是本地模型(如 qwen-vl-chat)或通过API访问(如 qwen-vl-plus)。
      • Prompt Engineering: 使用prompt来指导模型生成适合的响应,包括操作指令生成、反思生成、记忆生成和操作流程规划。
    • 设备控制:

      • 使用 get_screenshottapslide 等函数通过ADB接口操作Android设备,如截图、点击、滑动、输入文本等。
  • 集成的模型框架:

    • 使用了 ModelScope 平台的pipeline来下载和调用AI模型。
    • 集成了 dashscope 用于多模态对话。
3. 主要流程分析
  1. 初始化

    • 配置设定: 设置ADB路径,指令内容,模型类型,API密钥等基本配置。
    • 模型加载: 根据配置加载OCR模型、图标检测模型、以及Qwen-VL模型(可以是本地或API调用)。
  2. 获取屏幕信息

    • 截图: 使用ADB获取当前手机屏幕截图并保存。
    • OCR识别: 通过OCR模型检测截图中的文本块及其坐标位置。
    • 图标检测: 通过GroundingDINO模型检测截图中的图标位置,并将图标裁剪出来进行进一步识别。
    • 结果合并: 将文本块和图标识别结果整理成统一格式的 perception_infos 列表,每个元素包含检测到的内容(文本或图标描述)及其屏幕坐标。
  3. 处理用户指令

    • 生成操作指令: 通过调用Qwen-VL模型,根据 perception_infos 生成操作指令(如点击、滑动、输入等)。
    • 执行操作: 根据生成的操作指令通过ADB接口对手机进行相应的操作。
  4. 反思与记忆

    • 反思: 项目支持通过对比前后两次截图的差异,生成反思Prompt,分析当前操作是否正确或需要修正。
    • 记忆: 项目可以将重要的信息保存到记忆中,以便后续操作中更好地理解和处理。
  5. 迭代循环

    • 重复操作: 以上过程在一个循环中不断重复,直到完成所有指令或满足停止条件。

三、 代码分析

  • 项目的主要目的是通过调用多模态大模型和图像处理技术,实现对移动设备的屏幕内容的读取、分析和操作
  • 项目通过 Android 设备桥(ADB)与设备通信,获取屏幕截图,然后利用各种模型进行图像识别、文字识别、操作决策,最终执行用户指令

项目由多个模块组成,每个模块都承担特定的功能。以下是模块划分和相应的代码分析:

1. 环境设置与初始化
  • 功能:设置ADB路径、用户指令、选择模型和API的调用方式等配置。
  • 代码
     # Your ADB pathadb_path = "C:/Users/<username>/AppData/Local/Android/Sdk/platform-tools/adb.exe"# Your instructioninstruction = "Read the Screen, tell me what day it is today. Then open Play Store."# Choose between "api" and "local". api: use the qwen api. local: use the local qwen checkpointcaption_call_method = "api"# Choose between "qwen-vl-plus" and "qwen-vl-max" if use api method. Choose between "qwen-vl-chat" and "qwen-vl-chat-int4" if use local method.caption_model = "qwen-vl-plus"# If you choose the api caption call method, input your Qwen api hereqwen_api = "<your api key>"# Other settings...
  • 思路:在开始前,项目通过设置 ADB 路径、用户指令、API调用方式以及模型选择来初始化项目运行的基础环境。
2. 聊天历史初始化
  • 功能:初始化不同对话历史(如操作历史、反思历史、记忆历史)用于后续交互。

  • 代码

    def init_action_chat():operation_history = []sysetm_prompt = "You are a helpful AI mobile phone operating assistant. You need to help me operate the phone to complete the user's instruction."operation_history.append({'role': 'system', 'content': [{'text': sysetm_prompt}]})return operation_history
    
  • 思路:不同的聊天初始化函数用于分别构建操作对话历史、反思对话历史、记忆对话历史等,这样在不同阶段可以复用这些历史对话记录来生成决策。

3. 图像处理与信息提取
  • 功能:截取手机屏幕、进行OCR识别、图标检测、坐标处理等。

  • 代码

    def get_perception_infos(adb_path, screenshot_file):get_screenshot(adb_path)width, height = Image.open(screenshot_file).sizetext, coordinates = ocr(screenshot_file, ocr_detection, ocr_recognition)text, coordinates = merge_text_blocks(text, coordinates)center_list = [[(coordinate[0]+coordinate[2])/2, (coordinate[1]+coordinate[3])/2] for coordinate in coordinates]draw_coordinates_on_image(screenshot_file, center_list)perception_infos = []for i in range(len(coordinates)):perception_info = {"text": "text: " + text[i], "coordinates": coordinates[i]}perception_infos.append(perception_info)# Detect icons...# Add icon descriptions to perception_infos...return perception_infos, width, height
    
  • 思路:该模块负责从手机截图中提取有用的信息,包括文本和图标,并将这些信息转化为后续操作的输入。

4. 深度学习模型加载与推理
  • 功能:加载和初始化所需的深度学习模型,处理用户的指令。

  • 代码

    device = "cpu"
    torch.manual_seed(1234)
    if caption_call_method == "local":# Load local models...
    elif caption_call_method == "api":# Use API for models...
    
  • 思路:根据用户选择,项目会加载本地或API提供的模型来进行图像描述、文本识别、图标检测等任务。通过选择不同模型和API,可以适应不同的应用场景和硬件环境。

5. 操作与执行
  • 功能:根据模型输出的操作指令,执行相应的手机操作(点击、滑动、返回等)。

  • 代码

    if "Open app" in action:# Open a specific app...
    elif "Tap" in action:# Tap on a specific coordinate...
    elif "Swipe" in action:# Swipe from one coordinate to another...
    elif "Type" in action:# Type text...
    elif "Back" in action:back(adb_path)
    elif "Home" in action:home(adb_path)
    elif "Stop" in action:break
    
  • 思路:这一部分是项目的核心逻辑,它根据分析得到的操作指令执行相应的手机操作,来完成用户的任务指令。

6. 反思与记忆模块
  • 功能:通过反思上一次的操作结果来调整下一步操作的策略,并将有价值的信息存储在记忆中。

  • 代码

    if reflection_switch:prompt_reflect = get_reflect_prompt(...)chat_reflect = init_reflect_chat()chat_reflect = add_response_two_image("user", prompt_reflect, chat_reflect, [last_screenshot_file, screenshot_file])output_reflect = call_with_local_file(chat_action, api_key=qwen_api, model='qwen-vl-plus')reflect = output_reflect.split("### Answer ###")[-1].replace("\n", " ").strip()chat_reflect = add_response("system", output_reflect, chat_reflect)if 'A' in reflect:thought_history.append(thought)summary_history.append(summary)action_history.append(action)# Other conditions...
    
  • 思路:通过反思模块,系统会基于之前的操作结果来判断是否需要调整策略,并将重要的信息存储到内存模块中,以便在后续操作中参考。

7. 主循环与终止条件
  • 功能:主循环执行多轮操作,并根据一定条件终止循环。

  • 代码

    while True:iter += 1# First iteration...# Action decision...# Memory update...# Reflection...if "Stop" in action:breaktime.sleep(5)
    
  • 思路:项目在一个循环中进行,直到任务完成或达到终止条件。每次循环都会根据新的屏幕截图和用户指令更新操作,并在适当的时候进行反思和策略调整。

8. 总结功能
  • 功能:对项目进行总结,提取核心内容,确保项目达成目标。

  • 代码

    completed_requirements = output_planning.split("### Completed contents ###")[-1].replace("\n", " ").strip()
    
  • 思路:这一部分通过对完成任务的总结,验证项目的执行效果,确保达到用户的预期目标。


项目详细代码参考下面的链接;

参考链接

  • 阿里百炼
  • 代码文件
  • 体验链接

thank_watch

如果觉得我的文章对您有帮助,三连+关注便是对我创作的最大鼓励!或者一个star🌟也可以😂.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/411034.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AMEYA360 :“Radisol”,一款可改善智能手机Wi-Fi天线性能的村田电子新产品

株式会社村田制作所开发了村田首款(1)天线抗干扰器件‘Radisol’。Radisol是一款可配备到天线上来抑制无线性能下降的新产品&#xff0c;该产品已于2024年6月开始量产&#xff0c;并已用在Motorola Mobility LLC 2024年8月开始销售的智能手机“Edge系列”新机型。摩托罗拉通过采…

【Qt】垂直布局管理器QVBoxLayout

垂直布局管理器QVBoxLayout 在之前学习Qt的过程中&#xff0c;将控件放在界面上&#xff0c;都是依靠“手动”的方式来布局的&#xff0c;但是手动调整的方式是不科学的。 手动布局的方式非常复杂&#xff0c;而且不精确无法对窗口大小进行自适应 因此Qt引入布局管理器来解决…

缓存Mybatis一级缓存与二级缓存

缓存 为什么使用缓存 缓存(cache)的作用是为了减去数据库的压力,提高查询性能,缓存实现原理是从数据库中查询出来的对象在使用完后不销毁,而是存储在内存(缓存)中,当再次需要获取对象时,直接从内存(缓存)中提取,不再向数据库执行select语句,从而减少了对数据库的查询次数,因此…

无法启动此程序,因为计算机中丢失dll,整理了7种解决方法!

当电脑出现“无法启动此程序&#xff0c;因为计算机中丢失dll”的错误弹窗时&#xff0c;这通常意味着系统中的DLL文件出现了缺失或错误。DLL文件是动态链接库文件&#xff0c;它们在软件运行中起着至关重要的作用。 造成dll文件缺失和错误的原因有很多&#xff0c;大部分问题都…

python爬虫,使用pyppeteer异步,爬取,获得指定标签内容

获得指定 #pip install pyppeteer,使用 Pyppeteer&#xff08;异步方案&#xff09; import asyncio from pyppeteer import launch async def main():browser await launch()page await browser.newPage()await page.goto(http://xxx/#/login)# 等待页面加载完成await page…

算法-容斥原理

venn图&#xff1a; 如何求三个圆圈的面积之和&#xff1f; 此时&#xff0c;||不代表绝对值&#xff0c;代表集合的个数 解题思路&#xff1a; 实际上&#xff0c;我们不需要知道每个集合中的元素具体是什么&#xff0c;只需要知道每个集合的大小 例如 &#xff0c;表示10以…

Golang小项目(1)

Golang小项目(1) 前言 本项目适合Golang初学者,通过简单的项目实践来加深对Golang的基本语法和Web开发的理解。 建议前往 torna.top 查阅效果更佳 项目结构 . ├── main.go └── static├── form.html└── index.html项目流程图 定义三个路由: /:首页,显示static…

Windows隐藏起你的秘密文件以及文件夹工具

我们都知道&#xff0c;在 Windows 中可以右键文件夹&#xff0c;选择”属性“&#xff0c;勾选”隐藏“来实现隐藏某个文件夹。 我们还知道&#xff0c;在 Windows 中可以选择勾选 ”显示隐藏的项目和文件夹“&#xff0c;来使上述方法变得形同虚设。 本工具就是用于解决以上…

计算机网络模型

应用层 应用层的作用是为应用程序或用户请求提供各种请求服务。 该层协议定义了应用进程之间的交互规则&#xff0c;通过不同的应用层协议为不同的网络应用提供服务。例如域名系统DNS、支持万维网应用的HTTP协议&#xff0c;电子邮件系统采用的SMTP协议等。 表示层 表示层&…

记录|Form1中嵌套Form2时的频闪问题解决[不同于常见的三部曲]

目录 前言一、常见的解决方案二、自己创建渐变色组件GradientPanel三、最终效果展示更新时间 前言 参考文章&#xff1a; C#画图解决闪烁问题 [解决winform中重绘时控件闪烁的问题](panel1.GetType().GetProperty(“DoubleBuffered”,System.Reflection.BindingFlags.Instance …

东芝玉兔2.0明日震撼开售,洗衣机界的全新革命

明天&#xff0c;备受瞩目的东芝玉兔2.0 Pro洗烘套餐将正式开售。这款产品不仅在外观上采用了超薄全嵌的设计&#xff0c;梨川白的配色更是让人眼前一亮。更重要的是&#xff0c;它在功能上进行了全面升级&#xff0c;为用户提供了更全能的服务。 UFB超威跑2.0银离子除菌升级版…

JAVA中的线程池说明一

目录 1.为什么需要线程池? 2.什么是线程池? 3.标准库中的线程池 4.实现自定义线程池 1.为什么需要线程池? 线程的存在意义在于解决并发编程中进程开销过大的问题&#xff0c;因此引入了线程&#xff0c;也被称为"轻量级线程"。相比于创建进程&#xff0c;创建…

【学术会议征稿】第五届机械工程、智能制造与自动化技术国际学术会议(MEMAT 2024)

第五届机械工程、智能制造与自动化技术国际学术会议&#xff08;MEMAT 2024&#xff09; The 5th International Conference on Mechanical Engineering, Intelligent Manufacturing and Automation Technology 目前&#xff0c;我国自动化技术随着科学技术水平的不断提高已经…

功率器件和滤波器件的选型及测试方法

目录 一、功率器件的选型及测试方法 1.1功率器件的选型 1.2功率器件的测试方法 二、滤波器件的选型及测试方法 2.1滤波器件的选型 2.2滤波器件的测试方法 三、表格总结 一、功率器件的选型及测试方法 1.1功率器件的选型 在电子电路设计中&#xff0c;功率器件的选择是…

Mysql索引不当引发死锁问题

1. 前言 在并发量很低的情况下&#xff0c;mysql的响应时延一切正常&#xff0c;一旦并发量上去了&#xff0c;mysql就会出现死锁的情况&#xff0c;你有没有遇到过&#xff1f;到底是是什么原因导致的呢&#xff0c;让我们一起看看真实的案例。 2.遇到的问题 先介绍一下我们…

二进制、十进制转换进阶--小数点后的转换

上一篇文章详细介绍了整数的二进制,八进制,十进制,十六进制之间的转换 详情可前往:二进制、八进制、十进制、十六进制的相互转换-CSDN博客 这篇介绍含有小数点之间的转换 一:二进制转十进制 二进制 101.11 可以分为两部分 101 和 0.11 整数部分 101 转换的方式是从右到左,…

【文心智能体】通过低代码工作流编排创建应用《挑战奥运问答拿奖牌》

欢迎来到《小5讲堂》 这是《文心智能体平台》系列文章&#xff0c;每篇文章将以博主理解的角度展开讲解。 温馨提示&#xff1a;博主能力有限&#xff0c;理解水平有限&#xff0c;若有不对之处望指正&#xff01; 目录 背景整体界面大模型链提示词模型 工具链HTTP请求工具 逻辑…

游戏开发设计模式之策略模式

目录 策略模式在游戏开发中的具体应用案例有哪些&#xff1f; 如何在Unity中实现策略模式以优化角色行为和AI策略&#xff1f; 策略模式与其他设计模式&#xff08;如观察者模式、状态模式&#xff09;在游戏开发中的比较优势是什么&#xff1f; 策略模式的优势 观察者模式…

【Qt笔记】QCommandLinkButton控件详解

目录 引言 一、概述 二、特性与属性 1. 属性 2. 样式 三、基本用法 1. 引入必要的头文件 2. 创建和配置 QCommandLinkButton 3. 布局管理 四、高级用法 1. 自定义绘制 2. 动态内容更新 五、代码解析示例 注意 总结 引言 QCommandLinkButton 是 Qt 框架中 QtWi…

android关于binder的简单通信过程

文章目录 简述aidl文件服务端的实现客户端的实现验证过程 简述 主要实现的是两个应用之间跨进程通信的过程&#xff0c;client端调用server端的具体实现&#xff0c;然后server端给client回调数据&#xff0c;详细如下所示 aidl文件 以下的文件需要在服务端与客户端都配置一…