有了 AI 之后,成熟的手机应该学会自己工作了
有了 AI 之后,成熟的手机应该学会自己工作了
虽然我们每天都已经习惯了用手机来完成签到、回复、发信息等各种工作,但很多人还是时不时的会感慨,科技都已经这么发达了,这些事手机就不能自己动手把工作干了吗?
还真别说,这些事可能用不了多久就不需要我们亲自动手了。
腾讯这两天联手德州大学达拉斯分校的研究团队在 Arxiv 上发布了一篇名为《AppAgent: Multimodal Agents as Smartphone Users》的论文,介绍了一个名为 AppAgent 的多模态模型应用项目。论文表示,AppAgent 可以学习用户的手机操作习惯,在手机上自己执行各种操作。
它可以模仿用户的口吻在社交媒体 APP 上发帖,还可以按照人的口气撰写和发送邮件,还可以修图、导航、给视频进行评论,甚至是通过 APP 买东西。
AppAgent 的操作分为两个阶段,分别称为探索阶段和部署阶段。在探索阶段,App Agent 观察不同应用程序用户界面的交互情况,这就好像一个牙牙学语的孩子,只要通过充分观察,App Agent 就能熟练使用某个应用程序。而这些知识会被精心整理成文档,放进 App Agent 的知识库中。
学习阶段完成后,AppAgent 就可以开始自己行动了。这个阶段它可以处理任何支持的应用程序操作任务。这种有条不紊的方法使 App Agent 能够高效地完成不同应用程序中的各种复杂任务。
目前腾讯已经对 Temu、Gmail、X、Youtube 等十款 APP 进行多次测试,至少确保了 50 多种不同的任务。而在开放测试之后,App Agent 还将会学习到更多 APP 的操作方法,方便不同人群使用。
腾讯还放出了一个案例,直接让 App Agent 在 Gmail 中给人发一封邮件。在向 App Agent 发出要求之后,App Agent 直接轻车熟路的打开 Gmail,找到相应的联系人,洋洋洒洒的写了一封邮件给人发过去。全程根本不需要人类自己动手。
这听上去是不是很酷,有了 App Agent,一些重复繁琐的功能就可以自己完成。最典型的场景,就是拼多多的 " 砍一刀 "。以后再面对家人朋友帮忙砍一刀的要求时,大家完全可以把这些无聊又繁琐的复制、点击操作交给 App Agent 来完成。
而对于很多上班族来说,App Agent 完全可以自己完成手机上下班打卡的工作需求,再也不用担心因为忘记打卡而错失全勤奖的问题。App Agent 还解决了安卓用户无法借助 Siri 这样的语音助手自己回复消息的问题,只要日后开放语音接口,就可以轻松实现解放双手,动动嘴就可以让手机自己回复消息的梦想。
App Agent 一经公布,让不少人对这款解放双手的 AI 产品产生了兴趣。
App Agent 看上去很棒
不过也有些用户在感慨 App Agent 很酷的同时,也在担心它的使用场景。
这也可能是个双刃剑,它在提高工作效率的同时,也可以用于操纵社交媒体。
还有人在担忧自己的数据安全。
有些担忧也挺有道理的,毕竟谁也不能保证在 App Agent 的帮助下手机会不会自己给自己安排一堆任务。
到时候一觉醒来人们发现,手机自己给购物车清空了,恐怕很多人就要觉得这是一场噩梦了。
标签: