用GPT-4V“操纵”iPhone,无需训练可完成任意指令,“Siri终结的开始”

值得一看   2023-11-16 21:03   48   0  

日前,研究人员表示,无需训练,人工智能GPT-4V就能像人类一样与智能手机进行交互,完成各种指定命令,包括在50-100美元的预算内购买一个打奶泡的工具,成功率可达75%。他们开发了一个基于GPT-4V的agent,用于开展智能手机用户界面的导航任务。实验中,GPT-4V在不同类型的屏幕理解能力上表现出色,包括语义推理和精确位置操作。

该技术的关键在于结合图像处理和文本推理,使AI系统能够在智能手机上执行复杂的多步骤购物任务。研究人员成功教会了GPT-4V使用iPhone并在亚马逊应用程序上购物。这种人工智能技术在解释用户指令和执行任务方面具有高准确性。

然而,也有一些挑战,如解释多样化和动态界面元素以及确保与人类行为一致的准确决策,这项技术要想真正商用,还有很大的前进空间。尽管如此,这项研究仍揭示了创建能够进行复杂交互的AI模型的可能性,并强调了准确的数据集注释和可调整的测试方法的重要性。

这种技术未来有望在自动化QA测试、帮助残障人士以及在我们忙于其他工作时为我们完成手机任务等领域发挥作用。另外,类似的技术还被预测有望被整合到下一代iPhone中,提升Siri等产品的智能交互能力。


博客评论
还没有人评论,赶紧抢个沙发~
发表评论
说明:请文明发言,共建和谐网络,您的个人信息不会被公开显示。