TechWeb文/卞海川
微软对OpenAI的总投资已经超过130亿美元,OpenAI却把第一个桌面应用给了苹果macOS。
在OpenAI春季发布会上,除了推出新旗舰模型“GPT-4o”之外,最大的亮点是这次活动中全程用iPhone和MacBook Pro进行演示,同时还发布了Mac桌面版的ChatGPT。
最近,TechWeb也收到了ChatGPT苹果系统桌面版的更新推送,在使用了一段时间后我发现,桌面版并不是将网页版重新包装成桌面App那么简单,而是想改变用户与GPT之间的互动方式,从而将使用AI工具的习惯深深刻入用户的骨子里去。
我们来一起来简单上手体验一下。
设计界面
点开ChatGPT-Mac后,我们可以发现它基本和网页版相似,都是简单简约的设计方式,同样有三种模型可以选择。
左侧边栏显示的是历史对话记录。
当我们切换到最新版本的GPT-4o后,在界面的功能分布上,新增加了两项功能,分别是录音模块与对话模块。
GPT-4o模型可以支持文字、图像、或声音等不同模态的输入,并且可以实时联网查询你所需要的一些信息。
比网页版方便的是,你现在无论在哪个界面,都可以通过快捷键(默认option+空格)唤起聊天对话框,你可以选择上传照片,文件,甚至可以直接截图,还可以打开摄像头随时拍照。
我们这里以截图为例,比如我看到了一些有设计感的图标,你可以实时截图,发送给它,让他帮你分析一下这类图标的优势,甚至能让它帮你设计一个类似的。
发送完之后,他可以跳回桌面端加载它回答的问题。
另外一个让我喜欢的功能是窗口置顶功能,如果你需要长时间使用它,你可以将它随意拖拽放大或缩小窗口,固定到屏幕的任意位置,方便我们后续的对话或者上传文件。
虽然上述功能网页版都可以实现,但当产品真正植入你的电脑中,并且可以通过快捷键实时唤醒的时候,这个产品的体验就被进一步革新了,对于工作的效率提升是非常明显的。
OpenAI对该软件的使用频率是非常有信心的,它默认把软件设置在常驻应用栏中,与系统级的原生应用(邮件、备忘录、日历)、日常生产力应用(办公软件、浏览器)同级。
在如今的媒体报道上,我们经常能看到国内大模型屠榜的消息,甚至某项数据表现超越GPT,可是单从商业化这一小步来讲,OpenAI可能再一次领先行业,毕竟它优先抢占了我们电脑中的位置,从而不断提高未来自己的市场占有率。
目前,桌面版的体验优先像Plus付费版用户推送,数周后普通用户也可以完成下载,Windos客户端也会在今年内发布,OpenAI的宏伟愿景是面向所有互联网用户的桌面,成为用户日后习以为常的默认应用。
ChatGPT4o桌面版的一些应用场景?
一个优秀的大模型不仅需要具备强大的语言生成和理解能力,更需要在实际应用场景中展现其价值。
这里我们以ChatGPT4o桌面版,聚焦内容创作、教育辅导、工作翻译三个场景来评测一下它带给用户的实际价值。
内容创作
在内容创作领域,它可以帮助用户生成高质量的文本内容,包括文章、报告、广告文案等。
TechWeb认为,ChatGPT4o桌面版带给用户的价值更多的是在提供丰富的创意和灵感,打破创意瓶颈。
比如这里我们是一位作家,想尝试新的文体风格,写一篇小说。我们可以给ChatGPT4o一些关键词,GPT就可以给我们提供非常多的思路。
这对创作者的时间提升是非常明显的,我们可以让大模型自动生成初稿,创作者专注于修改和润色工作。
除了文字的创作,GPT在代码生成的能力也是非常强的,我们从网上找一张打砖块的截图,上传给GPT-4o,让他写一个游戏代码,整个时长不到30秒。
利用该代码,我们在能运行python的软件打开,游戏很快就出来了。
GPT在桌面端的提升主要是在实时调用方面,我们在日常网页浏览、文件阅读等环节,都可以通过快捷键进行唤醒,随时查询,实时输入内容,方便我们在浏览网页或者办公的时候随时交流。
教育辅导
大模型在教育领域的应用,特别是个性化教育辅导,展现了巨大的潜力。它是所有学科的老师,并且有着非常高的准确率。
GPT有了桌面版,我们可以边用电脑上网课,边截图,把自己没听懂的习题再发给GPT做记录,随时随地解析,非常方便。
另外一个比较有意思的功能是,你甚至可以让GPT帮你判作业,比如这样:
我们故意答错了几个答案,果然都被GPT都识别了出来,并且还会告诉你正确的运算顺序。
当然这个功能还是有些小瑕疵,比如在显示方式上还有一些小错误,但不影响最终的结果。
工作翻译
GPT-4o的发布,展示了可以毫秒级反应、识别人类情绪进行音视频交互等新能力。这就让我们想到了一个新的场景,也就是实时翻译。
在需要翻译的场景中,我们可以跟GPT说,现在我要你充当翻译官的角色,我说中文,你翻译成英文,我说英文,你翻译成中文,这样我就能和我的国外好朋友实时交流了。
在实测之后,我们发现不管是什么语言,他都可以轻松翻译,而且反应非常快,根据OpenAI发布在官网的最新博客文章,在GPT-4o之前,语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。
而现在,GPT-4o最快可以在 232 毫秒的时间内响应音频输入,平均响应时长320毫秒,与人类相似。
不过比较遗憾的是,当我们想让它在实时会议中参与并总结要点时,GPT好像还做不到,这个语音功能目前还并不完善,不过相信等未来视觉功能推送后,旁听会议并总结这个场景一定会实现。
写在最后
GPT-4o桌面版的发布,不仅展示了OpenAI在技术上的领先地位,更是其用户体验战略的一大步。
通过将AI工具无缝集成到用户的日常工作和生活中,OpenAI正逐步改变我们与技术互动的方式。这不仅提升了我们的工作效率,更为我们的创作和学习带来了前所未有的便利。
未来,随着GPT-4o的不断更新和完善,以及Windows客户端的推出,OpenAI的愿景是让每一位互联网用户都能轻松使用AI工具。无论是在内容创作、教育辅导,还是工作翻译等场景中,ChatGPT-4o都将成为我们不可或缺的助手,帮助我们更高效地完成各种任务。
这一次,OpenAI通过与苹果的合作,为我们带来了一款不仅仅是工具的应用,而是一个能够真正改变我们日常生活的创新产品。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )