Open AI 的新多模式法学硕士可能会成为真正的游戏规则改变者
2024年5月13日,Open AI发布了新的大型语言模型GPT-4o。 “o”代表“omni”,已经指出了该模型的一大优势,即文本、音频和图像的智能交互。在我的博文中,我展示了这些新的可能性对于金融领域的人工智能用例意味着什么。
GPT-4o的新特性
实时多模态输入和输出
GPT-4o是一款能够同时实时处理文本、音频和图像的旗舰型号。输出也可以是多模式的。例如,它可以在平均 320 毫秒内响应音频输入。这大致相当于人际交流中正常的反应时间。这些功能现在为无缝人机交互开辟了令人兴奋的可能性。
更好地理解交互中的文本、图像和声音
与之前的型号相比,GPT-4o 不仅提高了文本理解能力,而且在图 护士电子邮件列表 像和音频处理方面也取得了进步。它可以处理图像和图形等视觉信息,并更好地理解音频输入。在更准确地识别“字里行间”的意图、感受或内容方面已经取得了重大进展。这使得 GPT-4o 成为实时翻译、会议支持或客户服务等应用程序的强大工具。
降低代币成本
GPT-4o 达到了 GPT-4 Turbo 的文本和代码性能,并且速度明显更快。据 Open AI 称,得益于改进的代币设计,API 使用成本显着降低,降低幅度高达 50%。这种成本节省使其对更多以前无法使用闭源模型的应用程序具有吸引力。
Gen AI在金融行业的用例
那么这对于金融行业的用例意味着什么呢?这是一个选择:
搜索并总结文档
银行花费大量时间搜索合同、内部政策和监管要求中的信息。 Gen AI 可以有效帮助银行员工查找和理解复杂信息,以便他们可以将更多时间花在客户身上。现在还可以更好地识别和解释图像和图形。例如,建筑融资中的房产照片或企业客户的业务报告中的图形。
对话式银行助理
想象一下由 Gen AI 控制的虚拟银行助理。他与客户进行自然对话,并回答有关账户余额、交易历史和投资机会的问题。除了基本的常见问题解答之外,他还可以提供个性化的财务建议并提高客户满意度。银行客户现在可以每周 7 天、每天 24 小时以多种语言(书面或口头)更轻松地与虚拟代理进行沟通。
内容创作
创建报告、摘要和其他内容可能非常耗时。 Gen AI 只需按一下按钮即可生成文档、带有表格和图形的报告、贷款审批或投资决策。一个具体的例子是检查与关键第三方 ICT 提供商的合同以确保 DORA 兼容性。这在以前已经是可能的,但现在意图方面的改进意味着可以通过特定问题提示的形式获得更精确、因此合法安全的答案。