OpenAI GPT-4即将发布。它是多模态的,这意味着如果谷歌不担心,那么现在就应该开始了。
微软德国首席技术官安德烈亚斯-布劳恩证实,GPT-4将在2023年3月9日的一周内到来,它将是多模式的。多模态人工智能意味着它将能够在多种输入中运作,如视频、图像和声音。
多模态大型语言模型
该公告的最大收获是,GPT-4是多模态的。
模态是指(在这种情况下)一个大型语言模型所处理的输入类型。
多模态可以包括文本、语音、图像和视频。
GPT-3和GPT-3.5只在一种模式下运行,即文本。
根据德国的新闻报道,GPT-4可能至少能在四种模式下运行,即图像、声音(听觉)、文本和视频。
引述微软德国首席技术官Andreas Braun博士的话:
我们将在下周推出GPT-4,在那里我们将有多模态模型,将提供完全不同的可能性 – 例如视频……
报告缺乏对GPT-4的具体说明,因此不清楚所分享的多模态是专门针对GPT-4的还是一般的。
微软业务战略总监Holger Kenn解释了多模态,但报告不清楚他是指GPT-4多模态还是一般的多模态。
我相信他对多模态的提及是针对GPT-4的。
该新闻报道分享了:
肯恩解释了多模态人工智能的意义,它不仅可以将文字相应地翻译成图像,还可以翻译成音乐和视频。
另一个有趣的事实是,微软正在研究 “信心指标”,以便用事实来支撑他们的人工智能,使其更加可靠。
微软Kosmos-1
在美国显然没有得到充分报道的事情是,微软在2023年3月初发布了一个名为Kosmos-1的多模态语言模型。
根据德国新闻网站Heise.de的报道:
…..该团队将预先训练好的模型进行了各种测试,在图像分类、回答有关图像内容的问题、图像的自动标记、光学文本识别和语音生成任务方面取得了良好的结果。
…视觉推理,即在不使用语言作为中间步骤的情况下对图像得出结论,似乎是这里的一个关键…
Kosmos-1是一个多模态模态,它整合了文本和图像的模态。
GPT-4比Kosmos-1更进一步,因为它增加了第三种模态,即视频,而且似乎还包括了声音模态。
跨越多种语言的工作
GPT-4似乎可以在所有语言中工作。它被描述为能够接收德语的问题,并以意大利语回答。
这是个有点奇怪的例子,因为,谁会用德语问问题而想收到意大利语的答案呢?
这就是被证实的情况:
……该技术已经发展到基本上 “适用于所有语言”。你可以用德语问一个问题,得到意大利语的答案。
通过多模态,微软(-OpenAI)将'使模型变得全面'”。
我相信这一突破的重点是,该模型超越了语言,具有跨越不同语言的知识能力。因此,如果答案是意大利语,它就会知道,并且能够用提问的语言提供答案。
这将使它类似于谷歌的多模态人工智能的目标,即MUM。据说MUM能够用英语提供答案,而这些数据只存在于另一种语言中,如日语。
GPT-4应用
目前还没有宣布GPT-4将出现在哪里。但Azure-OpenAI被特别提到。
谷歌正在努力追赶微软,将一项竞争性技术整合到自己的搜索引擎中。这一发展进一步加剧了人们的看法,即谷歌在面向消费者的人工智能方面正在落后,缺乏领导力。
谷歌已经在多个产品中整合了人工智能,如谷歌镜头、谷歌地图和消费者与谷歌互动的其他领域。这种方式是将人工智能作为一种辅助技术来利用,帮助人们完成小任务。
微软实施的方式更加明显,因此,它吸引了所有的注意力,并加强了谷歌的形象,使之成为耀武扬威和奋力追赶的对象。
德国报道原文:GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
原文地址:https://www.wbolt.com/gpt-4-is-multimodal.html