谷歌一直在悄悄地改进 Bard,每隔几周就会添加新功能,使其功能与 ChatGPT 看齐。现在,该公司又为 Bard 添加了上传图片的功能,为用户带来除文字外更广泛的体验。毫无疑问,谷歌 Bard 仍然是一个纯文字的大型语言模型。不过,这家搜索巨头已经整合了 Google Lens、反向图片搜索和一些 VQA 系统(视觉问题解答),使 Bard 感觉像是一个多模态模型。尽管如此,Bard 目前的视觉能力确实有些出人意料,我们在下文中对其进行了测试,以了解其能力。下面,让我们来看看 Google Bard 中一些很酷的图片上传示例。
- 从图像中提取文本
- 提取格式不变的表格
- 使用模型为网站/应用程序生成代码
- Google Bard 可以解释图片
- 从图片中获取营养信息
- 改进食品食谱
- 解决数学问题
- 解释备忘录和笑话
- 将方程转译成 LaTeX
- 上传医疗报告并提问
1. 从图像中提取文本
Bard 图像处理功能的最大优点是,现在只需点击 (+) 按钮就能上传图像。然后,它可以快速抓取上传内容中的文本。然后,Google Bard 就会自动执行 OCR 识别,并且准确无误。尽管如此,尽管 Bard 支持一长串语言,但目前 OCR 功能仅适用于英语。我尝试了多种国际和地区语言,但都无法从扫描图像中提取文本。不过,对于从图像中快速提取文本,Bard 还是很有帮助的。
2. 提取格式不变的表格
当我们需要从扫描的图像或文档中提取表格时,我们都会很费劲。不过,Google Bard 可以毫不费力地提取出格式完好的表格。事实上,你还可以将表格导出到 Google Sheets,然后做进一步的编辑或数据处理。这有多酷?话虽如此,目前 Bard 还经常出现幻觉,在某些情况下,它会在单元格中填入错误的数据,因此在导出前一定要进行验证。
3. 使用模型为网站/应用程序生成代码
为了展示 GPT-4 的多模态功能,2023 年 3 月,OpenAI 演示了其模型如何理解潦草的纸条,并迅速从一张纸上创建出网站的模拟图。虽然多模态功能尚未应用于 GPT-4,但谷歌 Bard 能够生成与模拟相匹配的代码。请记住,Bard 并非多模态模型,而是通过 Google Lens 进行图像分割来理解图像。尽管如此,Bard 的结果还是让我们大吃一惊。
我上传了 Facebook 登陆页面的截图,它很快就用 HTML 和 CSS 生成了看起来有些相似的代码。我还上传了一张我在纸上画的简单网站的图片,Google Bard 也能很好地还原它。此外,你还可以使用类似的方法来重现智能手机应用程序和其他网站的用户界面。
4. Google Bard 可以解释图片
Google Bard 擅长解释图像并总结其中的内容。你可以上传晦涩难懂的图片,它也能快速生成可靠的信息。我上传了一张低质量的生物机制图片,它就正确地将其识别为细胞有丝分裂。它还一步一步地解释了这一过程。
在另一个例子中,我上传了一张图表,它能正确理解图像并解释数据。它甚至还创建了一个数据点表格,这样我就可以在 Google Sheets 中进行处理。特别是对于学生来说,Bard 可以帮助他们理解科学概念和其他主题。您只需上传一张图片,然后向 Bard 询问即可。
5. 从图片中获取营养信息
利用 Bard 的图像处理功能,你可以获得食物的营养价值。只需上传盘中食物的图片,它就能在几秒钟内计算出总卡路里。这对于节食的人来说大有帮助。
在我的测试中,它无法计算食物的份量,但提供了一些例子,让你可以自己计算总卡路里摄入量。看来,谷歌正在利用图像分割技术对食品进行分类,并提供营养信息。
6. 改进食品食谱
另一个绝佳的使用案例是添加生鲜食品的图片,然后让 Google Bard 想出各种食品食谱。您还可以添加冰箱中食品的图片,它就会毫不费力地为您创建个性化食谱。此外,你还可以向 Bard 询问世界各地的特色美食。如果你正在减肥,还可以让谷歌 Bard 为你制作无脂肪、低热量的饱腹食谱。
7. 解决数学问题
您还可以使用 Google Bard 解决数学问题。你可以将数学问题的图片上传到 Bard,它就会尝试为你解题。在我的测试中,Bard 的方法是正确的,但由于符号问题,它只能得出错误的答案。我认为需要对其视觉系统进行更新,使 Bard 更适合处理数学符号和问题。
8. 解释备忘录和笑话
谷歌 Bard 还能解释流行语和笑话。你可以上传有趣的流行语和漫画图片,并询问 Bard 这些图片有趣在哪里, Bard 会给出自己的解释。我上传了 OpenAI 在 GPT-4 发布会上展示的同一张图片, Bard 正确地理解了图片背后的搞笑荒诞。
还有一次,我把《纽约客漫画》中的一张图片上传到 Google Bard,要求它解释这个笑话。然而,这次它只是简单地解释了场景,却说不出这张图片为什么好笑。它完全忽略了工作场所常用的电子邮件短语。我建议你自己试试 Google Bard,看看它是否足够聪明,能够理解机智和幽默。
9. 将方程转译成 LaTeX
许多人认为用 LaTeX 书写困难重重,而更愿意使用文字处理器,这已不是什么秘密。然而,对于科学研究论文和学术论文写作来说,LaTeX 是添加复杂方程和进行高质量排版所必需的。在这种情况下,Google Bard 可以派上用场。你可以添加方程式的图片,而 Bard 可以将它们转译成 LaTeX 代码。很神奇吧?那就赶紧把方程转译成 LaTeX 代码吧。
10. 上传医疗报告并提问
最后,您可以上传医疗报告的图片并将其扫描到 Google Bard。然后,您就可以根据它们提出医学问题。Twitter 上的一些医生表示,Bard 在鉴别诊断方面很有优势。它还能帮助用户了解自己的健康状况并理解医疗报告。
尽管如此,请记住谷歌 Bard 是在名为 PaLM 2 的通用 LLM 上运行的。这家搜索巨头已经开发了一个独立的医疗领域 Med-PaLM 2 模型,该模型相当准确和先进,但目前还未向普通用户开放。因此,我建议用户不要使用 Bard 进行任何形式的自我诊断。强烈建议咨询医生。最后,如果你将个人医疗报告上传到 Bard ,请务必删除 Bard 聊天记录,以保护你的隐私。
原文地址:https://www.wbolt.com/google-bard-upload-images-cool-examples.html