谷歌AI Studio:你绝对不能错过的隐藏瑰宝,解锁5个(偷偷告诉你,其实是6个!)自动化神技!


嘿,各位AI爱好者和效率达人们,大家好!

你是不是每天都在用各种办公套件?或者是一些由AI驱动的便捷工具?但今天,我要给你们安利一个谷歌的隐藏大杀器——Google AI Studio!说真的,我觉得在很多场景下,它甚至可能是谷歌最牛的AI工具,但知道和在用它的人却少之又少。而且,就在过去几周,它又迎来了一波重磅更新,简直强到没朋友!

所以,今天我们就来深入扒一扒Google AI Studio,我会告诉你5个(好吧,其实是6个,后面有彩蛋!)你可能从没想过可以用它来自动化的耗时任务。准备好了吗?我可是超兴奋的!

今天我们直奔主题!

我的“热辣观点”:Google AI Studio是你可能没听说过但绝对不该错过的最强AI工具之一!

是的,你没听错。如果你是AI重度用户,每天花好几个小时跟大语言模型打交道,那你可能听说过AI Studio。但如果你只是偶尔用用,那你很可能对它一无所知,或者不清楚它到底有多强大。

那么,Google AI Studio究竟是何方神圣?

首先,它现在的界面可比一个月前清爽多了!必须给谷歌团队点个赞,用户界面和用户体验都提升了一大截。你可能会问,一个AI工具,UI/UX有那么重要吗?嗯,因为它最初更多是为开发者设计的。

没错,AI Studio一开始是给那些懂技术的伙伴们准备的,他们可以在这里调试代码、构建结构化提示、跟谷歌的API后端打交道。比如,公司可能在微调谷歌的模型,或者用他们新出的优秀小模型。就像其他AI平台有它们的实验区一样,AI Studio最初也是开发者的“沙盒”。

但不同的是,AI Studio现在已经进化成一个功能齐全的成熟产品,而且远不止为开发者服务!像我这样不太懂技术的普通人,也能在里面发现海量宝藏。很多其他公司承诺过但还没完全兑现的功能,AI Studio已经悄悄上线了。

最重要的是:它免费!(当然,关于数据使用有一些要注意的点,后面会提到。)

关于数据使用,谷歌最近有更新:

  • 免费版用户:如果你用的是免费的Gemini账户(包括AI Studio),谷歌会使用你提交的内容和生成的回复来改进他们的产品和服务。所以,公司的机密数据就别往免费版里传了。
  • 付费版用户(重点!):如果你正在为Google Gemini付费,并且设置了云计费账户(设置过程很简单),那么谷歌不会使用你的提示或回复来改进他们的产品。这个更新太棒了,但好像没多少人注意到!

第一次使用的小提示:

当你第一次打开谷歌AI Studio时,你会看到“开始构建”的选项。可以选择“尝试Gemini”(是的,AI Studio里用的就是Gemini)或者“使用Gemini API构建”。另外,记得去设置里打开自动保存选项,不然默认是不保存聊天记录的哦!

好了,铺垫了这么多,让我们进入正题!以下是5个(不,是6个!)用Google AI Studio能帮你节省大量时间的任务:


神技一:处理超长上下文窗口 (Long Context Window)

想象一下,你有一份将近400页的文档,里面是大量的文字稿,差不多40个小时的内容。我想让AI分析这份内容,找出AI公司、大语言模型、生成式AI等方面的10个潜在趋势。

你猜怎么着?

  • 一些主流AI模型?可能塞不下这么多内容!
  • 其他有长上下文的模型?**也可能处理不了!**提示超了长度限制。
  • 直接用某些AI聊天机器人?**同样不行!**它会直接截断信息。

但是!在Google AI Studio里,我把这25万个token(超过四分之一百万!)的内容粘贴进去,选择了一个速度较快的模型(你也可以选更强的Pro版),只说了一句:“请仔细分析此内容,并找出10个潜在趋势。”

你猜多久完成的?26秒!

它不仅完成了,还给出了10个非常有洞察力的趋势,比如“竞争加剧与模型快速响应”、“代理式AI与任务自动化的兴起”、“多模态AI的进步与专业化”等等。很多内容都是几个月前的,我都快忘了,但AI Studio帮我回忆并总结了出来。

更牛的是,因为我用了推理模型,我还可以点进去看模型是如何思考、规划并找出这些趋势的。这简直太疯狂了!

新功能加持: AI Studio现在还有个“谷歌搜索增强(Grounding with Google Search)”功能。这意味着,我不仅可以分析我上传的内容,还能让它结合最新的网络信息。比如,我可以问:“根据最新的AI领域动向,请针对以上10个趋势,用项目符号列出最新的进展。” 酷不酷?


神技二:轻松创作视频 (Video Creation)

你没听错,你可以在AI Studio里创作视频!谷歌最新的Vio2模型简直太棒了,我觉得它甚至领先于一些其他的AI视频工具。

虽然谷歌也在逐步向付费版Gemini聊天机器人推送Vio2,但目前在AI Studio里,我已经能用上了!

操作流程大概是这样:

  1. 我先在Gemini Advanced(聊天机器人前端)里用Imagen 3生成一张图片,比如:“一架商用飞机飞越芝加哥天际线的鸟瞰照片,要求照片级真实感,全画幅单反拍摄效果。”
  2. 然后,我把这张生成的图片(Imagen 3生成的图片质量超高!)导入到AI Studio左侧的“Videogen”功能里。
  3. 在AI Studio里,你有更多控制选项:16:9或9:16的视频比例、5-8秒时长、帧率、分辨率,甚至可以设置负面提示(排除不想要的元素)。最重要的是,你可以从一张图片开始创作视频,这在Gemini聊天机器人前端目前还做不到。
  4. 我输入提示:“电影级平移镜头,展示飞机缓慢地从右向左飞过芝加哥天际线。”

几秒钟后,一个8秒的视频就生成了!效果相当惊艳。虽然可能还有些小瑕疵,但想想看,如果你的公司要开年会,用这个做宣传片背景或者网站动态背景,是不是瞬间高大上?以前要拍这样的镜头,得花多少钱和精力啊!

一句话:用它来给你的营销、宣传材料增添活力,效果拔群!


神技三:搞定那些烦人的PDF文档 (Parsing PDFs)

我知道这听起来可能有点无聊,但相信我,这非常实用!以前,大语言模型处理PDF,尤其是那种图文混排、包含大量图片的PDF,简直是噩梦。它们依赖OCR(光学字符识别)和计算机视觉,效果往往不尽如人意。

我拿一个公司的赞助方案PDF做例子。这个PDF是用Canva做的,里面有很多图片,很多看起来像文字的东西其实也是图片。任何普通的PDF工具都很难准确读取。PDF底部有一堆合作过的公司的Logo,比如谷歌、亚马逊、英伟达等。

我在AI Studio里上传了这个PDF,用了一个强大的模型,只说了一句:“逐字转录此PDF。”

53秒后,完美搞定! 它不仅提取了所有统计数据、图表信息,甚至准确识别出了那些没有文字标签的Logo!比如亚马逊的Logo,就是一个带箭头的A,它居然知道那是亚马逊!

想想看,这意味着什么?

  • 需要更新一个找不到源文件的旧PDF?直接扔给AI Studio提取内容。
  • 要从一份几百页的行业白皮书中快速找到关键信息?AI Studio帮你搞定。

结合超长上下文窗口和顶级的模型能力,处理PDF简直是小菜一碟。你甚至可以创建自定义指令,让它每周自动帮你分析行业报告,只提取你关心的那10%内容,并按你想要的格式输出!


神技四:一键生成图文并茂的内容 (Multimedia Content Creation)

这个功能也超赞!我切换到一个合适的模型(注意,要选择支持“图像和文本输出”的版本)。然后我输入:“写一篇关于芝加哥五大旅游景点的博客文章,并为每个景点配图。”

你猜怎么着?23秒! 一篇图文并茂的博客文章就出炉了!它不仅写了五个景点介绍,还为每个景点生成了一张对应的图片。这些图片是用谷歌的Imagen模型生成的(我猜是Imagen 2,因为Imagen 3的效果会更好一点,但这也足够惊艳了)。

想想看,如果你是做旅游的,或者需要快速创建大量带有配图的内容,这能节省多少时间!当然,生成的初稿还需要人工润色,但基础框架和素材都给你准备好了。我以前做SEO内容,写一篇这样的文章配图,得花好几个小时!

小技巧: 如果你不小心在不支持图片输出的模型里提了类似要求,它虽然不会直接生成图片,但会非常贴心地给你提供详细的图片生成提示词,你再把这些提示词拿到支持图片生成的功能里就能用了。


神技五:通过屏幕共享学习任何新技能 (Learning New Skills via Screen Share)

这简直太酷了!一些AI平台在一年前就展示过类似功能,但桌面版我们至今还没用上。而Google AI Studio,免费,现在就能让你共享屏幕并与AI实时互动

有多少人知道这个功能?

我在AI Studio左侧点击“直播(Stream)”图标,选择“共享屏幕”。

我的测试场景: 我有一个包含搜索引擎后台数据的简单电子表格,记录了网站点击量最高的10个页面的数据。我想计算过去7天这些页面展示次数(Impressions)的百分比变化。我对写表格公式不太在行。

我共享了我的电子表格屏幕,然后开始和Gemini对话:

我:“嘿Gemini,能看到我屏幕上的内容吗?”Gemini:“是的,我看到一个Google Sheets电子表格……”我:“很好。我想在H2单元格里写一个公式,计算E2和F2单元格(展示次数)之间的百分比变化,G2是差值,但我需要百分比。你能告诉我公式吗?”Gemini:“当然,在H2单元格输入=G2/E2,然后将单元格格式设置为百分比。”(我照做了,但显示的是小数)我:“它现在显示的是小数,我怎么把它变成百分比格式?”Gemini:“选中H列,在工具栏找到‘格式’菜单,选择‘数字’,再选择‘百分比’。”(我照做了)我:“我做对了吗?”Gemini:“是的,H列现在显示为百分比了。你做对了!”我:“太棒了!那么,从SEO策略师的角度看,如果我想提高网站流量,根据屏幕上的这些数据,你觉得我首先应该关注什么?”Gemini:“数据显示,‘免费Chat GPT vs Chat GPT Plus:有什么区别?’这个页面的展示量和点击量正在显著下降。你应该调查一下为什么这个页面下降这么多。你最近对这个页面做过什么修改吗?”

大家明白这有多强大吗?我只是举了个简单的例子。但这意味着,你身边随时有位全球顶尖的专家,可以看着你的屏幕,手把手教你任何事情!学习新软件?调试代码?设计反馈?结合前面提到的“谷歌搜索增强”,它甚至能帮你规划如何更新那篇流量下降的文章!


压轴彩蛋来了!第六个神技:超越字幕的YouTube视频学习 (Better YouTube Learning)

这个功能,我得说,可能比前面所有加起来还要疯狂!

我在AI Studio里点击输入框旁边的“+”号,选择“YouTube视频”,然后粘贴了一个我几个月前做的关于某个AI工具的9分钟视频链接。

我用的还是一个强大的Pro模型。这个9分钟的视频,AI Studio告诉我它有15.7万个token。

我先让它:“用项目符号列出如何使用该AI工具的步骤。” 42秒后,它给出了清晰的步骤。

这还不算完。很多工具也能通过YouTube链接提取文字稿做总结。但AI Studio不一样!

我又问:“描述一下视频里的人。”

看它的回答:

“根据视频,人物描述如下:外貌:成年男性,看起来是高加索人种,大概30多岁或40出头。头发:深棕色或黑色。面部特征:刮得很干净。衣着:他穿着一件深色(可能是黑色或深海军蓝)短袖Polo衫,衣领边缘有细白条纹。左胸前有一个小的浅色Logo,看起来像某个品牌的标志。

天啊!那个Logo小到几乎看不见,它居然识别出来了!

这意味着AI Studio不只是在“听”视频的音频和文字稿,它在“看”视频!

想象一下这个应用场景:

假设你在一个工厂工作,生产玻璃杯。你有一段30分钟的监控录像,记录了生产线上的情况,期间可能发生了很多问题:杯子掉落、机器故障等等。

你可以把这段视频上传到AI Studio,然后问它:“有多少个杯子从传送带上掉下来了?给出具体时间和原因分类(比如人为失误、机器故障、玻璃缺陷)。” 配合结构化输出功能,它甚至能直接给你生成一个包含时间戳、事件描述和原因分类的电子表格!

目前可能还不能上传8小时的超长视频,但技术正在飞速发展!它甚至描述了我在视频里的“风度”:“他看起来很投入,富有表现力,直视镜头/观众。在讨论话题时,他面带微笑,充满热情。”


总结一下这6个神技:

  1. 超长上下文窗口:分析海量文本。
  2. 视频创作:用Vio2轻松制作酷炫视频。
  3. 解析PDF文档:从复杂PDF中提取信息。
  4. 多媒体内容创作:一键生成图文并茂的文章。
  5. 屏幕共享实时教学:让AI看着你的屏幕手把手教你。
  6. 超越字幕的YouTube视频学习:AI真的在“看”和“理解”视频内容。

各位,这些功能大部分都是免费的,而且它们正在彻底改变我们工作和学习的方式!

我真的觉得Google AI Studio被大家严重低估了。特别是最后那个YouTube视频分析功能,我感觉是刚更新不久的(至少在某些Pro模型下是这样)。它不是简单地看文字,它在用眼睛和大脑理解视频!

如果这篇文章对你有用,请一定分享出去,让更多人知道这个宝藏工具!也欢迎在评论区告诉我你的使用体验,或者你还发现了哪些AI Studio的隐藏神技!