这周AI圈简直是神仙打架,各种酷炫新工具和模型层出不穷,看得我眼花缭乱。赶紧跟上我的脚步,一起来看看有哪些不容错过的“黑科技”吧!
首先,字节跳动最近放大招,推出了一款叫“小鹊”的图像智能体。听说这家伙能主动思考、智能执行,还能快速交付。简单说,就是你动动嘴皮子跟它聊天,它就能把你的想法变成视频和图片,简直是手残党的福音,以后创作视频再也不用头疼复杂的剪辑啦!
腾讯这边也不甘示弱,开源了他们的“混元视频数字人”模型。你只需要提供一张图片和一段音频,就能让画中人开口说话、唱歌,效果还挺自然。不管是大头照、半身照还是全身照,甚至是人和动物的多角色场景,它都能hold住。重点是,这玩意儿能进一步降低制作成本,不像有些工具比如HeyGen,已经开始全面收费了。目前,混元视频数字人支持上传不超过14秒的音频,而且它那个多角色场景功能还挺亮眼,可以搞出合唱或者对话的视频效果。不过话说回来,经过一些测试,它在画面稳定性、口型匹配和动作自然度上,跟HeyGen这种主流模型比起来,还是有点差距。
编程大神们看过来!Deepseek 更新了他们的 R1 模型到0528版本。这模型的编程能力简直逆天!测试显示,R1 0528 在编程方面表现超神,用户给个简单指令,它就能刷刷刷生成高质量代码。据说,跟Claude 3.5相比,R1 0528 一条指令就能生成700行代码,还能更逼真地模拟复杂的物理运动场景。根据 Live Code Bench 编程测试平台的排名,它的表现已经可以跟 OpenAI 最新的 O3H 模型掰手腕了。目前 Deepseek 官网、应用和 API 都能用上,像 OpenRouter 这些平台也第一时间集成了R1 0528。
谷歌 DeepMind 也没闲着,一口气发布了三款聚焦在创新领域的模型:MJAM、SIGN 和 DINA。MJAM是个多面手,能搞定医学影像分类、解读和临床推理;SIGN 则是手语理解模型,帮助听障人士把美国手语(ASL)转换成英文文本,下半年还计划支持更多手语方言,真是太有爱了!最神奇的是 DINA,它居然能模拟海豚的语言,用于研究跨物种的声音交流。这个模型可是基于40多年的海豚声音数据和研究成果训练出来的,未来在动物保护、行为研究和海洋探索方面,说不定会有大突破!
Opera 这周也来凑热闹,推出了一个叫 Neon 的浏览器。听起来就科技感十足!它的目标是通过 AI 智能体提供更聪明的上网体验。跟传统浏览器不一样,Neon 能替你干活,比如做调研、构建内容、设计等等。Opera Neon 内置了 AI 引擎,能理解你的需求,并通过云端智能体完成任务,就算你离线了,它也能同时处理多个任务。目前这个工具还在 Alpha 测试阶段,感兴趣的小伙伴可以去申请加入等待名单,抢先体验一把未来浏览器。
Audys 这边更新了,推出了一个由世界模型驱动的 AI 视频生成功能。最牛的是,它能输出可交互的视频,而且还是免费的!也就是说,你不仅能看视频,还能用键盘控制视频里的“你”往不同方向移动。用户可以在下方的世界频道选择不同频道,用 WASD 键在生成的虚拟世界里“行走”,有点像在玩游戏一样,沉浸感拉满!
抖音最近也上线了一款 AI 视频编辑应用——“剪映”。这款应用专为新手小白设计,支持一键成片。在苹果应用商店搜索“剪映”就能找到并安装。据说这个应用更受女性用户青睐,能把相册里的内容或者上传的视频素材,自动配上背景音乐和文字特效,快速生成大片。目前这款工具也是免费的,手残党们又多了一个选择!
说到AI生成视频,这周还有个大瓜。有网友用 VO3 模型创作了一段三分钟的视频,播放量已经破百万了!视频内容描绘了一个由提示词控制的 AI 演员的生活,视觉表现力超强。不过,这部片子带有比较强的左翼政治倾向,同时也把 AI 生成电影的能力拔高到了一个新的层面。看来AI不仅能搞技术,还能搞艺术(甚至搞点“事情”)啊!
怎么样,这周的AI大餐是不是很丰盛?从视频创作到编程辅助,再到人机交互和跨物种交流,AI的发展速度真是让人惊叹。博主我会继续为大家关注最新动态,我们下期再见!