一场ChatGPT引发的AI热潮,引发了谷歌的危机感。从聊天机器人Bard、“通才”AI模型PaLM 2,再到合并谷歌大脑与DeepMind、联合创始人Sergey Brin回归,这家科技巨头的各种措施都在强调自己对AI的重视。
如今,谷歌的全新AI“大杀器”即将到来。
据The Information消息,谷歌最大的AI集成产品Gemini最早将于今年秋季推出。谷歌意在凭借这一产品直接超越ChatGPT等对手,而非简单地与对手竞争。
知情人士指出,谷歌的重点是将AI的文本生成功能与文生图功能相结合,打造一款多模态产品。同时,谷歌甚至还在考虑进一步增加其他功能,例如分析流程图、语音控制软件等。
鉴于Gemini具备的强大功能,谷歌很可能会将其用于自家产品组合,包括Google Docs、Slides等企业级应用。
此外,谷歌或将通过云服务器租赁服务,向开发者收取Gemini访问费用。
这也意味着,若上述功能全部实现,谷歌一款Gemini,或许就将抵得上ChatGPT Midjourney/Dall-E Microsoft 365 Copilot。
▌谷歌两大AI团队结合 26位大佬参与
谷歌的这一产品名Gemini,意为“双子座”,在拉丁语中意为“双胞胎”,常与双面性、双重性格联系在一起。
这一象征意味也暗示着Gemini的功能与诞生——除了功能上的多面性、多元化之外,Gemini诞生于谷歌两大AI团队的结合:谷歌大脑与DeepMind,这两个团队的理念与历史不尽相同,有时甚至相互冲突。
消息人士指出,目前至少有26名技术大拿正在参与开发Gemini,其中便包括曾在谷歌大脑或DeepMind工作的研究人员,例如谷歌高级研究员Paul Barham、来自DeepMind的Tom Hennigan。另外,DeepMind的两位高管Oriol Vinyals、Koray Kavukcuoglu,将与前谷歌大脑负责人Jeff Dean一起负责Gemini开发。
当然,Gemini团队中,最引人瞩目的成员或许当属谷歌联合创始人Sergey Brin。重返谷歌后,Brin在Gemini模型的评估与训练中发挥着重要作用。
▌YouTube视频数据库帮大忙
说到Gemini模型训练,其强大的能力离不开庞大的训练数据支撑。
与其他AI大模型类似,Gemini的训练数据中包含多种文本及图像数据,以帮助其识别不同模式并对不同问题作出回答。
同时,谷歌自家的视频平台YouTube更是帮了大忙。知情人士指出,谷歌一直在使用YouTube视频副本来训练Gemini。由此Gemini可以将音频与视频集成到模型之中,实现多模态能力。
YouTube上有多少个视频?目前其并没有公布具体数据。但据Global Media Insight估计,平台上至少有8亿个视频。
而谷歌公司的律师也在持续密切关注Gemini使用的训练数据材料,以防侵犯版权。
(文章来源:科创板日报)