最近有一款叫NotebookLM的AI火了,很多人听说它是因为它能生成非常逼真的音频播客;
但更多人不知道的是,播客只是它的衍生能力,实际上,它其实是一个很强大的研究助手,非常适合研究生或科研er使用。
今天就聊聊这个由谷歌实验室开发的AI研究助手——NotebookLM。
过去我也写过不少关于如何借助AI辅助阅读文献,或者辅助科研方面的内容。
比如 Kimi,Claude,ChatGPT 等等。
这些工具对于处理单篇文献,效果其实都不错。
但是它们也有一些限制,比如,
1. 当涉及到多篇文献,或者是长篇内容的时候,由于上下文长度的限制,处理起来效果就没那么好了。
2. 这些工具还都是流式多轮对话的方式,也就是说一问一答的,对于想反复研究,或者想做个笔记之类的,还要跳到别的软件里。也就是说,它们无法作为一个独立的工作空间,只能作为工作流的一个环节。
最近又看到有人问有没有那种能一次性分析100篇文献的 AI 工具。
说实话,一次性处理 100 篇文献可能有点夸张,特别是还要将这些文献综合起来考虑(文本理解和分析)。
目前绝大多数大模型都很难做到这一点,即有些 AI 工具借助 RAG 技术可以做到功能上的支持,但可能最多实现的效果也就是信息的抽取,很难做到高质量的文本理解,这种对于文献分析意义其实就不大了。
想要效果好的话主要还得靠大模型自身的长上下文能力。
NotebookLM
谷歌的 NotebookLM 用的是 Gemini 1.5 pro 模型,上下文长度最高支持 200 万 tokens。
按照官方说法,最多可以处理 1000 页的 PDF 文档。
目前它支持一次上传 50 个文件(包括文档、视频、音频)。
如果你把多篇文献合并成一个文档上传,一次性处理百十来篇也不是不行。
我倒是没试过一次处理 100 篇文献,不过几十篇还是有的。
比如我把 CVPR 2024 一个 workshop 上的 21 篇相关文献上传到 NotebookLM,让他分析。
效果大概是这样的⬇️
它的功能包括,
• 自动归纳总结所有文献
• 生成两人对话的音频播客,深度讨论整个 Notebook 的话题和内容
• 创建笔记,自己记录笔记,或者用它推荐的主题生成笔记都行
• 对话,提问跟任意文献/文档相关的问题等等
• 。。。
数量其实不是最关键的,NotebookLM被认为是目前最好用的文献分析工具,主要是因为他的产品形态跟我们常见的大模型产品有很大的不同。
以往用的这类 AI 工具都是流式多轮对话的形式,
而 NotebookLM 更像是一个工作空间。
上传多篇文档之后就自动创建了一个工作空间,不光可以用 AI 的总结、辅助阅读等功能;
还可以记笔记,提问题,跟 AI 进行深度讨论等等。
包括它为每一篇论文自动生成的总结,以及针对所有论文一起归纳的主题、问答和思考题,质量都挺高的。
自动生成文献总结
制作笔记
生成跟论文相关的思考题
提问或深度讨论论文中的内容
孵化自谷歌实验室
其实 NotebookLM 已经有一年多了,只不过一直是实验室产品(现在依然是),谷歌并没有把它作为正式产品发布过,早起还是通过内测申请才能用。
像这样的AI产品,在Google Labs还有很多个,不同的功能,不同的使用场景,都挺有意思的。
包括谷歌的文生图模型ImageFX,文生视频模型VideoFX,以及音乐模型MusicFX等,都出自谷歌实验室。
https://labs.google/
btw,类似 NotebookLM 的播客功能,谷歌还有另外一个专门的AI工具——Illuminate,可以将学术论文转化为音频讨论,它更适用于单篇论文的情况。
之前NotebookLM一直都不愠不火,最近火起来是因为前不久它推出了一个生成播客(叫Deep Dive 深潜)的功能。
它把上传的文档、音频、甚至视频等所有资料进行分析理解,然后形成一个双人对话的音频播客。
不管是内容深度,还是声音质量,效果都非常好,所以受到了很多人的追捧。
比如包括 AI 大佬 Andrej Karpathy 在内都极力推崇这个工具。
生成播客的能力,我认为倒还其次,它最核心的能力其实是对(多)文档的理解和分析。不过播客(Deep Dive)让它锦上添花了倒也是真的。
之所以能生成质量很高的播客也是建立在此基础上的。
所以,NotebookLM非常适合做文献阅读、分析;或者当你想从很多资料中了解某些信息时,就直接把相关的资料扔给它。
你看官方对它的定位也是“personalized AI research assistant”(个性化人工智能研究助手)。
NotebookLM 用的模型是 Gemini 1.5 pro,目前谷歌性能最强的大模型,正常在 Gemini 中需要订阅会员才能用,所以这也算开了一个小后门。
如果要说缺点,那就是它不支持中文(似乎目前除了英语,其他语言都不支持)。
但这也不是什么大问题,因为这里说的不支持只是说它不输出中文,但上传的内容是否为中文,都不影响它工作的,甚至也可以用中文提问题,它会自己翻译为英文再去处理。
至于输出是英语,就算英语不好,翻译一下也解决了。
毕竟我们用的是它强大的文档分析和理解能力,而不是翻译能力。
我试过处理中文文档,比如把最近关于一线城市楼市政策的材料上传给它,然后问想了解的信息就好行了。
过程完全没有问题⬇️
然后那个生成的播客其实也可以听听,效果确实挺好。
如果不告诉你它是 AI,可能完全听不出来,跟两个真人在讨论某个话题一样,当成练习英语听力也是不错的音源。