通过视频创建自动博客文章
自动博客文章
Deepgram 是什么?
我的提交概述
本教程将教您如何通过视频自动创建博客文章。如果您是一位内容创作者,您可能会发现本教程非常有用,可以加快您使用自己的视频教程撰写新文章的速度。
投稿类别:
分析大使
GitHub 上的代码链接
自动博客文章
自动博客文章是一个 Python 项目,旨在从视频自动生成博客文章。
最终的博客文章由 5 个主要部分组成: 标题、摘要、图片、文本 和 关键词 。上图展示了该架构的工作原理。如你所见,这是一个包含自然语言处理的机器学习项目。
首先,我们需要处理视频以提取音频。使用 DeepGram API,我们可以将语音转为文本。之后,我们将文本拆分成段落。为此,我们分析单词之间的停顿,以确定这些句子是否属于同一段落,或者是否是新的段落。
然后,我们使用一些预先训练好的机器学习模型来创建文本关键词和摘要。我们还获取了视频缩略图和名称,它们将分别作为博客文章的图片和标题。
我如何使用它?
这…
其他资源/信息
我的 Deepgram 用例
最终的博客文章由 5 个主要部分组成: 标题、摘要、图片、文本 和 关键词 。上图展示了该架构的工作原理。如你所见,这是一个包含自然语言处理的机器学习项目。
首先,我们需要处理视频以提取音频。使用 DeepGram API,我们可以将语音转为文本。之后,我们将文本拆分成段落。为此,我们分析单词之间的停顿,以确定这些句子是否属于同一段落,或者是否是新的段落。
然后,我们使用一些预先训练好的机器学习模型来创建文本关键词和摘要。我们还获取了视频缩略图和名称,它们将分别作为博客文章的图片和标题。
入门
运行项目的第一步是创建一个 DeepGram 帐户 。之后,您可以生成一个 API 密钥。在 此页面上,只需点击 “创建新 API 密钥” 按钮即可 。您需要为密钥选择一个名称,设置权限并设置到期日期。
单击 “创建密钥” 按钮后,将创建一个新密钥,请务必妥善保管该密钥。
要运行代码,您需要安装 Python。我建议使用 Anaconda ,它是一个开源 Python 发行平台。
我还建议您专门为这个项目创建一个新环境。查看官方教程,了解如何下载 Conda 并设置虚拟环境: Conda 入门
要安装 Python 包,只需 克隆项目 并运行以下命令:
pip install -r requirements.txt
Enter fullscreen mode
Exit fullscreen mode
然后,只需运行以下命令:
python generate_blog_post.py --deepgram <api_key> --video <youtube_url>
Enter fullscreen mode
Exit fullscreen mode
注意:这是一个演示教程,如果您计划在生产中使用它,我建议您使用 Key Vault 来存储 DeepGram API 密钥。
几分钟后,您将在输出目录中看到博客文章 markdown 文件!
深入了解细节
代码:
从指定的视频 URL 下载音频
从缩略图下载图像
裁剪图像的黑色边框
保存处理后的图像
使用 DeepGram API 从音频生成文本
处理文本以修复标点符号
使用单词和标点符号之间的中间停顿作为启发式方法将文本拆分为新段落
存储文本
使用 KeyBERT 从文本中获取关键词
使用预训练的Hugging Face DistilBART 获取摘要
创建 Markdown 模板
使用标题、图片、摘要、关键词和文本填充 markdown 模板
将 markdown 保存在输出目录中
后期处理
如果您需要对文本进行后期处理,可以使用 edit_blog_post 模块。如果您的视频包含一些特定领域的词汇,这个模块会非常有用。例如,缩写“ASR”(自动语音识别)被捕获为“As r”。因此,您需要在 process_dictionary.json 文件中输入键值对“As r”: “ASR”。process_dictionary.json 文件如下所示:
{
"As r": "ASR",
"Ai": "AI",
"Apis": "APIs"
}
然后,您可以使用以下命令自动替换这些单词。不用担心,因为它会重复使用之前的处理。因此,它不会下载音频或再次尝试转录。
python edit_blog_post.py --video <youtube_url>
Enter fullscreen mode
Exit fullscreen mode
好了,现在您的帖子已准备好并保存在相同的路径中!
结论
现在一切都已准备就绪。让我们来测试一下。为了演示,我们将使用 YouTube 上的 DeepGram 视频教程。
最后一篇博文:
Deepgram 是什么?
#aispeechplatform #voicedata #accuraterealtimetranscription
大多数自动语音识别服务(ASR)都基于五十多年前的技术。旧技术适用于简短的呼叫和响应音频,但无法处理对话音频。我们构建了一个端到端的深度学习神经网络,能够提供真正可用的转录,并且随着时间的推移,其速度会越来越快。
如今,语音体验在商业领域至关重要。为了获得良好的体验,您需要实时精准转录的基础。但大多数自动语音识别服务(ASR)都建立在五十多年前的技术之上。
是的,就连这些人也是如此。旧技术适用于简短的呼叫和响应音频。Alexa,今天天气怎么样?但它不适用于对话音频。我的超级用户服务出了问题。这就是正在发生的事情。为了真正利用语音数据,转录需要准确、快速、经济高效、可扩展。使用旧技术,你也许可以满足其中一两个要求。但无论他们如何努力,他们就是无法让它满足所有四个要求。所以我们重新发明了它。大家好,我们是 Deepgram。我们构建了一个端到端的深度学习神经网络。什么?抱歉,是一个人工智能语音平台,它可以提供真正可用的转录,并且随着时间的推移,它会以闪电般的速度不断改进。没有硬件成本或高昂的转录成本。而且,因为我们更快、更便宜,你猜怎么着。我们的可扩展性也更强。
所以,如果您因为缺少合适的 API 而无法构建出色的语音功能,那么好消息来了,是时候开始行动了。请来一杯三杯浓缩咖啡,精准的实时转录能带来什么?哦,我们突然想到,您可以创建对话式人工智能。虚拟助手、语音分析代理、合规性改进、更好的客户体验等等,不一而足。我们随时准备帮助您实现更大目标。如果您不知道从哪里开始,也不用担心。除了提供最佳的技术堆栈外,Deepgram 还是您优秀的合作伙伴。我们知道世界瞬息万变,您的音频和转录需求也将随之变化。从标记数据到训练自定义 AI 模型,再到本地或云端部署,Deepgram 将全程陪伴您,确保您的转录基础能够真正为您的客户带来满意的体验。
因此,如果您准备停止坚持不太理想的解决方案并开始构建出色的语音产品,我们已准备好帮助 Deepgram 实现这一目标。
感谢您阅读本文。欢迎留言。希望对您有所帮助。让我们分享一些知识!下篇文章再见!:)
鏂囩珷鏉ユ簮锛�https://dev.to/karinakato/create-automatic-blog-posts-from-videos-1c6i