今天就可以构建的 29 个以上的 AI 项目
今天,我们将介绍 30 多个可以使用 AI 构建的项目。
所有项目都是开源的,所以你可以贡献力量使其变得更好。
有些项目可能代码库很大,但你可以从中获得灵感,并构建一个很棒的副项目。
相信我,如果这份清单都不能让你感到惊讶,那就真的没什么能让你惊讶了:)
让我们跳进去吧!
1. CopilotKit - 数小时内即可为您的产品提供 AI 副驾驶功能。
在 React 中集成 AI 功能非常困难,而 Copilot 正好解决了这个问题。它提供了一种简单快捷的解决方案,可以将生产就绪的 Copilot 集成到任何产品中!
您可以使用两个 React 组件将关键 AI功能集成到 React 应用程序中。它们还提供了内置的(完全可定制的)Copilot 原生 UX 组件,例如<CopilotKit />,,,。<CopilotPopup /><CopilotSidebar /><CopilotTextarea />
使用以下 npm 命令开始。
npm i @copilotkit/react-core @copilotkit/react-ui
Copilot Portal是CopilotKit提供的组件之一,它是一个应用内AI聊天机器人,可以查看当前应用状态并在应用内执行操作。它可以通过插件与应用的前端和后端以及第三方服务进行通信。
这就是集成聊天机器人的方法。
必须CopilotKit封装所有与 CopilotKit 交互的组件。建议您也开始使用 CopilotKit CopilotSidebar(以后可以切换到其他 UI 提供程序)。
"use client";
import { CopilotKit } from "@copilotkit/react-core";
import { CopilotSidebar } from "@copilotkit/react-ui";
import "@copilotkit/react-ui/styles.css";
export default function RootLayout({children}) {
return (
<CopilotKit url="/path_to_copilotkit_endpoint/see_below">
<CopilotSidebar>
{children}
</CopilotSidebar>
</CopilotKit>
);
}
您可以按照此快速入门指南设置 Copilot 后端端点。
之后,您可以让 Copilot 执行操作。您可以阅读如何提供外部上下文。您可以使用React HooksuseMakeCopilotReadable来实现这一点。useMakeCopilotDocumentReadable
"use client";
import { useMakeCopilotActionable } from '@copilotkit/react-core';
// Let the copilot take action on behalf of the user.
useMakeCopilotActionable(
{
name: "setEmployeesAsSelected", // no spaces allowed in the function name
description: "\"Set the given employees as 'selected'\","
argumentAnnotations: [
{
name: "employeeIds",
type: "array", items: { type: "string" }
description: "\"The IDs of employees to set as selected\","
required: true
}
],
implementation: async (employeeIds) => setEmployeesAsSelected(employeeIds),
},
[]
);
您可以轻松集成 Vercel AI SDK、OpenAI API、Langchain 和其他 LLM 提供商。您可以按照本指南将聊天机器人集成到您的应用程序中。
基本思路是在几分钟内构建可用于基于LLM的应用的AI聊天机器人。
CopilotKit 的应用场景非常广泛,作为开发者,我们绝对应该在下一个项目中尝试使用 CopilotKit。
CopilotKit 在 GitHub 上拥有 5.7k+ 颗星,发布了 200 多个版本,这意味着他们一直在不断改进。
2. AgentGPT - 组装、配置和部署自主 AI 代理。
AgentGPT 允许您配置和部署自主 AI 代理。
它会通过思考要完成的任务、执行这些任务并从结果中学习来尝试达成目标 :)
它是使用以下材料构建的:
- 引导程序:create-t3-app + FastAPI-template。
- 框架:Nextjs 13 + TypeScript + FastAPI
- 身份验证:Next-Auth.js
- ORM:Prisma 和 SQLModel。
- 数据库:行星尺度。
- 样式:TailwindCSS + HeadlessUI。
- 模式验证:Zod + Pydantic。
- LLM 工具:Langchain。
请按照本指南开始在本地安装。
他们在 GitHub 上拥有 29000 多个 star,并且正在v1发布版本。
3.私有 GPT - 无需联网即可询问有关您文档的问题。
PrivateGPT 是一个可用于生产的 AI 项目,它利用大型语言模型 (LLM) 的强大功能,即使在没有互联网连接的情况下,也能让您询问有关文档的问题。
100% 私密,意味着任何时候都不会有数据离开您的执行环境。
API 分为两个逻辑模块:
a. 高级 API,它抽象了 RAG(检索增强生成)管道实现的所有复杂性:
- 文档摄取:内部管理文档解析、拆分、元数据提取、嵌入生成和存储。
- 利用从已摄取文档中获取的上下文进行聊天和完成:抽象化上下文检索、提示工程和响应生成。
b. 底层 API,允许高级用户实现其复杂的流程:
- 嵌入生成:基于一段文本。
- 上下文块检索:给定一个查询,从已摄取的文档中返回最相关的文本块。
您可以阅读安装指南来开始安装。
PrivateGPT 正在发展成为生成式 AI 模型和原语的入口,包括补全、文档摄取、RAG 管道和其他底层构建模块。
他们在 GitHub 上拥有 51k+ 颗星,并且发展迅速。
4. Instrukt - 终端中的集成人工智能。
Instrukt是一个基于终端的AI集成环境。它提供了一个平台,用户可以在该平台上:
- 创建并指导模块化人工智能代理。
- 为问答系统生成文档索引。
- 创建工具并将其附加到任何代理。
用自然语言指导它们,为了安全起见,让它们在安全容器(目前使用 Docker 实现)中运行,以便在其专用的沙盒空间中执行任务。
使用Langchain、Textual和构建Chroma。
请使用以下命令开始操作。
pip install instrukt[all]
它有很多令人兴奋的功能,例如:
- 为键盘高级用户提供的基于终端的界面,让他们无需离开键盘即可指示 AI 代理。
- 为您的数据建立索引,让客服人员可以检索数据进行问答。您可以通过简单易用的用户界面创建和组织索引。
- 创建索引时,系统会自动检测编程语言,并相应地优化拆分/分块策略。
- 为了安全和隐私,请在安全的 Docker 容器内运行代理。
- 集成 REPL 提示符,可与代理快速交互,并为开发和测试提供快速反馈循环。
- 您可以使用自定义命令自动执行重复性任务。它还内置了提示/聊天记录功能。
您可以阅读有关所有功能的介绍。
您可以阅读安装指南。
您还可以使用内置的 IPython 控制台来调试和检查代理,这是一个很棒的小功能。
Instrukt 采用 AGPL 许可证,这意味着任何人都可以将其用于任何用途。
可以肯定地说,Instrukt 是一款触手可及的终端人工智能指挥官。
这是一个新项目,所以他们在 GitHub 上只有 200 多个 star,但它的用例非常好。
5. Mac 上的语音助手- 您的语音控制 Mac 助手。
你的语音控制 Mac 助手。GPT Automator 让你可以用语音在 Mac 上执行各种任务。例如,打开应用程序、查找餐厅和合成信息。太棒了!:D
它是在伦敦黑客马拉松期间开发的。
它由两部分组成:
a. 语音命令:它使用本地运行的 Whisper(Buzz 的一个分支)生成命令。
b. 命令到行动:您向配备我们编写的自定义工具的 LangChain 代理发出命令。这些工具包括使用 AppleScript 控制计算机操作系统和使用 JavaScript 控制活动浏览器。最后,就像任何优秀的 AI 一样,我们让代理使用 AppleScript 说出最终结果,例如“{Result}”(如果您以前没用过,可以尝试在 Mac 终端中输入“Hello World!”)。
我们开发了一个自定义工具,用于通过 AppleScript 让 LLM 控制计算机。提示信息是文档字符串:
@tool
def computer_applescript_action(apple_script):
"""
Use this when you want to execute a command on the computer. The command should be in AppleScript.
Here are some examples of good AppleScript commands:
Command: Create a new page in Notion
AppleScript: tell application "Notion"
activate
delay 0.5
tell application "System Events" to keystroke "n" using {{command down}}
end tell
...
Write the AppleScript for the Command:
Command:
"""
p = subprocess.Popen(['osascript', '-'], stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
stdout, stderr = p.communicate(applescript.encode('utf-8'))
if p.returncode != 0:
raise Exception(stderr)
decoded_text = stdout.decode("utf-8")
return decoded_text
如果您想知道它是如何工作的,GPT Automator 会使用 OpenAI 的 Whisper 将您的音频输入转换为文本。然后,它使用 LangChain Agent 选择一组操作,包括使用 OpenAI 的 GPT-3(“text-davinci-003”)根据您的提示生成 AppleScript(用于桌面自动化)和 JavaScript(用于浏览器自动化)命令,然后执行生成的脚本。
请注意,本项目不适用于生产环境。本项目执行由自然语言生成的代码,可能容易受到提示注入等攻击。本项目仅作为概念验证。
您可以阅读安装指南。
让我们来看一些提示以及它们的作用:
✅ 求出计算结果。
提示:“2 + 2 等于多少?”
它会编写 AppleScript 代码打开计算器并输入 5 * 5。
✅查找附近餐厅。
提示:“查找附近的餐厅”
它会打开 Chrome 浏览器,用谷歌搜索附近的餐厅,解析搜索结果,然后返回排名靠前的结果。有时候它会耍点小花招,直接打开谷歌地图,然后说“最好的餐厅就是谷歌地图页面顶部的那些”。还有的时候,它会打开谷歌搜索结果的第一个链接,然后卡在谷歌的辅助功能页面上……
以下是程序运行时输出到终端的内容:
Command: Find a great restaurant near Manchester.
> Entering new AgentExecutor chain...
I need to search for a restaurant near Manchester.
Action: chrome_open_url
Action Input: https://www.google.com/search?q=restaurant+near+Manchester
Observation:
Thought: I need to read the page
Action: chrome_read_the_page
Action Input:
Observation: Accessibility links
Skip to main content
... # Shortned for brevity
Dishoom Manchester
4.7
(3.3K) · £££ · Indian
32 Bridge St · Near John Rylands Library
Closes soon ⋅ 11 pm
Stylish eatery for modern Indian fare
San Carlo
4.2
(2.8K) · £££ · Italian
42 King St W · Near John Rylands Library
Closes soon ⋅ 11 pm
Posh, sceney Italian restaurant
Turtle Bay Manchester Northern Quarter
4.7
Thought: I now know the final answer
Final Answer: The 15 best restaurants in Manchester include El Gato Negro, Albert's Schloss, The Refuge, Hawksmoor, On The Hush, Dishoom, Banyan, Zouk Tea Room & Grill, Edison Bar, MyLahore Manchester, Turtle Bay Manchester Northern Quarter, San Carlo, The Black Friar, Mana, and Tast Cuina Catalana.
我不能保证这些餐厅都值得去,请自行承担风险。哈哈!
✅ 如果你让 GPT Automator 擦除你的电脑,它就会这样做。
是的,如果你要求,它会清除你电脑上的所有数据!
我内心很想这么做 :)
您可以在这里观看完整演示!
你可以在Chidi的博客上阅读更多内容。
它更像是一个业余项目,在 GitHub 上只有大约 200 个 star,但它非常酷。
6. Flowise - 拖放式用户界面,用于构建您的自定义 LLM 流程。
Flowise 是一款开源的 UI 可视化工具,用于构建您自定义的 LLM 编排流程和 AI 代理。
使用以下 npm 命令开始。
npm install -g flowise
npx flowise start
OR
npx flowise start --FLOWISE_USERNAME=user --FLOWISE_PASSWORD=1234
这就是集成 API 的方法。
import requests
url = "/api/v1/prediction/:id"
def query(payload):
response = requests.post(
url,
json = payload
)
return response.json()
output = query({
question: "hello!"
)}
您可以阅读文档。
由于云主机不可用,您需要按照这些说明自行托管。
让我们来探讨一些应用场景:
- 假设你有一个网站(可以是网店、电商网站或博客),你想抓取该网站的所有相关链接,并让LLM回答网站上的任何问题。你可以按照这个分步教程来实现这一点。
- 您还可以创建一个自定义工具,该工具能够调用 webhook 端点并将必要的参数传递到 webhook 正文中。请按照本指南操作,该指南将使用 Make.com 创建 webhook 工作流。
还有许多其他用例,例如构建 SQL 问答或与 API 交互。
FlowiseAI 在 GitHub 上拥有 27.5k+ 颗星,并且有超过 10k 个 fork,因此它的整体比例很好。
7. Twitter Agent - 从社交媒体抓取数据并使用 Langchain 与之聊天。
Media Agent 会抓取 Twitter 和 Reddit 上的帖子,进行总结,并通过交互式终端与用户进行交流。真是个很酷的概念!
您可以阅读说明进行本地安装。
它是使用以下材料构建的:
- Langchain 🦜 用于构建和组合 LLM。
- 使用 ChromaDB 存储向量(又称嵌入),并查询这些向量以构建对话机器人。
- Tweepy 可以连接到您的 Twitter API 并提取推文和元数据。
- 尝试连接到 Reddit API。
- 打造炫酷的终端用户体验/用户界面。
- 用诗歌来管理依赖关系。
部分精彩功能:
- 代表您从用户帐户列表或关键词列表中抓取推文/提交内容。
- 使用 OpenAI 嵌入推文/提交内容。
- 生成推文/投稿的摘要,并提供可能需要回答的问题。
- 在推文上方打开聊天窗口。
- 保存对话及其元数据。
- 丰富的终端用户界面和日志记录功能。
您可以观看演示!
它在 GitHub 上有近 100 个星标,但已停止维护。你可以用它开发出更好的东西。
8. GPT Migrate - 轻松地将您的代码库从一个框架或语言迁移到另一个框架或语言。
如果您曾经经历过将代码库迁移到新框架或语言的痛苦,那么这个项目就是为您准备的。
我想我们都能同意,迟早都需要这样做。你也可以使用工作流来实现,我记得Stripe就是这么做的,他们把整个JS代码库都转换成了TS。
迁移是一项成本高昂、繁琐且复杂的工作。
请勿盲目信任当前版本,并请谨慎使用。另请注意,由于 GPT-Migrate 的设计目的是编写(甚至可能重写)整个代码库,因此成本可能会迅速累积。
请注意。
GPT-Migrate 目前处于开发 alpha 阶段,尚未准备好投入生产环境使用。例如,在相对简单的基准测试中,它大约有 50% 的概率能够顺利处理 Python 或 JavaScript 等“简单”语言,但如果没有人工干预,则无法处理 C++ 或 Rust 等更复杂的语言。
您可以在这里观看演示!
他们在 GitHub 上有 6.5k+ 颗星,但最后一次提交是在 6 个月前,所以我认为它已经停止维护了!
9. Plandex - 用于使用 LLM 构建复杂、真实世界软件的 AI 编码引擎。
Plandex 使用长时间运行的代理来完成跨越多个文件且需要多个步骤的任务。它将大型任务分解成更小的子任务,然后逐个执行,直到完成整个任务。
它可以帮助你快速处理积压的工作,使用不熟悉的技术,摆脱困境,并减少在枯燥乏味的事情上花费的时间。
您可以在这里观看演示!
所有更改都会累积在一个受保护的沙箱中,以便您在将其自动应用到项目文件之前进行审核。内置的版本控制功能让您可以轻松回滚并尝试不同的方法。分支功能允许您尝试多种方法并比较结果。
您可以在终端中高效地管理上下文。轻松地将文件或整个目录添加到上下文中,并在工作时自动更新它们,从而确保模型始终拥有项目的最新状态。
Plandex 依赖于 OpenAI API,并且需要一个OPENAI_API_KEY环境变量。
Plandex 支持 Mac、Linux、FreeBSD 和 Windows 系统。它只需一个二进制文件即可运行,没有任何依赖项。
您甚至可以尝试不同的模型和模型设置,然后比较结果。
您可以阅读安装说明。
Plandex Cloud 是使用 Plandex 最便捷、最可靠的方式。当您首次使用 plandex new 创建套餐时,系统会提示您开始匿名试用(无需提供邮箱地址)。试用账户最多可创建 10 个套餐,每个套餐最多可收到 10 条 AI 模型回复。目前 Plandex Cloud 账户完全免费,这无疑是个好消息。
Plandex 在 GitHub 上拥有 8000 多个 star,并且是用 Go 语言构建的。
10. SQL Translator - 一款利用人工智能将自然语言查询转换为 SQL 代码的工具。
我尝试做一个类似的项目,结果发现它已经存在了。
该工具旨在让任何人都能轻松地将 SQL(结构化查询语言)命令翻译成自然语言,反之亦然。
SQL 是一种用于管理和操作关系数据库中数据的编程语言,虽然它功能强大,但也可能相当复杂且难以理解。
另一方面,自然语言是我们日常生活中说和写的语言,对于不熟悉技术术语的人来说,它通常是首选的沟通方式。
借助 SQL 和自然语言翻译器,您无需成为 SQL 专家即可了解数据库的运行情况或编写 SQL 查询。您只需用自然语言输入查询即可获得相应的 SQL 代码,反之亦然。
部分功能包括:
- 深色模式。
- 大小写切换。
- 复制到剪贴板。
- SQL语法高亮显示。
- 模式感知(测试版)。
- 查询历史记录。
您可以阅读安装说明,由于它使用 Nextjs,所以安装非常简单。
这个问题是问你的。哈哈!
SQL Translator 在 GitHub 上拥有 4k 个星标,并且使用 TypeScript 构建。
11. WingmanAI - 实时音频转录,与 ChatGPT 集成。
WingmanAI 是一款功能强大的工具,可实时转录系统音频和麦克风音频。该工具基于 ChatGPT 技术,让您能够与转录文本进行实时互动,这些文本将作为机器人的庞大内存库,从而提供独特的沟通平台。
当你加载指定人员的对话记录时,机器人可以回答有关过去对话的问题。
您可以阅读安装说明。
您可以在这里观看演示!
其中一些亮点功能包括:
-
WingmanAI 可以转录系统输出和麦克风输入音频,让您以易于阅读的格式查看实时转录内容。
-
你可以与由 ChatGPT 提供支持的机器人聊天,该机器人可以实时读取你的文字记录。
-
机器人会记录对话内容,但会以高效的方式进行,因为只有当前部分的对话记录才会传递给机器人。
-
WingmanAI 允许您保存对话记录以供日后使用。您可以随时加载这些记录,并且向机器人发出的任何查询都会与已保存对话记录的向量数据库进行交叉引用,从而为机器人提供更丰富的上下文信息。
-
您可以不断向已保存的记录中添加内容,随着时间的推移,构建一个庞大的数据库供机器人从中提取信息。
它在 GitHub 上有 420 个星标,但已停止维护。
12. Lively - 允许用户设置动态桌面壁纸和屏幕保护程序。
这只是为了好玩,我们可以通过代码学习很多关于它是如何实现的。
你可以看看这段视频,就知道它有多么疯狂了。
他们提供三种类型的壁纸,包括视频/GIF、网页和应用程序/游戏。
它基于 C# 构建,并支持 Lively 的一些很棒的功能:
-
Lively 可以通过终端命令行参数进行控制。您可以将其与其他语言(例如 Python)或脚本软件 AutoHotKey 集成。
-
为开发者提供强大的API,用于创建交互式壁纸。获取硬件读数、音频图表、音乐信息等等。
-
当机器上运行全屏应用程序/游戏时,壁纸播放会暂停(CPU、GPU 使用率约为 0%)。
-
你还可以利用机器学习推理来创建动态壁纸。你可以预测任何二维图像与相机的距离,并生成类似三维的视差效果。酷毙了!:D
我看到很多人都在用它,其中很多人甚至都不知道它是开源的。
它荣获微软商店 2023 年度最佳应用奖,
在 GitHub 上拥有超过 13000 个星标,并发布了 60 个版本。
13. RestGPT - 基于 LM 的自主代理,通过 RESTful API 控制应用程序。
本文旨在构建一个基于大型语言模型的自主智能体 RestGPT,用于控制诸如电影数据库和音乐播放器等实际应用。为此,我们将大型语言模型与 RESTful API 连接起来,并解决了规划、API 调用和响应解析等实际挑战。为了全面评估 RestGPT 的性能,我们提出了 RestBench,这是一个高质量的基准测试平台,包含两个真实场景以及带有标准解路径的人工标注指令。
RestGPT采用迭代式的由粗到精的在线规划框架,并使用执行器调用RESTful API。以下是RestGPT的概述。
您可以阅读文档,了解如何使用 RestBench 评估 RestGPT 的性能。
以下示例展示了如何使用 TMDB 电影数据库搜索索菲亚·科波拉执导的电影数量。
您可以阅读康奈尔大学发布的论文,了解代码:RestGPT - Connecting Large Language Models with Real-World RESTful APIs。
他们在 GitHub 上有 1.2k 个星标,虽然规模不算很大,但涵盖了一个非常好的应用场景。
14. ChatFiles - 上传你的文件并与之对话。
文档聊天机器人——支持多文件处理,并采用 GPT/嵌入技术。您可以上传任何文档并与之进行对话,考虑到它使用了另一个知名的开源项目,其用户界面非常出色。
它底层使用了 Langchain 和Chatbot-ui 。框架采用 Nextjs、TypeScript、Tailwind 和 Supabase(Vector DB)构建。
如果您想了解具体方法和技术架构,那么请看这里!
该环境仅供试用,最大支持 10 MB 的文件大小,这是一个缺点;如果您需要更大的文件大小,则可以将其安装在本地。
他们在 GitHub 上获得了 3000 个星标,并且正在v0.3发布版本中。
15. MindsDB - 基于企业数据定制人工智能的平台。
MindsDB 是一个利用企业数据定制人工智能的平台。
借助 MindsDB,您可以实时部署、服务和微调模型,利用来自数据库、向量存储或应用程序的数据,构建 AI 驱动的应用程序——使用开发人员已经熟悉的通用工具。
MindsDB 及其近200 个与数据源和 AI/ML 框架的集成,使任何开发人员都能更快、更安全地使用其企业数据来定制 AI 以满足其需求。
他们目前共支持3 个 SDK,分别使用 Mongo-QL、Python 和 JavaScript。
MindsDB 有多种应用,例如与众多数据源和 AI 框架集成,因此您可以轻松地将数据和 AI 结合起来,创建和自动化自定义工作流程。
其他常见用例包括模型微调、聊天机器人、警报系统、内容生成、自然语言处理、分类、回归和预测。阅读更多关于这些用例的信息,每个用例都配有架构图和简要说明。
例如,MindsDB 的聊天机器人架构图。您可以阅读所有提供的解决方案及其 SQL 查询示例。
// SQL Query Example for Chatbot
CREATE CHATBOT slack_bot USING database='slack',agent='customer_support';
为了让您了解整体的可能性,您可以查看《如何利用人工智能和物联网传感器数据预测气温》。是不是很令人兴奋?:)
他们在 GitHub 上拥有超过 21000 个 star,并且已经发布了v24.4.3.0200 多个版本。顺便说一句,这是我第一次看到一个版本包含 4 个部分,因为我一直关注的是语义化的发布版本。
16. Quivr - 你的 GenAI 第二大脑。
Quivr,你的第二个大脑,利用生成式人工智能的强大功能,成为你的私人助理!你可以把它想象成功能更强大的 Obsidian,拥有更强大的人工智能能力。
您可以阅读安装指南。
他们本可以提供更好的免费套餐,但目前的功能已经足够你进行测试了。
It has 30k+ Stars on GitHub with 220+ releases which means they're constantly improving.
17. Animated Drawings - A Method for Animating Children's Drawings of the Human Figure.
I mean WOW! Such a cool concept. I don't know about you but I'm damn excited.
This is an open source project by Facebook mainly for research purposes and contains an implementation of the algorithm described in the paper, A Method for Animating Children's Drawings of the Human Figure.
This project has been tested with macOS Ventura 13.2.1 and Ubuntu 18.04. If you're installing on another operating system, you may encounter issues.
They strongly recommend activating a Python virtual environment before installing Animated Drawings.
Read more on the installation instructions and how to quickly get started.
You can follow this complete guide to animate your drawing including how to add multiple characters in scenes, adding a background image and more exciting things.
They have 10k+ stars on GitHub and are solely for research purposes with an MIT license.
18. Background Remover - lets you Remove Background from images and video using AI with a simple CLI.
This is a command line tool to remove background from images and videos using AI.
Get started by installing backgroundremover from pypi.
pip install --upgrade pip
pip install backgroundremover
It is also possible to run this without installing it via pip, just clone the git to locally start a virtual env install requirements and run.
Some of the commands that you can use:
- Remove the background from a local file image
backgroundremover -i "/path/to/image.jpeg" -o "output.png"
- remove the background from the local video and overlay it over an image
backgroundremover -i "/path/to/video.mp4" -toi "/path/to/videtobeoverlayed.mp4" -o "output.mov"
You can check all the commands that you can use with CLI.
You can even use it as a library.
from backgroundremover.bg import remove
def remove_bg(src_img_path, out_img_path):
model_choices = ["u2net", "u2net_human_seg", "u2netp"]
f = open(src_img_path, "rb")
data = f.read()
img = remove(data, model_name=model_choices[0],
alpha_matting=True,
alpha_matting_foreground_threshold=240,
alpha_matting_background_threshold=10,
alpha_matting_erode_structure_size=10,
alpha_matting_base_size=1000)
f.close()
f = open(out_img_path, "wb")
f.write(img)
f.close()
You can read the installation instructions and see the live demo.
The input vs The Output.
They have 6k stars on GitHub and we can definitely learn some crucial concepts using this.
19. Lobe Chat - modern-design LLMs/AI chat framework.
An open-source, modern-design ChatGPT/LLMs UI/Framework.
Supports speech-synthesis, multi-modal, and extensible (function call) plugin systems. You can deploy your private OpenAI with one click.
Let's see some of the exciting features of LobeChat:
✅ Multi-Model Service Provider Support.
They have expanded our support to multiple model service providers, rather than being limited to a single one, to offer users a more diverse and rich selection of conversations.
Find the complete list of 10+ model service providers that they support.
✅ Assistant Market.
In LobeChat's Assistant Market, creators can discover a vibrant and innovative community that brings together numerous carefully designed assistants. These assistants not only play a crucial role in work scenarios but also provide great convenience in the learning process. Here, everyone can contribute their wisdom and share their personally developed assistants.
There are so many awesome applications there. WOW!
✅ Model Vision Recognition.
LobeChat now supports large language models with visual recognition capabilities such as OpenAI's gpt-4-vision, Google Gemini Pro vision, and Zhipu GLM-4 Vision, enabling LobeChat to have multimodal interaction capabilities. Users can easily upload or drag and drop images into the chat box, and the assistant will be able to recognize the content of the images and engage in intelligent conversations based on them, creating more intelligent and diverse chat scenarios.
✅ Text to Image Generation.
Supporting the latest text-to-image generation technology, LobeChat now enables users to directly utilize the Text-to-image tool during conversations with the assistant. By harnessing the capabilities of AI tools such as DALL-E 3, MidJourney, and Pollinations, assistants can now transform your ideas into images.
✅ Local Large Language Model (LLM) Support.
With the powerful infrastructure of Ollama AI and the community's collaborative efforts, you can now engage in conversations with a local LLM (Large Language Model) in LobeChat!
By running the following Docker command, you can experience conversations with a local LLM in LobeChat.
docker run -d -p 3210:3210 -e OLLAMA_PROXY_URL=http://host.docker.internal:11434/v1 lobehub/lobe-chat
✅ Progressive Web App (PWA).
They have adopted Progressive Web App PWA technology, which is a modern web technology that elevates web applications to a near-native app experience. Through PWA, LobeChat can provide a highly optimized user experience on both desktop and mobile devices, while maintaining lightweight and high-performance characteristics.
✅ Custom Themes.
LobeChat places a strong emphasis on personalized user experiences in its interface design and thus introduces flexible and diverse theme modes, including a light mode for daytime and a dark mode for nighttime.
In addition to theme mode switching, we also provide a series of color customization options, allowing users to adjust the application's theme colors according to their preferences.
Read about all of the features and use cases.
You can self-host or deploy it using docker. The ecosystem of lobe chat provides 4 packages: lobehub/ui, lobehub/icons, lobehub/tts, and lobehub/lint.
They also provide plugins market where you can find lots of useful plugins that can be used to introduce new function calls and even new ways to render message results. If you want to develop your own plugin, refer to 📘 Plugin Development Guide in the wiki.
You can read the docs.
You can check the live demo. It's pretty cool!
They have 28k+ stars on GitHub with more than 500 releases.
20. Microagents - Agents Capable of Self-Editing Their Prompts.
It's an experimental framework for dynamically creating self-improving agents in response to tasks.
Microagents represent a new approach to creating self-improving agents. Small, microservice-sized (hence, microagents) agents are dynamically generated in response to tasks assigned by the user to the assistant, assessed for their functionality, and, upon successful validation, stored for future reuse.
This enables learning across chat sessions, enabling the system to independently deduce methods for task execution.
This is built using Python, OpenAI's GPT-4 Turbo and Text-Embedding-Ada-002.
You can read the installation instructions. They have mentioned that you should have an OpenAI account with access to gpt-4-turbo and text-embedding-ada-002.
Let's see an example of fetching a Weather Forecast Agent.
You are an adept weather informant. Fetch the weather forecast by accessing public API data using this Python code snippet:
``python
import requests
import json
def fetch_weather_forecast(location, date):
response = requests.get(f"https://api.met.no/weatherapi/locationforecast/2.0/compact?lat={location[0]}&lon={location[1]}")
weather_data = response.json()
for day_data in weather_data['properties']['timeseries']:
if date in day_data['time']:
print(day_data['data']['instant']['details'])
break
``
# Example usage: fetch_weather_forecast((47.3769, 8.5417), '2024-01-22T12:00:00Z')
Note: Replace the (47.3769, 8.5417) with the actual latitude and longitude of the location and the date string accordingly.
If you're wondering how agents are created, then this architectural diagram explains it.
You can see the working demo.
They have around 700 stars on GitHub and are worth checking out.
21. GPT-4 & LangChain - GPT4 & LangChain Chatbot for large PDF docs.
This can be used for the new GPT-4 API to build a chatGPT chatbot for multiple Large PDF files.
The system is built using LangChain, Pinecone, Typescript, OpenAI, and Next.js. LangChain is a framework that simplifies the development of scalable AI/LLM applications and chatbots. Pinecone serves as a vector store for storing embeddings and your PDFs in text format, enabling the retrieval of similar documents later on.
You can read the development guide that involved cloning, installing dependencies, and setting up environments API keys.
You can see the YouTube video on how to follow along and use this.
They have 14k+ Stars on GitHub with just 34 commits. Try it out in your next AI app!
22. Buzz - transcribes and translates audio offline on your personal computer.
Transcribe and translate audio offline on your personal computer using the power of OpenAI's Whisper.
Buzz is even on the App Store. Get a Mac-native version of Buzz with a cleaner look, audio playback, drag-and-drop import, transcript editing, search, and much more.
You can read the installation instructions.
Exciting features:
- Import audio and video files and export transcripts to TXT, SRT, and VTT (Demo).
- Transcription and translation from your computer's microphones to text (Resource-intensive and may not be real-time.
- It's available on Mac, Windows, and Linux.
- There is also an option of CLI.
See the demo here!
You can read the docs.
They have almost 10k stars on GitHub and are still maintained since the last commit was 2 weeks ago.
23. Deepgram - Build Voice AI into your apps.
From startups to NASA, Deepgram APIs are used to transcribe and understand millions of audio minutes every day. Fast, accurate, scalable, and cost-effective.
It provides speech-to-text and audio intelligence models for developers.
Even though they have a freemium model, the limits on the free tier are sufficient to get you started.
The visualization is next-level. You can check live streaming response, or audio files and compare the intelligence levels of audio.
You can read the docs.
You can also read a sample blog by Deepgram on How to Add Speech Recognition to Your React and Node.js Project.
If you want to try the APIs to see for yourself with flexibility in models, do check out their API Playground.
24. OpenDevin - Code Less, Make More.
This an open source project aiming to replicate Devin, an autonomous AI software engineer who is capable of executing complex engineering tasks and collaborating actively with users on software development projects. This project aspires to replicate, enhance, and innovate upon Devin through the power of the open source community.
Just to let you know, this was way before Devin was introduced.
You can read the installation instructions with the requirements.
They use LiteLLM, so you can run OpenDevin with any foundation model, including OpenAI, Claude, and Gemini under the hood.
You can see the demo and contributing guidelines if you're looking to contribute to OpenDevin.
It has 10.7k+ Stars on GitHub and is growing at a rapid pace.
25. NPM Copilot - CLI tool for Next.js that can analyze logs in real-time.
npm/yarn/pnpm copilot is a command-line tool that uses OpenAI's GPT-3 language model to provide suggestions for fixing errors in your code.
The CLI tool detects the project type and package manager being used in the current directory.
It then runs the appropriate development server command (e.g., npm run dev, yarn run dev, pnpm run dev) and listens for logs generated by the running application.
When an error is encountered, the CLI tool provides suggestions for error fixes in real-time.
Get started by installing the npm-copilot package with the following npm command.
npm install -g npm-copilot
The CLI tool will begin monitoring the logs generated by the Next.js application and provide suggestions for error fixes in real time.
You can use this command to use it in the project.
npm-copilot
They have 338 stars on GitHub and support Next,js, React, Angular, and Vue.js.
26. Mentat - The AI Coding Assistant.
Mentat is the AI tool that assists you with any coding task, right from your command line.
Unlike Copilot, Mentat coordinates edits across multiple locations and files. And unlike ChatGPT, Mentat already has the context of your project - no copy and pasting required!
You can watch this demo to understand a basic overview.
You can read the installation instructions or watch a tutorial to install if you need help.
You can read the docs.
They have 2.3k stars on GitHub and are on the v1 release.
27. FlowGPT - generate flowcharts with AI.
FlowGPT is a tool to generate a flowchart with ai (gpt-3.5).
It's built using Next.js, Langchain, Mermaid, and DaisyUI.
You can read the installation instructions.
You can check the gif demo.
It has only 11 commits but has 238 stars on GitHub and was built using TypeScript. It's worth checking out as a minor project.
28. reor - Self-organizing AI note-taking app.
One of the most exciting projects that I've seen so far, especially because it runs models locally.
Reor is an AI-powered desktop note-taking app: it automatically links related notes, answers questions on your notes, and provides semantic search.
Everything is stored locally and you can edit your notes with an Obsidian-like markdown editor. The project hypothesizes that AI tools for thought should run models locally by default.
Reor stands on the shoulders of the giants Ollama, Transformers.js & LanceDB to enable both LLMs and embedding models to run locally. Connecting to OpenAI or OpenAI-compatible APIs like Oobabooga is also supported.
I know you're wondering How can it possibly be
self-organizing?
a. Every note you write is chunked and embedded into an internal vector database.
b. Related notes are connected automatically via vector similarity.
c. LLM-powered Q&A does RAG on the corpus of notes.
d. Everything can be searched semantically.
You can watch the demo here!
One way to think about Reor is as a RAG app with two generators: the LLM and the human. In Q&A mode, the LLM is fed retrieved-context from the corpus to help answer a query.
Similarly, in editor mode, the human can toggle the sidebar to reveal related notes "retrieved" from the corpus. This is quite a powerful way of "augmenting" your thoughts by cross-referencing ideas in a current note against related ideas from your corpus.
您可以从网站阅读文档并下载。支持 Mac、Linux 和 Windows 系统。
他们还提供了入门指南,可以帮助你快速上手。
他们在 GitHub 上获得了 4.2k 个星标,并且是用 TypeScript 构建的。
29. Amica - 让你在浏览器中轻松与 3D 角色聊天。
Amica 是一个开源界面,用于与 3D 角色进行交互式通信,并具有语音合成和语音识别功能。
您可以导入 VRM 文件,调整声音以适应角色,并生成包含情感表达的回复文本。
他们使用了 three.js、OpenAI、Whisper、Bakllava(用于视觉处理)等等。您可以阅读Amica 的工作原理,了解其中涉及的核心概念。
您可以克隆此仓库并使用它来入门。
npm i
npm run dev
你可以观看这段短视频,了解它的功能。
Amica 使用 Tauri 构建桌面应用程序。
他们在 GitHub 上有 400 多个星标,而且看起来非常容易使用。
30.继续- 使您能够创建人工智能软件开发系统。
持续为开发者提供高效的开发流程。我们的开源 VS Code 和 JetBrains 扩展程序让您可以轻松创建并不断改进您自己的模块化 AI 软件开发系统。
它们有很多很棒的功能,让我们来看看其中的一些:
易于理解代码片段。
按 Tab 键可自动补全代码建议。
提出关于代码库的问题。
快速利用文档作为背景信息。
立即了解终端错误。
使用斜杠命令启动操作。
在编写代码的地方重构函数。
了解所有功能。
您需要从应用商店安装VSCode 扩展,然后阅读快速入门指南。
您可以阅读文档。
他们在 GitHub 上拥有 1 万多颗星,并且是用 TypeScript 构建的。
我从未如此详细地介绍过这么多项目!
希望这能帮助你创作出一些富有灵感的作品。
请分享更多项目或其他任何你想让其他人学习的内容!
祝你今天过得愉快!下次再见。
我创作科技内容,帮助他人每天进步 1%,你可以在 Twitter 和 LinkedIn 上关注我,获取每日见解。
关注 Copilotkit 获取更多类似内容。
文章来源:https://dev.to/copilotkit/30-ai-libraries-you-can-use-for-your-next-project-ideas-5ded









































































