登录
主页
 文章
VideoGPT是基于GPT架构的视频生成工具,支持从文本生成视频。最初,研究人员尝试将自然语言处理中的GPT架构思想引入视频处理领域,开始探索如何利用其强大的语言理解和生成能力来处理视频的时空信息。 模型改进与创新:如VideoGPT+模型结合了先进的图像编码器和视频编码器,克服了传统方法在处理视频时的局限,在捕捉丰富空间细节和理解复杂时间动态上展现出卓越性能。iVideoGPT采用新颖的压缩tokenization技术,可有效离散高维视觉观察,能在数百万人类和机器人操作轨迹上进行预训练,建立起多功能基础。
1070
9
2
Runway ML是一个创意工具集,支持文本生成视频等多种功能,适合艺术创作和多媒体项目。Runway ML创立于2018年,总部位于纽约,是一家专注于图像和视频编辑领域的人工智能公司,其发展备受瞩目,2023年4月入选《福布斯2023年AI 50榜单:最有前途的人工智能公司》,同年6月获得谷歌1亿美元的D轮投资,估值达15亿美元 。它为创作者们打造了功能强大的创意工具集,将人工智能技术深度融入其中 。在功能方面,提供了丰富多样的选择,涵盖文本转视频、图像转视频、视频转视频、文本转图像、图像转图像等。文本转视频功能可依文本提示生成逼真视频,拓展视频制作边界;图像转视频能赋予静态图像动态生命力;视频转视频方便对现有视频编辑、增强或风格化;文本转图像助创作者将抽象想法化为视觉图像;图像转图像可编辑、改变图像外观风格 。此外,运动画笔工具能创建逼真运动效果,Gen2模型带来更高质量和逼真结果,物理引擎可模拟现实物理定律用于动画制作,还支持多用户实时协作,让团队创作更高效 。
945
3
0
OpenManus 是一个开源的多智能体协作平台,旨在实现与 Manus 类似的功能,并支持本地部署。其底层架构基于多种大型语言模型(LLM),中间层通过多智能体协作机制将任务分解为可执行的子任务,执行层则调用各类 API 接口完成具体操作。OpenManus 无缝集成了包括 Claude 3.5 和 Qwen VL Plus 在内的多个顶级大模型。
504
9
9
LosslessCut 是一款基于 FFmpeg 的图形界面视频剪辑工具,其核心优势在于无损剪辑技术。通过关键帧剪切,无需重新编码,从而实现高速剪辑并保持原始视频质量。该工具支持提取音频流和字幕流,并可添加配乐和字幕轨道。LosslessCut 支持几乎所有的常见音视频格式,包括 MP4、MOV 和 MKV 等,并且跨平台兼容 Windows、macOS 和 Linux。
736
8
0
Kdenlive支持GNU/Linux、Windows和BSD等操作系统;有多轨视频编辑功能,可同时处理多条音视频轨道;几乎支持所有FFmpeg支持的音频和视频格式及编解码器;可设置不同工作区,界面和快捷键可配置,能创建2D标题,应用特效和过渡效果,支持代理编辑和自动备份。适合专业视频编辑师和有一定经验的视频制作人员。
965
1
8
OmniParser是一款开源工具,可通过解析用户界面截图生成结构化数据,助力打造视觉驱动的 GUI 自动化代理,赋能跨平台交互。项目地址:https://github.com/microsoft/OmniParser一、技术原理1.数据集构建:从流行网页和应用中提取数据,构建可交互图标检测数据集和图标描述数据集,为模型训练提供基础。
776
1
8
Shotcut跨平台支持Windows、Mac、Linux和Android;支持4K、8K视频处理,可进行帧精确搜索和视频合成,有丰富的滤镜和特效;音频编辑功能强大,配备示波器和多种滤波器,支持淡入淡出等过渡效果;无需导入即可直接在时间线上编辑,支持HTTP、HLS等多种网络流协议。Shotcut 以其易用性、丰富的功能、广泛的格式支持以及可定制的工作流,成为自媒体新手入门和普通用户进行日常视频编辑的理想选择,同时也能满足一些对视频编辑有一定要求,但又不想使用过于复杂专业软件的用户的需求。
514
2
1
Awesome DeepSeek Integrations是DeepSeek 生态的开源集成宝库,汇集了与 DeepSeek AI 模型(如 DeepSeek-V3、R1、Coder 等)无缝集成的工具和应用,覆盖代码助手、翻译、知识管理等多种场景,支持多语言和多种开发平台。作为一站式集成资源库,是连接开发者、研究人员以及企业与 DeepSeek 生态系统的桥梁,降低了AI 技术开发门槛,加速 AI 在各领域的落地应用。
1199
5
14
Open-Chat-Video-Editor结合了ChatGPT技术,用户只需与AI对话,告知想要的视频内容,AI即可自动生成成片,能自动识别需求,生成搞笑、情感、商业宣传等不同类型的视频。适合想要高效、快速出片,不想在剪辑上花费太多时间,更注重视频创意的人群。项目地址:https://github.com/scutlihaoyu/open-chat-video-editor
1015
0
12
chatbox是一个AI客户端应用和智能助手,支持GPT、Claude、Gemini等众多先进的AI模型和API,可在多种平台上使用。支持 Windows、Mac 和 Linux 操作系统,号称是桌面端的终极 AI 助手。不过,对于大多数用户,官方推荐使用闭源的 Chatbox 官方版,它完全免费、安装简单且支持更多最新功能。
1121
9
13
multi-agent-orchestrator是一个灵活且强大的框架,用于管理和协调多个AI智能体,处理复杂的对话,支持智能意图分类、双语言支持等功能。项目地址:https://github.com/awslabs/multi-agent-orchestrator一、基本功能 1. 多智能体协调与调度Multi - agent - orchestrator 能够对多个智能体进行有效的协调和调度。它可以根据任务的需求和各个智能体的能力、状态,合理分配任务给不同的智能体。例如,在一个物流配送场景中,框架可以根据各个配送智能体(如无人机、配送车)的位置、负载情况和行驶速度,将不同的订单分配给最合适的智能体进行配送。
905
2
7
PDFMathTranslate基于AI技术的PDF文档处理工具,能完整保留排版并进行双语翻译,支持Google、DeepL等主流翻译服务,还提供了CLI、GUI和Docker的支持。一、功能数学公式精准识别:借助先进的 OCR(光学字符识别)技术,PDFMathTranslate 能够精准地识别 PDF 文档中的数学公式。无论是复杂的微积分公式,还是线性代数中的矩阵表达式,它都能准确无误地提取出来,为后续的翻译和处理奠定基础。这一功能对于数学、物理、工程等领域的学术文献和专业资料处理至关重要,解决了传统 OCR 技术在识别复杂数学符号和结构时容易出现的错误和遗漏问题。
1021
2
12
eliza是一个强大的多智能体模拟框架,使用TypeScript构建,可用于创建、部署和管理自主AI智能体,能让智能体跨多个平台互动并保持一致的个性和知识。项目地址:https://elizaos.github.io/eliza一、基本功能1.多平台部署与交互:可在Discord、Twitter、Telegram等多个平台构建和部署具有一致个性的自主AI智能体,支持语音、文本和媒体交互,能适应不同社交平台的交流形式,满足用户多样化的沟通需求。
559
5
7
Langflow是一个面向开发者的低代码工具网站,专注于多智能体人工智能、提示工程和检索增强生成(RAG)应用的开发,能帮助开发者轻松构建强大的AI智能体和工作流。以可视化方式搭建AI应用,通过拖放操作就能创建复杂的AI工作流,降低开发门槛,减少编写样板代码的工作量,让开发者把更多精力放在创新上。提供数百种预构建的流和组件,涵盖多种数据来源、模型和向量存储选项,包括OpenAI、HuggingFace等常见模型,以及Notion、Google Drive等数据源。若现有组件无法满足需求,还支持自定义组件开发。适用于提示工程、智能体构建和RAG应用开发。如能创建帮助开发者调试代码的聊天机器人,以及从大量文档中检索特定信息的RAG驱动聊天机器人。
522
3
9
TEN智能体是一款由TEN驱动的对话式语音人工智能体,集成了Deepseek、Gemini、OpenAI、实时通信(RTC)技术,以及像ESP32这样的硬件。它具备实时的人工智能能力,例如视觉、听觉和语音功能,并且完全兼容如Dify和Coze等平台。 一款由TEN驱动的对话型人工智能,集成了Gemini 2.0 Live、OpenAI Realtime、RTC等技术,具备实时的视觉、听觉和语音功能。采用检索增强生成(RAG)技术,能将检索到的外部知识与生成模型结合,利用本地文档提供更准确、详细的答案。
1109
7
4
Computational Linguistics Annotation Mediator(CLAM)是一个计算语言学应用中介,能将自然语言处理(NLP)命令行应用程序快速透明地转换为RESTful Web服务,终端用户和自动化客户端都能与之交互。用户可上传输入文件,选择特定参数启动应用,并下载和查看应用输出,还能监控应用运行状态。
1055
3
8
VGG Image Annotator (VIA)用于图像、视频和音频数据的标注,支持多种标注类型,如区域标注、关键点标注等,并且可以将标注结果以JSON等格式导出,方便与各种机器学习框架集成,具有良好的跨平台性和可扩展性。VIA由牛津大学的视觉几何组(VGG)开发。使用JavaScript、HTML和CSS实现。
908
1
0
2025年3月6日:Monica发布全球首款通用型AI智能体产品Manus,引发了全球AI领域的高度关注。在GAIA基准测试中创下新纪录,性能远超OpenAI的同类产品。其自主任务执行能力覆盖金融分析、教育课件生成、工业设计等场景,单任务平均调用5.3个专业工具,复杂项目首次完成率突破78%。Manus源自拉丁语“Mens et Manus”,意为“手脑并用”,强调将知识转化为实际行动的能力,体现了要把思想应用到现实中以产生有意义影响的理念。
1172
0
3
SnowNLP主要用于中文文本处理的工具包,虽然不是专门的标注工具,但提供了一些基本的自然语言处理功能,如词性标注、情感分析等,可以辅助进行数据标注和分析,使用简单,对中文的支持较好。项目地址:https://github.com/isnowfy/snownlp一、基本功能1. 中文分词:将一段中文文本拆分成一个个独立的词语,例如把“我爱自然语言处理”分词为“我”“爱”“自然语言处理” ,方便后续的文本分析。
699
5
13
Prodigy是一款功能强大的自然语言处理标注工具,提供了多种标注界面和任务类型,如文本分类、实体标注、关系标注等。它支持实时反馈和模型辅助标注,能够提高标注效率和质量,同时还具有数据管理和版本控制等功能,方便团队协作。项目地址:https://prodi.gy一、基本功能
576
8
12
- -
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号