深数据网

CatBoost是由俄罗斯搜索引擎巨头Yandex开发的高性能梯度提升决策树机器学习库，于2017年开源，采用Apache 2.0许可证，可免费开源使用。它是GBDT算法框架下的一种改进实现，主要用于解决分类和回归问题。基于对称决策树（oblivious trees）算法，通过构建多个简单预测器来逐步改进目标函数，从而形成一个强大的模型。

2025-07-14

机器学习模型（Wide&Deep）

Wide&Deep 是 Google 于 2016 年在论文《Wide & Deep Learning for Recommender Systems》中提出的机器学习模型，旨在解决推荐系统中“记忆性（Memorization）”与“泛化性（Generalization）”的平衡问题。该模型通过融合线性模型（Wide 部分）和深度学习模型（Deep 部分）的优势，在 Google Play 应用推荐等场景中取得了显著效果，成为推荐系统领域的经典模型之一。

2025-07-14

点击率预测的深度学习模型（DeepFM）

DeepFM（Deep Factorization Machine）是一种用于点击率（CTR）预测的深度学习模型，它结合了因子分解机（FM）和深度神经网络（DNN）的优点，能够自动学习低阶和高阶的特征交叉，无需复杂的人工特征工程。一、模型架构DeepFM 主要包含 FM 部分和 Deep 部分。FM 部分用于学习低阶的交叉特征，能够有效捕捉数据中的一阶和二阶特征关系。Deep 部分则是一个全连接神经网络，用于学习高阶的交叉特征，通过多层神经元的非线性变换，挖掘数据中更复杂的特征组合。

2025-07-13

553

分布式梯度提升库（XGBoost）

XGBoost（eXtreme Gradient Boosting）是一个开源的、高度优化的分布式梯度提升库。XGBoost 基于决策树算法，通过集成多个弱分类器以提升整体模型的性能。它在训练速度和模型表现上相比传统的梯度提升算法都有显著提升，是一种高效的、可扩展的梯度提升框架。该框架被广泛用于解决分类、回归、排序、推荐系统等各种类型的问题，在机器学习和数据科学领域应用十分广泛。同时，XGBoost 具有高性能和可扩展性，支持并行计算和分布式训练，能高效处理大规模特征和样本，可在多种分布式环境中运行，还能在 C++、Python、R、Java、Scala 等多种编程语言中使用。

2025-07-13

982

开放的神经网络交换格式（ONNX）

ONNX（Open Neural Network Exchange）是一个开放的神经网络交换格式。2017 年，Facebook 和 Microsoft 共同发布 ONNX，最初代号为 “Toffee”，由 Facebook 的 PyTorch 团队开发。同年 9 月，正式更名为 ONNX，并得到了 IBM、华为、英特尔等多家公司的支持。12 月，ONNX 发布了第一个正式版本（v1.0），为不同深度学习框架提供通用的模型表示标准，方便模型在不同框架和工具之间迁移。

2025-07-12

924

高性能梯度提升框架（LightGBM）

LightGBM（Light Gradient Boosting Machine）是一个高效的分布式梯度提升框架，由微软于2017年开源，基于GBDT（Gradient Boosting Decision Tree）实现，常用于分类、回归和排序等机器学习任务。项目地址：https://github.com/microsoft/LightGBM一、核心优势与设计理念1.训练速度基于直方的分裂算法将连续的特征值离散化为固定数量的直方桶（默认256个），计算每个桶的统计量。这样可减少寻找分裂点的计算复杂度，同时离散化后的特征存储为整数，能节省内存，计算时只需遍历桶而非原始特征值，提升了速度。

2025-07-12

1176

机器学习生命周期管理平台（MLflow）

MLflow 是一个开源的机器学习生命周期管理平台，在简化机器学习模型从开发到部署的全流程。它提供了统一的工具集，帮助数据科学家和工程师管理模型训练、参数调优、版本控制、部署和监控，解决了 ML 工作流中的碎片化问题。项目地址：https://github.com/mlflow/mlflow一、核心组件

2025-07-11

610

MoE开源模型（Mixtral 8x7B）

Mixtral 8x7B是Mistral AI于2023年12月11日发布的首个开源MoE（混合专家）大模型。Mixtral是一个稀疏的混合专家网络，基于Transformer的混合专家层，为纯解码器模型。每层有8个前馈块（专家），一个路由网络在每层为每个token选择两个专家来处理，最后将它们的输出组合相加。总参数量为46.7B，由于采用混合专家网络结构，每个token仅使用其中12.9B参数，上下文窗口大小为32K。采用了分组查询注意力（GQA），显著加快了推理速度，还减少了解码期间的内存需求，在32k token的序列长度上，可减少8倍的缓存内存使用，且不影响模型质量。在大多数基准测试中优于Llama 2 70B，推理速度快6倍。在TruthfulQA基准测试上比Llama 2更真实（73.9% vs 50.2%），在BBQ基准测试上呈现出更少的偏见。在MT - Bench上达到了8.3的分数，性能与GPT3.5相媲美。

2025-07-11

827

云原生机器学习模型服务框架（KServe）

KServe是一个开源的云原生机器学习模型服务框架，专注于简化机器学习（ML）模型的部署、管理和扩展，尤其适用于大规模、分布式的生产环境。它基于Kubernetes（K8s）构建，遵循云原生理念，旨在为不同类型的模型提供标准化、高性能的推理服务。https://github.com/kserve/kserve一、定义与背景

2025-07-09

673

开源模型推理部署工具（Triton）

Triton框架（全称NVIDIA Triton Inference Server）是一款由NVIDIA开发的开源模型推理部署工具，旨在简化机器学习模型从训练到生产环境部署的流程，同时优化推理性能（如吞吐量、延迟）。它支持多框架、多模型、多硬件部署，广泛应用于云服务、边缘计算、嵌入式设备等场景。

2025-07-09

1078

开源模型服务框架（TorchServe）

TorchServe是由Facebook（现Meta）和AWS联合开发的开源模型服务框架，专门用于简化PyTorch模型的部署流程，支持将训练好的PyTorch模型快速转化为可扩展、高可用的API服务。它旨在解决模型部署中的工程化难题，如服务启动、负载均衡、版本管理等，让开发者更专注于模型本身而非部署细节。

2025-07-09

983

开源人工神经网络库（OpenANN）

OpenANN（OpenANN，Open Artificial Neural Network Library）是一个开源的人工神经网络库，基于C++编写，依赖Eigen 3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速，利用多核CPU和GPU进行并行计算，可获得更快的训练速度。同时具有高度灵活性和可扩展性，支持多种神经网络架构和优化算法，且采用模块化设计，可通过添加新模块来实现新功能或优化现有功能。

2025-07-09

1107

轻量级大模型训练框架（MiniMind）

MiniMind项目最初于2024年启动，目标是打造完全开源的轻量级语言模型训练框架。首个版本V1聚焦于降低训练门槛，支持消费级显卡运行，最低显存需求仅4GB，并通过优化算法实现了显著的训练速度提升。V1版本的核心技术包括基于Transformer-XL的模型架构、Rotary Embedding长文本处理技术，以及FlashAttention-2优化的显存管理，使得在RTX 3090上仅需2小时即可完成26M参数模型的训练。

2025-07-08

597

信任最小化的零知识桥接协议（Union）

Union 是由 unionlabs 开发的一个信任最小化的零知识桥接协议，专为抗审查、超高安全性和去中心化金融使用而设计。零知识桥接协议是一种利用零知识证明技术，实现不同区块链网络之间信息传输（如消息、资金或其他数据）的通信协议。它能在不泄露敏感信息的前提下，确保跨链交互的安全性和可靠性。零知识证明允许证明者向验证者证明某个陈述是真实的，而无需透露除该陈述为真之外的任何其他信息。在桥接协议中，通过零知识证明技术，可在不暴露区块链具体交易细节或状态信息的情况下，验证跨链交易或消息的合法性，将区块链共识协议的安全性扩展到桥接过程中。

2025-07-08

892

基于Zigbee与WiFi的智能家居网关设计

基于Zigbee与WiFi的智能家居网关是连接不同协议智能设备、实现互联互通的核心枢纽。其设计需融合Zigbee低功耗、广覆盖的特点与WiFi高带宽、易接入互联网的优势，满足智能家居中多设备协同控制、数据交互的需求。解决不同无线协议设备的“孤岛问题”，一、核心目标 1.协议兼容：支持Zigbee设备（如传感器、开关）与WiFi设备（如摄像头、电视）的双向通信；

2025-07-08

858

嵌入式实时操作系统（FreeRTOS）

FreeRTOS 是一款广泛应用于嵌入式系统的实时操作系统（RTOS），以开源、轻量、可裁剪为核心特点，特别适合资源受限的微控制器（MCU）和嵌入式设备。它提供任务调度、内存管理、同步与通信等核心功能，帮助开发者构建响应及时、可靠性高的实时应用，在智能家居、工业控制、物联网设备等领域应用广泛。

2025-07-07

506

物联网技术在智能城市交通信号优化中的应用

传统城市交通信号优化的核心难点在于难以适配动态交通流，其依赖的固定配时方案无法应对车流随机变化、时段边界僵化及方向失衡等问题；数据采集滞后且片面，依赖低频次、小范围手段，缺乏实时性与全面性，难以支撑精准优化；路口多孤立优化，缺乏跨区域协同，易导致拥堵转移或配时冲突；对突发事故、紧急车辆通行等特殊场景响应被动，应急效率低；且多侧重机动车通行效率，忽视行人和非机动车需求，加之硬件技术落后、算法简单、管理机制僵化等瓶颈，进一步制约了优化效果。

2025-07-06

853

物联网平台开发框架（PandaX）

PandaX是一款基于Go语言开源的企业级物联网平台低代码开发框架，遵循AGPL - 3.0开源协议。基于go-restful+Vue3.0+TypeScript等实现前后端分离开发。支持设备管控、规则链、云组态、可视化大屏等功能，还可通过代码生成器一键生成前后端代码，减少开发量。后端使用自封装的go - restful框架，前端基于Vue3.0、TypeScript、vite3和Element - Plus，具有类型安全、开发效率高、UI组件丰富等特点。

2025-07-06

554

基于机器学习的智能家居能源管理系统

一、业务背景随着物联网技术的蓬勃发展，智能家居设备迎来了爆发式增长。据权威的《2024 年全球智能家居市场报告》指出，全球智能家居设备连接数已强势突破 200 亿台大关，在家庭能源消耗的版图中，智能设备占比达到了 45%，成为家庭能源消耗的重要组成部分。然而，传统的能源管理方式，如定时控制和阈值触发等，在面对复杂多变的家庭用电环境时，逐渐暴露出明显的局限性。

2025-07-05

899

可视化IOT编程工具（Node-RED）

Node-RED由IBM开发的可视化IOT编程工具，提供了可拖拉的操作界面以简化复杂的配置。支持各种系统平台，如Raspberry Pi、Arduino等，即使是没有编码知识的人也能通过可视化操作快速组装强大的应用程序。主要用于事件驱动型应用程序的开发，尤其适用于物联网领域。项目地址：https://nodered.org

2025-07-05

914