利用APISIX插件体系为Azure Functions上的LLM服务构建韧性与成本控制层 利用APISIX插件体系为Azure Functions上的LLM服务构建韧性与成本控制层
将大语言模型(LLM)的推理端点部署在Azure Functions这类Serverless平台上,初看起来是一个完美的组合:按需扩展、无服务器运维负担、与云生态系统无缝集成。但在真实的项目中,这种看似简单的架构背后隐藏着巨大的成本和稳定性
2023-11-20
在React前端与Python spaCy服务间构建基于OpenTelemetry的端到端追踪体系 在React前端与Python spaCy服务间构建基于OpenTelemetry的端到端追踪体系
当用户反馈“文本实体识别功能有时很慢”时,一个横跨前端、BFF(Backend for Frontend)和Python机器学习服务的三层架构,瞬间变成了一个调试黑洞。问题出在哪里?是用户网络到CDN的延迟,是React应用自身的计算,是N
2023-10-27
使用C#在DigitalOcean构建连接GCP Pub/Sub与React的高可用WebSocket消息桥 使用C#在DigitalOcean构建连接GCP Pub/Sub与React的高可用WebSocket消息桥
我们的核心计算服务,出于成本和历史原因,部署在DigitalOcean的Droplets上。然而,对于事件驱动和异步任务处理,我们选择了Google Cloud Pub/Sub,因为它具备出色的可扩展性和托管便利性。这就产生了一个直接的技术
2023-10-27
构建代码审查流程的可观测性管道:从 CircleCI Webhook 到 Grafana 面板 构建代码审查流程的可观测性管道:从 CircleCI Webhook 到 Grafana 面板
团队规模扩大后,代码审查(Code Review)流程的效率开始变得模糊不清。我们能感觉到合并请求(Pull Request)的周期在变长,但具体瓶颈在哪里,没人能用数据说清楚。是评审响应太慢?是修改的轮次太多?还是单纯因为某些项目的 CI
2023-10-27
使用 Actix-web 与 ZeroMQ 构建一个进程隔离的分布式插件系统并通过 GitHub Actions 实现自动化部署 使用 Actix-web 与 ZeroMQ 构建一个进程隔离的分布式插件系统并通过 GitHub Actions 实现自动化部署
项目的需求演进往往会把一个干净的单体应用拖入泥潭。最初,我们只是需要一个核心的HTTP服务,但很快,各种定制化的数据处理逻辑开始涌入:一个需要调用Python脚本,一个需要执行计算密集的算法,另一个则需要连接一个特殊的硬件设备。把这些功能全
2023-10-27
构建高可用Milvus分区动态管理服务中的分布式锁架构权衡 构建高可用Milvus分区动态管理服务中的分布式锁架构权衡
在一个典型的多租户AI服务中,我们使用Milvus作为核心的向量检索引擎。为了隔离租户数据并优化资源利用,我们采用了动态加载和卸载Partition的策略。应用服务是无状态、可水平扩展的,这意味着任何一个服务实例都可能接收到来自某个租户的请
1 / 5