xinference - 简化各种 AI 模型的运行和集成 AI


https://hub.docker.com/r/xprobe/xinference

https://inference.readthedocs.io/zh-cn/latest/index.html


docker run -d  -p 9997:9997  --name xinference --hostname xinference   --restart always --network mgr   --ip 172.18.0.41   -e TZ='Asia/Shanghai'   --ulimit nofile=262144:262144   -e  XINFERENCE_MODEL_SRC='huggingface'  -v  /data/file:/data/file/ -v /data/site/docker/data/xinference/data:/root/.xinference  -v /data/site/docker/data/xinference/huggingface:/root/.cache/huggingface -v /data/site/docker/data/xinference/modelscope:/root/.cache/modelscope   xprobe/xinference:latest-cpu   xinference-local -H 0.0.0.0

-gpus

docker run -d  -p 9997:9997  --name xinference --hostname xinference  --gpus=all  --restart always - --network mgr   --ip 172.18.0.41    -e TZ='Asia/Shanghai'   --ulimit nofile=262144:262144   -e  XINFERENCE_MODEL_SRC='huggingface'  --shm-size=40g  -v  /data/file:/data/file/ -v /data/site/docker/data/xinference/data:/root/.xinference  -v /data/site/docker/data/xinference/huggingface:/root/.cache/huggingface -v /data/site/docker/data/xinference/modelscope:/root/.cache/modelscope  -e  HTTP_PROXY="http://h.htmltoo.com:7778"  -e  HTTPS_PROXY="http://h.htmltoo.com:7778"  -e  NO_PROXY="localhost,127.0.0.1"  xprobe/xinference:latest   xinference-local -H 0.0.0.0


docker pull  xprobe/xinference:latest
docker pull  xprobe/xinference:latest-cpu 
docker save  xprobe/xinference:latest | gzip > /data/site/htmltoo.f/htmltoo.up/soft/docker.tar/xinference-0.15.2.tar.gz
docker save  xprobe/xinference:latest-cpu  | gzip > /data/site/htmltoo.f/htmltoo.up/soft/docker.tar/xinference-gpu-0.15.2.tar.gz
docker rmi   xprobe/xinference:latest
docker rmi   xprobe/xinference:latest-cpu 
docker load < /opt/xinference-0.15.2.tar.gz


docker exec -it xinference /bin/bash

-部署语音模型之前

apt update

apt-get upgrade -y --fix-missing

apt install -y  ffmpeg

-需要使用其他网站下载模型

XINFERENCE_MODEL_SRC=modelscope xinference-local

-列出所有 Xinference 支持的指定类型的模型:

xinference registrations -t LLM

-列出所有在运行的模型:

xinference list

-停止某个正在运行的模型:

xinference terminate --model-uid "qwen2"

-或者一次安装所有的推理后端引擎

pip3 install "xinference[all]"  -i https://pypi.tuna.tsinghua.edu.cn/simple


---使用

-web

-CLI 部署

xinference launch --model-name baichuan-chat --model-format pytorch --size-in-billions 13 --quantization 4

-运行得模型

xinference list

UID                                   Type    Name

-集成dify

在「 设置 > 模型供应商 > Xorbits Inference 」中填入模型信息


---

xinference --help

xinference -v

Xinference 

echo $XINFERENCE_MODEL_SRC

-修过环境变量

export XINFERENCE_MODEL_SRC=huggingface

export XINFERENCE_MODEL_SRC=modelscope


-启用CUDA

python3 -c "import torch; print(torch.cuda.is_available())"

---

xinference engine -e http://127.0.0.1:9997 --model-name qwen-chat -f ggufv2

-列出 Xinference 中所有可以启动的、某种类型的模型; 大语言模型 [嵌入模型,图像模型,音频模型,重排序模型,视频模型]

xinference registrations --model-type LLM [embedding, image, audio, rerank, video]

-

xinference launch --model-engine ggufv2 --model-name codegeex4 --size-in-billions 9 --model-format ggufv2 --quantization Q8_0

xinference launch --model-name bge-base-zh-v1.5 --model-type embedding

xinference launch --model-name sd3-medium --model-type image

xinference launch --model-name FLUX.1-schnell --model-type image

xinference launch --model-name FLUX.1-dev --model-type image --quantize_text_encoder text_encoder_2  --model_path /root/.cache/modelscope/hub/image/FLUX.1-dev   --cpu_offload True

xinference launch --model-name FishSpeech-1.2-SFT --model-type audio

xinference launch --model-name whisper --model-type audio --model_path /root/.cache/modelscope/hub/audio/whisper/    --cpu_offload True

xinference launch --model-name bge-reranker-large --model-type rerank

xinference launch --model-name CogVideoX-2b --model-type video

-在小于 24GB 显存的 GPU 上运行贴士

xinference launch --model-name CogVideoX-2b --model-type video --cpu_offload True

xinference launch --model-name CogVideoX-5b --model-type video --cpu_offload True


---Xinference功能特点

模型推理:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。

前沿模型:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!

异构硬件:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!

接口调用:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。

集群计算,分布协同: 支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。

开放生态,无缝对接: 与流行的三方库无缝对接,包括 LangChain,LlamaIndex,Dify、FastGPT、RAGFlow、Chatbox。


---大语言模型 [嵌入模型,图像模型,音频模型,重排序模型,视频模型]

嵌入模型:文本嵌入用于量化不同文本之间的相关性。它们可以应用于各种应用程序,包括搜索、聚类、推荐、异常检测、多样性度量和分类。

嵌入是一组浮点数的向量。两个向量之间的接近程度可以作为它们相似性的指标。距离越小表示相关性越高,而距离越大则表示相关性降低。

Rerank重排序模型:会根据与查询的语义相关性从最相关到最不相关对文档进行重新排序。在 Xinference 中,可以通过 Rerank 端点调用 Rerank 模型来对一系列文档进行排序。


签名:这个人很懒,什么也没有留下!
最新回复 (0)
返回