https://hub.docker.com/r/xprobe/xinference
https://inference.readthedocs.io/zh-cn/latest/index.html
docker run -d -p 9997:9997 --name xinference --hostname xinference --restart always --network mgr --ip 172.18.0.41 -e TZ='Asia/Shanghai' --ulimit nofile=262144:262144 -e XINFERENCE_MODEL_SRC='huggingface' -v /data/file:/data/file/ -v /data/site/docker/data/xinference/data:/root/.xinference -v /data/site/docker/data/xinference/huggingface:/root/.cache/huggingface -v /data/site/docker/data/xinference/modelscope:/root/.cache/modelscope xprobe/xinference:latest-cpu xinference-local -H 0.0.0.0
-gpus
docker run -d -p 9997:9997 --name xinference --hostname xinference --gpus=all --restart always - --network mgr --ip 172.18.0.41 -e TZ='Asia/Shanghai' --ulimit nofile=262144:262144 -e XINFERENCE_MODEL_SRC='huggingface' --shm-size=40g -v /data/file:/data/file/ -v /data/site/docker/data/xinference/data:/root/.xinference -v /data/site/docker/data/xinference/huggingface:/root/.cache/huggingface -v /data/site/docker/data/xinference/modelscope:/root/.cache/modelscope -e HTTP_PROXY="http://h.htmltoo.com:7778" -e HTTPS_PROXY="http://h.htmltoo.com:7778" -e NO_PROXY="localhost,127.0.0.1" xprobe/xinference:latest xinference-local -H 0.0.0.0
docker pull xprobe/xinference:latest
docker pull xprobe/xinference:latest-cpu
docker save xprobe/xinference:latest | gzip > /data/site/htmltoo.f/htmltoo.up/soft/docker.tar/xinference-0.15.2.tar.gz
docker save xprobe/xinference:latest-cpu | gzip > /data/site/htmltoo.f/htmltoo.up/soft/docker.tar/xinference-gpu-0.15.2.tar.gz
docker rmi xprobe/xinference:latest
docker rmi xprobe/xinference:latest-cpu
docker load < /opt/xinference-0.15.2.tar.gz
docker exec -it xinference /bin/bash
-部署语音模型之前
apt update
apt-get upgrade -y --fix-missing
apt install -y ffmpeg
-需要使用其他网站下载模型
XINFERENCE_MODEL_SRC=modelscope xinference-local
-列出所有 Xinference 支持的指定类型的模型:
xinference registrations -t LLM
-列出所有在运行的模型:
xinference list
-停止某个正在运行的模型:
xinference terminate --model-uid "qwen2"
-或者一次安装所有的推理后端引擎
pip3 install "xinference[all]" -i https://pypi.tuna.tsinghua.edu.cn/simple
---使用
-web
-CLI 部署
xinference launch --model-name baichuan-chat --model-format pytorch --size-in-billions 13 --quantization 4
-运行得模型
xinference list
UID Type Name
-集成dify
在「 设置 > 模型供应商 > Xorbits Inference 」中填入模型信息
---
xinference --help
xinference -v
Xinference
echo $XINFERENCE_MODEL_SRC
-修过环境变量
export XINFERENCE_MODEL_SRC=huggingface
export XINFERENCE_MODEL_SRC=modelscope
-启用CUDA
python3 -c "import torch; print(torch.cuda.is_available())"
---
xinference engine -e http://127.0.0.1:9997 --model-name qwen-chat -f ggufv2
-列出 Xinference 中所有可以启动的、某种类型的模型; 大语言模型 [嵌入模型,图像模型,音频模型,重排序模型,视频模型]
xinference registrations --model-type LLM [embedding, image, audio, rerank, video]
-
xinference launch --model-engine ggufv2 --model-name codegeex4 --size-in-billions 9 --model-format ggufv2 --quantization Q8_0
xinference launch --model-name bge-base-zh-v1.5 --model-type embedding
xinference launch --model-name sd3-medium --model-type image
xinference launch --model-name FLUX.1-schnell --model-type image
xinference launch --model-name FLUX.1-dev --model-type image --quantize_text_encoder text_encoder_2 --model_path /root/.cache/modelscope/hub/image/FLUX.1-dev --cpu_offload True
xinference launch --model-name FishSpeech-1.2-SFT --model-type audio
xinference launch --model-name whisper --model-type audio --model_path /root/.cache/modelscope/hub/audio/whisper/ --cpu_offload True
xinference launch --model-name bge-reranker-large --model-type rerank
xinference launch --model-name CogVideoX-2b --model-type video
-在小于 24GB 显存的 GPU 上运行贴士
xinference launch --model-name CogVideoX-2b --model-type video --cpu_offload True
xinference launch --model-name CogVideoX-5b --model-type video --cpu_offload True
---Xinference功能特点
模型推理:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
前沿模型:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!
异构硬件:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!
接口调用:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。
集群计算,分布协同: 支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。
开放生态,无缝对接: 与流行的三方库无缝对接,包括 LangChain,LlamaIndex,Dify、FastGPT、RAGFlow、Chatbox。
---大语言模型 [嵌入模型,图像模型,音频模型,重排序模型,视频模型]
嵌入模型:文本嵌入用于量化不同文本之间的相关性。它们可以应用于各种应用程序,包括搜索、聚类、推荐、异常检测、多样性度量和分类。
嵌入是一组浮点数的向量。两个向量之间的接近程度可以作为它们相似性的指标。距离越小表示相关性越高,而距离越大则表示相关性降低。
Rerank重排序模型:会根据与查询的语义相关性从最相关到最不相关对文档进行重新排序。在 Xinference 中,可以通过 Rerank 端点调用 Rerank 模型来对一系列文档进行排序。