29
29
appProtocol : http2
30
30
type : ClusterIP
31
31
---
32
+ apiVersion : v1
33
+ kind : ServiceAccount
34
+ metadata :
35
+ name : vllm-llama3-8b-instruct-epp
36
+ namespace : default
37
+ ---
32
38
apiVersion : apps/v1
33
39
kind : Deployment
34
40
metadata :
@@ -46,51 +52,52 @@ spec:
46
52
labels :
47
53
app : vllm-llama3-8b-instruct-epp
48
54
spec :
55
+ serviceAccountName : vllm-llama3-8b-instruct-epp
49
56
# Conservatively, this timeout should mirror the longest grace period of the pods within the pool
50
57
terminationGracePeriodSeconds : 130
51
58
containers :
52
- - name : epp
53
- image : us-central1-docker.pkg.dev/k8s-staging-images/gateway-api-inference-extension/epp:main
54
- imagePullPolicy : Always
55
- args :
56
- - -poolName
57
- - " vllm-llama3-8b-instruct"
58
- - " -poolNamespace"
59
- - " default"
60
- - -v
61
- - " 4"
62
- - --zap-encoder
63
- - " json"
64
- - -grpcPort
65
- - " 9002"
66
- - -grpcHealthPort
67
- - " 9003"
68
- - " -configFile"
69
- - " /config/default-plugins.yaml"
70
- ports :
71
- - containerPort : 9002
72
- - containerPort : 9003
73
- - name : metrics
74
- containerPort : 9090
75
- livenessProbe :
76
- grpc :
77
- port : 9003
78
- service : inference-extension
79
- initialDelaySeconds : 5
80
- periodSeconds : 10
81
- readinessProbe :
82
- grpc :
83
- port : 9003
84
- service : inference-extension
85
- initialDelaySeconds : 5
86
- periodSeconds : 10
87
- volumeMounts :
88
- - name : plugins-config-volume
89
- mountPath : " /config"
59
+ - name : epp
60
+ image : us-central1-docker.pkg.dev/k8s-staging-images/gateway-api-inference-extension/epp:main
61
+ imagePullPolicy : Always
62
+ args :
63
+ - -poolName
64
+ - " vllm-llama3-8b-instruct"
65
+ - " -poolNamespace"
66
+ - " default"
67
+ - -v
68
+ - " 4"
69
+ - --zap-encoder
70
+ - " json"
71
+ - -grpcPort
72
+ - " 9002"
73
+ - -grpcHealthPort
74
+ - " 9003"
75
+ - " -configFile"
76
+ - " /config/default-plugins.yaml"
77
+ ports :
78
+ - containerPort : 9002
79
+ - containerPort : 9003
80
+ - name : metrics
81
+ containerPort : 9090
82
+ livenessProbe :
83
+ grpc :
84
+ port : 9003
85
+ service : inference-extension
86
+ initialDelaySeconds : 5
87
+ periodSeconds : 10
88
+ readinessProbe :
89
+ grpc :
90
+ port : 9003
91
+ service : inference-extension
92
+ initialDelaySeconds : 5
93
+ periodSeconds : 10
94
+ volumeMounts :
95
+ - name : plugins-config-volume
96
+ mountPath : " /config"
90
97
volumes :
91
- - name : plugins-config-volume
92
- configMap :
93
- name : plugins-config
98
+ - name : plugins-config-volume
99
+ configMap :
100
+ name : plugins-config
94
101
---
95
102
apiVersion : v1
96
103
kind : ConfigMap
@@ -174,42 +181,60 @@ data:
174
181
weight: 1
175
182
- pluginRef: max-score-picker
176
183
---
177
- kind : ClusterRole
184
+ kind : Role
178
185
apiVersion : rbac.authorization.k8s.io/v1
179
186
metadata :
180
187
name : pod-read
188
+ namespace : default
181
189
rules :
182
- - apiGroups : ["inference.networking.x-k8s.io"]
183
- resources : ["inferencepools"]
184
- verbs : ["get", "watch", "list"]
185
- - apiGroups : ["inference.networking.x-k8s.io"]
186
- resources : ["inferencemodels"]
187
- verbs : ["get", "watch", "list"]
188
- - apiGroups : [""]
189
- resources : ["pods"]
190
- verbs : ["get", "watch", "list"]
191
- - apiGroups :
192
- - authentication.k8s.io
193
- resources :
194
- - tokenreviews
195
- verbs :
196
- - create
197
- - apiGroups :
198
- - authorization.k8s.io
199
- resources :
200
- - subjectaccessreviews
201
- verbs :
202
- - create
203
- ---
204
- kind : ClusterRoleBinding
190
+ - apiGroups : [ "inference.networking.x-k8s.io" ]
191
+ resources : [ "inferencepools", "inferencemodels" ]
192
+ verbs : [ "get", "watch", "list" ]
193
+ - apiGroups : [ "" ]
194
+ resources : [ "pods" ]
195
+ verbs : [ "get", "watch", "list" ]
196
+ ---
197
+ kind : RoleBinding
205
198
apiVersion : rbac.authorization.k8s.io/v1
206
199
metadata :
207
200
name : pod-read-binding
208
- subjects :
209
- - kind : ServiceAccount
210
- name : default
211
201
namespace : default
202
+ subjects :
203
+ - kind : ServiceAccount
204
+ name : vllm-llama3-8b-instruct-epp
205
+ namespace : default
212
206
roleRef :
213
207
apiGroup : rbac.authorization.k8s.io
214
- kind : ClusterRole
208
+ kind : Role
215
209
name : pod-read
210
+ ---
211
+ kind : ClusterRole
212
+ apiVersion : rbac.authorization.k8s.io/v1
213
+ metadata :
214
+ name : auth-reviewer
215
+ rules :
216
+ - apiGroups :
217
+ - authentication.k8s.io
218
+ resources :
219
+ - tokenreviews
220
+ verbs :
221
+ - create
222
+ - apiGroups :
223
+ - authorization.k8s.io
224
+ resources :
225
+ - subjectaccessreviews
226
+ verbs :
227
+ - create
228
+ ---
229
+ kind : ClusterRoleBinding
230
+ apiVersion : rbac.authorization.k8s.io/v1
231
+ metadata :
232
+ name : auth-reviewer-binding
233
+ subjects :
234
+ - kind : ServiceAccount
235
+ name : vllm-llama3-8b-instruct-epp
236
+ namespace : default
237
+ roleRef :
238
+ apiGroup : rbac.authorization.k8s.io
239
+ kind : ClusterRole
240
+ name : auth-reviewer
0 commit comments