Branch data Line data Source code
1 : : // SPDX-License-Identifier: GPL-2.0-only
2 : :
3 : : #include <linux/wait.h>
4 : : #include <linux/rbtree.h>
5 : : #include <linux/backing-dev.h>
6 : : #include <linux/kthread.h>
7 : : #include <linux/freezer.h>
8 : : #include <linux/fs.h>
9 : : #include <linux/pagemap.h>
10 : : #include <linux/mm.h>
11 : : #include <linux/sched.h>
12 : : #include <linux/module.h>
13 : : #include <linux/writeback.h>
14 : : #include <linux/device.h>
15 : : #include <trace/events/writeback.h>
16 : :
17 : : struct backing_dev_info noop_backing_dev_info = {
18 : : .name = "noop",
19 : : .capabilities = BDI_CAP_NO_ACCT_AND_WRITEBACK,
20 : : };
21 : : EXPORT_SYMBOL_GPL(noop_backing_dev_info);
22 : :
23 : : static struct class *bdi_class;
24 : : static const char *bdi_unknown_name = "(unknown)";
25 : :
26 : : /*
27 : : * bdi_lock protects bdi_tree and updates to bdi_list. bdi_list has RCU
28 : : * reader side locking.
29 : : */
30 : : DEFINE_SPINLOCK(bdi_lock);
31 : : static u64 bdi_id_cursor;
32 : : static struct rb_root bdi_tree = RB_ROOT;
33 : : LIST_HEAD(bdi_list);
34 : :
35 : : /* bdi_wq serves all asynchronous writeback tasks */
36 : : struct workqueue_struct *bdi_wq;
37 : :
38 : : #ifdef CONFIG_DEBUG_FS
39 : : #include <linux/debugfs.h>
40 : : #include <linux/seq_file.h>
41 : :
42 : : static struct dentry *bdi_debug_root;
43 : :
44 : : static void bdi_debug_init(void)
45 : : {
46 : 3 : bdi_debug_root = debugfs_create_dir("bdi", NULL);
47 : : }
48 : :
49 : 0 : static int bdi_debug_stats_show(struct seq_file *m, void *v)
50 : : {
51 : 0 : struct backing_dev_info *bdi = m->private;
52 : 0 : struct bdi_writeback *wb = &bdi->wb;
53 : : unsigned long background_thresh;
54 : : unsigned long dirty_thresh;
55 : : unsigned long wb_thresh;
56 : : unsigned long nr_dirty, nr_io, nr_more_io, nr_dirty_time;
57 : : struct inode *inode;
58 : :
59 : : nr_dirty = nr_io = nr_more_io = nr_dirty_time = 0;
60 : : spin_lock(&wb->list_lock);
61 : 0 : list_for_each_entry(inode, &wb->b_dirty, i_io_list)
62 : 0 : nr_dirty++;
63 : 0 : list_for_each_entry(inode, &wb->b_io, i_io_list)
64 : 0 : nr_io++;
65 : 0 : list_for_each_entry(inode, &wb->b_more_io, i_io_list)
66 : 0 : nr_more_io++;
67 : 0 : list_for_each_entry(inode, &wb->b_dirty_time, i_io_list)
68 : 0 : if (inode->i_state & I_DIRTY_TIME)
69 : 0 : nr_dirty_time++;
70 : : spin_unlock(&wb->list_lock);
71 : :
72 : 0 : global_dirty_limits(&background_thresh, &dirty_thresh);
73 : 0 : wb_thresh = wb_calc_thresh(wb, dirty_thresh);
74 : :
75 : : #define K(x) ((x) << (PAGE_SHIFT - 10))
76 : 0 : seq_printf(m,
77 : : "BdiWriteback: %10lu kB\n"
78 : : "BdiReclaimable: %10lu kB\n"
79 : : "BdiDirtyThresh: %10lu kB\n"
80 : : "DirtyThresh: %10lu kB\n"
81 : : "BackgroundThresh: %10lu kB\n"
82 : : "BdiDirtied: %10lu kB\n"
83 : : "BdiWritten: %10lu kB\n"
84 : : "BdiWriteBandwidth: %10lu kBps\n"
85 : : "b_dirty: %10lu\n"
86 : : "b_io: %10lu\n"
87 : : "b_more_io: %10lu\n"
88 : : "b_dirty_time: %10lu\n"
89 : : "bdi_list: %10u\n"
90 : : "state: %10lx\n",
91 : : (unsigned long) K(wb_stat(wb, WB_WRITEBACK)),
92 : : (unsigned long) K(wb_stat(wb, WB_RECLAIMABLE)),
93 : : K(wb_thresh),
94 : : K(dirty_thresh),
95 : : K(background_thresh),
96 : : (unsigned long) K(wb_stat(wb, WB_DIRTIED)),
97 : : (unsigned long) K(wb_stat(wb, WB_WRITTEN)),
98 : 0 : (unsigned long) K(wb->write_bandwidth),
99 : : nr_dirty,
100 : : nr_io,
101 : : nr_more_io,
102 : : nr_dirty_time,
103 : 0 : !list_empty(&bdi->bdi_list), bdi->wb.state);
104 : : #undef K
105 : :
106 : 0 : return 0;
107 : : }
108 : 0 : DEFINE_SHOW_ATTRIBUTE(bdi_debug_stats);
109 : :
110 : 3 : static void bdi_debug_register(struct backing_dev_info *bdi, const char *name)
111 : : {
112 : 3 : bdi->debug_dir = debugfs_create_dir(name, bdi_debug_root);
113 : :
114 : 3 : debugfs_create_file("stats", 0444, bdi->debug_dir, bdi,
115 : : &bdi_debug_stats_fops);
116 : 3 : }
117 : :
118 : : static void bdi_debug_unregister(struct backing_dev_info *bdi)
119 : : {
120 : 0 : debugfs_remove_recursive(bdi->debug_dir);
121 : : }
122 : : #else
123 : : static inline void bdi_debug_init(void)
124 : : {
125 : : }
126 : : static inline void bdi_debug_register(struct backing_dev_info *bdi,
127 : : const char *name)
128 : : {
129 : : }
130 : : static inline void bdi_debug_unregister(struct backing_dev_info *bdi)
131 : : {
132 : : }
133 : : #endif
134 : :
135 : 0 : static ssize_t read_ahead_kb_store(struct device *dev,
136 : : struct device_attribute *attr,
137 : : const char *buf, size_t count)
138 : : {
139 : : struct backing_dev_info *bdi = dev_get_drvdata(dev);
140 : : unsigned long read_ahead_kb;
141 : : ssize_t ret;
142 : :
143 : : ret = kstrtoul(buf, 10, &read_ahead_kb);
144 : 0 : if (ret < 0)
145 : : return ret;
146 : :
147 : 0 : bdi->ra_pages = read_ahead_kb >> (PAGE_SHIFT - 10);
148 : :
149 : 0 : return count;
150 : : }
151 : :
152 : : #define K(pages) ((pages) << (PAGE_SHIFT - 10))
153 : :
154 : : #define BDI_SHOW(name, expr) \
155 : : static ssize_t name##_show(struct device *dev, \
156 : : struct device_attribute *attr, char *page) \
157 : : { \
158 : : struct backing_dev_info *bdi = dev_get_drvdata(dev); \
159 : : \
160 : : return snprintf(page, PAGE_SIZE-1, "%lld\n", (long long)expr); \
161 : : } \
162 : : static DEVICE_ATTR_RW(name);
163 : :
164 : 0 : BDI_SHOW(read_ahead_kb, K(bdi->ra_pages))
165 : :
166 : 0 : static ssize_t min_ratio_store(struct device *dev,
167 : : struct device_attribute *attr, const char *buf, size_t count)
168 : : {
169 : : struct backing_dev_info *bdi = dev_get_drvdata(dev);
170 : : unsigned int ratio;
171 : : ssize_t ret;
172 : :
173 : 0 : ret = kstrtouint(buf, 10, &ratio);
174 : 0 : if (ret < 0)
175 : : return ret;
176 : :
177 : 0 : ret = bdi_set_min_ratio(bdi, ratio);
178 : 0 : if (!ret)
179 : 0 : ret = count;
180 : :
181 : 0 : return ret;
182 : : }
183 : 0 : BDI_SHOW(min_ratio, bdi->min_ratio)
184 : :
185 : 0 : static ssize_t max_ratio_store(struct device *dev,
186 : : struct device_attribute *attr, const char *buf, size_t count)
187 : : {
188 : : struct backing_dev_info *bdi = dev_get_drvdata(dev);
189 : : unsigned int ratio;
190 : : ssize_t ret;
191 : :
192 : 0 : ret = kstrtouint(buf, 10, &ratio);
193 : 0 : if (ret < 0)
194 : : return ret;
195 : :
196 : 0 : ret = bdi_set_max_ratio(bdi, ratio);
197 : 0 : if (!ret)
198 : 0 : ret = count;
199 : :
200 : 0 : return ret;
201 : : }
202 : 0 : BDI_SHOW(max_ratio, bdi->max_ratio)
203 : :
204 : 0 : static ssize_t stable_pages_required_show(struct device *dev,
205 : : struct device_attribute *attr,
206 : : char *page)
207 : : {
208 : : struct backing_dev_info *bdi = dev_get_drvdata(dev);
209 : :
210 : 0 : return snprintf(page, PAGE_SIZE-1, "%d\n",
211 : : bdi_cap_stable_pages_required(bdi) ? 1 : 0);
212 : : }
213 : : static DEVICE_ATTR_RO(stable_pages_required);
214 : :
215 : : static struct attribute *bdi_dev_attrs[] = {
216 : : &dev_attr_read_ahead_kb.attr,
217 : : &dev_attr_min_ratio.attr,
218 : : &dev_attr_max_ratio.attr,
219 : : &dev_attr_stable_pages_required.attr,
220 : : NULL,
221 : : };
222 : : ATTRIBUTE_GROUPS(bdi_dev);
223 : :
224 : 3 : static __init int bdi_class_init(void)
225 : : {
226 : 3 : bdi_class = class_create(THIS_MODULE, "bdi");
227 : 3 : if (IS_ERR(bdi_class))
228 : 0 : return PTR_ERR(bdi_class);
229 : :
230 : 3 : bdi_class->dev_groups = bdi_dev_groups;
231 : : bdi_debug_init();
232 : :
233 : 3 : return 0;
234 : : }
235 : : postcore_initcall(bdi_class_init);
236 : :
237 : : static int bdi_init(struct backing_dev_info *bdi);
238 : :
239 : 3 : static int __init default_bdi_init(void)
240 : : {
241 : : int err;
242 : :
243 : 3 : bdi_wq = alloc_workqueue("writeback", WQ_MEM_RECLAIM | WQ_UNBOUND |
244 : : WQ_SYSFS, 0);
245 : 3 : if (!bdi_wq)
246 : : return -ENOMEM;
247 : :
248 : 3 : err = bdi_init(&noop_backing_dev_info);
249 : :
250 : 3 : return err;
251 : : }
252 : : subsys_initcall(default_bdi_init);
253 : :
254 : : /*
255 : : * This function is used when the first inode for this wb is marked dirty. It
256 : : * wakes-up the corresponding bdi thread which should then take care of the
257 : : * periodic background write-out of dirty inodes. Since the write-out would
258 : : * starts only 'dirty_writeback_interval' centisecs from now anyway, we just
259 : : * set up a timer which wakes the bdi thread up later.
260 : : *
261 : : * Note, we wouldn't bother setting up the timer, but this function is on the
262 : : * fast-path (used by '__mark_inode_dirty()'), so we save few context switches
263 : : * by delaying the wake-up.
264 : : *
265 : : * We have to be careful not to postpone flush work if it is scheduled for
266 : : * earlier. Thus we use queue_delayed_work().
267 : : */
268 : 3 : void wb_wakeup_delayed(struct bdi_writeback *wb)
269 : : {
270 : : unsigned long timeout;
271 : :
272 : 3 : timeout = msecs_to_jiffies(dirty_writeback_interval * 10);
273 : : spin_lock_bh(&wb->work_lock);
274 : 3 : if (test_bit(WB_registered, &wb->state))
275 : 3 : queue_delayed_work(bdi_wq, &wb->dwork, timeout);
276 : : spin_unlock_bh(&wb->work_lock);
277 : 3 : }
278 : :
279 : : /*
280 : : * Initial write bandwidth: 100 MB/s
281 : : */
282 : : #define INIT_BW (100 << (20 - PAGE_SHIFT))
283 : :
284 : 3 : static int wb_init(struct bdi_writeback *wb, struct backing_dev_info *bdi,
285 : : int blkcg_id, gfp_t gfp)
286 : : {
287 : : int i, err;
288 : :
289 : 3 : memset(wb, 0, sizeof(*wb));
290 : :
291 : 3 : if (wb != &bdi->wb)
292 : : bdi_get(bdi);
293 : 3 : wb->bdi = bdi;
294 : 3 : wb->last_old_flush = jiffies;
295 : 3 : INIT_LIST_HEAD(&wb->b_dirty);
296 : 3 : INIT_LIST_HEAD(&wb->b_io);
297 : 3 : INIT_LIST_HEAD(&wb->b_more_io);
298 : 3 : INIT_LIST_HEAD(&wb->b_dirty_time);
299 : 3 : spin_lock_init(&wb->list_lock);
300 : :
301 : 3 : wb->bw_time_stamp = jiffies;
302 : 3 : wb->balanced_dirty_ratelimit = INIT_BW;
303 : 3 : wb->dirty_ratelimit = INIT_BW;
304 : 3 : wb->write_bandwidth = INIT_BW;
305 : 3 : wb->avg_write_bandwidth = INIT_BW;
306 : :
307 : 3 : spin_lock_init(&wb->work_lock);
308 : 3 : INIT_LIST_HEAD(&wb->work_list);
309 : 3 : INIT_DELAYED_WORK(&wb->dwork, wb_workfn);
310 : 3 : wb->dirty_sleep = jiffies;
311 : :
312 : 3 : wb->congested = wb_congested_get_create(bdi, blkcg_id, gfp);
313 : 3 : if (!wb->congested) {
314 : : err = -ENOMEM;
315 : : goto out_put_bdi;
316 : : }
317 : :
318 : 3 : err = fprop_local_init_percpu(&wb->completions, gfp);
319 : 3 : if (err)
320 : : goto out_put_cong;
321 : :
322 : 3 : for (i = 0; i < NR_WB_STAT_ITEMS; i++) {
323 : 3 : err = percpu_counter_init(&wb->stat[i], 0, gfp);
324 : 3 : if (err)
325 : : goto out_destroy_stat;
326 : : }
327 : :
328 : : return 0;
329 : :
330 : : out_destroy_stat:
331 : 0 : while (i--)
332 : 0 : percpu_counter_destroy(&wb->stat[i]);
333 : 0 : fprop_local_destroy_percpu(&wb->completions);
334 : : out_put_cong:
335 : 0 : wb_congested_put(wb->congested);
336 : : out_put_bdi:
337 : 0 : if (wb != &bdi->wb)
338 : : bdi_put(bdi);
339 : 0 : return err;
340 : : }
341 : :
342 : : static void cgwb_remove_from_bdi_list(struct bdi_writeback *wb);
343 : :
344 : : /*
345 : : * Remove bdi from the global list and shutdown any threads we have running
346 : : */
347 : 0 : static void wb_shutdown(struct bdi_writeback *wb)
348 : : {
349 : : /* Make sure nobody queues further work */
350 : : spin_lock_bh(&wb->work_lock);
351 : 0 : if (!test_and_clear_bit(WB_registered, &wb->state)) {
352 : : spin_unlock_bh(&wb->work_lock);
353 : 0 : return;
354 : : }
355 : : spin_unlock_bh(&wb->work_lock);
356 : :
357 : 0 : cgwb_remove_from_bdi_list(wb);
358 : : /*
359 : : * Drain work list and shutdown the delayed_work. !WB_registered
360 : : * tells wb_workfn() that @wb is dying and its work_list needs to
361 : : * be drained no matter what.
362 : : */
363 : 0 : mod_delayed_work(bdi_wq, &wb->dwork, 0);
364 : 0 : flush_delayed_work(&wb->dwork);
365 : 0 : WARN_ON(!list_empty(&wb->work_list));
366 : : }
367 : :
368 : 0 : static void wb_exit(struct bdi_writeback *wb)
369 : : {
370 : : int i;
371 : :
372 : 0 : WARN_ON(delayed_work_pending(&wb->dwork));
373 : :
374 : 0 : for (i = 0; i < NR_WB_STAT_ITEMS; i++)
375 : 0 : percpu_counter_destroy(&wb->stat[i]);
376 : :
377 : 0 : fprop_local_destroy_percpu(&wb->completions);
378 : 0 : wb_congested_put(wb->congested);
379 : 0 : if (wb != &wb->bdi->wb)
380 : : bdi_put(wb->bdi);
381 : 0 : }
382 : :
383 : : #ifdef CONFIG_CGROUP_WRITEBACK
384 : :
385 : : #include <linux/memcontrol.h>
386 : :
387 : : /*
388 : : * cgwb_lock protects bdi->cgwb_tree, bdi->cgwb_congested_tree,
389 : : * blkcg->cgwb_list, and memcg->cgwb_list. bdi->cgwb_tree is also RCU
390 : : * protected.
391 : : */
392 : : static DEFINE_SPINLOCK(cgwb_lock);
393 : : static struct workqueue_struct *cgwb_release_wq;
394 : :
395 : : /**
396 : : * wb_congested_get_create - get or create a wb_congested
397 : : * @bdi: associated bdi
398 : : * @blkcg_id: ID of the associated blkcg
399 : : * @gfp: allocation mask
400 : : *
401 : : * Look up the wb_congested for @blkcg_id on @bdi. If missing, create one.
402 : : * The returned wb_congested has its reference count incremented. Returns
403 : : * NULL on failure.
404 : : */
405 : : struct bdi_writeback_congested *
406 : 3 : wb_congested_get_create(struct backing_dev_info *bdi, int blkcg_id, gfp_t gfp)
407 : : {
408 : : struct bdi_writeback_congested *new_congested = NULL, *congested;
409 : : struct rb_node **node, *parent;
410 : : unsigned long flags;
411 : : retry:
412 : 3 : spin_lock_irqsave(&cgwb_lock, flags);
413 : :
414 : 3 : node = &bdi->cgwb_congested_tree.rb_node;
415 : : parent = NULL;
416 : :
417 : 3 : while (*node != NULL) {
418 : : parent = *node;
419 : 3 : congested = rb_entry(parent, struct bdi_writeback_congested,
420 : : rb_node);
421 : 3 : if (congested->blkcg_id < blkcg_id)
422 : 0 : node = &parent->rb_left;
423 : 3 : else if (congested->blkcg_id > blkcg_id)
424 : 0 : node = &parent->rb_right;
425 : : else
426 : : goto found;
427 : : }
428 : :
429 : 3 : if (new_congested) {
430 : : /* !found and storage for new one already allocated, insert */
431 : 3 : congested = new_congested;
432 : 3 : rb_link_node(&congested->rb_node, parent, node);
433 : 3 : rb_insert_color(&congested->rb_node, &bdi->cgwb_congested_tree);
434 : : spin_unlock_irqrestore(&cgwb_lock, flags);
435 : 3 : return congested;
436 : : }
437 : :
438 : : spin_unlock_irqrestore(&cgwb_lock, flags);
439 : :
440 : : /* allocate storage for new one and retry */
441 : 3 : new_congested = kzalloc(sizeof(*new_congested), gfp);
442 : 3 : if (!new_congested)
443 : : return NULL;
444 : :
445 : : refcount_set(&new_congested->refcnt, 1);
446 : 3 : new_congested->__bdi = bdi;
447 : 3 : new_congested->blkcg_id = blkcg_id;
448 : 3 : goto retry;
449 : :
450 : : found:
451 : 3 : refcount_inc(&congested->refcnt);
452 : : spin_unlock_irqrestore(&cgwb_lock, flags);
453 : 3 : kfree(new_congested);
454 : 3 : return congested;
455 : : }
456 : :
457 : : /**
458 : : * wb_congested_put - put a wb_congested
459 : : * @congested: wb_congested to put
460 : : *
461 : : * Put @congested and destroy it if the refcnt reaches zero.
462 : : */
463 : 0 : void wb_congested_put(struct bdi_writeback_congested *congested)
464 : : {
465 : : unsigned long flags;
466 : :
467 : 0 : if (!refcount_dec_and_lock_irqsave(&congested->refcnt, &cgwb_lock, &flags))
468 : 0 : return;
469 : :
470 : : /* bdi might already have been destroyed leaving @congested unlinked */
471 : 0 : if (congested->__bdi) {
472 : 0 : rb_erase(&congested->rb_node,
473 : : &congested->__bdi->cgwb_congested_tree);
474 : 0 : congested->__bdi = NULL;
475 : : }
476 : :
477 : 0 : spin_unlock_irqrestore(&cgwb_lock, flags);
478 : 0 : kfree(congested);
479 : : }
480 : :
481 : 0 : static void cgwb_release_workfn(struct work_struct *work)
482 : : {
483 : 0 : struct bdi_writeback *wb = container_of(work, struct bdi_writeback,
484 : : release_work);
485 : 0 : struct blkcg *blkcg = css_to_blkcg(wb->blkcg_css);
486 : :
487 : 0 : mutex_lock(&wb->bdi->cgwb_release_mutex);
488 : 0 : wb_shutdown(wb);
489 : :
490 : 0 : css_put(wb->memcg_css);
491 : 0 : css_put(wb->blkcg_css);
492 : 0 : mutex_unlock(&wb->bdi->cgwb_release_mutex);
493 : :
494 : : /* triggers blkg destruction if cgwb_refcnt becomes zero */
495 : 0 : blkcg_cgwb_put(blkcg);
496 : :
497 : 0 : fprop_local_destroy_percpu(&wb->memcg_completions);
498 : 0 : percpu_ref_exit(&wb->refcnt);
499 : 0 : wb_exit(wb);
500 : 0 : kfree_rcu(wb, rcu);
501 : 0 : }
502 : :
503 : 0 : static void cgwb_release(struct percpu_ref *refcnt)
504 : : {
505 : : struct bdi_writeback *wb = container_of(refcnt, struct bdi_writeback,
506 : : refcnt);
507 : 0 : queue_work(cgwb_release_wq, &wb->release_work);
508 : 0 : }
509 : :
510 : 0 : static void cgwb_kill(struct bdi_writeback *wb)
511 : : {
512 : : lockdep_assert_held(&cgwb_lock);
513 : :
514 : 0 : WARN_ON(!radix_tree_delete(&wb->bdi->cgwb_tree, wb->memcg_css->id));
515 : : list_del(&wb->memcg_node);
516 : : list_del(&wb->blkcg_node);
517 : 0 : percpu_ref_kill(&wb->refcnt);
518 : 0 : }
519 : :
520 : 0 : static void cgwb_remove_from_bdi_list(struct bdi_writeback *wb)
521 : : {
522 : : spin_lock_irq(&cgwb_lock);
523 : : list_del_rcu(&wb->bdi_node);
524 : : spin_unlock_irq(&cgwb_lock);
525 : 0 : }
526 : :
527 : 0 : static int cgwb_create(struct backing_dev_info *bdi,
528 : : struct cgroup_subsys_state *memcg_css, gfp_t gfp)
529 : : {
530 : : struct mem_cgroup *memcg;
531 : : struct cgroup_subsys_state *blkcg_css;
532 : : struct blkcg *blkcg;
533 : : struct list_head *memcg_cgwb_list, *blkcg_cgwb_list;
534 : : struct bdi_writeback *wb;
535 : : unsigned long flags;
536 : : int ret = 0;
537 : :
538 : : memcg = mem_cgroup_from_css(memcg_css);
539 : 0 : blkcg_css = cgroup_get_e_css(memcg_css->cgroup, &io_cgrp_subsys);
540 : : blkcg = css_to_blkcg(blkcg_css);
541 : 0 : memcg_cgwb_list = &memcg->cgwb_list;
542 : 0 : blkcg_cgwb_list = &blkcg->cgwb_list;
543 : :
544 : : /* look up again under lock and discard on blkcg mismatch */
545 : 0 : spin_lock_irqsave(&cgwb_lock, flags);
546 : 0 : wb = radix_tree_lookup(&bdi->cgwb_tree, memcg_css->id);
547 : 0 : if (wb && wb->blkcg_css != blkcg_css) {
548 : 0 : cgwb_kill(wb);
549 : : wb = NULL;
550 : : }
551 : : spin_unlock_irqrestore(&cgwb_lock, flags);
552 : 0 : if (wb)
553 : : goto out_put;
554 : :
555 : : /* need to create a new one */
556 : : wb = kmalloc(sizeof(*wb), gfp);
557 : 0 : if (!wb) {
558 : : ret = -ENOMEM;
559 : : goto out_put;
560 : : }
561 : :
562 : 0 : ret = wb_init(wb, bdi, blkcg_css->id, gfp);
563 : 0 : if (ret)
564 : : goto err_free;
565 : :
566 : 0 : ret = percpu_ref_init(&wb->refcnt, cgwb_release, 0, gfp);
567 : 0 : if (ret)
568 : : goto err_wb_exit;
569 : :
570 : 0 : ret = fprop_local_init_percpu(&wb->memcg_completions, gfp);
571 : 0 : if (ret)
572 : : goto err_ref_exit;
573 : :
574 : 0 : wb->memcg_css = memcg_css;
575 : 0 : wb->blkcg_css = blkcg_css;
576 : 0 : INIT_WORK(&wb->release_work, cgwb_release_workfn);
577 : 0 : set_bit(WB_registered, &wb->state);
578 : :
579 : : /*
580 : : * The root wb determines the registered state of the whole bdi and
581 : : * memcg_cgwb_list and blkcg_cgwb_list's next pointers indicate
582 : : * whether they're still online. Don't link @wb if any is dead.
583 : : * See wb_memcg_offline() and wb_blkcg_offline().
584 : : */
585 : : ret = -ENODEV;
586 : 0 : spin_lock_irqsave(&cgwb_lock, flags);
587 : 0 : if (test_bit(WB_registered, &bdi->wb.state) &&
588 : 0 : blkcg_cgwb_list->next && memcg_cgwb_list->next) {
589 : : /* we might have raced another instance of this function */
590 : 0 : ret = radix_tree_insert(&bdi->cgwb_tree, memcg_css->id, wb);
591 : 0 : if (!ret) {
592 : 0 : list_add_tail_rcu(&wb->bdi_node, &bdi->wb_list);
593 : 0 : list_add(&wb->memcg_node, memcg_cgwb_list);
594 : 0 : list_add(&wb->blkcg_node, blkcg_cgwb_list);
595 : : blkcg_cgwb_get(blkcg);
596 : : css_get(memcg_css);
597 : : css_get(blkcg_css);
598 : : }
599 : : }
600 : : spin_unlock_irqrestore(&cgwb_lock, flags);
601 : 0 : if (ret) {
602 : 0 : if (ret == -EEXIST)
603 : : ret = 0;
604 : : goto err_fprop_exit;
605 : : }
606 : : goto out_put;
607 : :
608 : : err_fprop_exit:
609 : 0 : fprop_local_destroy_percpu(&wb->memcg_completions);
610 : : err_ref_exit:
611 : 0 : percpu_ref_exit(&wb->refcnt);
612 : : err_wb_exit:
613 : 0 : wb_exit(wb);
614 : : err_free:
615 : 0 : kfree(wb);
616 : : out_put:
617 : : css_put(blkcg_css);
618 : 0 : return ret;
619 : : }
620 : :
621 : : /**
622 : : * wb_get_lookup - get wb for a given memcg
623 : : * @bdi: target bdi
624 : : * @memcg_css: cgroup_subsys_state of the target memcg (must have positive ref)
625 : : *
626 : : * Try to get the wb for @memcg_css on @bdi. The returned wb has its
627 : : * refcount incremented.
628 : : *
629 : : * This function uses css_get() on @memcg_css and thus expects its refcnt
630 : : * to be positive on invocation. IOW, rcu_read_lock() protection on
631 : : * @memcg_css isn't enough. try_get it before calling this function.
632 : : *
633 : : * A wb is keyed by its associated memcg. As blkcg implicitly enables
634 : : * memcg on the default hierarchy, memcg association is guaranteed to be
635 : : * more specific (equal or descendant to the associated blkcg) and thus can
636 : : * identify both the memcg and blkcg associations.
637 : : *
638 : : * Because the blkcg associated with a memcg may change as blkcg is enabled
639 : : * and disabled closer to root in the hierarchy, each wb keeps track of
640 : : * both the memcg and blkcg associated with it and verifies the blkcg on
641 : : * each lookup. On mismatch, the existing wb is discarded and a new one is
642 : : * created.
643 : : */
644 : 0 : struct bdi_writeback *wb_get_lookup(struct backing_dev_info *bdi,
645 : : struct cgroup_subsys_state *memcg_css)
646 : : {
647 : : struct bdi_writeback *wb;
648 : :
649 : 0 : if (!memcg_css->parent)
650 : 0 : return &bdi->wb;
651 : :
652 : : rcu_read_lock();
653 : 0 : wb = radix_tree_lookup(&bdi->cgwb_tree, memcg_css->id);
654 : 0 : if (wb) {
655 : : struct cgroup_subsys_state *blkcg_css;
656 : :
657 : : /* see whether the blkcg association has changed */
658 : 0 : blkcg_css = cgroup_get_e_css(memcg_css->cgroup, &io_cgrp_subsys);
659 : 0 : if (unlikely(wb->blkcg_css != blkcg_css || !wb_tryget(wb)))
660 : : wb = NULL;
661 : : css_put(blkcg_css);
662 : : }
663 : : rcu_read_unlock();
664 : :
665 : 0 : return wb;
666 : : }
667 : :
668 : : /**
669 : : * wb_get_create - get wb for a given memcg, create if necessary
670 : : * @bdi: target bdi
671 : : * @memcg_css: cgroup_subsys_state of the target memcg (must have positive ref)
672 : : * @gfp: allocation mask to use
673 : : *
674 : : * Try to get the wb for @memcg_css on @bdi. If it doesn't exist, try to
675 : : * create one. See wb_get_lookup() for more details.
676 : : */
677 : 1 : struct bdi_writeback *wb_get_create(struct backing_dev_info *bdi,
678 : : struct cgroup_subsys_state *memcg_css,
679 : : gfp_t gfp)
680 : : {
681 : : struct bdi_writeback *wb;
682 : :
683 : 1 : might_sleep_if(gfpflags_allow_blocking(gfp));
684 : :
685 : 1 : if (!memcg_css->parent)
686 : 1 : return &bdi->wb;
687 : :
688 : : do {
689 : 0 : wb = wb_get_lookup(bdi, memcg_css);
690 : 0 : } while (!wb && !cgwb_create(bdi, memcg_css, gfp));
691 : :
692 : 0 : return wb;
693 : : }
694 : :
695 : 3 : static int cgwb_bdi_init(struct backing_dev_info *bdi)
696 : : {
697 : : int ret;
698 : :
699 : : INIT_RADIX_TREE(&bdi->cgwb_tree, GFP_ATOMIC);
700 : 3 : bdi->cgwb_congested_tree = RB_ROOT;
701 : 3 : mutex_init(&bdi->cgwb_release_mutex);
702 : 3 : init_rwsem(&bdi->wb_switch_rwsem);
703 : :
704 : 3 : ret = wb_init(&bdi->wb, bdi, 1, GFP_KERNEL);
705 : 3 : if (!ret) {
706 : 3 : bdi->wb.memcg_css = &root_mem_cgroup->css;
707 : 3 : bdi->wb.blkcg_css = blkcg_root_css;
708 : : }
709 : 3 : return ret;
710 : : }
711 : :
712 : 0 : static void cgwb_bdi_unregister(struct backing_dev_info *bdi)
713 : : {
714 : : struct radix_tree_iter iter;
715 : : void **slot;
716 : : struct bdi_writeback *wb;
717 : :
718 : 0 : WARN_ON(test_bit(WB_registered, &bdi->wb.state));
719 : :
720 : : spin_lock_irq(&cgwb_lock);
721 : 0 : radix_tree_for_each_slot(slot, &bdi->cgwb_tree, &iter, 0)
722 : 0 : cgwb_kill(*slot);
723 : : spin_unlock_irq(&cgwb_lock);
724 : :
725 : 0 : mutex_lock(&bdi->cgwb_release_mutex);
726 : : spin_lock_irq(&cgwb_lock);
727 : 0 : while (!list_empty(&bdi->wb_list)) {
728 : 0 : wb = list_first_entry(&bdi->wb_list, struct bdi_writeback,
729 : : bdi_node);
730 : : spin_unlock_irq(&cgwb_lock);
731 : 0 : wb_shutdown(wb);
732 : : spin_lock_irq(&cgwb_lock);
733 : : }
734 : : spin_unlock_irq(&cgwb_lock);
735 : 0 : mutex_unlock(&bdi->cgwb_release_mutex);
736 : 0 : }
737 : :
738 : : /**
739 : : * wb_memcg_offline - kill all wb's associated with a memcg being offlined
740 : : * @memcg: memcg being offlined
741 : : *
742 : : * Also prevents creation of any new wb's associated with @memcg.
743 : : */
744 : 0 : void wb_memcg_offline(struct mem_cgroup *memcg)
745 : : {
746 : 0 : struct list_head *memcg_cgwb_list = &memcg->cgwb_list;
747 : : struct bdi_writeback *wb, *next;
748 : :
749 : : spin_lock_irq(&cgwb_lock);
750 : 0 : list_for_each_entry_safe(wb, next, memcg_cgwb_list, memcg_node)
751 : 0 : cgwb_kill(wb);
752 : 0 : memcg_cgwb_list->next = NULL; /* prevent new wb's */
753 : : spin_unlock_irq(&cgwb_lock);
754 : 0 : }
755 : :
756 : : /**
757 : : * wb_blkcg_offline - kill all wb's associated with a blkcg being offlined
758 : : * @blkcg: blkcg being offlined
759 : : *
760 : : * Also prevents creation of any new wb's associated with @blkcg.
761 : : */
762 : 0 : void wb_blkcg_offline(struct blkcg *blkcg)
763 : : {
764 : : struct bdi_writeback *wb, *next;
765 : :
766 : : spin_lock_irq(&cgwb_lock);
767 : 0 : list_for_each_entry_safe(wb, next, &blkcg->cgwb_list, blkcg_node)
768 : 0 : cgwb_kill(wb);
769 : 0 : blkcg->cgwb_list.next = NULL; /* prevent new wb's */
770 : : spin_unlock_irq(&cgwb_lock);
771 : 0 : }
772 : :
773 : 0 : static void cgwb_bdi_exit(struct backing_dev_info *bdi)
774 : : {
775 : : struct rb_node *rbn;
776 : :
777 : : spin_lock_irq(&cgwb_lock);
778 : 0 : while ((rbn = rb_first(&bdi->cgwb_congested_tree))) {
779 : : struct bdi_writeback_congested *congested =
780 : : rb_entry(rbn, struct bdi_writeback_congested, rb_node);
781 : :
782 : 0 : rb_erase(rbn, &bdi->cgwb_congested_tree);
783 : 0 : congested->__bdi = NULL; /* mark @congested unlinked */
784 : : }
785 : : spin_unlock_irq(&cgwb_lock);
786 : 0 : }
787 : :
788 : 3 : static void cgwb_bdi_register(struct backing_dev_info *bdi)
789 : : {
790 : : spin_lock_irq(&cgwb_lock);
791 : 3 : list_add_tail_rcu(&bdi->wb.bdi_node, &bdi->wb_list);
792 : : spin_unlock_irq(&cgwb_lock);
793 : 3 : }
794 : :
795 : 3 : static int __init cgwb_init(void)
796 : : {
797 : : /*
798 : : * There can be many concurrent release work items overwhelming
799 : : * system_wq. Put them in a separate wq and limit concurrency.
800 : : * There's no point in executing many of these in parallel.
801 : : */
802 : 3 : cgwb_release_wq = alloc_workqueue("cgwb_release", 0, 1);
803 : 3 : if (!cgwb_release_wq)
804 : : return -ENOMEM;
805 : :
806 : 3 : return 0;
807 : : }
808 : : subsys_initcall(cgwb_init);
809 : :
810 : : #else /* CONFIG_CGROUP_WRITEBACK */
811 : :
812 : : static int cgwb_bdi_init(struct backing_dev_info *bdi)
813 : : {
814 : : int err;
815 : :
816 : : bdi->wb_congested = kzalloc(sizeof(*bdi->wb_congested), GFP_KERNEL);
817 : : if (!bdi->wb_congested)
818 : : return -ENOMEM;
819 : :
820 : : refcount_set(&bdi->wb_congested->refcnt, 1);
821 : :
822 : : err = wb_init(&bdi->wb, bdi, 1, GFP_KERNEL);
823 : : if (err) {
824 : : wb_congested_put(bdi->wb_congested);
825 : : return err;
826 : : }
827 : : return 0;
828 : : }
829 : :
830 : : static void cgwb_bdi_unregister(struct backing_dev_info *bdi) { }
831 : :
832 : : static void cgwb_bdi_exit(struct backing_dev_info *bdi)
833 : : {
834 : : wb_congested_put(bdi->wb_congested);
835 : : }
836 : :
837 : : static void cgwb_bdi_register(struct backing_dev_info *bdi)
838 : : {
839 : : list_add_tail_rcu(&bdi->wb.bdi_node, &bdi->wb_list);
840 : : }
841 : :
842 : : static void cgwb_remove_from_bdi_list(struct bdi_writeback *wb)
843 : : {
844 : : list_del_rcu(&wb->bdi_node);
845 : : }
846 : :
847 : : #endif /* CONFIG_CGROUP_WRITEBACK */
848 : :
849 : 3 : static int bdi_init(struct backing_dev_info *bdi)
850 : : {
851 : : int ret;
852 : :
853 : 3 : bdi->dev = NULL;
854 : :
855 : : kref_init(&bdi->refcnt);
856 : 3 : bdi->min_ratio = 0;
857 : 3 : bdi->max_ratio = 100;
858 : 3 : bdi->max_prop_frac = FPROP_FRAC_BASE;
859 : 3 : INIT_LIST_HEAD(&bdi->bdi_list);
860 : 3 : INIT_LIST_HEAD(&bdi->wb_list);
861 : 3 : init_waitqueue_head(&bdi->wb_waitq);
862 : :
863 : 3 : ret = cgwb_bdi_init(bdi);
864 : :
865 : 3 : return ret;
866 : : }
867 : :
868 : 3 : struct backing_dev_info *bdi_alloc_node(gfp_t gfp_mask, int node_id)
869 : : {
870 : : struct backing_dev_info *bdi;
871 : :
872 : 3 : bdi = kmalloc_node(sizeof(struct backing_dev_info),
873 : : gfp_mask | __GFP_ZERO, node_id);
874 : 3 : if (!bdi)
875 : : return NULL;
876 : :
877 : 3 : if (bdi_init(bdi)) {
878 : 0 : kfree(bdi);
879 : 0 : return NULL;
880 : : }
881 : : return bdi;
882 : : }
883 : : EXPORT_SYMBOL(bdi_alloc_node);
884 : :
885 : : static struct rb_node **bdi_lookup_rb_node(u64 id, struct rb_node **parentp)
886 : : {
887 : : struct rb_node **p = &bdi_tree.rb_node;
888 : : struct rb_node *parent = NULL;
889 : : struct backing_dev_info *bdi;
890 : :
891 : : lockdep_assert_held(&bdi_lock);
892 : :
893 : 3 : while (*p) {
894 : : parent = *p;
895 : : bdi = rb_entry(parent, struct backing_dev_info, rb_node);
896 : :
897 : 3 : if (bdi->id > id)
898 : 0 : p = &(*p)->rb_left;
899 : 3 : else if (bdi->id < id)
900 : 3 : p = &(*p)->rb_right;
901 : : else
902 : : break;
903 : : }
904 : :
905 : : if (parentp)
906 : : *parentp = parent;
907 : 3 : return p;
908 : : }
909 : :
910 : : /**
911 : : * bdi_get_by_id - lookup and get bdi from its id
912 : : * @id: bdi id to lookup
913 : : *
914 : : * Find bdi matching @id and get it. Returns NULL if the matching bdi
915 : : * doesn't exist or is already unregistered.
916 : : */
917 : 0 : struct backing_dev_info *bdi_get_by_id(u64 id)
918 : : {
919 : : struct backing_dev_info *bdi = NULL;
920 : : struct rb_node **p;
921 : :
922 : : spin_lock_bh(&bdi_lock);
923 : : p = bdi_lookup_rb_node(id, NULL);
924 : 0 : if (*p) {
925 : 0 : bdi = rb_entry(*p, struct backing_dev_info, rb_node);
926 : : bdi_get(bdi);
927 : : }
928 : : spin_unlock_bh(&bdi_lock);
929 : :
930 : 0 : return bdi;
931 : : }
932 : :
933 : 3 : int bdi_register_va(struct backing_dev_info *bdi, const char *fmt, va_list args)
934 : : {
935 : : struct device *dev;
936 : : struct rb_node *parent, **p;
937 : :
938 : 3 : if (bdi->dev) /* The driver needs to use separate queues per device */
939 : : return 0;
940 : :
941 : 3 : vsnprintf(bdi->dev_name, sizeof(bdi->dev_name), fmt, args);
942 : 3 : dev = device_create(bdi_class, NULL, MKDEV(0, 0), bdi, bdi->dev_name);
943 : 3 : if (IS_ERR(dev))
944 : 0 : return PTR_ERR(dev);
945 : :
946 : 3 : cgwb_bdi_register(bdi);
947 : 3 : bdi->dev = dev;
948 : :
949 : 3 : bdi_debug_register(bdi, dev_name(dev));
950 : 3 : set_bit(WB_registered, &bdi->wb.state);
951 : :
952 : : spin_lock_bh(&bdi_lock);
953 : :
954 : 3 : bdi->id = ++bdi_id_cursor;
955 : :
956 : : p = bdi_lookup_rb_node(bdi->id, &parent);
957 : 3 : rb_link_node(&bdi->rb_node, parent, p);
958 : 3 : rb_insert_color(&bdi->rb_node, &bdi_tree);
959 : :
960 : 3 : list_add_tail_rcu(&bdi->bdi_list, &bdi_list);
961 : :
962 : : spin_unlock_bh(&bdi_lock);
963 : :
964 : 3 : trace_writeback_bdi_register(bdi);
965 : 3 : return 0;
966 : : }
967 : : EXPORT_SYMBOL(bdi_register_va);
968 : :
969 : 3 : int bdi_register(struct backing_dev_info *bdi, const char *fmt, ...)
970 : : {
971 : : va_list args;
972 : : int ret;
973 : :
974 : 3 : va_start(args, fmt);
975 : 3 : ret = bdi_register_va(bdi, fmt, args);
976 : 3 : va_end(args);
977 : 3 : return ret;
978 : : }
979 : : EXPORT_SYMBOL(bdi_register);
980 : :
981 : 3 : int bdi_register_owner(struct backing_dev_info *bdi, struct device *owner)
982 : : {
983 : : int rc;
984 : :
985 : 3 : rc = bdi_register(bdi, "%u:%u", MAJOR(owner->devt), MINOR(owner->devt));
986 : 3 : if (rc)
987 : : return rc;
988 : : /* Leaking owner reference... */
989 : 3 : WARN_ON(bdi->owner);
990 : 3 : bdi->owner = owner;
991 : 3 : get_device(owner);
992 : 3 : return 0;
993 : : }
994 : : EXPORT_SYMBOL(bdi_register_owner);
995 : :
996 : : /*
997 : : * Remove bdi from bdi_list, and ensure that it is no longer visible
998 : : */
999 : 0 : static void bdi_remove_from_list(struct backing_dev_info *bdi)
1000 : : {
1001 : : spin_lock_bh(&bdi_lock);
1002 : 0 : rb_erase(&bdi->rb_node, &bdi_tree);
1003 : : list_del_rcu(&bdi->bdi_list);
1004 : : spin_unlock_bh(&bdi_lock);
1005 : :
1006 : 0 : synchronize_rcu_expedited();
1007 : 0 : }
1008 : :
1009 : 0 : void bdi_unregister(struct backing_dev_info *bdi)
1010 : : {
1011 : : /* make sure nobody finds us on the bdi_list anymore */
1012 : 0 : bdi_remove_from_list(bdi);
1013 : 0 : wb_shutdown(&bdi->wb);
1014 : 0 : cgwb_bdi_unregister(bdi);
1015 : :
1016 : 0 : if (bdi->dev) {
1017 : : bdi_debug_unregister(bdi);
1018 : 0 : device_unregister(bdi->dev);
1019 : 0 : bdi->dev = NULL;
1020 : : }
1021 : :
1022 : 0 : if (bdi->owner) {
1023 : 0 : put_device(bdi->owner);
1024 : 0 : bdi->owner = NULL;
1025 : : }
1026 : 0 : }
1027 : :
1028 : 0 : static void release_bdi(struct kref *ref)
1029 : : {
1030 : : struct backing_dev_info *bdi =
1031 : 0 : container_of(ref, struct backing_dev_info, refcnt);
1032 : :
1033 : 0 : if (test_bit(WB_registered, &bdi->wb.state))
1034 : 0 : bdi_unregister(bdi);
1035 : 0 : WARN_ON_ONCE(bdi->dev);
1036 : 0 : wb_exit(&bdi->wb);
1037 : 0 : cgwb_bdi_exit(bdi);
1038 : 0 : kfree(bdi);
1039 : 0 : }
1040 : :
1041 : 3 : void bdi_put(struct backing_dev_info *bdi)
1042 : : {
1043 : 3 : kref_put(&bdi->refcnt, release_bdi);
1044 : 3 : }
1045 : : EXPORT_SYMBOL(bdi_put);
1046 : :
1047 : 3 : const char *bdi_dev_name(struct backing_dev_info *bdi)
1048 : : {
1049 : 3 : if (!bdi || !bdi->dev)
1050 : 0 : return bdi_unknown_name;
1051 : 3 : return bdi->dev_name;
1052 : : }
1053 : : EXPORT_SYMBOL_GPL(bdi_dev_name);
1054 : :
1055 : : static wait_queue_head_t congestion_wqh[2] = {
1056 : : __WAIT_QUEUE_HEAD_INITIALIZER(congestion_wqh[0]),
1057 : : __WAIT_QUEUE_HEAD_INITIALIZER(congestion_wqh[1])
1058 : : };
1059 : : static atomic_t nr_wb_congested[2];
1060 : :
1061 : 0 : void clear_wb_congested(struct bdi_writeback_congested *congested, int sync)
1062 : : {
1063 : 0 : wait_queue_head_t *wqh = &congestion_wqh[sync];
1064 : : enum wb_congested_state bit;
1065 : :
1066 : 0 : bit = sync ? WB_sync_congested : WB_async_congested;
1067 : 0 : if (test_and_clear_bit(bit, &congested->state))
1068 : 0 : atomic_dec(&nr_wb_congested[sync]);
1069 : 0 : smp_mb__after_atomic();
1070 : 0 : if (waitqueue_active(wqh))
1071 : 0 : wake_up(wqh);
1072 : 0 : }
1073 : : EXPORT_SYMBOL(clear_wb_congested);
1074 : :
1075 : 0 : void set_wb_congested(struct bdi_writeback_congested *congested, int sync)
1076 : : {
1077 : : enum wb_congested_state bit;
1078 : :
1079 : 0 : bit = sync ? WB_sync_congested : WB_async_congested;
1080 : 0 : if (!test_and_set_bit(bit, &congested->state))
1081 : 0 : atomic_inc(&nr_wb_congested[sync]);
1082 : 0 : }
1083 : : EXPORT_SYMBOL(set_wb_congested);
1084 : :
1085 : : /**
1086 : : * congestion_wait - wait for a backing_dev to become uncongested
1087 : : * @sync: SYNC or ASYNC IO
1088 : : * @timeout: timeout in jiffies
1089 : : *
1090 : : * Waits for up to @timeout jiffies for a backing_dev (any backing_dev) to exit
1091 : : * write congestion. If no backing_devs are congested then just wait for the
1092 : : * next write to be completed.
1093 : : */
1094 : 0 : long congestion_wait(int sync, long timeout)
1095 : : {
1096 : : long ret;
1097 : 0 : unsigned long start = jiffies;
1098 : 0 : DEFINE_WAIT(wait);
1099 : 0 : wait_queue_head_t *wqh = &congestion_wqh[sync];
1100 : :
1101 : 0 : prepare_to_wait(wqh, &wait, TASK_UNINTERRUPTIBLE);
1102 : 0 : ret = io_schedule_timeout(timeout);
1103 : 0 : finish_wait(wqh, &wait);
1104 : :
1105 : 0 : trace_writeback_congestion_wait(jiffies_to_usecs(timeout),
1106 : : jiffies_to_usecs(jiffies - start));
1107 : :
1108 : 0 : return ret;
1109 : : }
1110 : : EXPORT_SYMBOL(congestion_wait);
1111 : :
1112 : : /**
1113 : : * wait_iff_congested - Conditionally wait for a backing_dev to become uncongested or a pgdat to complete writes
1114 : : * @sync: SYNC or ASYNC IO
1115 : : * @timeout: timeout in jiffies
1116 : : *
1117 : : * In the event of a congested backing_dev (any backing_dev) this waits
1118 : : * for up to @timeout jiffies for either a BDI to exit congestion of the
1119 : : * given @sync queue or a write to complete.
1120 : : *
1121 : : * The return value is 0 if the sleep is for the full timeout. Otherwise,
1122 : : * it is the number of jiffies that were still remaining when the function
1123 : : * returned. return_value == timeout implies the function did not sleep.
1124 : : */
1125 : 0 : long wait_iff_congested(int sync, long timeout)
1126 : : {
1127 : : long ret;
1128 : 0 : unsigned long start = jiffies;
1129 : 0 : DEFINE_WAIT(wait);
1130 : 0 : wait_queue_head_t *wqh = &congestion_wqh[sync];
1131 : :
1132 : : /*
1133 : : * If there is no congestion, yield if necessary instead
1134 : : * of sleeping on the congestion queue
1135 : : */
1136 : 0 : if (atomic_read(&nr_wb_congested[sync]) == 0) {
1137 : 0 : cond_resched();
1138 : :
1139 : : /* In case we scheduled, work out time remaining */
1140 : 0 : ret = timeout - (jiffies - start);
1141 : 0 : if (ret < 0)
1142 : : ret = 0;
1143 : :
1144 : : goto out;
1145 : : }
1146 : :
1147 : : /* Sleep until uncongested or a write happens */
1148 : 0 : prepare_to_wait(wqh, &wait, TASK_UNINTERRUPTIBLE);
1149 : 0 : ret = io_schedule_timeout(timeout);
1150 : 0 : finish_wait(wqh, &wait);
1151 : :
1152 : : out:
1153 : 0 : trace_writeback_wait_iff_congested(jiffies_to_usecs(timeout),
1154 : : jiffies_to_usecs(jiffies - start));
1155 : :
1156 : 0 : return ret;
1157 : : }
1158 : : EXPORT_SYMBOL(wait_iff_congested);
|