Branch data Line data Source code
1 : : /*
2 : : * Copyright (C) 2001, 2002 Sistina Software (UK) Limited.
3 : : * Copyright (C) 2004-2008 Red Hat, Inc. All rights reserved.
4 : : *
5 : : * This file is released under the GPL.
6 : : */
7 : :
8 : : #include "dm-core.h"
9 : : #include "dm-rq.h"
10 : : #include "dm-uevent.h"
11 : :
12 : : #include <linux/init.h>
13 : : #include <linux/module.h>
14 : : #include <linux/mutex.h>
15 : : #include <linux/sched/signal.h>
16 : : #include <linux/blkpg.h>
17 : : #include <linux/bio.h>
18 : : #include <linux/mempool.h>
19 : : #include <linux/dax.h>
20 : : #include <linux/slab.h>
21 : : #include <linux/idr.h>
22 : : #include <linux/uio.h>
23 : : #include <linux/hdreg.h>
24 : : #include <linux/delay.h>
25 : : #include <linux/wait.h>
26 : : #include <linux/pr.h>
27 : : #include <linux/refcount.h>
28 : :
29 : : #define DM_MSG_PREFIX "core"
30 : :
31 : : /*
32 : : * Cookies are numeric values sent with CHANGE and REMOVE
33 : : * uevents while resuming, removing or renaming the device.
34 : : */
35 : : #define DM_COOKIE_ENV_VAR_NAME "DM_COOKIE"
36 : : #define DM_COOKIE_LENGTH 24
37 : :
38 : : static const char *_name = DM_NAME;
39 : :
40 : : static unsigned int major = 0;
41 : : static unsigned int _major = 0;
42 : :
43 : : static DEFINE_IDR(_minor_idr);
44 : :
45 : : static DEFINE_SPINLOCK(_minor_lock);
46 : :
47 : : static void do_deferred_remove(struct work_struct *w);
48 : :
49 : : static DECLARE_WORK(deferred_remove_work, do_deferred_remove);
50 : :
51 : : static struct workqueue_struct *deferred_remove_workqueue;
52 : :
53 : : atomic_t dm_global_event_nr = ATOMIC_INIT(0);
54 : : DECLARE_WAIT_QUEUE_HEAD(dm_global_eventq);
55 : :
56 : 0 : void dm_issue_global_event(void)
57 : : {
58 : 0 : atomic_inc(&dm_global_event_nr);
59 : 0 : wake_up(&dm_global_eventq);
60 : 0 : }
61 : :
62 : : /*
63 : : * One of these is allocated (on-stack) per original bio.
64 : : */
65 : : struct clone_info {
66 : : struct dm_table *map;
67 : : struct bio *bio;
68 : : struct dm_io *io;
69 : : sector_t sector;
70 : : unsigned sector_count;
71 : : };
72 : :
73 : : /*
74 : : * One of these is allocated per clone bio.
75 : : */
76 : : #define DM_TIO_MAGIC 7282014
77 : : struct dm_target_io {
78 : : unsigned magic;
79 : : struct dm_io *io;
80 : : struct dm_target *ti;
81 : : unsigned target_bio_nr;
82 : : unsigned *len_ptr;
83 : : bool inside_dm_io;
84 : : struct bio clone;
85 : : };
86 : :
87 : : /*
88 : : * One of these is allocated per original bio.
89 : : * It contains the first clone used for that original.
90 : : */
91 : : #define DM_IO_MAGIC 5191977
92 : : struct dm_io {
93 : : unsigned magic;
94 : : struct mapped_device *md;
95 : : blk_status_t status;
96 : : atomic_t io_count;
97 : : struct bio *orig_bio;
98 : : unsigned long start_time;
99 : : spinlock_t endio_lock;
100 : : struct dm_stats_aux stats_aux;
101 : : /* last member of dm_target_io is 'struct bio' */
102 : : struct dm_target_io tio;
103 : : };
104 : :
105 : 0 : void *dm_per_bio_data(struct bio *bio, size_t data_size)
106 : : {
107 : 0 : struct dm_target_io *tio = container_of(bio, struct dm_target_io, clone);
108 [ # # ]: 0 : if (!tio->inside_dm_io)
109 : 0 : return (char *)bio - offsetof(struct dm_target_io, clone) - data_size;
110 : 0 : return (char *)bio - offsetof(struct dm_target_io, clone) - offsetof(struct dm_io, tio) - data_size;
111 : : }
112 : : EXPORT_SYMBOL_GPL(dm_per_bio_data);
113 : :
114 : 0 : struct bio *dm_bio_from_per_bio_data(void *data, size_t data_size)
115 : : {
116 : 0 : struct dm_io *io = (struct dm_io *)((char *)data + data_size);
117 [ # # ]: 0 : if (io->magic == DM_IO_MAGIC)
118 : 0 : return (struct bio *)((char *)io + offsetof(struct dm_io, tio) + offsetof(struct dm_target_io, clone));
119 [ # # ]: 0 : BUG_ON(io->magic != DM_TIO_MAGIC);
120 : 0 : return (struct bio *)((char *)io + offsetof(struct dm_target_io, clone));
121 : : }
122 : : EXPORT_SYMBOL_GPL(dm_bio_from_per_bio_data);
123 : :
124 : 0 : unsigned dm_bio_get_target_bio_nr(const struct bio *bio)
125 : : {
126 : 0 : return container_of(bio, struct dm_target_io, clone)->target_bio_nr;
127 : : }
128 : : EXPORT_SYMBOL_GPL(dm_bio_get_target_bio_nr);
129 : :
130 : : #define MINOR_ALLOCED ((void *)-1)
131 : :
132 : : /*
133 : : * Bits for the md->flags field.
134 : : */
135 : : #define DMF_BLOCK_IO_FOR_SUSPEND 0
136 : : #define DMF_SUSPENDED 1
137 : : #define DMF_FROZEN 2
138 : : #define DMF_FREEING 3
139 : : #define DMF_DELETING 4
140 : : #define DMF_NOFLUSH_SUSPENDING 5
141 : : #define DMF_DEFERRED_REMOVE 6
142 : : #define DMF_SUSPENDED_INTERNALLY 7
143 : :
144 : : #define DM_NUMA_NODE NUMA_NO_NODE
145 : : static int dm_numa_node = DM_NUMA_NODE;
146 : :
147 : : /*
148 : : * For mempools pre-allocation at the table loading time.
149 : : */
150 : : struct dm_md_mempools {
151 : : struct bio_set bs;
152 : : struct bio_set io_bs;
153 : : };
154 : :
155 : : struct table_device {
156 : : struct list_head list;
157 : : refcount_t count;
158 : : struct dm_dev dm_dev;
159 : : };
160 : :
161 : : /*
162 : : * Bio-based DM's mempools' reserved IOs set by the user.
163 : : */
164 : : #define RESERVED_BIO_BASED_IOS 16
165 : : static unsigned reserved_bio_based_ios = RESERVED_BIO_BASED_IOS;
166 : :
167 : 0 : static int __dm_get_module_param_int(int *module_param, int min, int max)
168 : : {
169 [ # # ]: 0 : int param = READ_ONCE(*module_param);
170 : 0 : int modified_param = 0;
171 : 0 : bool modified = true;
172 : :
173 [ # # ]: 0 : if (param < min)
174 : : modified_param = min;
175 [ # # ]: 0 : else if (param > max)
176 : : modified_param = max;
177 : : else
178 : : modified = false;
179 : :
180 : : if (modified) {
181 : 0 : (void)cmpxchg(module_param, param, modified_param);
182 : 0 : param = modified_param;
183 : : }
184 : :
185 : 0 : return param;
186 : : }
187 : :
188 : 0 : unsigned __dm_get_module_param(unsigned *module_param,
189 : : unsigned def, unsigned max)
190 : : {
191 [ # # ]: 0 : unsigned param = READ_ONCE(*module_param);
192 : 0 : unsigned modified_param = 0;
193 : :
194 [ # # ]: 0 : if (!param)
195 : : modified_param = def;
196 [ # # ]: 0 : else if (param > max)
197 : : modified_param = max;
198 : :
199 [ # # ]: 0 : if (modified_param) {
200 : 0 : (void)cmpxchg(module_param, param, modified_param);
201 : 0 : param = modified_param;
202 : : }
203 : :
204 : 0 : return param;
205 : : }
206 : :
207 : 0 : unsigned dm_get_reserved_bio_based_ios(void)
208 : : {
209 : 0 : return __dm_get_module_param(&reserved_bio_based_ios,
210 : : RESERVED_BIO_BASED_IOS, DM_RESERVED_MAX_IOS);
211 : : }
212 : : EXPORT_SYMBOL_GPL(dm_get_reserved_bio_based_ios);
213 : :
214 : 0 : static unsigned dm_get_numa_node(void)
215 : : {
216 : 0 : return __dm_get_module_param_int(&dm_numa_node,
217 : : DM_NUMA_NODE, num_online_nodes() - 1);
218 : : }
219 : :
220 : 11 : static int __init local_init(void)
221 : : {
222 : 11 : int r;
223 : :
224 : 11 : r = dm_uevent_init();
225 : 11 : if (r)
226 : : return r;
227 : :
228 : 11 : deferred_remove_workqueue = alloc_workqueue("kdmremove", WQ_UNBOUND, 1);
229 [ - + ]: 11 : if (!deferred_remove_workqueue) {
230 : 0 : r = -ENOMEM;
231 : 0 : goto out_uevent_exit;
232 : : }
233 : :
234 : 11 : _major = major;
235 : 11 : r = register_blkdev(_major, _name);
236 [ - + ]: 11 : if (r < 0)
237 : 0 : goto out_free_workqueue;
238 : :
239 [ + - ]: 11 : if (!_major)
240 : 11 : _major = r;
241 : :
242 : : return 0;
243 : :
244 : : out_free_workqueue:
245 : 0 : destroy_workqueue(deferred_remove_workqueue);
246 : : out_uevent_exit:
247 : : dm_uevent_exit();
248 : :
249 : : return r;
250 : : }
251 : :
252 : 0 : static void local_exit(void)
253 : : {
254 : 0 : flush_scheduled_work();
255 : 0 : destroy_workqueue(deferred_remove_workqueue);
256 : :
257 : 0 : unregister_blkdev(_major, _name);
258 : 0 : dm_uevent_exit();
259 : :
260 : 0 : _major = 0;
261 : :
262 : 0 : DMINFO("cleaned up");
263 : 0 : }
264 : :
265 : : static int (*_inits[])(void) __initdata = {
266 : : local_init,
267 : : dm_target_init,
268 : : dm_linear_init,
269 : : dm_stripe_init,
270 : : dm_io_init,
271 : : dm_kcopyd_init,
272 : : dm_interface_init,
273 : : dm_statistics_init,
274 : : };
275 : :
276 : : static void (*_exits[])(void) = {
277 : : local_exit,
278 : : dm_target_exit,
279 : : dm_linear_exit,
280 : : dm_stripe_exit,
281 : : dm_io_exit,
282 : : dm_kcopyd_exit,
283 : : dm_interface_exit,
284 : : dm_statistics_exit,
285 : : };
286 : :
287 : 11 : static int __init dm_init(void)
288 : : {
289 : 11 : const int count = ARRAY_SIZE(_inits);
290 : :
291 : 11 : int r, i;
292 : :
293 [ + + ]: 99 : for (i = 0; i < count; i++) {
294 : 88 : r = _inits[i]();
295 [ - + ]: 88 : if (r)
296 : 0 : goto bad;
297 : : }
298 : :
299 : : return 0;
300 : :
301 : : bad:
302 [ # # ]: 0 : while (i--)
303 : 0 : _exits[i]();
304 : :
305 : : return r;
306 : : }
307 : :
308 : 0 : static void __exit dm_exit(void)
309 : : {
310 : 0 : int i = ARRAY_SIZE(_exits);
311 : :
312 [ # # ]: 0 : while (i--)
313 : 0 : _exits[i]();
314 : :
315 : : /*
316 : : * Should be empty by this point.
317 : : */
318 : 0 : idr_destroy(&_minor_idr);
319 : 0 : }
320 : :
321 : : /*
322 : : * Block device functions
323 : : */
324 : 0 : int dm_deleting_md(struct mapped_device *md)
325 : : {
326 : 0 : return test_bit(DMF_DELETING, &md->flags);
327 : : }
328 : :
329 : 0 : static int dm_blk_open(struct block_device *bdev, fmode_t mode)
330 : : {
331 : 0 : struct mapped_device *md;
332 : :
333 : 0 : spin_lock(&_minor_lock);
334 : :
335 : 0 : md = bdev->bd_disk->private_data;
336 [ # # ]: 0 : if (!md)
337 : 0 : goto out;
338 : :
339 [ # # # # ]: 0 : if (test_bit(DMF_FREEING, &md->flags) ||
340 : : dm_deleting_md(md)) {
341 : 0 : md = NULL;
342 : 0 : goto out;
343 : : }
344 : :
345 : 0 : dm_get(md);
346 : 0 : atomic_inc(&md->open_count);
347 : 0 : out:
348 : 0 : spin_unlock(&_minor_lock);
349 : :
350 [ # # ]: 0 : return md ? 0 : -ENXIO;
351 : : }
352 : :
353 : 0 : static void dm_blk_close(struct gendisk *disk, fmode_t mode)
354 : : {
355 : 0 : struct mapped_device *md;
356 : :
357 : 0 : spin_lock(&_minor_lock);
358 : :
359 : 0 : md = disk->private_data;
360 [ # # # # ]: 0 : if (WARN_ON(!md))
361 : 0 : goto out;
362 : :
363 [ # # # # ]: 0 : if (atomic_dec_and_test(&md->open_count) &&
364 : 0 : (test_bit(DMF_DEFERRED_REMOVE, &md->flags)))
365 : 0 : queue_work(deferred_remove_workqueue, &deferred_remove_work);
366 : :
367 : 0 : dm_put(md);
368 : 0 : out:
369 : 0 : spin_unlock(&_minor_lock);
370 : 0 : }
371 : :
372 : 0 : int dm_open_count(struct mapped_device *md)
373 : : {
374 : 0 : return atomic_read(&md->open_count);
375 : : }
376 : :
377 : : /*
378 : : * Guarantees nothing is using the device before it's deleted.
379 : : */
380 : 0 : int dm_lock_for_deletion(struct mapped_device *md, bool mark_deferred, bool only_deferred)
381 : : {
382 : 0 : int r = 0;
383 : :
384 : 0 : spin_lock(&_minor_lock);
385 : :
386 [ # # ]: 0 : if (dm_open_count(md)) {
387 : 0 : r = -EBUSY;
388 [ # # ]: 0 : if (mark_deferred)
389 : 0 : set_bit(DMF_DEFERRED_REMOVE, &md->flags);
390 [ # # # # ]: 0 : } else if (only_deferred && !test_bit(DMF_DEFERRED_REMOVE, &md->flags))
391 : : r = -EEXIST;
392 : : else
393 : 0 : set_bit(DMF_DELETING, &md->flags);
394 : :
395 : 0 : spin_unlock(&_minor_lock);
396 : :
397 : 0 : return r;
398 : : }
399 : :
400 : 0 : int dm_cancel_deferred_remove(struct mapped_device *md)
401 : : {
402 : 0 : int r = 0;
403 : :
404 : 0 : spin_lock(&_minor_lock);
405 : :
406 [ # # ]: 0 : if (test_bit(DMF_DELETING, &md->flags))
407 : : r = -EBUSY;
408 : : else
409 : 0 : clear_bit(DMF_DEFERRED_REMOVE, &md->flags);
410 : :
411 : 0 : spin_unlock(&_minor_lock);
412 : :
413 : 0 : return r;
414 : : }
415 : :
416 : 0 : static void do_deferred_remove(struct work_struct *w)
417 : : {
418 : 0 : dm_deferred_remove();
419 : 0 : }
420 : :
421 : 0 : sector_t dm_get_size(struct mapped_device *md)
422 : : {
423 : 0 : return get_capacity(md->disk);
424 : : }
425 : :
426 : 0 : struct request_queue *dm_get_md_queue(struct mapped_device *md)
427 : : {
428 : 0 : return md->queue;
429 : : }
430 : :
431 : 0 : struct dm_stats *dm_get_stats(struct mapped_device *md)
432 : : {
433 : 0 : return &md->stats;
434 : : }
435 : :
436 : 0 : static int dm_blk_getgeo(struct block_device *bdev, struct hd_geometry *geo)
437 : : {
438 : 0 : struct mapped_device *md = bdev->bd_disk->private_data;
439 : :
440 : 0 : return dm_get_geometry(md, geo);
441 : : }
442 : :
443 : : #ifdef CONFIG_BLK_DEV_ZONED
444 : : int dm_report_zones_cb(struct blk_zone *zone, unsigned int idx, void *data)
445 : : {
446 : : struct dm_report_zones_args *args = data;
447 : : sector_t sector_diff = args->tgt->begin - args->start;
448 : :
449 : : /*
450 : : * Ignore zones beyond the target range.
451 : : */
452 : : if (zone->start >= args->start + args->tgt->len)
453 : : return 0;
454 : :
455 : : /*
456 : : * Remap the start sector and write pointer position of the zone
457 : : * to match its position in the target range.
458 : : */
459 : : zone->start += sector_diff;
460 : : if (zone->type != BLK_ZONE_TYPE_CONVENTIONAL) {
461 : : if (zone->cond == BLK_ZONE_COND_FULL)
462 : : zone->wp = zone->start + zone->len;
463 : : else if (zone->cond == BLK_ZONE_COND_EMPTY)
464 : : zone->wp = zone->start;
465 : : else
466 : : zone->wp += sector_diff;
467 : : }
468 : :
469 : : args->next_sector = zone->start + zone->len;
470 : : return args->orig_cb(zone, args->zone_idx++, args->orig_data);
471 : : }
472 : : EXPORT_SYMBOL_GPL(dm_report_zones_cb);
473 : :
474 : : static int dm_blk_report_zones(struct gendisk *disk, sector_t sector,
475 : : unsigned int nr_zones, report_zones_cb cb, void *data)
476 : : {
477 : : struct mapped_device *md = disk->private_data;
478 : : struct dm_table *map;
479 : : int srcu_idx, ret;
480 : : struct dm_report_zones_args args = {
481 : : .next_sector = sector,
482 : : .orig_data = data,
483 : : .orig_cb = cb,
484 : : };
485 : :
486 : : if (dm_suspended_md(md))
487 : : return -EAGAIN;
488 : :
489 : : map = dm_get_live_table(md, &srcu_idx);
490 : : if (!map)
491 : : return -EIO;
492 : :
493 : : do {
494 : : struct dm_target *tgt;
495 : :
496 : : tgt = dm_table_find_target(map, args.next_sector);
497 : : if (WARN_ON_ONCE(!tgt->type->report_zones)) {
498 : : ret = -EIO;
499 : : goto out;
500 : : }
501 : :
502 : : args.tgt = tgt;
503 : : ret = tgt->type->report_zones(tgt, &args, nr_zones);
504 : : if (ret < 0)
505 : : goto out;
506 : : } while (args.zone_idx < nr_zones &&
507 : : args.next_sector < get_capacity(disk));
508 : :
509 : : ret = args.zone_idx;
510 : : out:
511 : : dm_put_live_table(md, srcu_idx);
512 : : return ret;
513 : : }
514 : : #else
515 : : #define dm_blk_report_zones NULL
516 : : #endif /* CONFIG_BLK_DEV_ZONED */
517 : :
518 : 0 : static int dm_prepare_ioctl(struct mapped_device *md, int *srcu_idx,
519 : : struct block_device **bdev)
520 : : __acquires(md->io_barrier)
521 : : {
522 : 0 : struct dm_target *tgt;
523 : 0 : struct dm_table *map;
524 : 0 : int r;
525 : :
526 : 0 : retry:
527 : 0 : r = -ENOTTY;
528 : 0 : map = dm_get_live_table(md, srcu_idx);
529 [ # # # # ]: 0 : if (!map || !dm_table_get_size(map))
530 : 0 : return r;
531 : :
532 : : /* We only support devices that have a single target */
533 [ # # ]: 0 : if (dm_table_get_num_targets(map) != 1)
534 : : return r;
535 : :
536 : 0 : tgt = dm_table_get_target(map, 0);
537 [ # # ]: 0 : if (!tgt->type->prepare_ioctl)
538 : : return r;
539 : :
540 [ # # ]: 0 : if (dm_suspended_md(md))
541 : : return -EAGAIN;
542 : :
543 : 0 : r = tgt->type->prepare_ioctl(tgt, bdev);
544 [ # # # # ]: 0 : if (r == -ENOTCONN && !fatal_signal_pending(current)) {
545 : 0 : dm_put_live_table(md, *srcu_idx);
546 : 0 : msleep(10);
547 : 0 : goto retry;
548 : : }
549 : :
550 : : return r;
551 : : }
552 : :
553 : 0 : static void dm_unprepare_ioctl(struct mapped_device *md, int srcu_idx)
554 : : __releases(md->io_barrier)
555 : : {
556 : 0 : dm_put_live_table(md, srcu_idx);
557 : : }
558 : :
559 : 0 : static int dm_blk_ioctl(struct block_device *bdev, fmode_t mode,
560 : : unsigned int cmd, unsigned long arg)
561 : : {
562 : 0 : struct mapped_device *md = bdev->bd_disk->private_data;
563 : 0 : int r, srcu_idx;
564 : :
565 : 0 : r = dm_prepare_ioctl(md, &srcu_idx, &bdev);
566 [ # # ]: 0 : if (r < 0)
567 : 0 : goto out;
568 : :
569 [ # # ]: 0 : if (r > 0) {
570 : : /*
571 : : * Target determined this ioctl is being issued against a
572 : : * subset of the parent bdev; require extra privileges.
573 : : */
574 [ # # ]: 0 : if (!capable(CAP_SYS_RAWIO)) {
575 [ # # ]: 0 : DMWARN_LIMIT(
576 : : "%s: sending ioctl %x to DM device without required privilege.",
577 : : current->comm, cmd);
578 : 0 : r = -ENOIOCTLCMD;
579 : 0 : goto out;
580 : : }
581 : : }
582 : :
583 : 0 : r = __blkdev_driver_ioctl(bdev, mode, cmd, arg);
584 : 0 : out:
585 : 0 : dm_unprepare_ioctl(md, srcu_idx);
586 : 0 : return r;
587 : : }
588 : :
589 : : static void start_io_acct(struct dm_io *io);
590 : :
591 : 0 : static struct dm_io *alloc_io(struct mapped_device *md, struct bio *bio)
592 : : {
593 : 0 : struct dm_io *io;
594 : 0 : struct dm_target_io *tio;
595 : 0 : struct bio *clone;
596 : :
597 : 0 : clone = bio_alloc_bioset(GFP_NOIO, 0, &md->io_bs);
598 [ # # ]: 0 : if (!clone)
599 : : return NULL;
600 : :
601 : 0 : tio = container_of(clone, struct dm_target_io, clone);
602 : 0 : tio->inside_dm_io = true;
603 : 0 : tio->io = NULL;
604 : :
605 : 0 : io = container_of(tio, struct dm_io, tio);
606 : 0 : io->magic = DM_IO_MAGIC;
607 : 0 : io->status = 0;
608 : 0 : atomic_set(&io->io_count, 1);
609 : 0 : io->orig_bio = bio;
610 : 0 : io->md = md;
611 : 0 : spin_lock_init(&io->endio_lock);
612 : :
613 : 0 : start_io_acct(io);
614 : :
615 : 0 : return io;
616 : : }
617 : :
618 : 0 : static void free_io(struct mapped_device *md, struct dm_io *io)
619 : : {
620 : 0 : bio_put(&io->tio.clone);
621 : : }
622 : :
623 : : static struct dm_target_io *alloc_tio(struct clone_info *ci, struct dm_target *ti,
624 : : unsigned target_bio_nr, gfp_t gfp_mask)
625 : : {
626 : : struct dm_target_io *tio;
627 : :
628 : : if (!ci->io->tio.io) {
629 : : /* the dm_target_io embedded in ci->io is available */
630 : : tio = &ci->io->tio;
631 : : } else {
632 : : struct bio *clone = bio_alloc_bioset(gfp_mask, 0, &ci->io->md->bs);
633 : : if (!clone)
634 : : return NULL;
635 : :
636 : : tio = container_of(clone, struct dm_target_io, clone);
637 : : tio->inside_dm_io = false;
638 : : }
639 : :
640 : : tio->magic = DM_TIO_MAGIC;
641 : : tio->io = ci->io;
642 : : tio->ti = ti;
643 : : tio->target_bio_nr = target_bio_nr;
644 : :
645 : : return tio;
646 : : }
647 : :
648 : 0 : static void free_tio(struct dm_target_io *tio)
649 : : {
650 : 0 : if (tio->inside_dm_io)
651 : : return;
652 : 0 : bio_put(&tio->clone);
653 : : }
654 : :
655 : : static bool md_in_flight_bios(struct mapped_device *md)
656 : : {
657 : : int cpu;
658 : : struct hd_struct *part = &dm_disk(md)->part0;
659 : : long sum = 0;
660 : :
661 : : for_each_possible_cpu(cpu) {
662 : : sum += part_stat_local_read_cpu(part, in_flight[0], cpu);
663 : : sum += part_stat_local_read_cpu(part, in_flight[1], cpu);
664 : : }
665 : :
666 : : return sum != 0;
667 : : }
668 : :
669 : 0 : static bool md_in_flight(struct mapped_device *md)
670 : : {
671 [ # # ]: 0 : if (queue_is_mq(md->queue))
672 : 0 : return blk_mq_queue_inflight(md->queue);
673 : : else
674 : 0 : return md_in_flight_bios(md);
675 : : }
676 : :
677 : 0 : static void start_io_acct(struct dm_io *io)
678 : : {
679 : 0 : struct mapped_device *md = io->md;
680 : 0 : struct bio *bio = io->orig_bio;
681 : :
682 : 0 : io->start_time = jiffies;
683 : :
684 : 0 : generic_start_io_acct(md->queue, bio_op(bio), bio_sectors(bio),
685 : : &dm_disk(md)->part0);
686 : :
687 [ # # ]: 0 : if (unlikely(dm_stats_used(&md->stats)))
688 : 0 : dm_stats_account_io(&md->stats, bio_data_dir(bio),
689 : 0 : bio->bi_iter.bi_sector, bio_sectors(bio),
690 : : false, 0, &io->stats_aux);
691 : 0 : }
692 : :
693 : 0 : static void end_io_acct(struct dm_io *io)
694 : : {
695 : 0 : struct mapped_device *md = io->md;
696 : 0 : struct bio *bio = io->orig_bio;
697 : 0 : unsigned long duration = jiffies - io->start_time;
698 : :
699 : 0 : generic_end_io_acct(md->queue, bio_op(bio), &dm_disk(md)->part0,
700 : : io->start_time);
701 : :
702 [ # # ]: 0 : if (unlikely(dm_stats_used(&md->stats)))
703 : 0 : dm_stats_account_io(&md->stats, bio_data_dir(bio),
704 : 0 : bio->bi_iter.bi_sector, bio_sectors(bio),
705 : : true, duration, &io->stats_aux);
706 : :
707 : : /* nudge anyone waiting on suspend queue */
708 [ # # ]: 0 : if (unlikely(wq_has_sleeper(&md->wait)))
709 : 0 : wake_up(&md->wait);
710 : 0 : }
711 : :
712 : : /*
713 : : * Add the bio to the list of deferred io.
714 : : */
715 : 0 : static void queue_io(struct mapped_device *md, struct bio *bio)
716 : : {
717 : 0 : unsigned long flags;
718 : :
719 : 0 : spin_lock_irqsave(&md->deferred_lock, flags);
720 [ # # ]: 0 : bio_list_add(&md->deferred, bio);
721 : 0 : spin_unlock_irqrestore(&md->deferred_lock, flags);
722 : 0 : queue_work(md->wq, &md->work);
723 : 0 : }
724 : :
725 : : /*
726 : : * Everyone (including functions in this file), should use this
727 : : * function to access the md->map field, and make sure they call
728 : : * dm_put_live_table() when finished.
729 : : */
730 : 0 : struct dm_table *dm_get_live_table(struct mapped_device *md, int *srcu_idx) __acquires(md->io_barrier)
731 : : {
732 : 0 : *srcu_idx = srcu_read_lock(&md->io_barrier);
733 : :
734 [ # # ]: 0 : return srcu_dereference(md->map, &md->io_barrier);
735 : : }
736 : :
737 : 0 : void dm_put_live_table(struct mapped_device *md, int srcu_idx) __releases(md->io_barrier)
738 : : {
739 : 0 : srcu_read_unlock(&md->io_barrier, srcu_idx);
740 : 0 : }
741 : :
742 : 0 : void dm_sync_table(struct mapped_device *md)
743 : : {
744 : 0 : synchronize_srcu(&md->io_barrier);
745 : 0 : synchronize_rcu_expedited();
746 : 0 : }
747 : :
748 : : /*
749 : : * A fast alternative to dm_get_live_table/dm_put_live_table.
750 : : * The caller must not block between these two functions.
751 : : */
752 : 0 : static struct dm_table *dm_get_live_table_fast(struct mapped_device *md) __acquires(RCU)
753 : : {
754 : 0 : rcu_read_lock();
755 [ # # # # ]: 0 : return rcu_dereference(md->map);
756 : : }
757 : :
758 : 0 : static void dm_put_live_table_fast(struct mapped_device *md) __releases(RCU)
759 : : {
760 : 0 : rcu_read_unlock();
761 : 0 : }
762 : :
763 : : static char *_dm_claim_ptr = "I belong to device-mapper";
764 : :
765 : : /*
766 : : * Open a table device so we can use it as a map destination.
767 : : */
768 : : static int open_table_device(struct table_device *td, dev_t dev,
769 : : struct mapped_device *md)
770 : : {
771 : : struct block_device *bdev;
772 : :
773 : : int r;
774 : :
775 : : BUG_ON(td->dm_dev.bdev);
776 : :
777 : : bdev = blkdev_get_by_dev(dev, td->dm_dev.mode | FMODE_EXCL, _dm_claim_ptr);
778 : : if (IS_ERR(bdev))
779 : : return PTR_ERR(bdev);
780 : :
781 : : r = bd_link_disk_holder(bdev, dm_disk(md));
782 : : if (r) {
783 : : blkdev_put(bdev, td->dm_dev.mode | FMODE_EXCL);
784 : : return r;
785 : : }
786 : :
787 : : td->dm_dev.bdev = bdev;
788 : : td->dm_dev.dax_dev = dax_get_by_host(bdev->bd_disk->disk_name);
789 : : return 0;
790 : : }
791 : :
792 : : /*
793 : : * Close a table device that we've been using.
794 : : */
795 : : static void close_table_device(struct table_device *td, struct mapped_device *md)
796 : : {
797 : : if (!td->dm_dev.bdev)
798 : : return;
799 : :
800 : : bd_unlink_disk_holder(td->dm_dev.bdev, dm_disk(md));
801 : : blkdev_put(td->dm_dev.bdev, td->dm_dev.mode | FMODE_EXCL);
802 : : put_dax(td->dm_dev.dax_dev);
803 : : td->dm_dev.bdev = NULL;
804 : : td->dm_dev.dax_dev = NULL;
805 : : }
806 : :
807 : 0 : static struct table_device *find_table_device(struct list_head *l, dev_t dev,
808 : : fmode_t mode)
809 : : {
810 : 0 : struct table_device *td;
811 : :
812 [ # # ]: 0 : list_for_each_entry(td, l, list)
813 [ # # # # ]: 0 : if (td->dm_dev.bdev->bd_dev == dev && td->dm_dev.mode == mode)
814 : : return td;
815 : :
816 : : return NULL;
817 : : }
818 : :
819 : 0 : int dm_get_table_device(struct mapped_device *md, dev_t dev, fmode_t mode,
820 : : struct dm_dev **result)
821 : : {
822 : 0 : int r;
823 : 0 : struct table_device *td;
824 : :
825 : 0 : mutex_lock(&md->table_devices_lock);
826 : 0 : td = find_table_device(&md->table_devices, dev, mode);
827 [ # # ]: 0 : if (!td) {
828 : 0 : td = kmalloc_node(sizeof(*td), GFP_KERNEL, md->numa_node_id);
829 [ # # ]: 0 : if (!td) {
830 : 0 : mutex_unlock(&md->table_devices_lock);
831 : 0 : return -ENOMEM;
832 : : }
833 : :
834 : 0 : td->dm_dev.mode = mode;
835 : 0 : td->dm_dev.bdev = NULL;
836 : :
837 [ # # ]: 0 : if ((r = open_table_device(td, dev, md))) {
838 : 0 : mutex_unlock(&md->table_devices_lock);
839 : 0 : kfree(td);
840 : 0 : return r;
841 : : }
842 : :
843 : 0 : format_dev_t(td->dm_dev.name, dev);
844 : :
845 : 0 : refcount_set(&td->count, 1);
846 : 0 : list_add(&td->list, &md->table_devices);
847 : : } else {
848 : 0 : refcount_inc(&td->count);
849 : : }
850 : 0 : mutex_unlock(&md->table_devices_lock);
851 : :
852 : 0 : *result = &td->dm_dev;
853 : 0 : return 0;
854 : : }
855 : : EXPORT_SYMBOL_GPL(dm_get_table_device);
856 : :
857 : 0 : void dm_put_table_device(struct mapped_device *md, struct dm_dev *d)
858 : : {
859 : 0 : struct table_device *td = container_of(d, struct table_device, dm_dev);
860 : :
861 : 0 : mutex_lock(&md->table_devices_lock);
862 [ # # ]: 0 : if (refcount_dec_and_test(&td->count)) {
863 : 0 : close_table_device(td, md);
864 : 0 : list_del(&td->list);
865 : 0 : kfree(td);
866 : : }
867 : 0 : mutex_unlock(&md->table_devices_lock);
868 : 0 : }
869 : : EXPORT_SYMBOL(dm_put_table_device);
870 : :
871 : 0 : static void free_table_devices(struct list_head *devices)
872 : : {
873 : 0 : struct list_head *tmp, *next;
874 : :
875 [ # # ]: 0 : list_for_each_safe(tmp, next, devices) {
876 : 0 : struct table_device *td = list_entry(tmp, struct table_device, list);
877 : :
878 : 0 : DMWARN("dm_destroy: %s still exists with %d references",
879 : : td->dm_dev.name, refcount_read(&td->count));
880 : 0 : kfree(td);
881 : : }
882 : 0 : }
883 : :
884 : : /*
885 : : * Get the geometry associated with a dm device
886 : : */
887 : 0 : int dm_get_geometry(struct mapped_device *md, struct hd_geometry *geo)
888 : : {
889 : 0 : *geo = md->geometry;
890 : :
891 : 0 : return 0;
892 : : }
893 : :
894 : : /*
895 : : * Set the geometry of a device.
896 : : */
897 : 0 : int dm_set_geometry(struct mapped_device *md, struct hd_geometry *geo)
898 : : {
899 : 0 : sector_t sz = (sector_t)geo->cylinders * geo->heads * geo->sectors;
900 : :
901 [ # # ]: 0 : if (geo->start > sz) {
902 : 0 : DMWARN("Start sector is beyond the geometry limits.");
903 : 0 : return -EINVAL;
904 : : }
905 : :
906 : 0 : md->geometry = *geo;
907 : :
908 : 0 : return 0;
909 : : }
910 : :
911 : 0 : static int __noflush_suspending(struct mapped_device *md)
912 : : {
913 : 0 : return test_bit(DMF_NOFLUSH_SUSPENDING, &md->flags);
914 : : }
915 : :
916 : : /*
917 : : * Decrements the number of outstanding ios that a bio has been
918 : : * cloned into, completing the original io if necc.
919 : : */
920 : 0 : static void dec_pending(struct dm_io *io, blk_status_t error)
921 : : {
922 : 0 : unsigned long flags;
923 : 0 : blk_status_t io_error;
924 : 0 : struct bio *bio;
925 : 0 : struct mapped_device *md = io->md;
926 : :
927 : : /* Push-back supersedes any I/O errors */
928 [ # # ]: 0 : if (unlikely(error)) {
929 : 0 : spin_lock_irqsave(&io->endio_lock, flags);
930 [ # # # # ]: 0 : if (!(io->status == BLK_STS_DM_REQUEUE && __noflush_suspending(md)))
931 : 0 : io->status = error;
932 : 0 : spin_unlock_irqrestore(&io->endio_lock, flags);
933 : : }
934 : :
935 [ # # ]: 0 : if (atomic_dec_and_test(&io->io_count)) {
936 [ # # ]: 0 : if (io->status == BLK_STS_DM_REQUEUE) {
937 : : /*
938 : : * Target requested pushing back the I/O.
939 : : */
940 : 0 : spin_lock_irqsave(&md->deferred_lock, flags);
941 [ # # ]: 0 : if (__noflush_suspending(md))
942 : : /* NOTE early return due to BLK_STS_DM_REQUEUE below */
943 [ # # ]: 0 : bio_list_add_head(&md->deferred, io->orig_bio);
944 : : else
945 : : /* noflush suspend was interrupted. */
946 : 0 : io->status = BLK_STS_IOERR;
947 : 0 : spin_unlock_irqrestore(&md->deferred_lock, flags);
948 : : }
949 : :
950 : 0 : io_error = io->status;
951 : 0 : bio = io->orig_bio;
952 : 0 : end_io_acct(io);
953 : 0 : free_io(md, io);
954 : :
955 [ # # ]: 0 : if (io_error == BLK_STS_DM_REQUEUE)
956 : : return;
957 : :
958 [ # # # # ]: 0 : if ((bio->bi_opf & REQ_PREFLUSH) && bio->bi_iter.bi_size) {
959 : : /*
960 : : * Preflush done for flush with data, reissue
961 : : * without REQ_PREFLUSH.
962 : : */
963 : 0 : bio->bi_opf &= ~REQ_PREFLUSH;
964 : 0 : queue_io(md, bio);
965 : : } else {
966 : : /* done with normal IO or empty flush */
967 [ # # ]: 0 : if (io_error)
968 : 0 : bio->bi_status = io_error;
969 : 0 : bio_endio(bio);
970 : : }
971 : : }
972 : : }
973 : :
974 : 0 : void disable_discard(struct mapped_device *md)
975 : : {
976 : 0 : struct queue_limits *limits = dm_get_queue_limits(md);
977 : :
978 : : /* device doesn't really support DISCARD, disable it */
979 : 0 : limits->max_discard_sectors = 0;
980 : 0 : blk_queue_flag_clear(QUEUE_FLAG_DISCARD, md->queue);
981 : 0 : }
982 : :
983 : 0 : void disable_write_same(struct mapped_device *md)
984 : : {
985 : 0 : struct queue_limits *limits = dm_get_queue_limits(md);
986 : :
987 : : /* device doesn't really support WRITE SAME, disable it */
988 : 0 : limits->max_write_same_sectors = 0;
989 : 0 : }
990 : :
991 : 0 : void disable_write_zeroes(struct mapped_device *md)
992 : : {
993 : 0 : struct queue_limits *limits = dm_get_queue_limits(md);
994 : :
995 : : /* device doesn't really support WRITE ZEROES, disable it */
996 : 0 : limits->max_write_zeroes_sectors = 0;
997 : 0 : }
998 : :
999 : 0 : static void clone_endio(struct bio *bio)
1000 : : {
1001 : 0 : blk_status_t error = bio->bi_status;
1002 : 0 : struct dm_target_io *tio = container_of(bio, struct dm_target_io, clone);
1003 : 0 : struct dm_io *io = tio->io;
1004 : 0 : struct mapped_device *md = tio->io->md;
1005 : 0 : dm_endio_fn endio = tio->ti->type->end_io;
1006 : :
1007 [ # # # # ]: 0 : if (unlikely(error == BLK_STS_TARGET) && md->type != DM_TYPE_NVME_BIO_BASED) {
1008 [ # # ]: 0 : if (bio_op(bio) == REQ_OP_DISCARD &&
1009 [ # # ]: 0 : !bio->bi_disk->queue->limits.max_discard_sectors)
1010 : 0 : disable_discard(md);
1011 [ # # ]: 0 : else if (bio_op(bio) == REQ_OP_WRITE_SAME &&
1012 [ # # ]: 0 : !bio->bi_disk->queue->limits.max_write_same_sectors)
1013 : 0 : disable_write_same(md);
1014 [ # # ]: 0 : else if (bio_op(bio) == REQ_OP_WRITE_ZEROES &&
1015 [ # # ]: 0 : !bio->bi_disk->queue->limits.max_write_zeroes_sectors)
1016 : 0 : disable_write_zeroes(md);
1017 : : }
1018 : :
1019 [ # # ]: 0 : if (endio) {
1020 : 0 : int r = endio(tio->ti, bio, &error);
1021 [ # # # # ]: 0 : switch (r) {
1022 : 0 : case DM_ENDIO_REQUEUE:
1023 : 0 : error = BLK_STS_DM_REQUEUE;
1024 : : /*FALLTHRU*/
1025 : : case DM_ENDIO_DONE:
1026 : : break;
1027 : 0 : case DM_ENDIO_INCOMPLETE:
1028 : : /* The target will handle the io */
1029 : 0 : return;
1030 : 0 : default:
1031 : 0 : DMWARN("unimplemented target endio return value: %d", r);
1032 : 0 : BUG();
1033 : : }
1034 : 0 : }
1035 : :
1036 [ # # ]: 0 : free_tio(tio);
1037 : 0 : dec_pending(io, error);
1038 : : }
1039 : :
1040 : : /*
1041 : : * Return maximum size of I/O possible at the supplied sector up to the current
1042 : : * target boundary.
1043 : : */
1044 : 0 : static sector_t max_io_len_target_boundary(sector_t sector, struct dm_target *ti)
1045 : : {
1046 : 0 : sector_t target_offset = dm_target_offset(ti, sector);
1047 : :
1048 : 0 : return ti->len - target_offset;
1049 : : }
1050 : :
1051 : 0 : static sector_t max_io_len(sector_t sector, struct dm_target *ti)
1052 : : {
1053 : 0 : sector_t len = max_io_len_target_boundary(sector, ti);
1054 : 0 : sector_t offset, max_len;
1055 : :
1056 : : /*
1057 : : * Does the target need to split even further?
1058 : : */
1059 : 0 : if (ti->max_io_len) {
1060 : 0 : offset = dm_target_offset(ti, sector);
1061 [ # # ]: 0 : if (unlikely(ti->max_io_len & (ti->max_io_len - 1)))
1062 : 0 : max_len = sector_div(offset, ti->max_io_len);
1063 : : else
1064 : 0 : max_len = offset & (ti->max_io_len - 1);
1065 : 0 : max_len = ti->max_io_len - max_len;
1066 : :
1067 : 0 : if (len > max_len)
1068 : : len = max_len;
1069 : : }
1070 : :
1071 : 0 : return len;
1072 : : }
1073 : :
1074 : 0 : int dm_set_target_max_io_len(struct dm_target *ti, sector_t len)
1075 : : {
1076 [ # # ]: 0 : if (len > UINT_MAX) {
1077 : 0 : DMERR("Specified maximum size of target IO (%llu) exceeds limit (%u)",
1078 : : (unsigned long long)len, UINT_MAX);
1079 : 0 : ti->error = "Maximum size of target IO is too large";
1080 : 0 : return -EINVAL;
1081 : : }
1082 : :
1083 : 0 : ti->max_io_len = (uint32_t) len;
1084 : :
1085 : 0 : return 0;
1086 : : }
1087 : : EXPORT_SYMBOL_GPL(dm_set_target_max_io_len);
1088 : :
1089 : : static struct dm_target *dm_dax_get_live_target(struct mapped_device *md,
1090 : : sector_t sector, int *srcu_idx)
1091 : : __acquires(md->io_barrier)
1092 : : {
1093 : : struct dm_table *map;
1094 : : struct dm_target *ti;
1095 : :
1096 : : map = dm_get_live_table(md, srcu_idx);
1097 : : if (!map)
1098 : : return NULL;
1099 : :
1100 : : ti = dm_table_find_target(map, sector);
1101 : : if (!ti)
1102 : : return NULL;
1103 : :
1104 : : return ti;
1105 : : }
1106 : :
1107 : : static long dm_dax_direct_access(struct dax_device *dax_dev, pgoff_t pgoff,
1108 : : long nr_pages, void **kaddr, pfn_t *pfn)
1109 : : {
1110 : : struct mapped_device *md = dax_get_private(dax_dev);
1111 : : sector_t sector = pgoff * PAGE_SECTORS;
1112 : : struct dm_target *ti;
1113 : : long len, ret = -EIO;
1114 : : int srcu_idx;
1115 : :
1116 : : ti = dm_dax_get_live_target(md, sector, &srcu_idx);
1117 : :
1118 : : if (!ti)
1119 : : goto out;
1120 : : if (!ti->type->direct_access)
1121 : : goto out;
1122 : : len = max_io_len(sector, ti) / PAGE_SECTORS;
1123 : : if (len < 1)
1124 : : goto out;
1125 : : nr_pages = min(len, nr_pages);
1126 : : ret = ti->type->direct_access(ti, pgoff, nr_pages, kaddr, pfn);
1127 : :
1128 : : out:
1129 : : dm_put_live_table(md, srcu_idx);
1130 : :
1131 : : return ret;
1132 : : }
1133 : :
1134 : : static bool dm_dax_supported(struct dax_device *dax_dev, struct block_device *bdev,
1135 : : int blocksize, sector_t start, sector_t len)
1136 : : {
1137 : : struct mapped_device *md = dax_get_private(dax_dev);
1138 : : struct dm_table *map;
1139 : : int srcu_idx;
1140 : : bool ret;
1141 : :
1142 : : map = dm_get_live_table(md, &srcu_idx);
1143 : : if (!map)
1144 : : return false;
1145 : :
1146 : : ret = dm_table_supports_dax(map, device_supports_dax, &blocksize);
1147 : :
1148 : : dm_put_live_table(md, srcu_idx);
1149 : :
1150 : : return ret;
1151 : : }
1152 : :
1153 : : static size_t dm_dax_copy_from_iter(struct dax_device *dax_dev, pgoff_t pgoff,
1154 : : void *addr, size_t bytes, struct iov_iter *i)
1155 : : {
1156 : : struct mapped_device *md = dax_get_private(dax_dev);
1157 : : sector_t sector = pgoff * PAGE_SECTORS;
1158 : : struct dm_target *ti;
1159 : : long ret = 0;
1160 : : int srcu_idx;
1161 : :
1162 : : ti = dm_dax_get_live_target(md, sector, &srcu_idx);
1163 : :
1164 : : if (!ti)
1165 : : goto out;
1166 : : if (!ti->type->dax_copy_from_iter) {
1167 : : ret = copy_from_iter(addr, bytes, i);
1168 : : goto out;
1169 : : }
1170 : : ret = ti->type->dax_copy_from_iter(ti, pgoff, addr, bytes, i);
1171 : : out:
1172 : : dm_put_live_table(md, srcu_idx);
1173 : :
1174 : : return ret;
1175 : : }
1176 : :
1177 : : static size_t dm_dax_copy_to_iter(struct dax_device *dax_dev, pgoff_t pgoff,
1178 : : void *addr, size_t bytes, struct iov_iter *i)
1179 : : {
1180 : : struct mapped_device *md = dax_get_private(dax_dev);
1181 : : sector_t sector = pgoff * PAGE_SECTORS;
1182 : : struct dm_target *ti;
1183 : : long ret = 0;
1184 : : int srcu_idx;
1185 : :
1186 : : ti = dm_dax_get_live_target(md, sector, &srcu_idx);
1187 : :
1188 : : if (!ti)
1189 : : goto out;
1190 : : if (!ti->type->dax_copy_to_iter) {
1191 : : ret = copy_to_iter(addr, bytes, i);
1192 : : goto out;
1193 : : }
1194 : : ret = ti->type->dax_copy_to_iter(ti, pgoff, addr, bytes, i);
1195 : : out:
1196 : : dm_put_live_table(md, srcu_idx);
1197 : :
1198 : : return ret;
1199 : : }
1200 : :
1201 : : /*
1202 : : * A target may call dm_accept_partial_bio only from the map routine. It is
1203 : : * allowed for all bio types except REQ_PREFLUSH, REQ_OP_ZONE_RESET,
1204 : : * REQ_OP_ZONE_OPEN, REQ_OP_ZONE_CLOSE and REQ_OP_ZONE_FINISH.
1205 : : *
1206 : : * dm_accept_partial_bio informs the dm that the target only wants to process
1207 : : * additional n_sectors sectors of the bio and the rest of the data should be
1208 : : * sent in a next bio.
1209 : : *
1210 : : * A diagram that explains the arithmetics:
1211 : : * +--------------------+---------------+-------+
1212 : : * | 1 | 2 | 3 |
1213 : : * +--------------------+---------------+-------+
1214 : : *
1215 : : * <-------------- *tio->len_ptr --------------->
1216 : : * <------- bi_size ------->
1217 : : * <-- n_sectors -->
1218 : : *
1219 : : * Region 1 was already iterated over with bio_advance or similar function.
1220 : : * (it may be empty if the target doesn't use bio_advance)
1221 : : * Region 2 is the remaining bio size that the target wants to process.
1222 : : * (it may be empty if region 1 is non-empty, although there is no reason
1223 : : * to make it empty)
1224 : : * The target requires that region 3 is to be sent in the next bio.
1225 : : *
1226 : : * If the target wants to receive multiple copies of the bio (via num_*bios, etc),
1227 : : * the partially processed part (the sum of regions 1+2) must be the same for all
1228 : : * copies of the bio.
1229 : : */
1230 : 0 : void dm_accept_partial_bio(struct bio *bio, unsigned n_sectors)
1231 : : {
1232 : 0 : struct dm_target_io *tio = container_of(bio, struct dm_target_io, clone);
1233 : 0 : unsigned bi_size = bio->bi_iter.bi_size >> SECTOR_SHIFT;
1234 [ # # ]: 0 : BUG_ON(bio->bi_opf & REQ_PREFLUSH);
1235 [ # # ]: 0 : BUG_ON(bi_size > *tio->len_ptr);
1236 [ # # ]: 0 : BUG_ON(n_sectors > bi_size);
1237 : 0 : *tio->len_ptr -= bi_size - n_sectors;
1238 : 0 : bio->bi_iter.bi_size = n_sectors << SECTOR_SHIFT;
1239 : 0 : }
1240 : : EXPORT_SYMBOL_GPL(dm_accept_partial_bio);
1241 : :
1242 : 0 : static blk_qc_t __map_bio(struct dm_target_io *tio)
1243 : : {
1244 : 0 : int r;
1245 : 0 : sector_t sector;
1246 : 0 : struct bio *clone = &tio->clone;
1247 : 0 : struct dm_io *io = tio->io;
1248 : 0 : struct mapped_device *md = io->md;
1249 : 0 : struct dm_target *ti = tio->ti;
1250 : 0 : blk_qc_t ret = BLK_QC_T_NONE;
1251 : :
1252 : 0 : clone->bi_end_io = clone_endio;
1253 : :
1254 : : /*
1255 : : * Map the clone. If r == 0 we don't need to do
1256 : : * anything, the target has assumed ownership of
1257 : : * this io.
1258 : : */
1259 : 0 : atomic_inc(&io->io_count);
1260 : 0 : sector = clone->bi_iter.bi_sector;
1261 : :
1262 : 0 : r = ti->type->map(ti, clone);
1263 [ # # # # : 0 : switch (r) {
# ]
1264 : : case DM_MAPIO_SUBMITTED:
1265 : : break;
1266 : 0 : case DM_MAPIO_REMAPPED:
1267 : : /* the bio has been remapped so dispatch it */
1268 : 0 : trace_block_bio_remap(clone->bi_disk->queue, clone,
1269 : 0 : bio_dev(io->orig_bio), sector);
1270 [ # # ]: 0 : if (md->type == DM_TYPE_NVME_BIO_BASED)
1271 : 0 : ret = direct_make_request(clone);
1272 : : else
1273 : 0 : ret = generic_make_request(clone);
1274 : : break;
1275 : : case DM_MAPIO_KILL:
1276 [ # # ]: 0 : free_tio(tio);
1277 : 0 : dec_pending(io, BLK_STS_IOERR);
1278 : 0 : break;
1279 : : case DM_MAPIO_REQUEUE:
1280 [ # # ]: 0 : free_tio(tio);
1281 : 0 : dec_pending(io, BLK_STS_DM_REQUEUE);
1282 : 0 : break;
1283 : 0 : default:
1284 : 0 : DMWARN("unimplemented target map return value: %d", r);
1285 : 0 : BUG();
1286 : : }
1287 : :
1288 : 0 : return ret;
1289 : : }
1290 : :
1291 : : static void bio_setup_sector(struct bio *bio, sector_t sector, unsigned len)
1292 : : {
1293 : : bio->bi_iter.bi_sector = sector;
1294 : : bio->bi_iter.bi_size = to_bytes(len);
1295 : : }
1296 : :
1297 : : /*
1298 : : * Creates a bio that consists of range of complete bvecs.
1299 : : */
1300 : 0 : static int clone_bio(struct dm_target_io *tio, struct bio *bio,
1301 : : sector_t sector, unsigned len)
1302 : : {
1303 : 0 : struct bio *clone = &tio->clone;
1304 : :
1305 : 0 : __bio_clone_fast(clone, bio);
1306 : :
1307 : 0 : if (bio_integrity(bio)) {
1308 : : int r;
1309 : :
1310 : : if (unlikely(!dm_target_has_integrity(tio->ti->type) &&
1311 : : !dm_target_passes_integrity(tio->ti->type))) {
1312 : : DMWARN("%s: the target %s doesn't support integrity data.",
1313 : : dm_device_name(tio->io->md),
1314 : : tio->ti->type->name);
1315 : : return -EIO;
1316 : : }
1317 : :
1318 : : r = bio_integrity_clone(clone, bio, GFP_NOIO);
1319 : : if (r < 0)
1320 : : return r;
1321 : : }
1322 : :
1323 : 0 : bio_advance(clone, to_bytes(sector - clone->bi_iter.bi_sector));
1324 : 0 : clone->bi_iter.bi_size = to_bytes(len);
1325 : :
1326 : 0 : if (bio_integrity(bio))
1327 : : bio_integrity_trim(clone);
1328 : :
1329 : 0 : return 0;
1330 : : }
1331 : :
1332 : 0 : static void alloc_multiple_bios(struct bio_list *blist, struct clone_info *ci,
1333 : : struct dm_target *ti, unsigned num_bios)
1334 : : {
1335 : 0 : struct dm_target_io *tio;
1336 : 0 : int try;
1337 : :
1338 [ # # ]: 0 : if (!num_bios)
1339 : : return;
1340 : :
1341 [ # # ]: 0 : if (num_bios == 1) {
1342 : 0 : tio = alloc_tio(ci, ti, 0, GFP_NOIO);
1343 [ # # ]: 0 : bio_list_add(blist, &tio->clone);
1344 : 0 : return;
1345 : : }
1346 : :
1347 [ # # ]: 0 : for (try = 0; try < 2; try++) {
1348 : 0 : int bio_nr;
1349 : 0 : struct bio *bio;
1350 : :
1351 [ # # ]: 0 : if (try)
1352 : 0 : mutex_lock(&ci->io->md->table_devices_lock);
1353 [ # # ]: 0 : for (bio_nr = 0; bio_nr < num_bios; bio_nr++) {
1354 [ # # ]: 0 : tio = alloc_tio(ci, ti, bio_nr, try ? GFP_NOIO : GFP_NOWAIT);
1355 [ # # ]: 0 : if (!tio)
1356 : : break;
1357 : :
1358 [ # # ]: 0 : bio_list_add(blist, &tio->clone);
1359 : : }
1360 [ # # ]: 0 : if (try)
1361 : 0 : mutex_unlock(&ci->io->md->table_devices_lock);
1362 [ # # ]: 0 : if (bio_nr == num_bios)
1363 : : return;
1364 : :
1365 [ # # # # ]: 0 : while ((bio = bio_list_pop(blist))) {
1366 : 0 : tio = container_of(bio, struct dm_target_io, clone);
1367 [ # # ]: 0 : free_tio(tio);
1368 : : }
1369 : : }
1370 : : }
1371 : :
1372 : 0 : static blk_qc_t __clone_and_map_simple_bio(struct clone_info *ci,
1373 : : struct dm_target_io *tio, unsigned *len)
1374 : : {
1375 : 0 : struct bio *clone = &tio->clone;
1376 : :
1377 : 0 : tio->len_ptr = len;
1378 : :
1379 : 0 : __bio_clone_fast(clone, ci->bio);
1380 : 0 : if (len)
1381 : : bio_setup_sector(clone, ci->sector, *len);
1382 : :
1383 : 0 : return __map_bio(tio);
1384 : : }
1385 : :
1386 : 0 : static void __send_duplicate_bios(struct clone_info *ci, struct dm_target *ti,
1387 : : unsigned num_bios, unsigned *len)
1388 : : {
1389 : 0 : struct bio_list blist = BIO_EMPTY_LIST;
1390 : 0 : struct bio *bio;
1391 : 0 : struct dm_target_io *tio;
1392 : :
1393 : 0 : alloc_multiple_bios(&blist, ci, ti, num_bios);
1394 : :
1395 [ # # # # ]: 0 : while ((bio = bio_list_pop(&blist))) {
1396 : 0 : tio = container_of(bio, struct dm_target_io, clone);
1397 : 0 : (void) __clone_and_map_simple_bio(ci, tio, len);
1398 : : }
1399 : 0 : }
1400 : :
1401 : 0 : static int __send_empty_flush(struct clone_info *ci)
1402 : : {
1403 : 0 : unsigned target_nr = 0;
1404 : 0 : struct dm_target *ti;
1405 : :
1406 : : /*
1407 : : * Empty flush uses a statically initialized bio, as the base for
1408 : : * cloning. However, blkg association requires that a bdev is
1409 : : * associated with a gendisk, which doesn't happen until the bdev is
1410 : : * opened. So, blkg association is done at issue time of the flush
1411 : : * rather than when the device is created in alloc_dev().
1412 : : */
1413 [ # # # # ]: 0 : bio_set_dev(ci->bio, ci->io->md->bdev);
1414 : :
1415 [ # # # # ]: 0 : BUG_ON(bio_has_data(ci->bio));
1416 [ # # ]: 0 : while ((ti = dm_table_get_target(ci->map, target_nr++)))
1417 : 0 : __send_duplicate_bios(ci, ti, ti->num_flush_bios, NULL);
1418 : :
1419 : 0 : bio_disassociate_blkg(ci->bio);
1420 : :
1421 : 0 : return 0;
1422 : : }
1423 : :
1424 : 0 : static int __clone_and_map_data_bio(struct clone_info *ci, struct dm_target *ti,
1425 : : sector_t sector, unsigned *len)
1426 : : {
1427 : 0 : struct bio *bio = ci->bio;
1428 : 0 : struct dm_target_io *tio;
1429 : 0 : int r;
1430 : :
1431 : 0 : tio = alloc_tio(ci, ti, 0, GFP_NOIO);
1432 : 0 : tio->len_ptr = len;
1433 : 0 : r = clone_bio(tio, bio, sector, *len);
1434 : 0 : if (r < 0) {
1435 : : free_tio(tio);
1436 : : return r;
1437 : : }
1438 : 0 : (void) __map_bio(tio);
1439 : :
1440 : 0 : return 0;
1441 : : }
1442 : :
1443 : : typedef unsigned (*get_num_bios_fn)(struct dm_target *ti);
1444 : :
1445 : 0 : static unsigned get_num_discard_bios(struct dm_target *ti)
1446 : : {
1447 : 0 : return ti->num_discard_bios;
1448 : : }
1449 : :
1450 : 0 : static unsigned get_num_secure_erase_bios(struct dm_target *ti)
1451 : : {
1452 : 0 : return ti->num_secure_erase_bios;
1453 : : }
1454 : :
1455 : 0 : static unsigned get_num_write_same_bios(struct dm_target *ti)
1456 : : {
1457 : 0 : return ti->num_write_same_bios;
1458 : : }
1459 : :
1460 : 0 : static unsigned get_num_write_zeroes_bios(struct dm_target *ti)
1461 : : {
1462 : 0 : return ti->num_write_zeroes_bios;
1463 : : }
1464 : :
1465 : 0 : static int __send_changing_extent_only(struct clone_info *ci, struct dm_target *ti,
1466 : : unsigned num_bios)
1467 : : {
1468 : 0 : unsigned len;
1469 : :
1470 : : /*
1471 : : * Even though the device advertised support for this type of
1472 : : * request, that does not mean every target supports it, and
1473 : : * reconfiguration might also have changed that since the
1474 : : * check was performed.
1475 : : */
1476 [ # # ]: 0 : if (!num_bios)
1477 : : return -EOPNOTSUPP;
1478 : :
1479 : 0 : len = min((sector_t)ci->sector_count, max_io_len_target_boundary(ci->sector, ti));
1480 : :
1481 : 0 : __send_duplicate_bios(ci, ti, num_bios, &len);
1482 : :
1483 : 0 : ci->sector += len;
1484 : 0 : ci->sector_count -= len;
1485 : :
1486 : 0 : return 0;
1487 : : }
1488 : :
1489 : 0 : static int __send_discard(struct clone_info *ci, struct dm_target *ti)
1490 : : {
1491 : 0 : return __send_changing_extent_only(ci, ti, get_num_discard_bios(ti));
1492 : : }
1493 : :
1494 : 0 : static int __send_secure_erase(struct clone_info *ci, struct dm_target *ti)
1495 : : {
1496 : 0 : return __send_changing_extent_only(ci, ti, get_num_secure_erase_bios(ti));
1497 : : }
1498 : :
1499 : 0 : static int __send_write_same(struct clone_info *ci, struct dm_target *ti)
1500 : : {
1501 : 0 : return __send_changing_extent_only(ci, ti, get_num_write_same_bios(ti));
1502 : : }
1503 : :
1504 : 0 : static int __send_write_zeroes(struct clone_info *ci, struct dm_target *ti)
1505 : : {
1506 : 0 : return __send_changing_extent_only(ci, ti, get_num_write_zeroes_bios(ti));
1507 : : }
1508 : :
1509 : 0 : static bool is_abnormal_io(struct bio *bio)
1510 : : {
1511 : 0 : bool r = false;
1512 : :
1513 : 0 : switch (bio_op(bio)) {
1514 : : case REQ_OP_DISCARD:
1515 : : case REQ_OP_SECURE_ERASE:
1516 : : case REQ_OP_WRITE_SAME:
1517 : : case REQ_OP_WRITE_ZEROES:
1518 : : r = true;
1519 : : break;
1520 : : }
1521 : :
1522 : 0 : return r;
1523 : : }
1524 : :
1525 : 0 : static bool __process_abnormal_io(struct clone_info *ci, struct dm_target *ti,
1526 : : int *result)
1527 : : {
1528 : 0 : struct bio *bio = ci->bio;
1529 : :
1530 [ # # ]: 0 : if (bio_op(bio) == REQ_OP_DISCARD)
1531 : 0 : *result = __send_discard(ci, ti);
1532 [ # # ]: 0 : else if (bio_op(bio) == REQ_OP_SECURE_ERASE)
1533 : 0 : *result = __send_secure_erase(ci, ti);
1534 [ # # ]: 0 : else if (bio_op(bio) == REQ_OP_WRITE_SAME)
1535 : 0 : *result = __send_write_same(ci, ti);
1536 [ # # ]: 0 : else if (bio_op(bio) == REQ_OP_WRITE_ZEROES)
1537 : 0 : *result = __send_write_zeroes(ci, ti);
1538 : : else
1539 : : return false;
1540 : :
1541 : : return true;
1542 : : }
1543 : :
1544 : : /*
1545 : : * Select the correct strategy for processing a non-flush bio.
1546 : : */
1547 : 0 : static int __split_and_process_non_flush(struct clone_info *ci)
1548 : : {
1549 : 0 : struct dm_target *ti;
1550 : 0 : unsigned len;
1551 : 0 : int r;
1552 : :
1553 : 0 : ti = dm_table_find_target(ci->map, ci->sector);
1554 [ # # ]: 0 : if (!ti)
1555 : : return -EIO;
1556 : :
1557 [ # # ]: 0 : if (__process_abnormal_io(ci, ti, &r))
1558 : 0 : return r;
1559 : :
1560 [ # # ]: 0 : len = min_t(sector_t, max_io_len(ci->sector, ti), ci->sector_count);
1561 : :
1562 : 0 : r = __clone_and_map_data_bio(ci, ti, ci->sector, &len);
1563 [ # # ]: 0 : if (r < 0)
1564 : : return r;
1565 : :
1566 : 0 : ci->sector += len;
1567 : 0 : ci->sector_count -= len;
1568 : :
1569 : 0 : return 0;
1570 : : }
1571 : :
1572 : 0 : static void init_clone_info(struct clone_info *ci, struct mapped_device *md,
1573 : : struct dm_table *map, struct bio *bio)
1574 : : {
1575 : 0 : ci->map = map;
1576 : 0 : ci->io = alloc_io(md, bio);
1577 : 0 : ci->sector = bio->bi_iter.bi_sector;
1578 : : }
1579 : :
1580 : : #define __dm_part_stat_sub(part, field, subnd) \
1581 : : (part_stat_get(part, field) -= (subnd))
1582 : :
1583 : : /*
1584 : : * Entry point to split a bio into clones and submit them to the targets.
1585 : : */
1586 : 0 : static blk_qc_t __split_and_process_bio(struct mapped_device *md,
1587 : : struct dm_table *map, struct bio *bio)
1588 : : {
1589 : 0 : struct clone_info ci;
1590 : 0 : blk_qc_t ret = BLK_QC_T_NONE;
1591 : 0 : int error = 0;
1592 : :
1593 : 0 : init_clone_info(&ci, md, map, bio);
1594 : :
1595 [ # # ]: 0 : if (bio->bi_opf & REQ_PREFLUSH) {
1596 : 0 : struct bio flush_bio;
1597 : :
1598 : : /*
1599 : : * Use an on-stack bio for this, it's safe since we don't
1600 : : * need to reference it after submit. It's just used as
1601 : : * the basis for the clone(s).
1602 : : */
1603 : 0 : bio_init(&flush_bio, NULL, 0);
1604 : 0 : flush_bio.bi_opf = REQ_OP_WRITE | REQ_PREFLUSH | REQ_SYNC;
1605 : 0 : ci.bio = &flush_bio;
1606 : 0 : ci.sector_count = 0;
1607 : 0 : error = __send_empty_flush(&ci);
1608 : : /* dec_pending submits any data associated with flush */
1609 [ # # ]: 0 : } else if (op_is_zone_mgmt(bio_op(bio))) {
1610 : 0 : ci.bio = bio;
1611 : 0 : ci.sector_count = 0;
1612 : 0 : error = __split_and_process_non_flush(&ci);
1613 : : } else {
1614 : 0 : ci.bio = bio;
1615 : 0 : ci.sector_count = bio_sectors(bio);
1616 [ # # # # ]: 0 : while (ci.sector_count && !error) {
1617 : 0 : error = __split_and_process_non_flush(&ci);
1618 [ # # # # : 0 : if (current->bio_list && ci.sector_count && !error) {
# # ]
1619 : : /*
1620 : : * Remainder must be passed to generic_make_request()
1621 : : * so that it gets handled *after* bios already submitted
1622 : : * have been completely processed.
1623 : : * We take a clone of the original to store in
1624 : : * ci.io->orig_bio to be used by end_io_acct() and
1625 : : * for dec_pending to use for completion handling.
1626 : : */
1627 : 0 : struct bio *b = bio_split(bio, bio_sectors(bio) - ci.sector_count,
1628 : 0 : GFP_NOIO, &md->queue->bio_split);
1629 : 0 : ci.io->orig_bio = b;
1630 : :
1631 : : /*
1632 : : * Adjust IO stats for each split, otherwise upon queue
1633 : : * reentry there will be redundant IO accounting.
1634 : : * NOTE: this is a stop-gap fix, a proper fix involves
1635 : : * significant refactoring of DM core's bio splitting
1636 : : * (by eliminating DM's splitting and just using bio_split)
1637 : : */
1638 [ # # ]: 0 : part_stat_lock();
1639 : 0 : __dm_part_stat_sub(&dm_disk(md)->part0,
1640 : : sectors[op_stat_group(bio_op(bio))], ci.sector_count);
1641 : 0 : part_stat_unlock();
1642 : :
1643 : 0 : bio_chain(b, bio);
1644 : 0 : trace_block_split(md->queue, b, bio->bi_iter.bi_sector);
1645 : 0 : ret = generic_make_request(bio);
1646 : 0 : break;
1647 : : }
1648 : : }
1649 : : }
1650 : :
1651 : : /* drop the extra reference count */
1652 : 0 : dec_pending(ci.io, errno_to_blk_status(error));
1653 : 0 : return ret;
1654 : : }
1655 : :
1656 : : /*
1657 : : * Optimized variant of __split_and_process_bio that leverages the
1658 : : * fact that targets that use it do _not_ have a need to split bios.
1659 : : */
1660 : 0 : static blk_qc_t __process_bio(struct mapped_device *md, struct dm_table *map,
1661 : : struct bio *bio, struct dm_target *ti)
1662 : : {
1663 : 0 : struct clone_info ci;
1664 : 0 : blk_qc_t ret = BLK_QC_T_NONE;
1665 : 0 : int error = 0;
1666 : :
1667 : 0 : init_clone_info(&ci, md, map, bio);
1668 : :
1669 [ # # ]: 0 : if (bio->bi_opf & REQ_PREFLUSH) {
1670 : 0 : struct bio flush_bio;
1671 : :
1672 : : /*
1673 : : * Use an on-stack bio for this, it's safe since we don't
1674 : : * need to reference it after submit. It's just used as
1675 : : * the basis for the clone(s).
1676 : : */
1677 : 0 : bio_init(&flush_bio, NULL, 0);
1678 : 0 : flush_bio.bi_opf = REQ_OP_WRITE | REQ_PREFLUSH | REQ_SYNC;
1679 : 0 : ci.bio = &flush_bio;
1680 : 0 : ci.sector_count = 0;
1681 : 0 : error = __send_empty_flush(&ci);
1682 : : /* dec_pending submits any data associated with flush */
1683 : : } else {
1684 : 0 : struct dm_target_io *tio;
1685 : :
1686 : 0 : ci.bio = bio;
1687 : 0 : ci.sector_count = bio_sectors(bio);
1688 [ # # ]: 0 : if (__process_abnormal_io(&ci, ti, &error))
1689 : 0 : goto out;
1690 : :
1691 : 0 : tio = alloc_tio(&ci, ti, 0, GFP_NOIO);
1692 : 0 : ret = __clone_and_map_simple_bio(&ci, tio, NULL);
1693 : : }
1694 : 0 : out:
1695 : : /* drop the extra reference count */
1696 : 0 : dec_pending(ci.io, errno_to_blk_status(error));
1697 : 0 : return ret;
1698 : : }
1699 : :
1700 : : static void dm_queue_split(struct mapped_device *md, struct dm_target *ti, struct bio **bio)
1701 : : {
1702 : : unsigned len, sector_count;
1703 : :
1704 : : sector_count = bio_sectors(*bio);
1705 : : len = min_t(sector_t, max_io_len((*bio)->bi_iter.bi_sector, ti), sector_count);
1706 : :
1707 : : if (sector_count > len) {
1708 : : struct bio *split = bio_split(*bio, len, GFP_NOIO, &md->queue->bio_split);
1709 : :
1710 : : bio_chain(split, *bio);
1711 : : trace_block_split(md->queue, split, (*bio)->bi_iter.bi_sector);
1712 : : generic_make_request(*bio);
1713 : : *bio = split;
1714 : : }
1715 : : }
1716 : :
1717 : 0 : static blk_qc_t dm_process_bio(struct mapped_device *md,
1718 : : struct dm_table *map, struct bio *bio)
1719 : : {
1720 : 0 : blk_qc_t ret = BLK_QC_T_NONE;
1721 : 0 : struct dm_target *ti = md->immutable_target;
1722 : :
1723 [ # # ]: 0 : if (unlikely(!map)) {
1724 : 0 : bio_io_error(bio);
1725 : 0 : return ret;
1726 : : }
1727 : :
1728 [ # # ]: 0 : if (!ti) {
1729 : 0 : ti = dm_table_find_target(map, bio->bi_iter.bi_sector);
1730 [ # # ]: 0 : if (unlikely(!ti)) {
1731 : 0 : bio_io_error(bio);
1732 : 0 : return ret;
1733 : : }
1734 : : }
1735 : :
1736 : : /*
1737 : : * If in ->make_request_fn we need to use blk_queue_split(), otherwise
1738 : : * queue_limits for abnormal requests (e.g. discard, writesame, etc)
1739 : : * won't be imposed.
1740 : : */
1741 [ # # ]: 0 : if (current->bio_list) {
1742 : 0 : blk_queue_split(md->queue, &bio);
1743 [ # # ]: 0 : if (!is_abnormal_io(bio))
1744 : 0 : dm_queue_split(md, ti, &bio);
1745 : : }
1746 : :
1747 : 0 : if (dm_get_md_type(md) == DM_TYPE_NVME_BIO_BASED)
1748 : 0 : return __process_bio(md, map, bio, ti);
1749 : : else
1750 : 0 : return __split_and_process_bio(md, map, bio);
1751 : : }
1752 : :
1753 : 0 : static blk_qc_t dm_make_request(struct request_queue *q, struct bio *bio)
1754 : : {
1755 : 0 : struct mapped_device *md = q->queuedata;
1756 : 0 : blk_qc_t ret = BLK_QC_T_NONE;
1757 : 0 : int srcu_idx;
1758 : 0 : struct dm_table *map;
1759 : :
1760 : 0 : map = dm_get_live_table(md, &srcu_idx);
1761 : :
1762 : : /* if we're suspended, we have to queue this io for later */
1763 [ # # ]: 0 : if (unlikely(test_bit(DMF_BLOCK_IO_FOR_SUSPEND, &md->flags))) {
1764 : 0 : dm_put_live_table(md, srcu_idx);
1765 : :
1766 [ # # ]: 0 : if (!(bio->bi_opf & REQ_RAHEAD))
1767 : 0 : queue_io(md, bio);
1768 : : else
1769 : 0 : bio_io_error(bio);
1770 : 0 : return ret;
1771 : : }
1772 : :
1773 : 0 : ret = dm_process_bio(md, map, bio);
1774 : :
1775 : 0 : dm_put_live_table(md, srcu_idx);
1776 : 0 : return ret;
1777 : : }
1778 : :
1779 : 0 : static int dm_any_congested(void *congested_data, int bdi_bits)
1780 : : {
1781 : 0 : int r = bdi_bits;
1782 : 0 : struct mapped_device *md = congested_data;
1783 : 0 : struct dm_table *map;
1784 : :
1785 [ # # ]: 0 : if (!test_bit(DMF_BLOCK_IO_FOR_SUSPEND, &md->flags)) {
1786 [ # # ]: 0 : if (dm_request_based(md)) {
1787 : : /*
1788 : : * With request-based DM we only need to check the
1789 : : * top-level queue for congestion.
1790 : : */
1791 : 0 : struct backing_dev_info *bdi = md->queue->backing_dev_info;
1792 : 0 : r = bdi->wb.congested->state & bdi_bits;
1793 : : } else {
1794 : 0 : map = dm_get_live_table_fast(md);
1795 [ # # ]: 0 : if (map)
1796 : 0 : r = dm_table_any_congested(map, bdi_bits);
1797 : 0 : dm_put_live_table_fast(md);
1798 : : }
1799 : : }
1800 : :
1801 : 0 : return r;
1802 : : }
1803 : :
1804 : : /*-----------------------------------------------------------------
1805 : : * An IDR is used to keep track of allocated minor numbers.
1806 : : *---------------------------------------------------------------*/
1807 : 0 : static void free_minor(int minor)
1808 : : {
1809 : 0 : spin_lock(&_minor_lock);
1810 : 0 : idr_remove(&_minor_idr, minor);
1811 : 0 : spin_unlock(&_minor_lock);
1812 : 0 : }
1813 : :
1814 : : /*
1815 : : * See if the device with a specific minor # is free.
1816 : : */
1817 : 0 : static int specific_minor(int minor)
1818 : : {
1819 : 0 : int r;
1820 : :
1821 [ # # ]: 0 : if (minor >= (1 << MINORBITS))
1822 : : return -EINVAL;
1823 : :
1824 : 0 : idr_preload(GFP_KERNEL);
1825 : 0 : spin_lock(&_minor_lock);
1826 : :
1827 : 0 : r = idr_alloc(&_minor_idr, MINOR_ALLOCED, minor, minor + 1, GFP_NOWAIT);
1828 : :
1829 : 0 : spin_unlock(&_minor_lock);
1830 : 0 : idr_preload_end();
1831 [ # # ]: 0 : if (r < 0)
1832 [ # # ]: 0 : return r == -ENOSPC ? -EBUSY : r;
1833 : : return 0;
1834 : : }
1835 : :
1836 : 0 : static int next_free_minor(int *minor)
1837 : : {
1838 : 0 : int r;
1839 : :
1840 : 0 : idr_preload(GFP_KERNEL);
1841 : 0 : spin_lock(&_minor_lock);
1842 : :
1843 : 0 : r = idr_alloc(&_minor_idr, MINOR_ALLOCED, 0, 1 << MINORBITS, GFP_NOWAIT);
1844 : :
1845 : 0 : spin_unlock(&_minor_lock);
1846 : 0 : idr_preload_end();
1847 [ # # ]: 0 : if (r < 0)
1848 : : return r;
1849 : 0 : *minor = r;
1850 : 0 : return 0;
1851 : : }
1852 : :
1853 : : static const struct block_device_operations dm_blk_dops;
1854 : : static const struct dax_operations dm_dax_ops;
1855 : :
1856 : : static void dm_wq_work(struct work_struct *work);
1857 : :
1858 : 0 : static void cleanup_mapped_device(struct mapped_device *md)
1859 : : {
1860 [ # # ]: 0 : if (md->wq)
1861 : 0 : destroy_workqueue(md->wq);
1862 : 0 : bioset_exit(&md->bs);
1863 : 0 : bioset_exit(&md->io_bs);
1864 : :
1865 [ # # ]: 0 : if (md->dax_dev) {
1866 : 0 : kill_dax(md->dax_dev);
1867 : 0 : put_dax(md->dax_dev);
1868 : 0 : md->dax_dev = NULL;
1869 : : }
1870 : :
1871 [ # # ]: 0 : if (md->disk) {
1872 : 0 : spin_lock(&_minor_lock);
1873 : 0 : md->disk->private_data = NULL;
1874 : 0 : spin_unlock(&_minor_lock);
1875 : 0 : del_gendisk(md->disk);
1876 : 0 : put_disk(md->disk);
1877 : : }
1878 : :
1879 [ # # ]: 0 : if (md->queue)
1880 : 0 : blk_cleanup_queue(md->queue);
1881 : :
1882 : 0 : cleanup_srcu_struct(&md->io_barrier);
1883 : :
1884 [ # # ]: 0 : if (md->bdev) {
1885 : 0 : bdput(md->bdev);
1886 : 0 : md->bdev = NULL;
1887 : : }
1888 : :
1889 : 0 : mutex_destroy(&md->suspend_lock);
1890 : 0 : mutex_destroy(&md->type_lock);
1891 : 0 : mutex_destroy(&md->table_devices_lock);
1892 : :
1893 : 0 : dm_mq_cleanup_mapped_device(md);
1894 : 0 : }
1895 : :
1896 : : /*
1897 : : * Allocate and initialise a blank device with a given minor.
1898 : : */
1899 : 0 : static struct mapped_device *alloc_dev(int minor)
1900 : : {
1901 : 0 : int r, numa_node_id = dm_get_numa_node();
1902 : 0 : struct mapped_device *md;
1903 : 0 : void *old_md;
1904 : :
1905 : 0 : md = kvzalloc_node(sizeof(*md), GFP_KERNEL, numa_node_id);
1906 [ # # ]: 0 : if (!md) {
1907 : 0 : DMWARN("unable to allocate device, out of memory.");
1908 : 0 : return NULL;
1909 : : }
1910 : :
1911 [ # # ]: 0 : if (!try_module_get(THIS_MODULE))
1912 : 0 : goto bad_module_get;
1913 : :
1914 : : /* get a minor number for the dev */
1915 [ # # ]: 0 : if (minor == DM_ANY_MINOR)
1916 : 0 : r = next_free_minor(&minor);
1917 : : else
1918 : 0 : r = specific_minor(minor);
1919 [ # # ]: 0 : if (r < 0)
1920 : 0 : goto bad_minor;
1921 : :
1922 : 0 : r = init_srcu_struct(&md->io_barrier);
1923 [ # # ]: 0 : if (r < 0)
1924 : 0 : goto bad_io_barrier;
1925 : :
1926 : 0 : md->numa_node_id = numa_node_id;
1927 : 0 : md->init_tio_pdu = false;
1928 : 0 : md->type = DM_TYPE_NONE;
1929 : 0 : mutex_init(&md->suspend_lock);
1930 : 0 : mutex_init(&md->type_lock);
1931 : 0 : mutex_init(&md->table_devices_lock);
1932 : 0 : spin_lock_init(&md->deferred_lock);
1933 : 0 : atomic_set(&md->holders, 1);
1934 : 0 : atomic_set(&md->open_count, 0);
1935 : 0 : atomic_set(&md->event_nr, 0);
1936 : 0 : atomic_set(&md->uevent_seq, 0);
1937 : 0 : INIT_LIST_HEAD(&md->uevent_list);
1938 : 0 : INIT_LIST_HEAD(&md->table_devices);
1939 : 0 : spin_lock_init(&md->uevent_lock);
1940 : :
1941 : 0 : md->queue = blk_alloc_queue_node(GFP_KERNEL, numa_node_id);
1942 [ # # ]: 0 : if (!md->queue)
1943 : 0 : goto bad;
1944 : 0 : md->queue->queuedata = md;
1945 : : /*
1946 : : * default to bio-based required ->make_request_fn until DM
1947 : : * table is loaded and md->type established. If request-based
1948 : : * table is loaded: blk-mq will override accordingly.
1949 : : */
1950 : 0 : blk_queue_make_request(md->queue, dm_make_request);
1951 : :
1952 : 0 : md->disk = alloc_disk_node(1, md->numa_node_id);
1953 [ # # ]: 0 : if (!md->disk)
1954 : 0 : goto bad;
1955 : :
1956 : 0 : init_waitqueue_head(&md->wait);
1957 : 0 : INIT_WORK(&md->work, dm_wq_work);
1958 : 0 : init_waitqueue_head(&md->eventq);
1959 : 0 : init_completion(&md->kobj_holder.completion);
1960 : :
1961 : 0 : md->disk->major = _major;
1962 : 0 : md->disk->first_minor = minor;
1963 : 0 : md->disk->fops = &dm_blk_dops;
1964 : 0 : md->disk->queue = md->queue;
1965 : 0 : md->disk->private_data = md;
1966 : 0 : sprintf(md->disk->disk_name, "dm-%d", minor);
1967 : :
1968 : 0 : if (IS_ENABLED(CONFIG_DAX_DRIVER)) {
1969 : : md->dax_dev = alloc_dax(md, md->disk->disk_name,
1970 : : &dm_dax_ops, 0);
1971 : : if (!md->dax_dev)
1972 : : goto bad;
1973 : : }
1974 : :
1975 : 0 : add_disk_no_queue_reg(md->disk);
1976 : 0 : format_dev_t(md->name, MKDEV(_major, minor));
1977 : :
1978 : 0 : md->wq = alloc_workqueue("kdmflush", WQ_MEM_RECLAIM, 0);
1979 [ # # ]: 0 : if (!md->wq)
1980 : 0 : goto bad;
1981 : :
1982 : 0 : md->bdev = bdget_disk(md->disk, 0);
1983 [ # # ]: 0 : if (!md->bdev)
1984 : 0 : goto bad;
1985 : :
1986 : 0 : dm_stats_init(&md->stats);
1987 : :
1988 : : /* Populate the mapping, nobody knows we exist yet */
1989 : 0 : spin_lock(&_minor_lock);
1990 : 0 : old_md = idr_replace(&_minor_idr, md, minor);
1991 : 0 : spin_unlock(&_minor_lock);
1992 : :
1993 [ # # ]: 0 : BUG_ON(old_md != MINOR_ALLOCED);
1994 : :
1995 : : return md;
1996 : :
1997 : 0 : bad:
1998 : 0 : cleanup_mapped_device(md);
1999 : 0 : bad_io_barrier:
2000 : 0 : free_minor(minor);
2001 : 0 : bad_minor:
2002 : 0 : module_put(THIS_MODULE);
2003 : 0 : bad_module_get:
2004 : 0 : kvfree(md);
2005 : 0 : return NULL;
2006 : : }
2007 : :
2008 : : static void unlock_fs(struct mapped_device *md);
2009 : :
2010 : 0 : static void free_dev(struct mapped_device *md)
2011 : : {
2012 : 0 : int minor = MINOR(disk_devt(md->disk));
2013 : :
2014 : 0 : unlock_fs(md);
2015 : :
2016 : 0 : cleanup_mapped_device(md);
2017 : :
2018 : 0 : free_table_devices(&md->table_devices);
2019 : 0 : dm_stats_cleanup(&md->stats);
2020 : 0 : free_minor(minor);
2021 : :
2022 : 0 : module_put(THIS_MODULE);
2023 : 0 : kvfree(md);
2024 : 0 : }
2025 : :
2026 : 0 : static int __bind_mempools(struct mapped_device *md, struct dm_table *t)
2027 : : {
2028 : 0 : struct dm_md_mempools *p = dm_table_get_md_mempools(t);
2029 : 0 : int ret = 0;
2030 : :
2031 [ # # ]: 0 : if (dm_table_bio_based(t)) {
2032 : : /*
2033 : : * The md may already have mempools that need changing.
2034 : : * If so, reload bioset because front_pad may have changed
2035 : : * because a different table was loaded.
2036 : : */
2037 : 0 : bioset_exit(&md->bs);
2038 : 0 : bioset_exit(&md->io_bs);
2039 : :
2040 [ # # ]: 0 : } else if (bioset_initialized(&md->bs)) {
2041 : : /*
2042 : : * There's no need to reload with request-based dm
2043 : : * because the size of front_pad doesn't change.
2044 : : * Note for future: If you are to reload bioset,
2045 : : * prep-ed requests in the queue may refer
2046 : : * to bio from the old bioset, so you must walk
2047 : : * through the queue to unprep.
2048 : : */
2049 : 0 : goto out;
2050 : : }
2051 : :
2052 [ # # # # : 0 : BUG_ON(!p ||
# # ]
2053 : : bioset_initialized(&md->bs) ||
2054 : : bioset_initialized(&md->io_bs));
2055 : :
2056 : 0 : ret = bioset_init_from_src(&md->bs, &p->bs);
2057 [ # # ]: 0 : if (ret)
2058 : 0 : goto out;
2059 : 0 : ret = bioset_init_from_src(&md->io_bs, &p->io_bs);
2060 [ # # ]: 0 : if (ret)
2061 : 0 : bioset_exit(&md->bs);
2062 : 0 : out:
2063 : : /* mempool bind completed, no longer need any mempools in the table */
2064 : 0 : dm_table_free_md_mempools(t);
2065 : 0 : return ret;
2066 : : }
2067 : :
2068 : : /*
2069 : : * Bind a table to the device.
2070 : : */
2071 : 0 : static void event_callback(void *context)
2072 : : {
2073 : 0 : unsigned long flags;
2074 : 0 : LIST_HEAD(uevents);
2075 : 0 : struct mapped_device *md = (struct mapped_device *) context;
2076 : :
2077 : 0 : spin_lock_irqsave(&md->uevent_lock, flags);
2078 [ # # ]: 0 : list_splice_init(&md->uevent_list, &uevents);
2079 : 0 : spin_unlock_irqrestore(&md->uevent_lock, flags);
2080 : :
2081 : 0 : dm_send_uevents(&uevents, &disk_to_dev(md->disk)->kobj);
2082 : :
2083 : 0 : atomic_inc(&md->event_nr);
2084 : 0 : wake_up(&md->eventq);
2085 : 0 : dm_issue_global_event();
2086 : 0 : }
2087 : :
2088 : : /*
2089 : : * Protected by md->suspend_lock obtained by dm_swap_table().
2090 : : */
2091 : 0 : static void __set_size(struct mapped_device *md, sector_t size)
2092 : : {
2093 : 0 : lockdep_assert_held(&md->suspend_lock);
2094 : :
2095 : 0 : set_capacity(md->disk, size);
2096 : :
2097 : 0 : i_size_write(md->bdev->bd_inode, (loff_t)size << SECTOR_SHIFT);
2098 : : }
2099 : :
2100 : : /*
2101 : : * Returns old map, which caller must destroy.
2102 : : */
2103 : 0 : static struct dm_table *__bind(struct mapped_device *md, struct dm_table *t,
2104 : : struct queue_limits *limits)
2105 : : {
2106 : 0 : struct dm_table *old_map;
2107 : 0 : struct request_queue *q = md->queue;
2108 : 0 : bool request_based = dm_table_request_based(t);
2109 : 0 : sector_t size;
2110 : 0 : int ret;
2111 : :
2112 : 0 : lockdep_assert_held(&md->suspend_lock);
2113 : :
2114 : 0 : size = dm_table_get_size(t);
2115 : :
2116 : : /*
2117 : : * Wipe any geometry if the size of the table changed.
2118 : : */
2119 [ # # ]: 0 : if (size != dm_get_size(md))
2120 : 0 : memset(&md->geometry, 0, sizeof(md->geometry));
2121 : :
2122 : 0 : __set_size(md, size);
2123 : :
2124 : 0 : dm_table_event_callback(t, event_callback, md);
2125 : :
2126 : : /*
2127 : : * The queue hasn't been stopped yet, if the old table type wasn't
2128 : : * for request-based during suspension. So stop it to prevent
2129 : : * I/O mapping before resume.
2130 : : * This must be done before setting the queue restrictions,
2131 : : * because request-based dm may be run just after the setting.
2132 : : */
2133 [ # # ]: 0 : if (request_based)
2134 : 0 : dm_stop_queue(q);
2135 : :
2136 [ # # # # ]: 0 : if (request_based || md->type == DM_TYPE_NVME_BIO_BASED) {
2137 : : /*
2138 : : * Leverage the fact that request-based DM targets and
2139 : : * NVMe bio based targets are immutable singletons
2140 : : * - used to optimize both dm_request_fn and dm_mq_queue_rq;
2141 : : * and __process_bio.
2142 : : */
2143 : 0 : md->immutable_target = dm_table_get_immutable_target(t);
2144 : : }
2145 : :
2146 : 0 : ret = __bind_mempools(md, t);
2147 [ # # ]: 0 : if (ret) {
2148 : 0 : old_map = ERR_PTR(ret);
2149 : 0 : goto out;
2150 : : }
2151 : :
2152 : 0 : old_map = rcu_dereference_protected(md->map, lockdep_is_held(&md->suspend_lock));
2153 : 0 : rcu_assign_pointer(md->map, (void *)t);
2154 : 0 : md->immutable_target_type = dm_table_get_immutable_target_type(t);
2155 : :
2156 : 0 : dm_table_set_restrictions(t, q, limits);
2157 [ # # ]: 0 : if (old_map)
2158 : 0 : dm_sync_table(md);
2159 : :
2160 : 0 : out:
2161 : 0 : return old_map;
2162 : : }
2163 : :
2164 : : /*
2165 : : * Returns unbound table for the caller to free.
2166 : : */
2167 : 0 : static struct dm_table *__unbind(struct mapped_device *md)
2168 : : {
2169 : 0 : struct dm_table *map = rcu_dereference_protected(md->map, 1);
2170 : :
2171 [ # # ]: 0 : if (!map)
2172 : : return NULL;
2173 : :
2174 : 0 : dm_table_event_callback(map, NULL, NULL);
2175 : 0 : RCU_INIT_POINTER(md->map, NULL);
2176 : 0 : dm_sync_table(md);
2177 : :
2178 : 0 : return map;
2179 : : }
2180 : :
2181 : : /*
2182 : : * Constructor for a new device.
2183 : : */
2184 : 0 : int dm_create(int minor, struct mapped_device **result)
2185 : : {
2186 : 0 : int r;
2187 : 0 : struct mapped_device *md;
2188 : :
2189 : 0 : md = alloc_dev(minor);
2190 [ # # ]: 0 : if (!md)
2191 : : return -ENXIO;
2192 : :
2193 : 0 : r = dm_sysfs_init(md);
2194 [ # # ]: 0 : if (r) {
2195 : 0 : free_dev(md);
2196 : 0 : return r;
2197 : : }
2198 : :
2199 : 0 : *result = md;
2200 : 0 : return 0;
2201 : : }
2202 : :
2203 : : /*
2204 : : * Functions to manage md->type.
2205 : : * All are required to hold md->type_lock.
2206 : : */
2207 : 0 : void dm_lock_md_type(struct mapped_device *md)
2208 : : {
2209 : 0 : mutex_lock(&md->type_lock);
2210 : 0 : }
2211 : :
2212 : 0 : void dm_unlock_md_type(struct mapped_device *md)
2213 : : {
2214 : 0 : mutex_unlock(&md->type_lock);
2215 : 0 : }
2216 : :
2217 : 0 : void dm_set_md_type(struct mapped_device *md, enum dm_queue_mode type)
2218 : : {
2219 [ # # ]: 0 : BUG_ON(!mutex_is_locked(&md->type_lock));
2220 : 0 : md->type = type;
2221 : 0 : }
2222 : :
2223 : 0 : enum dm_queue_mode dm_get_md_type(struct mapped_device *md)
2224 : : {
2225 [ # # ]: 0 : return md->type;
2226 : : }
2227 : :
2228 : 0 : struct target_type *dm_get_immutable_target_type(struct mapped_device *md)
2229 : : {
2230 : 0 : return md->immutable_target_type;
2231 : : }
2232 : :
2233 : : /*
2234 : : * The queue_limits are only valid as long as you have a reference
2235 : : * count on 'md'.
2236 : : */
2237 : 0 : struct queue_limits *dm_get_queue_limits(struct mapped_device *md)
2238 : : {
2239 [ # # ]: 0 : BUG_ON(!atomic_read(&md->holders));
2240 : 0 : return &md->queue->limits;
2241 : : }
2242 : : EXPORT_SYMBOL_GPL(dm_get_queue_limits);
2243 : :
2244 : 0 : static void dm_init_congested_fn(struct mapped_device *md)
2245 : : {
2246 : 0 : md->queue->backing_dev_info->congested_data = md;
2247 : 0 : md->queue->backing_dev_info->congested_fn = dm_any_congested;
2248 : 0 : }
2249 : :
2250 : : /*
2251 : : * Setup the DM device's queue based on md's type
2252 : : */
2253 : 0 : int dm_setup_md_queue(struct mapped_device *md, struct dm_table *t)
2254 : : {
2255 : 0 : int r;
2256 : 0 : struct queue_limits limits;
2257 : 0 : enum dm_queue_mode type = dm_get_md_type(md);
2258 : :
2259 [ # # # # ]: 0 : switch (type) {
2260 : 0 : case DM_TYPE_REQUEST_BASED:
2261 : 0 : r = dm_mq_init_request_queue(md, t);
2262 [ # # ]: 0 : if (r) {
2263 : 0 : DMERR("Cannot initialize queue for request-based dm-mq mapped device");
2264 : 0 : return r;
2265 : : }
2266 : 0 : dm_init_congested_fn(md);
2267 : : break;
2268 : : case DM_TYPE_BIO_BASED:
2269 : : case DM_TYPE_DAX_BIO_BASED:
2270 : : case DM_TYPE_NVME_BIO_BASED:
2271 : 0 : dm_init_congested_fn(md);
2272 : : break;
2273 : : case DM_TYPE_NONE:
2274 : 0 : WARN_ON_ONCE(true);
2275 : 0 : break;
2276 : : }
2277 : :
2278 : 0 : r = dm_calculate_queue_limits(t, &limits);
2279 [ # # ]: 0 : if (r) {
2280 : 0 : DMERR("Cannot calculate initial queue limits");
2281 : 0 : return r;
2282 : : }
2283 : 0 : dm_table_set_restrictions(t, md->queue, &limits);
2284 : 0 : blk_register_queue(md->disk);
2285 : :
2286 : 0 : return 0;
2287 : : }
2288 : :
2289 : 0 : struct mapped_device *dm_get_md(dev_t dev)
2290 : : {
2291 : 0 : struct mapped_device *md;
2292 : 0 : unsigned minor = MINOR(dev);
2293 : :
2294 [ # # ]: 0 : if (MAJOR(dev) != _major || minor >= (1 << MINORBITS))
2295 : : return NULL;
2296 : :
2297 : 0 : spin_lock(&_minor_lock);
2298 : :
2299 : 0 : md = idr_find(&_minor_idr, minor);
2300 [ # # # # ]: 0 : if (!md || md == MINOR_ALLOCED || (MINOR(disk_devt(dm_disk(md))) != minor) ||
2301 [ # # ]: 0 : test_bit(DMF_FREEING, &md->flags) || dm_deleting_md(md)) {
2302 : 0 : md = NULL;
2303 : 0 : goto out;
2304 : : }
2305 : 0 : dm_get(md);
2306 : 0 : out:
2307 : 0 : spin_unlock(&_minor_lock);
2308 : :
2309 : 0 : return md;
2310 : : }
2311 : : EXPORT_SYMBOL_GPL(dm_get_md);
2312 : :
2313 : 0 : void *dm_get_mdptr(struct mapped_device *md)
2314 : : {
2315 : 0 : return md->interface_ptr;
2316 : : }
2317 : :
2318 : 0 : void dm_set_mdptr(struct mapped_device *md, void *ptr)
2319 : : {
2320 : 0 : md->interface_ptr = ptr;
2321 : 0 : }
2322 : :
2323 : 0 : void dm_get(struct mapped_device *md)
2324 : : {
2325 : 0 : atomic_inc(&md->holders);
2326 [ # # ]: 0 : BUG_ON(test_bit(DMF_FREEING, &md->flags));
2327 : 0 : }
2328 : :
2329 : 0 : int dm_hold(struct mapped_device *md)
2330 : : {
2331 : 0 : spin_lock(&_minor_lock);
2332 [ # # ]: 0 : if (test_bit(DMF_FREEING, &md->flags)) {
2333 : 0 : spin_unlock(&_minor_lock);
2334 : 0 : return -EBUSY;
2335 : : }
2336 : 0 : dm_get(md);
2337 : 0 : spin_unlock(&_minor_lock);
2338 : 0 : return 0;
2339 : : }
2340 : : EXPORT_SYMBOL_GPL(dm_hold);
2341 : :
2342 : 0 : const char *dm_device_name(struct mapped_device *md)
2343 : : {
2344 : 0 : return md->name;
2345 : : }
2346 : : EXPORT_SYMBOL_GPL(dm_device_name);
2347 : :
2348 : 0 : static void __dm_destroy(struct mapped_device *md, bool wait)
2349 : : {
2350 : 0 : struct dm_table *map;
2351 : 0 : int srcu_idx;
2352 : :
2353 : 0 : might_sleep();
2354 : :
2355 : 0 : spin_lock(&_minor_lock);
2356 : 0 : idr_replace(&_minor_idr, MINOR_ALLOCED, MINOR(disk_devt(dm_disk(md))));
2357 : 0 : set_bit(DMF_FREEING, &md->flags);
2358 : 0 : spin_unlock(&_minor_lock);
2359 : :
2360 : 0 : blk_set_queue_dying(md->queue);
2361 : :
2362 : : /*
2363 : : * Take suspend_lock so that presuspend and postsuspend methods
2364 : : * do not race with internal suspend.
2365 : : */
2366 : 0 : mutex_lock(&md->suspend_lock);
2367 : 0 : map = dm_get_live_table(md, &srcu_idx);
2368 [ # # ]: 0 : if (!dm_suspended_md(md)) {
2369 : 0 : dm_table_presuspend_targets(map);
2370 : 0 : set_bit(DMF_SUSPENDED, &md->flags);
2371 : 0 : dm_table_postsuspend_targets(map);
2372 : : }
2373 : : /* dm_put_live_table must be before msleep, otherwise deadlock is possible */
2374 : 0 : dm_put_live_table(md, srcu_idx);
2375 : 0 : mutex_unlock(&md->suspend_lock);
2376 : :
2377 : : /*
2378 : : * Rare, but there may be I/O requests still going to complete,
2379 : : * for example. Wait for all references to disappear.
2380 : : * No one should increment the reference count of the mapped_device,
2381 : : * after the mapped_device state becomes DMF_FREEING.
2382 : : */
2383 [ # # ]: 0 : if (wait)
2384 [ # # ]: 0 : while (atomic_read(&md->holders))
2385 : 0 : msleep(1);
2386 [ # # ]: 0 : else if (atomic_read(&md->holders))
2387 : 0 : DMWARN("%s: Forcibly removing mapped_device still in use! (%d users)",
2388 : : dm_device_name(md), atomic_read(&md->holders));
2389 : :
2390 : 0 : dm_sysfs_exit(md);
2391 : 0 : dm_table_destroy(__unbind(md));
2392 : 0 : free_dev(md);
2393 : 0 : }
2394 : :
2395 : 0 : void dm_destroy(struct mapped_device *md)
2396 : : {
2397 : 0 : __dm_destroy(md, true);
2398 : 0 : }
2399 : :
2400 : 0 : void dm_destroy_immediate(struct mapped_device *md)
2401 : : {
2402 : 0 : __dm_destroy(md, false);
2403 : 0 : }
2404 : :
2405 : 0 : void dm_put(struct mapped_device *md)
2406 : : {
2407 : 0 : atomic_dec(&md->holders);
2408 : 0 : }
2409 : : EXPORT_SYMBOL_GPL(dm_put);
2410 : :
2411 : 0 : static int dm_wait_for_completion(struct mapped_device *md, long task_state)
2412 : : {
2413 : 0 : int r = 0;
2414 : 0 : DEFINE_WAIT(wait);
2415 : :
2416 : 0 : while (1) {
2417 : 0 : prepare_to_wait(&md->wait, &wait, task_state);
2418 : :
2419 [ # # ]: 0 : if (!md_in_flight(md))
2420 : : break;
2421 : :
2422 [ # # ]: 0 : if (signal_pending_state(task_state, current)) {
2423 : : r = -EINTR;
2424 : : break;
2425 : : }
2426 : :
2427 : 0 : io_schedule();
2428 : : }
2429 : 0 : finish_wait(&md->wait, &wait);
2430 : :
2431 : 0 : return r;
2432 : : }
2433 : :
2434 : : /*
2435 : : * Process the deferred bios
2436 : : */
2437 : 0 : static void dm_wq_work(struct work_struct *work)
2438 : : {
2439 : 0 : struct mapped_device *md = container_of(work, struct mapped_device,
2440 : : work);
2441 : 0 : struct bio *c;
2442 : 0 : int srcu_idx;
2443 : 0 : struct dm_table *map;
2444 : :
2445 : 0 : map = dm_get_live_table(md, &srcu_idx);
2446 : :
2447 [ # # ]: 0 : while (!test_bit(DMF_BLOCK_IO_FOR_SUSPEND, &md->flags)) {
2448 : 0 : spin_lock_irq(&md->deferred_lock);
2449 [ # # ]: 0 : c = bio_list_pop(&md->deferred);
2450 : 0 : spin_unlock_irq(&md->deferred_lock);
2451 : :
2452 [ # # ]: 0 : if (!c)
2453 : : break;
2454 : :
2455 [ # # ]: 0 : if (dm_request_based(md))
2456 : 0 : (void) generic_make_request(c);
2457 : : else
2458 : 0 : (void) dm_process_bio(md, map, c);
2459 : : }
2460 : :
2461 : 0 : dm_put_live_table(md, srcu_idx);
2462 : 0 : }
2463 : :
2464 : 0 : static void dm_queue_flush(struct mapped_device *md)
2465 : : {
2466 : 0 : clear_bit(DMF_BLOCK_IO_FOR_SUSPEND, &md->flags);
2467 : 0 : smp_mb__after_atomic();
2468 : 0 : queue_work(md->wq, &md->work);
2469 : 0 : }
2470 : :
2471 : : /*
2472 : : * Swap in a new table, returning the old one for the caller to destroy.
2473 : : */
2474 : 0 : struct dm_table *dm_swap_table(struct mapped_device *md, struct dm_table *table)
2475 : : {
2476 : 0 : struct dm_table *live_map = NULL, *map = ERR_PTR(-EINVAL);
2477 : 0 : struct queue_limits limits;
2478 : 0 : int r;
2479 : :
2480 : 0 : mutex_lock(&md->suspend_lock);
2481 : :
2482 : : /* device must be suspended */
2483 [ # # ]: 0 : if (!dm_suspended_md(md))
2484 : 0 : goto out;
2485 : :
2486 : : /*
2487 : : * If the new table has no data devices, retain the existing limits.
2488 : : * This helps multipath with queue_if_no_path if all paths disappear,
2489 : : * then new I/O is queued based on these limits, and then some paths
2490 : : * reappear.
2491 : : */
2492 [ # # ]: 0 : if (dm_table_has_no_data_devices(table)) {
2493 : 0 : live_map = dm_get_live_table_fast(md);
2494 [ # # ]: 0 : if (live_map)
2495 : 0 : limits = md->queue->limits;
2496 : 0 : dm_put_live_table_fast(md);
2497 : : }
2498 : :
2499 [ # # ]: 0 : if (!live_map) {
2500 : 0 : r = dm_calculate_queue_limits(table, &limits);
2501 [ # # ]: 0 : if (r) {
2502 : 0 : map = ERR_PTR(r);
2503 : 0 : goto out;
2504 : : }
2505 : : }
2506 : :
2507 : 0 : map = __bind(md, table, &limits);
2508 : 0 : dm_issue_global_event();
2509 : :
2510 : 0 : out:
2511 : 0 : mutex_unlock(&md->suspend_lock);
2512 : 0 : return map;
2513 : : }
2514 : :
2515 : : /*
2516 : : * Functions to lock and unlock any filesystem running on the
2517 : : * device.
2518 : : */
2519 : 0 : static int lock_fs(struct mapped_device *md)
2520 : : {
2521 : 0 : int r;
2522 : :
2523 [ # # ]: 0 : WARN_ON(md->frozen_sb);
2524 : :
2525 : 0 : md->frozen_sb = freeze_bdev(md->bdev);
2526 [ # # ]: 0 : if (IS_ERR(md->frozen_sb)) {
2527 : 0 : r = PTR_ERR(md->frozen_sb);
2528 : 0 : md->frozen_sb = NULL;
2529 : 0 : return r;
2530 : : }
2531 : :
2532 : 0 : set_bit(DMF_FROZEN, &md->flags);
2533 : :
2534 : 0 : return 0;
2535 : : }
2536 : :
2537 : 0 : static void unlock_fs(struct mapped_device *md)
2538 : : {
2539 [ # # ]: 0 : if (!test_bit(DMF_FROZEN, &md->flags))
2540 : : return;
2541 : :
2542 : 0 : thaw_bdev(md->bdev, md->frozen_sb);
2543 : 0 : md->frozen_sb = NULL;
2544 : 0 : clear_bit(DMF_FROZEN, &md->flags);
2545 : : }
2546 : :
2547 : : /*
2548 : : * @suspend_flags: DM_SUSPEND_LOCKFS_FLAG and/or DM_SUSPEND_NOFLUSH_FLAG
2549 : : * @task_state: e.g. TASK_INTERRUPTIBLE or TASK_UNINTERRUPTIBLE
2550 : : * @dmf_suspended_flag: DMF_SUSPENDED or DMF_SUSPENDED_INTERNALLY
2551 : : *
2552 : : * If __dm_suspend returns 0, the device is completely quiescent
2553 : : * now. There is no request-processing activity. All new requests
2554 : : * are being added to md->deferred list.
2555 : : */
2556 : 0 : static int __dm_suspend(struct mapped_device *md, struct dm_table *map,
2557 : : unsigned suspend_flags, long task_state,
2558 : : int dmf_suspended_flag)
2559 : : {
2560 : 0 : bool do_lockfs = suspend_flags & DM_SUSPEND_LOCKFS_FLAG;
2561 : 0 : bool noflush = suspend_flags & DM_SUSPEND_NOFLUSH_FLAG;
2562 : 0 : int r;
2563 : :
2564 : 0 : lockdep_assert_held(&md->suspend_lock);
2565 : :
2566 : : /*
2567 : : * DMF_NOFLUSH_SUSPENDING must be set before presuspend.
2568 : : * This flag is cleared before dm_suspend returns.
2569 : : */
2570 [ # # ]: 0 : if (noflush)
2571 : 0 : set_bit(DMF_NOFLUSH_SUSPENDING, &md->flags);
2572 : : else
2573 : : pr_debug("%s: suspending with flush\n", dm_device_name(md));
2574 : :
2575 : : /*
2576 : : * This gets reverted if there's an error later and the targets
2577 : : * provide the .presuspend_undo hook.
2578 : : */
2579 : 0 : dm_table_presuspend_targets(map);
2580 : :
2581 : : /*
2582 : : * Flush I/O to the device.
2583 : : * Any I/O submitted after lock_fs() may not be flushed.
2584 : : * noflush takes precedence over do_lockfs.
2585 : : * (lock_fs() flushes I/Os and waits for them to complete.)
2586 : : */
2587 [ # # ]: 0 : if (!noflush && do_lockfs) {
2588 : 0 : r = lock_fs(md);
2589 [ # # ]: 0 : if (r) {
2590 : 0 : dm_table_presuspend_undo_targets(map);
2591 : 0 : return r;
2592 : : }
2593 : : }
2594 : :
2595 : : /*
2596 : : * Here we must make sure that no processes are submitting requests
2597 : : * to target drivers i.e. no one may be executing
2598 : : * __split_and_process_bio. This is called from dm_request and
2599 : : * dm_wq_work.
2600 : : *
2601 : : * To get all processes out of __split_and_process_bio in dm_request,
2602 : : * we take the write lock. To prevent any process from reentering
2603 : : * __split_and_process_bio from dm_request and quiesce the thread
2604 : : * (dm_wq_work), we set BMF_BLOCK_IO_FOR_SUSPEND and call
2605 : : * flush_workqueue(md->wq).
2606 : : */
2607 : 0 : set_bit(DMF_BLOCK_IO_FOR_SUSPEND, &md->flags);
2608 [ # # ]: 0 : if (map)
2609 : 0 : synchronize_srcu(&md->io_barrier);
2610 : :
2611 : : /*
2612 : : * Stop md->queue before flushing md->wq in case request-based
2613 : : * dm defers requests to md->wq from md->queue.
2614 : : */
2615 [ # # ]: 0 : if (dm_request_based(md))
2616 : 0 : dm_stop_queue(md->queue);
2617 : :
2618 : 0 : flush_workqueue(md->wq);
2619 : :
2620 : : /*
2621 : : * At this point no more requests are entering target request routines.
2622 : : * We call dm_wait_for_completion to wait for all existing requests
2623 : : * to finish.
2624 : : */
2625 : 0 : r = dm_wait_for_completion(md, task_state);
2626 [ # # ]: 0 : if (!r)
2627 : 0 : set_bit(dmf_suspended_flag, &md->flags);
2628 : :
2629 [ # # ]: 0 : if (noflush)
2630 : 0 : clear_bit(DMF_NOFLUSH_SUSPENDING, &md->flags);
2631 [ # # ]: 0 : if (map)
2632 : 0 : synchronize_srcu(&md->io_barrier);
2633 : :
2634 : : /* were we interrupted ? */
2635 [ # # ]: 0 : if (r < 0) {
2636 : 0 : dm_queue_flush(md);
2637 : :
2638 [ # # ]: 0 : if (dm_request_based(md))
2639 : 0 : dm_start_queue(md->queue);
2640 : :
2641 : 0 : unlock_fs(md);
2642 : 0 : dm_table_presuspend_undo_targets(map);
2643 : : /* pushback list is already flushed, so skip flush */
2644 : : }
2645 : :
2646 : : return r;
2647 : : }
2648 : :
2649 : : /*
2650 : : * We need to be able to change a mapping table under a mounted
2651 : : * filesystem. For example we might want to move some data in
2652 : : * the background. Before the table can be swapped with
2653 : : * dm_bind_table, dm_suspend must be called to flush any in
2654 : : * flight bios and ensure that any further io gets deferred.
2655 : : */
2656 : : /*
2657 : : * Suspend mechanism in request-based dm.
2658 : : *
2659 : : * 1. Flush all I/Os by lock_fs() if needed.
2660 : : * 2. Stop dispatching any I/O by stopping the request_queue.
2661 : : * 3. Wait for all in-flight I/Os to be completed or requeued.
2662 : : *
2663 : : * To abort suspend, start the request_queue.
2664 : : */
2665 : 0 : int dm_suspend(struct mapped_device *md, unsigned suspend_flags)
2666 : : {
2667 : 0 : struct dm_table *map = NULL;
2668 : 0 : int r = 0;
2669 : :
2670 : 0 : retry:
2671 : 0 : mutex_lock_nested(&md->suspend_lock, SINGLE_DEPTH_NESTING);
2672 : :
2673 [ # # ]: 0 : if (dm_suspended_md(md)) {
2674 : 0 : r = -EINVAL;
2675 : 0 : goto out_unlock;
2676 : : }
2677 : :
2678 [ # # ]: 0 : if (dm_suspended_internally_md(md)) {
2679 : : /* already internally suspended, wait for internal resume */
2680 : 0 : mutex_unlock(&md->suspend_lock);
2681 : 0 : r = wait_on_bit(&md->flags, DMF_SUSPENDED_INTERNALLY, TASK_INTERRUPTIBLE);
2682 [ # # ]: 0 : if (r)
2683 : 0 : return r;
2684 : 0 : goto retry;
2685 : : }
2686 : :
2687 : 0 : map = rcu_dereference_protected(md->map, lockdep_is_held(&md->suspend_lock));
2688 : :
2689 : 0 : r = __dm_suspend(md, map, suspend_flags, TASK_INTERRUPTIBLE, DMF_SUSPENDED);
2690 [ # # ]: 0 : if (r)
2691 : 0 : goto out_unlock;
2692 : :
2693 : 0 : dm_table_postsuspend_targets(map);
2694 : :
2695 : 0 : out_unlock:
2696 : 0 : mutex_unlock(&md->suspend_lock);
2697 : 0 : return r;
2698 : : }
2699 : :
2700 : 0 : static int __dm_resume(struct mapped_device *md, struct dm_table *map)
2701 : : {
2702 [ # # ]: 0 : if (map) {
2703 : 0 : int r = dm_table_resume_targets(map);
2704 [ # # ]: 0 : if (r)
2705 : : return r;
2706 : : }
2707 : :
2708 : 0 : dm_queue_flush(md);
2709 : :
2710 : : /*
2711 : : * Flushing deferred I/Os must be done after targets are resumed
2712 : : * so that mapping of targets can work correctly.
2713 : : * Request-based dm is queueing the deferred I/Os in its request_queue.
2714 : : */
2715 [ # # ]: 0 : if (dm_request_based(md))
2716 : 0 : dm_start_queue(md->queue);
2717 : :
2718 : 0 : unlock_fs(md);
2719 : :
2720 : 0 : return 0;
2721 : : }
2722 : :
2723 : 0 : int dm_resume(struct mapped_device *md)
2724 : : {
2725 : 0 : int r;
2726 : 0 : struct dm_table *map = NULL;
2727 : :
2728 : 0 : retry:
2729 : 0 : r = -EINVAL;
2730 : 0 : mutex_lock_nested(&md->suspend_lock, SINGLE_DEPTH_NESTING);
2731 : :
2732 [ # # ]: 0 : if (!dm_suspended_md(md))
2733 : 0 : goto out;
2734 : :
2735 [ # # ]: 0 : if (dm_suspended_internally_md(md)) {
2736 : : /* already internally suspended, wait for internal resume */
2737 : 0 : mutex_unlock(&md->suspend_lock);
2738 : 0 : r = wait_on_bit(&md->flags, DMF_SUSPENDED_INTERNALLY, TASK_INTERRUPTIBLE);
2739 [ # # ]: 0 : if (r)
2740 : 0 : return r;
2741 : 0 : goto retry;
2742 : : }
2743 : :
2744 : 0 : map = rcu_dereference_protected(md->map, lockdep_is_held(&md->suspend_lock));
2745 [ # # # # ]: 0 : if (!map || !dm_table_get_size(map))
2746 : 0 : goto out;
2747 : :
2748 : 0 : r = __dm_resume(md, map);
2749 [ # # ]: 0 : if (r)
2750 : 0 : goto out;
2751 : :
2752 : 0 : clear_bit(DMF_SUSPENDED, &md->flags);
2753 : 0 : out:
2754 : 0 : mutex_unlock(&md->suspend_lock);
2755 : :
2756 : 0 : return r;
2757 : : }
2758 : :
2759 : : /*
2760 : : * Internal suspend/resume works like userspace-driven suspend. It waits
2761 : : * until all bios finish and prevents issuing new bios to the target drivers.
2762 : : * It may be used only from the kernel.
2763 : : */
2764 : :
2765 : 0 : static void __dm_internal_suspend(struct mapped_device *md, unsigned suspend_flags)
2766 : : {
2767 : 0 : struct dm_table *map = NULL;
2768 : :
2769 : 0 : lockdep_assert_held(&md->suspend_lock);
2770 : :
2771 [ # # ]: 0 : if (md->internal_suspend_count++)
2772 : : return; /* nested internal suspend */
2773 : :
2774 [ # # ]: 0 : if (dm_suspended_md(md)) {
2775 : 0 : set_bit(DMF_SUSPENDED_INTERNALLY, &md->flags);
2776 : 0 : return; /* nest suspend */
2777 : : }
2778 : :
2779 : 0 : map = rcu_dereference_protected(md->map, lockdep_is_held(&md->suspend_lock));
2780 : :
2781 : : /*
2782 : : * Using TASK_UNINTERRUPTIBLE because only NOFLUSH internal suspend is
2783 : : * supported. Properly supporting a TASK_INTERRUPTIBLE internal suspend
2784 : : * would require changing .presuspend to return an error -- avoid this
2785 : : * until there is a need for more elaborate variants of internal suspend.
2786 : : */
2787 : 0 : (void) __dm_suspend(md, map, suspend_flags, TASK_UNINTERRUPTIBLE,
2788 : : DMF_SUSPENDED_INTERNALLY);
2789 : :
2790 : 0 : dm_table_postsuspend_targets(map);
2791 : : }
2792 : :
2793 : 0 : static void __dm_internal_resume(struct mapped_device *md)
2794 : : {
2795 [ # # ]: 0 : BUG_ON(!md->internal_suspend_count);
2796 : :
2797 [ # # ]: 0 : if (--md->internal_suspend_count)
2798 : : return; /* resume from nested internal suspend */
2799 : :
2800 [ # # ]: 0 : if (dm_suspended_md(md))
2801 : 0 : goto done; /* resume from nested suspend */
2802 : :
2803 : : /*
2804 : : * NOTE: existing callers don't need to call dm_table_resume_targets
2805 : : * (which may fail -- so best to avoid it for now by passing NULL map)
2806 : : */
2807 : 0 : (void) __dm_resume(md, NULL);
2808 : :
2809 : 0 : done:
2810 : 0 : clear_bit(DMF_SUSPENDED_INTERNALLY, &md->flags);
2811 : 0 : smp_mb__after_atomic();
2812 : 0 : wake_up_bit(&md->flags, DMF_SUSPENDED_INTERNALLY);
2813 : : }
2814 : :
2815 : 0 : void dm_internal_suspend_noflush(struct mapped_device *md)
2816 : : {
2817 : 0 : mutex_lock(&md->suspend_lock);
2818 : 0 : __dm_internal_suspend(md, DM_SUSPEND_NOFLUSH_FLAG);
2819 : 0 : mutex_unlock(&md->suspend_lock);
2820 : 0 : }
2821 : : EXPORT_SYMBOL_GPL(dm_internal_suspend_noflush);
2822 : :
2823 : 0 : void dm_internal_resume(struct mapped_device *md)
2824 : : {
2825 : 0 : mutex_lock(&md->suspend_lock);
2826 : 0 : __dm_internal_resume(md);
2827 : 0 : mutex_unlock(&md->suspend_lock);
2828 : 0 : }
2829 : : EXPORT_SYMBOL_GPL(dm_internal_resume);
2830 : :
2831 : : /*
2832 : : * Fast variants of internal suspend/resume hold md->suspend_lock,
2833 : : * which prevents interaction with userspace-driven suspend.
2834 : : */
2835 : :
2836 : 0 : void dm_internal_suspend_fast(struct mapped_device *md)
2837 : : {
2838 : 0 : mutex_lock(&md->suspend_lock);
2839 [ # # # # ]: 0 : if (dm_suspended_md(md) || dm_suspended_internally_md(md))
2840 : 0 : return;
2841 : :
2842 : 0 : set_bit(DMF_BLOCK_IO_FOR_SUSPEND, &md->flags);
2843 : 0 : synchronize_srcu(&md->io_barrier);
2844 : 0 : flush_workqueue(md->wq);
2845 : 0 : dm_wait_for_completion(md, TASK_UNINTERRUPTIBLE);
2846 : : }
2847 : : EXPORT_SYMBOL_GPL(dm_internal_suspend_fast);
2848 : :
2849 : 0 : void dm_internal_resume_fast(struct mapped_device *md)
2850 : : {
2851 [ # # # # ]: 0 : if (dm_suspended_md(md) || dm_suspended_internally_md(md))
2852 : 0 : goto done;
2853 : :
2854 : 0 : dm_queue_flush(md);
2855 : :
2856 : 0 : done:
2857 : 0 : mutex_unlock(&md->suspend_lock);
2858 : 0 : }
2859 : : EXPORT_SYMBOL_GPL(dm_internal_resume_fast);
2860 : :
2861 : : /*-----------------------------------------------------------------
2862 : : * Event notification.
2863 : : *---------------------------------------------------------------*/
2864 : 0 : int dm_kobject_uevent(struct mapped_device *md, enum kobject_action action,
2865 : : unsigned cookie)
2866 : : {
2867 : 0 : char udev_cookie[DM_COOKIE_LENGTH];
2868 : 0 : char *envp[] = { udev_cookie, NULL };
2869 : :
2870 [ # # ]: 0 : if (!cookie)
2871 : 0 : return kobject_uevent(&disk_to_dev(md->disk)->kobj, action);
2872 : : else {
2873 : 0 : snprintf(udev_cookie, DM_COOKIE_LENGTH, "%s=%u",
2874 : : DM_COOKIE_ENV_VAR_NAME, cookie);
2875 : 0 : return kobject_uevent_env(&disk_to_dev(md->disk)->kobj,
2876 : : action, envp);
2877 : : }
2878 : : }
2879 : :
2880 : 0 : uint32_t dm_next_uevent_seq(struct mapped_device *md)
2881 : : {
2882 : 0 : return atomic_add_return(1, &md->uevent_seq);
2883 : : }
2884 : :
2885 : 0 : uint32_t dm_get_event_nr(struct mapped_device *md)
2886 : : {
2887 : 0 : return atomic_read(&md->event_nr);
2888 : : }
2889 : :
2890 : 0 : int dm_wait_event(struct mapped_device *md, int event_nr)
2891 : : {
2892 [ # # # # : 0 : return wait_event_interruptible(md->eventq,
# # ]
2893 : : (event_nr != atomic_read(&md->event_nr)));
2894 : : }
2895 : :
2896 : 0 : void dm_uevent_add(struct mapped_device *md, struct list_head *elist)
2897 : : {
2898 : 0 : unsigned long flags;
2899 : :
2900 : 0 : spin_lock_irqsave(&md->uevent_lock, flags);
2901 : 0 : list_add(elist, &md->uevent_list);
2902 : 0 : spin_unlock_irqrestore(&md->uevent_lock, flags);
2903 : 0 : }
2904 : :
2905 : : /*
2906 : : * The gendisk is only valid as long as you have a reference
2907 : : * count on 'md'.
2908 : : */
2909 : 0 : struct gendisk *dm_disk(struct mapped_device *md)
2910 : : {
2911 [ # # # # ]: 0 : return md->disk;
2912 : : }
2913 : : EXPORT_SYMBOL_GPL(dm_disk);
2914 : :
2915 : 0 : struct kobject *dm_kobject(struct mapped_device *md)
2916 : : {
2917 : 0 : return &md->kobj_holder.kobj;
2918 : : }
2919 : :
2920 : 0 : struct mapped_device *dm_get_from_kobject(struct kobject *kobj)
2921 : : {
2922 : 0 : struct mapped_device *md;
2923 : :
2924 : 0 : md = container_of(kobj, struct mapped_device, kobj_holder.kobj);
2925 : :
2926 : 0 : spin_lock(&_minor_lock);
2927 [ # # # # ]: 0 : if (test_bit(DMF_FREEING, &md->flags) || dm_deleting_md(md)) {
2928 : 0 : md = NULL;
2929 : 0 : goto out;
2930 : : }
2931 : 0 : dm_get(md);
2932 : 0 : out:
2933 : 0 : spin_unlock(&_minor_lock);
2934 : :
2935 : 0 : return md;
2936 : : }
2937 : :
2938 : 0 : int dm_suspended_md(struct mapped_device *md)
2939 : : {
2940 : 0 : return test_bit(DMF_SUSPENDED, &md->flags);
2941 : : }
2942 : :
2943 : 0 : int dm_suspended_internally_md(struct mapped_device *md)
2944 : : {
2945 : 0 : return test_bit(DMF_SUSPENDED_INTERNALLY, &md->flags);
2946 : : }
2947 : :
2948 : 0 : int dm_test_deferred_remove_flag(struct mapped_device *md)
2949 : : {
2950 : 0 : return test_bit(DMF_DEFERRED_REMOVE, &md->flags);
2951 : : }
2952 : :
2953 : 0 : int dm_suspended(struct dm_target *ti)
2954 : : {
2955 : 0 : return dm_suspended_md(dm_table_get_md(ti->table));
2956 : : }
2957 : : EXPORT_SYMBOL_GPL(dm_suspended);
2958 : :
2959 : 0 : int dm_noflush_suspending(struct dm_target *ti)
2960 : : {
2961 : 0 : return __noflush_suspending(dm_table_get_md(ti->table));
2962 : : }
2963 : : EXPORT_SYMBOL_GPL(dm_noflush_suspending);
2964 : :
2965 : 0 : struct dm_md_mempools *dm_alloc_md_mempools(struct mapped_device *md, enum dm_queue_mode type,
2966 : : unsigned integrity, unsigned per_io_data_size,
2967 : : unsigned min_pool_size)
2968 : : {
2969 : 0 : struct dm_md_mempools *pools = kzalloc_node(sizeof(*pools), GFP_KERNEL, md->numa_node_id);
2970 : 0 : unsigned int pool_size = 0;
2971 : 0 : unsigned int front_pad, io_front_pad;
2972 : 0 : int ret;
2973 : :
2974 [ # # ]: 0 : if (!pools)
2975 : : return NULL;
2976 : :
2977 [ # # # ]: 0 : switch (type) {
2978 : : case DM_TYPE_BIO_BASED:
2979 : : case DM_TYPE_DAX_BIO_BASED:
2980 : : case DM_TYPE_NVME_BIO_BASED:
2981 : 0 : pool_size = max(dm_get_reserved_bio_based_ios(), min_pool_size);
2982 : 0 : front_pad = roundup(per_io_data_size, __alignof__(struct dm_target_io)) + offsetof(struct dm_target_io, clone);
2983 : 0 : io_front_pad = roundup(front_pad, __alignof__(struct dm_io)) + offsetof(struct dm_io, tio);
2984 : 0 : ret = bioset_init(&pools->io_bs, pool_size, io_front_pad, 0);
2985 [ # # ]: 0 : if (ret)
2986 : 0 : goto out;
2987 : : if (integrity && bioset_integrity_create(&pools->io_bs, pool_size))
2988 : : goto out;
2989 : : break;
2990 : 0 : case DM_TYPE_REQUEST_BASED:
2991 : 0 : pool_size = max(dm_get_reserved_rq_based_ios(), min_pool_size);
2992 : 0 : front_pad = offsetof(struct dm_rq_clone_bio_info, clone);
2993 : : /* per_io_data_size is used for blk-mq pdu at queue allocation */
2994 : 0 : break;
2995 : 0 : default:
2996 : 0 : BUG();
2997 : : }
2998 : :
2999 : 0 : ret = bioset_init(&pools->bs, pool_size, front_pad, 0);
3000 [ # # ]: 0 : if (ret)
3001 : 0 : goto out;
3002 : :
3003 : : if (integrity && bioset_integrity_create(&pools->bs, pool_size))
3004 : : goto out;
3005 : :
3006 : : return pools;
3007 : :
3008 : 0 : out:
3009 : 0 : dm_free_md_mempools(pools);
3010 : :
3011 : 0 : return NULL;
3012 : : }
3013 : :
3014 : 0 : void dm_free_md_mempools(struct dm_md_mempools *pools)
3015 : : {
3016 [ # # ]: 0 : if (!pools)
3017 : : return;
3018 : :
3019 : 0 : bioset_exit(&pools->bs);
3020 : 0 : bioset_exit(&pools->io_bs);
3021 : :
3022 : 0 : kfree(pools);
3023 : : }
3024 : :
3025 : : struct dm_pr {
3026 : : u64 old_key;
3027 : : u64 new_key;
3028 : : u32 flags;
3029 : : bool fail_early;
3030 : : };
3031 : :
3032 : : static int dm_call_pr(struct block_device *bdev, iterate_devices_callout_fn fn,
3033 : : void *data)
3034 : : {
3035 : : struct mapped_device *md = bdev->bd_disk->private_data;
3036 : : struct dm_table *table;
3037 : : struct dm_target *ti;
3038 : : int ret = -ENOTTY, srcu_idx;
3039 : :
3040 : : table = dm_get_live_table(md, &srcu_idx);
3041 : : if (!table || !dm_table_get_size(table))
3042 : : goto out;
3043 : :
3044 : : /* We only support devices that have a single target */
3045 : : if (dm_table_get_num_targets(table) != 1)
3046 : : goto out;
3047 : : ti = dm_table_get_target(table, 0);
3048 : :
3049 : : ret = -EINVAL;
3050 : : if (!ti->type->iterate_devices)
3051 : : goto out;
3052 : :
3053 : : ret = ti->type->iterate_devices(ti, fn, data);
3054 : : out:
3055 : : dm_put_live_table(md, srcu_idx);
3056 : : return ret;
3057 : : }
3058 : :
3059 : : /*
3060 : : * For register / unregister we need to manually call out to every path.
3061 : : */
3062 : 0 : static int __dm_pr_register(struct dm_target *ti, struct dm_dev *dev,
3063 : : sector_t start, sector_t len, void *data)
3064 : : {
3065 : 0 : struct dm_pr *pr = data;
3066 : 0 : const struct pr_ops *ops = dev->bdev->bd_disk->fops->pr_ops;
3067 : :
3068 [ # # # # ]: 0 : if (!ops || !ops->pr_register)
3069 : : return -EOPNOTSUPP;
3070 : 0 : return ops->pr_register(dev->bdev, pr->old_key, pr->new_key, pr->flags);
3071 : : }
3072 : :
3073 : 0 : static int dm_pr_register(struct block_device *bdev, u64 old_key, u64 new_key,
3074 : : u32 flags)
3075 : : {
3076 : 0 : struct dm_pr pr = {
3077 : : .old_key = old_key,
3078 : : .new_key = new_key,
3079 : : .flags = flags,
3080 : : .fail_early = true,
3081 : : };
3082 : 0 : int ret;
3083 : :
3084 : 0 : ret = dm_call_pr(bdev, __dm_pr_register, &pr);
3085 [ # # ]: 0 : if (ret && new_key) {
3086 : : /* unregister all paths if we failed to register any path */
3087 : 0 : pr.old_key = new_key;
3088 : 0 : pr.new_key = 0;
3089 : 0 : pr.flags = 0;
3090 : 0 : pr.fail_early = false;
3091 : 0 : dm_call_pr(bdev, __dm_pr_register, &pr);
3092 : : }
3093 : :
3094 : 0 : return ret;
3095 : : }
3096 : :
3097 : 0 : static int dm_pr_reserve(struct block_device *bdev, u64 key, enum pr_type type,
3098 : : u32 flags)
3099 : : {
3100 : 0 : struct mapped_device *md = bdev->bd_disk->private_data;
3101 : 0 : const struct pr_ops *ops;
3102 : 0 : int r, srcu_idx;
3103 : :
3104 : 0 : r = dm_prepare_ioctl(md, &srcu_idx, &bdev);
3105 [ # # ]: 0 : if (r < 0)
3106 : 0 : goto out;
3107 : :
3108 : 0 : ops = bdev->bd_disk->fops->pr_ops;
3109 [ # # # # ]: 0 : if (ops && ops->pr_reserve)
3110 : 0 : r = ops->pr_reserve(bdev, key, type, flags);
3111 : : else
3112 : : r = -EOPNOTSUPP;
3113 : 0 : out:
3114 : 0 : dm_unprepare_ioctl(md, srcu_idx);
3115 : 0 : return r;
3116 : : }
3117 : :
3118 : 0 : static int dm_pr_release(struct block_device *bdev, u64 key, enum pr_type type)
3119 : : {
3120 : 0 : struct mapped_device *md = bdev->bd_disk->private_data;
3121 : 0 : const struct pr_ops *ops;
3122 : 0 : int r, srcu_idx;
3123 : :
3124 : 0 : r = dm_prepare_ioctl(md, &srcu_idx, &bdev);
3125 [ # # ]: 0 : if (r < 0)
3126 : 0 : goto out;
3127 : :
3128 : 0 : ops = bdev->bd_disk->fops->pr_ops;
3129 [ # # # # ]: 0 : if (ops && ops->pr_release)
3130 : 0 : r = ops->pr_release(bdev, key, type);
3131 : : else
3132 : : r = -EOPNOTSUPP;
3133 : 0 : out:
3134 : 0 : dm_unprepare_ioctl(md, srcu_idx);
3135 : 0 : return r;
3136 : : }
3137 : :
3138 : 0 : static int dm_pr_preempt(struct block_device *bdev, u64 old_key, u64 new_key,
3139 : : enum pr_type type, bool abort)
3140 : : {
3141 : 0 : struct mapped_device *md = bdev->bd_disk->private_data;
3142 : 0 : const struct pr_ops *ops;
3143 : 0 : int r, srcu_idx;
3144 : :
3145 : 0 : r = dm_prepare_ioctl(md, &srcu_idx, &bdev);
3146 [ # # ]: 0 : if (r < 0)
3147 : 0 : goto out;
3148 : :
3149 : 0 : ops = bdev->bd_disk->fops->pr_ops;
3150 [ # # # # ]: 0 : if (ops && ops->pr_preempt)
3151 : 0 : r = ops->pr_preempt(bdev, old_key, new_key, type, abort);
3152 : : else
3153 : : r = -EOPNOTSUPP;
3154 : 0 : out:
3155 : 0 : dm_unprepare_ioctl(md, srcu_idx);
3156 : 0 : return r;
3157 : : }
3158 : :
3159 : 0 : static int dm_pr_clear(struct block_device *bdev, u64 key)
3160 : : {
3161 : 0 : struct mapped_device *md = bdev->bd_disk->private_data;
3162 : 0 : const struct pr_ops *ops;
3163 : 0 : int r, srcu_idx;
3164 : :
3165 : 0 : r = dm_prepare_ioctl(md, &srcu_idx, &bdev);
3166 [ # # ]: 0 : if (r < 0)
3167 : 0 : goto out;
3168 : :
3169 : 0 : ops = bdev->bd_disk->fops->pr_ops;
3170 [ # # # # ]: 0 : if (ops && ops->pr_clear)
3171 : 0 : r = ops->pr_clear(bdev, key);
3172 : : else
3173 : : r = -EOPNOTSUPP;
3174 : 0 : out:
3175 : 0 : dm_unprepare_ioctl(md, srcu_idx);
3176 : 0 : return r;
3177 : : }
3178 : :
3179 : : static const struct pr_ops dm_pr_ops = {
3180 : : .pr_register = dm_pr_register,
3181 : : .pr_reserve = dm_pr_reserve,
3182 : : .pr_release = dm_pr_release,
3183 : : .pr_preempt = dm_pr_preempt,
3184 : : .pr_clear = dm_pr_clear,
3185 : : };
3186 : :
3187 : : static const struct block_device_operations dm_blk_dops = {
3188 : : .open = dm_blk_open,
3189 : : .release = dm_blk_close,
3190 : : .ioctl = dm_blk_ioctl,
3191 : : .getgeo = dm_blk_getgeo,
3192 : : .report_zones = dm_blk_report_zones,
3193 : : .pr_ops = &dm_pr_ops,
3194 : : .owner = THIS_MODULE
3195 : : };
3196 : :
3197 : : static const struct dax_operations dm_dax_ops = {
3198 : : .direct_access = dm_dax_direct_access,
3199 : : .dax_supported = dm_dax_supported,
3200 : : .copy_from_iter = dm_dax_copy_from_iter,
3201 : : .copy_to_iter = dm_dax_copy_to_iter,
3202 : : };
3203 : :
3204 : : /*
3205 : : * module hooks
3206 : : */
3207 : : module_init(dm_init);
3208 : : module_exit(dm_exit);
3209 : :
3210 : : module_param(major, uint, 0);
3211 : : MODULE_PARM_DESC(major, "The major number of the device mapper");
3212 : :
3213 : : module_param(reserved_bio_based_ios, uint, S_IRUGO | S_IWUSR);
3214 : : MODULE_PARM_DESC(reserved_bio_based_ios, "Reserved IOs in bio-based mempools");
3215 : :
3216 : : module_param(dm_numa_node, int, S_IRUGO | S_IWUSR);
3217 : : MODULE_PARM_DESC(dm_numa_node, "NUMA node for DM device memory allocations");
3218 : :
3219 : : MODULE_DESCRIPTION(DM_NAME " driver");
3220 : : MODULE_AUTHOR("Joe Thornber <dm-devel@redhat.com>");
3221 : : MODULE_LICENSE("GPL");
|