LCOV - code coverage report
Current view: top level - fs - io_uring.c (source / functions) Hit Total Coverage
Test: combined.info Lines: 29 3252 0.9 %
Date: 2022-03-28 15:32:58 Functions: 1 179 0.6 %
Branches: 0 2188 0.0 %

           Branch data     Line data    Source code
       1                 :            : // SPDX-License-Identifier: GPL-2.0
       2                 :            : /*
       3                 :            :  * Shared application/kernel submission and completion ring pairs, for
       4                 :            :  * supporting fast/efficient IO.
       5                 :            :  *
       6                 :            :  * A note on the read/write ordering memory barriers that are matched between
       7                 :            :  * the application and kernel side.
       8                 :            :  *
       9                 :            :  * After the application reads the CQ ring tail, it must use an
      10                 :            :  * appropriate smp_rmb() to pair with the smp_wmb() the kernel uses
      11                 :            :  * before writing the tail (using smp_load_acquire to read the tail will
      12                 :            :  * do). It also needs a smp_mb() before updating CQ head (ordering the
      13                 :            :  * entry load(s) with the head store), pairing with an implicit barrier
      14                 :            :  * through a control-dependency in io_get_cqring (smp_store_release to
      15                 :            :  * store head will do). Failure to do so could lead to reading invalid
      16                 :            :  * CQ entries.
      17                 :            :  *
      18                 :            :  * Likewise, the application must use an appropriate smp_wmb() before
      19                 :            :  * writing the SQ tail (ordering SQ entry stores with the tail store),
      20                 :            :  * which pairs with smp_load_acquire in io_get_sqring (smp_store_release
      21                 :            :  * to store the tail will do). And it needs a barrier ordering the SQ
      22                 :            :  * head load before writing new SQ entries (smp_load_acquire to read
      23                 :            :  * head will do).
      24                 :            :  *
      25                 :            :  * When using the SQ poll thread (IORING_SETUP_SQPOLL), the application
      26                 :            :  * needs to check the SQ flags for IORING_SQ_NEED_WAKEUP *after*
      27                 :            :  * updating the SQ tail; a full memory barrier smp_mb() is needed
      28                 :            :  * between.
      29                 :            :  *
      30                 :            :  * Also see the examples in the liburing library:
      31                 :            :  *
      32                 :            :  *      git://git.kernel.dk/liburing
      33                 :            :  *
      34                 :            :  * io_uring also uses READ/WRITE_ONCE() for _any_ store or load that happens
      35                 :            :  * from data shared between the kernel and application. This is done both
      36                 :            :  * for ordering purposes, but also to ensure that once a value is loaded from
      37                 :            :  * data that the application could potentially modify, it remains stable.
      38                 :            :  *
      39                 :            :  * Copyright (C) 2018-2019 Jens Axboe
      40                 :            :  * Copyright (c) 2018-2019 Christoph Hellwig
      41                 :            :  */
      42                 :            : #include <linux/kernel.h>
      43                 :            : #include <linux/init.h>
      44                 :            : #include <linux/errno.h>
      45                 :            : #include <linux/syscalls.h>
      46                 :            : #include <linux/compat.h>
      47                 :            : #include <linux/refcount.h>
      48                 :            : #include <linux/uio.h>
      49                 :            : #include <linux/bits.h>
      50                 :            : 
      51                 :            : #include <linux/sched/signal.h>
      52                 :            : #include <linux/fs.h>
      53                 :            : #include <linux/file.h>
      54                 :            : #include <linux/fdtable.h>
      55                 :            : #include <linux/mm.h>
      56                 :            : #include <linux/mman.h>
      57                 :            : #include <linux/mmu_context.h>
      58                 :            : #include <linux/percpu.h>
      59                 :            : #include <linux/slab.h>
      60                 :            : #include <linux/kthread.h>
      61                 :            : #include <linux/blkdev.h>
      62                 :            : #include <linux/bvec.h>
      63                 :            : #include <linux/net.h>
      64                 :            : #include <net/sock.h>
      65                 :            : #include <net/af_unix.h>
      66                 :            : #include <net/scm.h>
      67                 :            : #include <linux/anon_inodes.h>
      68                 :            : #include <linux/sched/mm.h>
      69                 :            : #include <linux/uaccess.h>
      70                 :            : #include <linux/nospec.h>
      71                 :            : #include <linux/sizes.h>
      72                 :            : #include <linux/hugetlb.h>
      73                 :            : #include <linux/highmem.h>
      74                 :            : #include <linux/namei.h>
      75                 :            : #include <linux/fsnotify.h>
      76                 :            : #include <linux/fadvise.h>
      77                 :            : #include <linux/eventpoll.h>
      78                 :            : #include <linux/fs_struct.h>
      79                 :            : 
      80                 :            : #define CREATE_TRACE_POINTS
      81                 :            : #include <trace/events/io_uring.h>
      82                 :            : 
      83                 :            : #include <uapi/linux/io_uring.h>
      84                 :            : 
      85                 :            : #include "internal.h"
      86                 :            : #include "io-wq.h"
      87                 :            : 
      88                 :            : #define IORING_MAX_ENTRIES      32768
      89                 :            : #define IORING_MAX_CQ_ENTRIES   (2 * IORING_MAX_ENTRIES)
      90                 :            : 
      91                 :            : /*
      92                 :            :  * Shift of 9 is 512 entries, or exactly one page on 64-bit archs
      93                 :            :  */
      94                 :            : #define IORING_FILE_TABLE_SHIFT 9
      95                 :            : #define IORING_MAX_FILES_TABLE  (1U << IORING_FILE_TABLE_SHIFT)
      96                 :            : #define IORING_FILE_TABLE_MASK  (IORING_MAX_FILES_TABLE - 1)
      97                 :            : #define IORING_MAX_FIXED_FILES  (64 * IORING_MAX_FILES_TABLE)
      98                 :            : 
      99                 :            : struct io_uring {
     100                 :            :         u32 head ____cacheline_aligned_in_smp;
     101                 :            :         u32 tail ____cacheline_aligned_in_smp;
     102                 :            : };
     103                 :            : 
     104                 :            : /*
     105                 :            :  * This data is shared with the application through the mmap at offsets
     106                 :            :  * IORING_OFF_SQ_RING and IORING_OFF_CQ_RING.
     107                 :            :  *
     108                 :            :  * The offsets to the member fields are published through struct
     109                 :            :  * io_sqring_offsets when calling io_uring_setup.
     110                 :            :  */
     111                 :            : struct io_rings {
     112                 :            :         /*
     113                 :            :          * Head and tail offsets into the ring; the offsets need to be
     114                 :            :          * masked to get valid indices.
     115                 :            :          *
     116                 :            :          * The kernel controls head of the sq ring and the tail of the cq ring,
     117                 :            :          * and the application controls tail of the sq ring and the head of the
     118                 :            :          * cq ring.
     119                 :            :          */
     120                 :            :         struct io_uring         sq, cq;
     121                 :            :         /*
     122                 :            :          * Bitmasks to apply to head and tail offsets (constant, equals
     123                 :            :          * ring_entries - 1)
     124                 :            :          */
     125                 :            :         u32                     sq_ring_mask, cq_ring_mask;
     126                 :            :         /* Ring sizes (constant, power of 2) */
     127                 :            :         u32                     sq_ring_entries, cq_ring_entries;
     128                 :            :         /*
     129                 :            :          * Number of invalid entries dropped by the kernel due to
     130                 :            :          * invalid index stored in array
     131                 :            :          *
     132                 :            :          * Written by the kernel, shouldn't be modified by the
     133                 :            :          * application (i.e. get number of "new events" by comparing to
     134                 :            :          * cached value).
     135                 :            :          *
     136                 :            :          * After a new SQ head value was read by the application this
     137                 :            :          * counter includes all submissions that were dropped reaching
     138                 :            :          * the new SQ head (and possibly more).
     139                 :            :          */
     140                 :            :         u32                     sq_dropped;
     141                 :            :         /*
     142                 :            :          * Runtime flags
     143                 :            :          *
     144                 :            :          * Written by the kernel, shouldn't be modified by the
     145                 :            :          * application.
     146                 :            :          *
     147                 :            :          * The application needs a full memory barrier before checking
     148                 :            :          * for IORING_SQ_NEED_WAKEUP after updating the sq tail.
     149                 :            :          */
     150                 :            :         u32                     sq_flags;
     151                 :            :         /*
     152                 :            :          * Number of completion events lost because the queue was full;
     153                 :            :          * this should be avoided by the application by making sure
     154                 :            :          * there are not more requests pending than there is space in
     155                 :            :          * the completion queue.
     156                 :            :          *
     157                 :            :          * Written by the kernel, shouldn't be modified by the
     158                 :            :          * application (i.e. get number of "new events" by comparing to
     159                 :            :          * cached value).
     160                 :            :          *
     161                 :            :          * As completion events come in out of order this counter is not
     162                 :            :          * ordered with any other data.
     163                 :            :          */
     164                 :            :         u32                     cq_overflow;
     165                 :            :         /*
     166                 :            :          * Ring buffer of completion events.
     167                 :            :          *
     168                 :            :          * The kernel writes completion events fresh every time they are
     169                 :            :          * produced, so the application is allowed to modify pending
     170                 :            :          * entries.
     171                 :            :          */
     172                 :            :         struct io_uring_cqe     cqes[] ____cacheline_aligned_in_smp;
     173                 :            : };
     174                 :            : 
     175                 :            : struct io_mapped_ubuf {
     176                 :            :         u64             ubuf;
     177                 :            :         size_t          len;
     178                 :            :         struct          bio_vec *bvec;
     179                 :            :         unsigned int    nr_bvecs;
     180                 :            : };
     181                 :            : 
     182                 :            : struct fixed_file_table {
     183                 :            :         struct file             **files;
     184                 :            : };
     185                 :            : 
     186                 :            : struct fixed_file_data {
     187                 :            :         struct fixed_file_table         *table;
     188                 :            :         struct io_ring_ctx              *ctx;
     189                 :            : 
     190                 :            :         struct percpu_ref               refs;
     191                 :            :         struct llist_head               put_llist;
     192                 :            :         struct work_struct              ref_work;
     193                 :            :         struct completion               done;
     194                 :            : };
     195                 :            : 
     196                 :            : struct io_ring_ctx {
     197                 :            :         struct {
     198                 :            :                 struct percpu_ref       refs;
     199                 :            :         } ____cacheline_aligned_in_smp;
     200                 :            : 
     201                 :            :         struct {
     202                 :            :                 unsigned int            flags;
     203                 :            :                 unsigned int            compat: 1;
     204                 :            :                 unsigned int            account_mem: 1;
     205                 :            :                 unsigned int            cq_overflow_flushed: 1;
     206                 :            :                 unsigned int            drain_next: 1;
     207                 :            :                 unsigned int            eventfd_async: 1;
     208                 :            : 
     209                 :            :                 /*
     210                 :            :                  * Ring buffer of indices into array of io_uring_sqe, which is
     211                 :            :                  * mmapped by the application using the IORING_OFF_SQES offset.
     212                 :            :                  *
     213                 :            :                  * This indirection could e.g. be used to assign fixed
     214                 :            :                  * io_uring_sqe entries to operations and only submit them to
     215                 :            :                  * the queue when needed.
     216                 :            :                  *
     217                 :            :                  * The kernel modifies neither the indices array nor the entries
     218                 :            :                  * array.
     219                 :            :                  */
     220                 :            :                 u32                     *sq_array;
     221                 :            :                 unsigned                cached_sq_head;
     222                 :            :                 unsigned                sq_entries;
     223                 :            :                 unsigned                sq_mask;
     224                 :            :                 unsigned                sq_thread_idle;
     225                 :            :                 unsigned                cached_sq_dropped;
     226                 :            :                 atomic_t                cached_cq_overflow;
     227                 :            :                 unsigned long           sq_check_overflow;
     228                 :            : 
     229                 :            :                 struct list_head        defer_list;
     230                 :            :                 struct list_head        timeout_list;
     231                 :            :                 struct list_head        cq_overflow_list;
     232                 :            : 
     233                 :            :                 wait_queue_head_t       inflight_wait;
     234                 :            :                 struct io_uring_sqe     *sq_sqes;
     235                 :            :         } ____cacheline_aligned_in_smp;
     236                 :            : 
     237                 :            :         struct io_rings *rings;
     238                 :            : 
     239                 :            :         /* IO offload */
     240                 :            :         struct io_wq            *io_wq;
     241                 :            :         struct task_struct      *sqo_thread;    /* if using sq thread polling */
     242                 :            :         struct mm_struct        *sqo_mm;
     243                 :            :         wait_queue_head_t       sqo_wait;
     244                 :            : 
     245                 :            :         /*
     246                 :            :          * If used, fixed file set. Writers must ensure that ->refs is dead,
     247                 :            :          * readers must ensure that ->refs is alive as long as the file* is
     248                 :            :          * used. Only updated through io_uring_register(2).
     249                 :            :          */
     250                 :            :         struct fixed_file_data  *file_data;
     251                 :            :         unsigned                nr_user_files;
     252                 :            :         int                     ring_fd;
     253                 :            :         struct file             *ring_file;
     254                 :            : 
     255                 :            :         /* if used, fixed mapped user buffers */
     256                 :            :         unsigned                nr_user_bufs;
     257                 :            :         struct io_mapped_ubuf   *user_bufs;
     258                 :            : 
     259                 :            :         struct user_struct      *user;
     260                 :            : 
     261                 :            :         const struct cred       *creds;
     262                 :            : 
     263                 :            :         /* 0 is for ctx quiesce/reinit/free, 1 is for sqo_thread started */
     264                 :            :         struct completion       *completions;
     265                 :            : 
     266                 :            :         /* if all else fails... */
     267                 :            :         struct io_kiocb         *fallback_req;
     268                 :            : 
     269                 :            : #if defined(CONFIG_UNIX)
     270                 :            :         struct socket           *ring_sock;
     271                 :            : #endif
     272                 :            : 
     273                 :            :         struct idr              personality_idr;
     274                 :            : 
     275                 :            :         struct {
     276                 :            :                 unsigned                cached_cq_tail;
     277                 :            :                 unsigned                cq_entries;
     278                 :            :                 unsigned                cq_mask;
     279                 :            :                 atomic_t                cq_timeouts;
     280                 :            :                 unsigned long           cq_check_overflow;
     281                 :            :                 struct wait_queue_head  cq_wait;
     282                 :            :                 struct fasync_struct    *cq_fasync;
     283                 :            :                 struct eventfd_ctx      *cq_ev_fd;
     284                 :            :         } ____cacheline_aligned_in_smp;
     285                 :            : 
     286                 :            :         struct {
     287                 :            :                 struct mutex            uring_lock;
     288                 :            :                 wait_queue_head_t       wait;
     289                 :            :         } ____cacheline_aligned_in_smp;
     290                 :            : 
     291                 :            :         struct {
     292                 :            :                 spinlock_t              completion_lock;
     293                 :            :                 struct llist_head       poll_llist;
     294                 :            : 
     295                 :            :                 /*
     296                 :            :                  * ->poll_list is protected by the ctx->uring_lock for
     297                 :            :                  * io_uring instances that don't use IORING_SETUP_SQPOLL.
     298                 :            :                  * For SQPOLL, only the single threaded io_sq_thread() will
     299                 :            :                  * manipulate the list, hence no extra locking is needed there.
     300                 :            :                  */
     301                 :            :                 struct list_head        poll_list;
     302                 :            :                 struct hlist_head       *cancel_hash;
     303                 :            :                 unsigned                cancel_hash_bits;
     304                 :            :                 bool                    poll_multi_file;
     305                 :            : 
     306                 :            :                 spinlock_t              inflight_lock;
     307                 :            :                 struct list_head        inflight_list;
     308                 :            :         } ____cacheline_aligned_in_smp;
     309                 :            : };
     310                 :            : 
     311                 :            : /*
     312                 :            :  * First field must be the file pointer in all the
     313                 :            :  * iocb unions! See also 'struct kiocb' in <linux/fs.h>
     314                 :            :  */
     315                 :            : struct io_poll_iocb {
     316                 :            :         struct file                     *file;
     317                 :            :         union {
     318                 :            :                 struct wait_queue_head  *head;
     319                 :            :                 u64                     addr;
     320                 :            :         };
     321                 :            :         __poll_t                        events;
     322                 :            :         bool                            done;
     323                 :            :         bool                            canceled;
     324                 :            :         struct wait_queue_entry         wait;
     325                 :            : };
     326                 :            : 
     327                 :            : struct io_close {
     328                 :            :         struct file                     *file;
     329                 :            :         struct file                     *put_file;
     330                 :            :         int                             fd;
     331                 :            : };
     332                 :            : 
     333                 :            : struct io_timeout_data {
     334                 :            :         struct io_kiocb                 *req;
     335                 :            :         struct hrtimer                  timer;
     336                 :            :         struct timespec64               ts;
     337                 :            :         enum hrtimer_mode               mode;
     338                 :            :         u32                             seq_offset;
     339                 :            : };
     340                 :            : 
     341                 :            : struct io_accept {
     342                 :            :         struct file                     *file;
     343                 :            :         struct sockaddr __user          *addr;
     344                 :            :         int __user                      *addr_len;
     345                 :            :         int                             flags;
     346                 :            :         unsigned long                   nofile;
     347                 :            : };
     348                 :            : 
     349                 :            : struct io_sync {
     350                 :            :         struct file                     *file;
     351                 :            :         loff_t                          len;
     352                 :            :         loff_t                          off;
     353                 :            :         int                             flags;
     354                 :            :         int                             mode;
     355                 :            : };
     356                 :            : 
     357                 :            : struct io_cancel {
     358                 :            :         struct file                     *file;
     359                 :            :         u64                             addr;
     360                 :            : };
     361                 :            : 
     362                 :            : struct io_timeout {
     363                 :            :         struct file                     *file;
     364                 :            :         u64                             addr;
     365                 :            :         int                             flags;
     366                 :            :         unsigned                        count;
     367                 :            : };
     368                 :            : 
     369                 :            : struct io_rw {
     370                 :            :         /* NOTE: kiocb has the file as the first member, so don't do it here */
     371                 :            :         struct kiocb                    kiocb;
     372                 :            :         u64                             addr;
     373                 :            :         u64                             len;
     374                 :            : };
     375                 :            : 
     376                 :            : struct io_connect {
     377                 :            :         struct file                     *file;
     378                 :            :         struct sockaddr __user          *addr;
     379                 :            :         int                             addr_len;
     380                 :            : };
     381                 :            : 
     382                 :            : struct io_sr_msg {
     383                 :            :         struct file                     *file;
     384                 :            :         union {
     385                 :            :                 struct user_msghdr __user *msg;
     386                 :            :                 void __user             *buf;
     387                 :            :         };
     388                 :            :         int                             msg_flags;
     389                 :            :         size_t                          len;
     390                 :            : };
     391                 :            : 
     392                 :            : struct io_open {
     393                 :            :         struct file                     *file;
     394                 :            :         int                             dfd;
     395                 :            :         union {
     396                 :            :                 unsigned                mask;
     397                 :            :         };
     398                 :            :         struct filename                 *filename;
     399                 :            :         struct statx __user             *buffer;
     400                 :            :         struct open_how                 how;
     401                 :            :         unsigned long                   nofile;
     402                 :            : };
     403                 :            : 
     404                 :            : struct io_files_update {
     405                 :            :         struct file                     *file;
     406                 :            :         u64                             arg;
     407                 :            :         u32                             nr_args;
     408                 :            :         u32                             offset;
     409                 :            : };
     410                 :            : 
     411                 :            : struct io_fadvise {
     412                 :            :         struct file                     *file;
     413                 :            :         u64                             offset;
     414                 :            :         u32                             len;
     415                 :            :         u32                             advice;
     416                 :            : };
     417                 :            : 
     418                 :            : struct io_madvise {
     419                 :            :         struct file                     *file;
     420                 :            :         u64                             addr;
     421                 :            :         u32                             len;
     422                 :            :         u32                             advice;
     423                 :            : };
     424                 :            : 
     425                 :            : struct io_epoll {
     426                 :            :         struct file                     *file;
     427                 :            :         int                             epfd;
     428                 :            :         int                             op;
     429                 :            :         int                             fd;
     430                 :            :         struct epoll_event              event;
     431                 :            : };
     432                 :            : 
     433                 :            : struct io_async_connect {
     434                 :            :         struct sockaddr_storage         address;
     435                 :            : };
     436                 :            : 
     437                 :            : struct io_async_msghdr {
     438                 :            :         struct iovec                    fast_iov[UIO_FASTIOV];
     439                 :            :         struct iovec                    *iov;
     440                 :            :         struct sockaddr __user          *uaddr;
     441                 :            :         struct msghdr                   msg;
     442                 :            :         struct sockaddr_storage         addr;
     443                 :            : };
     444                 :            : 
     445                 :            : struct io_async_rw {
     446                 :            :         struct iovec                    fast_iov[UIO_FASTIOV];
     447                 :            :         struct iovec                    *iov;
     448                 :            :         ssize_t                         nr_segs;
     449                 :            :         ssize_t                         size;
     450                 :            : };
     451                 :            : 
     452                 :            : struct io_async_ctx {
     453                 :            :         union {
     454                 :            :                 struct io_async_rw      rw;
     455                 :            :                 struct io_async_msghdr  msg;
     456                 :            :                 struct io_async_connect connect;
     457                 :            :                 struct io_timeout_data  timeout;
     458                 :            :         };
     459                 :            : };
     460                 :            : 
     461                 :            : enum {
     462                 :            :         REQ_F_FIXED_FILE_BIT    = IOSQE_FIXED_FILE_BIT,
     463                 :            :         REQ_F_IO_DRAIN_BIT      = IOSQE_IO_DRAIN_BIT,
     464                 :            :         REQ_F_LINK_BIT          = IOSQE_IO_LINK_BIT,
     465                 :            :         REQ_F_HARDLINK_BIT      = IOSQE_IO_HARDLINK_BIT,
     466                 :            :         REQ_F_FORCE_ASYNC_BIT   = IOSQE_ASYNC_BIT,
     467                 :            : 
     468                 :            :         REQ_F_LINK_NEXT_BIT,
     469                 :            :         REQ_F_FAIL_LINK_BIT,
     470                 :            :         REQ_F_INFLIGHT_BIT,
     471                 :            :         REQ_F_CUR_POS_BIT,
     472                 :            :         REQ_F_NOWAIT_BIT,
     473                 :            :         REQ_F_IOPOLL_COMPLETED_BIT,
     474                 :            :         REQ_F_LINK_TIMEOUT_BIT,
     475                 :            :         REQ_F_TIMEOUT_BIT,
     476                 :            :         REQ_F_ISREG_BIT,
     477                 :            :         REQ_F_MUST_PUNT_BIT,
     478                 :            :         REQ_F_TIMEOUT_NOSEQ_BIT,
     479                 :            :         REQ_F_COMP_LOCKED_BIT,
     480                 :            :         REQ_F_NEED_CLEANUP_BIT,
     481                 :            :         REQ_F_OVERFLOW_BIT,
     482                 :            : };
     483                 :            : 
     484                 :            : enum {
     485                 :            :         /* ctx owns file */
     486                 :            :         REQ_F_FIXED_FILE        = BIT(REQ_F_FIXED_FILE_BIT),
     487                 :            :         /* drain existing IO first */
     488                 :            :         REQ_F_IO_DRAIN          = BIT(REQ_F_IO_DRAIN_BIT),
     489                 :            :         /* linked sqes */
     490                 :            :         REQ_F_LINK              = BIT(REQ_F_LINK_BIT),
     491                 :            :         /* doesn't sever on completion < 0 */
     492                 :            :         REQ_F_HARDLINK          = BIT(REQ_F_HARDLINK_BIT),
     493                 :            :         /* IOSQE_ASYNC */
     494                 :            :         REQ_F_FORCE_ASYNC       = BIT(REQ_F_FORCE_ASYNC_BIT),
     495                 :            : 
     496                 :            :         /* already grabbed next link */
     497                 :            :         REQ_F_LINK_NEXT         = BIT(REQ_F_LINK_NEXT_BIT),
     498                 :            :         /* fail rest of links */
     499                 :            :         REQ_F_FAIL_LINK         = BIT(REQ_F_FAIL_LINK_BIT),
     500                 :            :         /* on inflight list */
     501                 :            :         REQ_F_INFLIGHT          = BIT(REQ_F_INFLIGHT_BIT),
     502                 :            :         /* read/write uses file position */
     503                 :            :         REQ_F_CUR_POS           = BIT(REQ_F_CUR_POS_BIT),
     504                 :            :         /* must not punt to workers */
     505                 :            :         REQ_F_NOWAIT            = BIT(REQ_F_NOWAIT_BIT),
     506                 :            :         /* polled IO has completed */
     507                 :            :         REQ_F_IOPOLL_COMPLETED  = BIT(REQ_F_IOPOLL_COMPLETED_BIT),
     508                 :            :         /* has linked timeout */
     509                 :            :         REQ_F_LINK_TIMEOUT      = BIT(REQ_F_LINK_TIMEOUT_BIT),
     510                 :            :         /* timeout request */
     511                 :            :         REQ_F_TIMEOUT           = BIT(REQ_F_TIMEOUT_BIT),
     512                 :            :         /* regular file */
     513                 :            :         REQ_F_ISREG             = BIT(REQ_F_ISREG_BIT),
     514                 :            :         /* must be punted even for NONBLOCK */
     515                 :            :         REQ_F_MUST_PUNT         = BIT(REQ_F_MUST_PUNT_BIT),
     516                 :            :         /* no timeout sequence */
     517                 :            :         REQ_F_TIMEOUT_NOSEQ     = BIT(REQ_F_TIMEOUT_NOSEQ_BIT),
     518                 :            :         /* completion under lock */
     519                 :            :         REQ_F_COMP_LOCKED       = BIT(REQ_F_COMP_LOCKED_BIT),
     520                 :            :         /* needs cleanup */
     521                 :            :         REQ_F_NEED_CLEANUP      = BIT(REQ_F_NEED_CLEANUP_BIT),
     522                 :            :         /* in overflow list */
     523                 :            :         REQ_F_OVERFLOW          = BIT(REQ_F_OVERFLOW_BIT),
     524                 :            : };
     525                 :            : 
     526                 :            : /*
     527                 :            :  * NOTE! Each of the iocb union members has the file pointer
     528                 :            :  * as the first entry in their struct definition. So you can
     529                 :            :  * access the file pointer through any of the sub-structs,
     530                 :            :  * or directly as just 'ki_filp' in this struct.
     531                 :            :  */
     532                 :            : struct io_kiocb {
     533                 :            :         union {
     534                 :            :                 struct file             *file;
     535                 :            :                 struct io_rw            rw;
     536                 :            :                 struct io_poll_iocb     poll;
     537                 :            :                 struct io_accept        accept;
     538                 :            :                 struct io_sync          sync;
     539                 :            :                 struct io_cancel        cancel;
     540                 :            :                 struct io_timeout       timeout;
     541                 :            :                 struct io_connect       connect;
     542                 :            :                 struct io_sr_msg        sr_msg;
     543                 :            :                 struct io_open          open;
     544                 :            :                 struct io_close         close;
     545                 :            :                 struct io_files_update  files_update;
     546                 :            :                 struct io_fadvise       fadvise;
     547                 :            :                 struct io_madvise       madvise;
     548                 :            :                 struct io_epoll         epoll;
     549                 :            :         };
     550                 :            : 
     551                 :            :         struct io_async_ctx             *io;
     552                 :            :         /*
     553                 :            :          * llist_node is only used for poll deferred completions
     554                 :            :          */
     555                 :            :         struct llist_node               llist_node;
     556                 :            :         bool                            in_async;
     557                 :            :         bool                            needs_fixed_file;
     558                 :            :         u8                              opcode;
     559                 :            : 
     560                 :            :         struct io_ring_ctx      *ctx;
     561                 :            :         union {
     562                 :            :                 struct list_head        list;
     563                 :            :                 struct hlist_node       hash_node;
     564                 :            :         };
     565                 :            :         struct list_head        link_list;
     566                 :            :         unsigned int            flags;
     567                 :            :         refcount_t              refs;
     568                 :            :         u64                     user_data;
     569                 :            :         u32                     result;
     570                 :            :         u32                     sequence;
     571                 :            : 
     572                 :            :         struct list_head        inflight_entry;
     573                 :            : 
     574                 :            :         struct io_wq_work       work;
     575                 :            : };
     576                 :            : 
     577                 :            : #define IO_PLUG_THRESHOLD               2
     578                 :            : #define IO_IOPOLL_BATCH                 8
     579                 :            : 
     580                 :            : struct io_submit_state {
     581                 :            :         struct blk_plug         plug;
     582                 :            : 
     583                 :            :         /*
     584                 :            :          * io_kiocb alloc cache
     585                 :            :          */
     586                 :            :         void                    *reqs[IO_IOPOLL_BATCH];
     587                 :            :         unsigned int            free_reqs;
     588                 :            : 
     589                 :            :         /*
     590                 :            :          * File reference cache
     591                 :            :          */
     592                 :            :         struct file             *file;
     593                 :            :         unsigned int            fd;
     594                 :            :         unsigned int            has_refs;
     595                 :            :         unsigned int            used_refs;
     596                 :            :         unsigned int            ios_left;
     597                 :            : };
     598                 :            : 
     599                 :            : struct io_op_def {
     600                 :            :         /* needs req->io allocated for deferral/async */
     601                 :            :         unsigned                async_ctx : 1;
     602                 :            :         /* needs current->mm setup, does mm access */
     603                 :            :         unsigned                needs_mm : 1;
     604                 :            :         /* needs req->file assigned */
     605                 :            :         unsigned                needs_file : 1;
     606                 :            :         /* needs req->file assigned IFF fd is >= 0 */
     607                 :            :         unsigned                fd_non_neg : 1;
     608                 :            :         /* hash wq insertion if file is a regular file */
     609                 :            :         unsigned                hash_reg_file : 1;
     610                 :            :         /* unbound wq insertion if file is a non-regular file */
     611                 :            :         unsigned                unbound_nonreg_file : 1;
     612                 :            :         /* opcode is not supported by this kernel */
     613                 :            :         unsigned                not_supported : 1;
     614                 :            :         /* needs file table */
     615                 :            :         unsigned                file_table : 1;
     616                 :            :         /* needs ->fs */
     617                 :            :         unsigned                needs_fs : 1;
     618                 :            : };
     619                 :            : 
     620                 :            : static const struct io_op_def io_op_defs[] = {
     621                 :            :         [IORING_OP_NOP] = {},
     622                 :            :         [IORING_OP_READV] = {
     623                 :            :                 .async_ctx              = 1,
     624                 :            :                 .needs_mm               = 1,
     625                 :            :                 .needs_file             = 1,
     626                 :            :                 .unbound_nonreg_file    = 1,
     627                 :            :         },
     628                 :            :         [IORING_OP_WRITEV] = {
     629                 :            :                 .async_ctx              = 1,
     630                 :            :                 .needs_mm               = 1,
     631                 :            :                 .needs_file             = 1,
     632                 :            :                 .hash_reg_file          = 1,
     633                 :            :                 .unbound_nonreg_file    = 1,
     634                 :            :         },
     635                 :            :         [IORING_OP_FSYNC] = {
     636                 :            :                 .needs_file             = 1,
     637                 :            :         },
     638                 :            :         [IORING_OP_READ_FIXED] = {
     639                 :            :                 .needs_file             = 1,
     640                 :            :                 .unbound_nonreg_file    = 1,
     641                 :            :         },
     642                 :            :         [IORING_OP_WRITE_FIXED] = {
     643                 :            :                 .needs_file             = 1,
     644                 :            :                 .hash_reg_file          = 1,
     645                 :            :                 .unbound_nonreg_file    = 1,
     646                 :            :         },
     647                 :            :         [IORING_OP_POLL_ADD] = {
     648                 :            :                 .needs_file             = 1,
     649                 :            :                 .unbound_nonreg_file    = 1,
     650                 :            :         },
     651                 :            :         [IORING_OP_POLL_REMOVE] = {},
     652                 :            :         [IORING_OP_SYNC_FILE_RANGE] = {
     653                 :            :                 .needs_file             = 1,
     654                 :            :         },
     655                 :            :         [IORING_OP_SENDMSG] = {
     656                 :            :                 .async_ctx              = 1,
     657                 :            :                 .needs_mm               = 1,
     658                 :            :                 .needs_file             = 1,
     659                 :            :                 .unbound_nonreg_file    = 1,
     660                 :            :                 .needs_fs               = 1,
     661                 :            :         },
     662                 :            :         [IORING_OP_RECVMSG] = {
     663                 :            :                 .async_ctx              = 1,
     664                 :            :                 .needs_mm               = 1,
     665                 :            :                 .needs_file             = 1,
     666                 :            :                 .unbound_nonreg_file    = 1,
     667                 :            :                 .needs_fs               = 1,
     668                 :            :         },
     669                 :            :         [IORING_OP_TIMEOUT] = {
     670                 :            :                 .async_ctx              = 1,
     671                 :            :                 .needs_mm               = 1,
     672                 :            :         },
     673                 :            :         [IORING_OP_TIMEOUT_REMOVE] = {},
     674                 :            :         [IORING_OP_ACCEPT] = {
     675                 :            :                 .needs_mm               = 1,
     676                 :            :                 .needs_file             = 1,
     677                 :            :                 .unbound_nonreg_file    = 1,
     678                 :            :                 .file_table             = 1,
     679                 :            :         },
     680                 :            :         [IORING_OP_ASYNC_CANCEL] = {},
     681                 :            :         [IORING_OP_LINK_TIMEOUT] = {
     682                 :            :                 .async_ctx              = 1,
     683                 :            :                 .needs_mm               = 1,
     684                 :            :         },
     685                 :            :         [IORING_OP_CONNECT] = {
     686                 :            :                 .async_ctx              = 1,
     687                 :            :                 .needs_mm               = 1,
     688                 :            :                 .needs_file             = 1,
     689                 :            :                 .unbound_nonreg_file    = 1,
     690                 :            :         },
     691                 :            :         [IORING_OP_FALLOCATE] = {
     692                 :            :                 .needs_file             = 1,
     693                 :            :         },
     694                 :            :         [IORING_OP_OPENAT] = {
     695                 :            :                 .needs_file             = 1,
     696                 :            :                 .fd_non_neg             = 1,
     697                 :            :                 .file_table             = 1,
     698                 :            :                 .needs_fs               = 1,
     699                 :            :         },
     700                 :            :         [IORING_OP_CLOSE] = {
     701                 :            :                 .needs_file             = 1,
     702                 :            :                 .file_table             = 1,
     703                 :            :         },
     704                 :            :         [IORING_OP_FILES_UPDATE] = {
     705                 :            :                 .needs_mm               = 1,
     706                 :            :                 .file_table             = 1,
     707                 :            :         },
     708                 :            :         [IORING_OP_STATX] = {
     709                 :            :                 .needs_mm               = 1,
     710                 :            :                 .needs_file             = 1,
     711                 :            :                 .fd_non_neg             = 1,
     712                 :            :                 .needs_fs               = 1,
     713                 :            :         },
     714                 :            :         [IORING_OP_READ] = {
     715                 :            :                 .needs_mm               = 1,
     716                 :            :                 .needs_file             = 1,
     717                 :            :                 .unbound_nonreg_file    = 1,
     718                 :            :         },
     719                 :            :         [IORING_OP_WRITE] = {
     720                 :            :                 .needs_mm               = 1,
     721                 :            :                 .needs_file             = 1,
     722                 :            :                 .unbound_nonreg_file    = 1,
     723                 :            :         },
     724                 :            :         [IORING_OP_FADVISE] = {
     725                 :            :                 .needs_file             = 1,
     726                 :            :         },
     727                 :            :         [IORING_OP_MADVISE] = {
     728                 :            :                 .needs_mm               = 1,
     729                 :            :         },
     730                 :            :         [IORING_OP_SEND] = {
     731                 :            :                 .needs_mm               = 1,
     732                 :            :                 .needs_file             = 1,
     733                 :            :                 .unbound_nonreg_file    = 1,
     734                 :            :         },
     735                 :            :         [IORING_OP_RECV] = {
     736                 :            :                 .needs_mm               = 1,
     737                 :            :                 .needs_file             = 1,
     738                 :            :                 .unbound_nonreg_file    = 1,
     739                 :            :         },
     740                 :            :         [IORING_OP_OPENAT2] = {
     741                 :            :                 .needs_file             = 1,
     742                 :            :                 .fd_non_neg             = 1,
     743                 :            :                 .file_table             = 1,
     744                 :            :                 .needs_fs               = 1,
     745                 :            :         },
     746                 :            :         [IORING_OP_EPOLL_CTL] = {
     747                 :            :                 .unbound_nonreg_file    = 1,
     748                 :            :                 .file_table             = 1,
     749                 :            :         },
     750                 :            : };
     751                 :            : 
     752                 :            : static void io_wq_submit_work(struct io_wq_work **workptr);
     753                 :            : static void io_cqring_fill_event(struct io_kiocb *req, long res);
     754                 :            : static void io_put_req(struct io_kiocb *req);
     755                 :            : static void __io_double_put_req(struct io_kiocb *req);
     756                 :            : static struct io_kiocb *io_prep_linked_timeout(struct io_kiocb *req);
     757                 :            : static void io_queue_linked_timeout(struct io_kiocb *req);
     758                 :            : static int __io_sqe_files_update(struct io_ring_ctx *ctx,
     759                 :            :                                  struct io_uring_files_update *ip,
     760                 :            :                                  unsigned nr_args);
     761                 :            : static int io_grab_files(struct io_kiocb *req);
     762                 :            : static void io_ring_file_ref_flush(struct fixed_file_data *data);
     763                 :            : static void io_cleanup_req(struct io_kiocb *req);
     764                 :            : 
     765                 :            : static struct kmem_cache *req_cachep;
     766                 :            : 
     767                 :            : static const struct file_operations io_uring_fops;
     768                 :            : 
     769                 :          0 : struct sock *io_uring_get_socket(struct file *file)
     770                 :            : {
     771                 :            : #if defined(CONFIG_UNIX)
     772         [ #  # ]:          0 :         if (file->f_op == &io_uring_fops) {
     773                 :          0 :                 struct io_ring_ctx *ctx = file->private_data;
     774                 :            : 
     775                 :          0 :                 return ctx->ring_sock->sk;
     776                 :            :         }
     777                 :            : #endif
     778                 :            :         return NULL;
     779                 :            : }
     780                 :            : EXPORT_SYMBOL(io_uring_get_socket);
     781                 :            : 
     782                 :          0 : static void io_ring_ctx_ref_free(struct percpu_ref *ref)
     783                 :            : {
     784                 :          0 :         struct io_ring_ctx *ctx = container_of(ref, struct io_ring_ctx, refs);
     785                 :            : 
     786                 :          0 :         complete(&ctx->completions[0]);
     787                 :          0 : }
     788                 :            : 
     789                 :            : static struct io_ring_ctx *io_ring_ctx_alloc(struct io_uring_params *p)
     790                 :            : {
     791                 :            :         struct io_ring_ctx *ctx;
     792                 :            :         int hash_bits;
     793                 :            : 
     794                 :            :         ctx = kzalloc(sizeof(*ctx), GFP_KERNEL);
     795                 :            :         if (!ctx)
     796                 :            :                 return NULL;
     797                 :            : 
     798                 :            :         ctx->fallback_req = kmem_cache_alloc(req_cachep, GFP_KERNEL);
     799                 :            :         if (!ctx->fallback_req)
     800                 :            :                 goto err;
     801                 :            : 
     802                 :            :         ctx->completions = kmalloc(2 * sizeof(struct completion), GFP_KERNEL);
     803                 :            :         if (!ctx->completions)
     804                 :            :                 goto err;
     805                 :            : 
     806                 :            :         /*
     807                 :            :          * Use 5 bits less than the max cq entries, that should give us around
     808                 :            :          * 32 entries per hash list if totally full and uniformly spread.
     809                 :            :          */
     810                 :            :         hash_bits = ilog2(p->cq_entries);
     811                 :            :         hash_bits -= 5;
     812                 :            :         if (hash_bits <= 0)
     813                 :            :                 hash_bits = 1;
     814                 :            :         ctx->cancel_hash_bits = hash_bits;
     815                 :            :         ctx->cancel_hash = kmalloc((1U << hash_bits) * sizeof(struct hlist_head),
     816                 :            :                                         GFP_KERNEL);
     817                 :            :         if (!ctx->cancel_hash)
     818                 :            :                 goto err;
     819                 :            :         __hash_init(ctx->cancel_hash, 1U << hash_bits);
     820                 :            : 
     821                 :            :         if (percpu_ref_init(&ctx->refs, io_ring_ctx_ref_free,
     822                 :            :                             PERCPU_REF_ALLOW_REINIT, GFP_KERNEL))
     823                 :            :                 goto err;
     824                 :            : 
     825                 :            :         ctx->flags = p->flags;
     826                 :            :         init_waitqueue_head(&ctx->cq_wait);
     827                 :            :         INIT_LIST_HEAD(&ctx->cq_overflow_list);
     828                 :            :         init_completion(&ctx->completions[0]);
     829                 :            :         init_completion(&ctx->completions[1]);
     830                 :            :         idr_init(&ctx->personality_idr);
     831                 :            :         mutex_init(&ctx->uring_lock);
     832                 :            :         init_waitqueue_head(&ctx->wait);
     833                 :            :         spin_lock_init(&ctx->completion_lock);
     834                 :            :         init_llist_head(&ctx->poll_llist);
     835                 :            :         INIT_LIST_HEAD(&ctx->poll_list);
     836                 :            :         INIT_LIST_HEAD(&ctx->defer_list);
     837                 :            :         INIT_LIST_HEAD(&ctx->timeout_list);
     838                 :            :         init_waitqueue_head(&ctx->inflight_wait);
     839                 :            :         spin_lock_init(&ctx->inflight_lock);
     840                 :            :         INIT_LIST_HEAD(&ctx->inflight_list);
     841                 :            :         return ctx;
     842                 :            : err:
     843                 :            :         if (ctx->fallback_req)
     844                 :            :                 kmem_cache_free(req_cachep, ctx->fallback_req);
     845                 :            :         kfree(ctx->completions);
     846                 :            :         kfree(ctx->cancel_hash);
     847                 :            :         kfree(ctx);
     848                 :            :         return NULL;
     849                 :            : }
     850                 :            : 
     851                 :          0 : static inline bool __req_need_defer(struct io_kiocb *req)
     852                 :            : {
     853                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
     854                 :            : 
     855                 :          0 :         return req->sequence != ctx->cached_cq_tail + ctx->cached_sq_dropped
     856                 :          0 :                                         + atomic_read(&ctx->cached_cq_overflow);
     857                 :            : }
     858                 :            : 
     859                 :          0 : static inline bool req_need_defer(struct io_kiocb *req)
     860                 :            : {
     861         [ #  # ]:          0 :         if (unlikely(req->flags & REQ_F_IO_DRAIN))
     862                 :          0 :                 return __req_need_defer(req);
     863                 :            : 
     864                 :            :         return false;
     865                 :            : }
     866                 :            : 
     867                 :          0 : static struct io_kiocb *io_get_deferred_req(struct io_ring_ctx *ctx)
     868                 :            : {
     869                 :          0 :         struct io_kiocb *req;
     870                 :            : 
     871         [ #  # ]:          0 :         req = list_first_entry_or_null(&ctx->defer_list, struct io_kiocb, list);
     872   [ #  #  #  # ]:          0 :         if (req && !req_need_defer(req)) {
     873                 :          0 :                 list_del_init(&req->list);
     874                 :          0 :                 return req;
     875                 :            :         }
     876                 :            : 
     877                 :            :         return NULL;
     878                 :            : }
     879                 :            : 
     880                 :          0 : static struct io_kiocb *io_get_timeout_req(struct io_ring_ctx *ctx)
     881                 :            : {
     882                 :          0 :         struct io_kiocb *req;
     883                 :            : 
     884         [ #  # ]:          0 :         req = list_first_entry_or_null(&ctx->timeout_list, struct io_kiocb, list);
     885         [ #  # ]:          0 :         if (req) {
     886         [ #  # ]:          0 :                 if (req->flags & REQ_F_TIMEOUT_NOSEQ)
     887                 :            :                         return NULL;
     888         [ #  # ]:          0 :                 if (!__req_need_defer(req)) {
     889                 :          0 :                         list_del_init(&req->list);
     890                 :          0 :                         return req;
     891                 :            :                 }
     892                 :            :         }
     893                 :            : 
     894                 :            :         return NULL;
     895                 :            : }
     896                 :            : 
     897                 :          0 : static void __io_commit_cqring(struct io_ring_ctx *ctx)
     898                 :            : {
     899                 :          0 :         struct io_rings *rings = ctx->rings;
     900                 :            : 
     901                 :            :         /* order cqe stores with ring update */
     902                 :          0 :         smp_store_release(&rings->cq.tail, ctx->cached_cq_tail);
     903                 :            : 
     904         [ #  # ]:          0 :         if (wq_has_sleeper(&ctx->cq_wait)) {
     905                 :          0 :                 wake_up_interruptible(&ctx->cq_wait);
     906                 :          0 :                 kill_fasync(&ctx->cq_fasync, SIGIO, POLL_IN);
     907                 :            :         }
     908                 :          0 : }
     909                 :            : 
     910                 :            : static inline void io_req_work_grab_env(struct io_kiocb *req,
     911                 :            :                                         const struct io_op_def *def)
     912                 :            : {
     913                 :            :         if (!req->work.mm && def->needs_mm) {
     914                 :            :                 mmgrab(current->mm);
     915                 :            :                 req->work.mm = current->mm;
     916                 :            :         }
     917                 :            :         if (!req->work.creds)
     918                 :            :                 req->work.creds = get_current_cred();
     919                 :            :         if (!req->work.fs && def->needs_fs) {
     920                 :            :                 spin_lock(&current->fs->lock);
     921                 :            :                 if (!current->fs->in_exec) {
     922                 :            :                         req->work.fs = current->fs;
     923                 :            :                         req->work.fs->users++;
     924                 :            :                 } else {
     925                 :            :                         req->work.flags |= IO_WQ_WORK_CANCEL;
     926                 :            :                 }
     927                 :            :                 spin_unlock(&current->fs->lock);
     928                 :            :         }
     929                 :            :         if (!req->work.task_pid)
     930                 :            :                 req->work.task_pid = task_pid_vnr(current);
     931                 :            : }
     932                 :            : 
     933                 :          0 : static inline void io_req_work_drop_env(struct io_kiocb *req)
     934                 :            : {
     935         [ #  # ]:          0 :         if (req->work.mm) {
     936                 :          0 :                 mmdrop(req->work.mm);
     937                 :          0 :                 req->work.mm = NULL;
     938                 :            :         }
     939         [ #  # ]:          0 :         if (req->work.creds) {
     940                 :          0 :                 put_cred(req->work.creds);
     941                 :          0 :                 req->work.creds = NULL;
     942                 :            :         }
     943         [ #  # ]:          0 :         if (req->work.fs) {
     944                 :          0 :                 struct fs_struct *fs = req->work.fs;
     945                 :            : 
     946                 :          0 :                 spin_lock(&req->work.fs->lock);
     947         [ #  # ]:          0 :                 if (--fs->users)
     948                 :          0 :                         fs = NULL;
     949                 :          0 :                 spin_unlock(&req->work.fs->lock);
     950         [ #  # ]:          0 :                 if (fs)
     951                 :          0 :                         free_fs_struct(fs);
     952                 :            :         }
     953                 :          0 : }
     954                 :            : 
     955                 :          0 : static inline bool io_prep_async_work(struct io_kiocb *req,
     956                 :            :                                       struct io_kiocb **link)
     957                 :            : {
     958                 :          0 :         const struct io_op_def *def = &io_op_defs[req->opcode];
     959                 :          0 :         bool do_hashed = false;
     960                 :            : 
     961         [ #  # ]:          0 :         if (req->flags & REQ_F_ISREG) {
     962         [ #  # ]:          0 :                 if (def->hash_reg_file)
     963                 :          0 :                         do_hashed = true;
     964                 :            :         } else {
     965         [ #  # ]:          0 :                 if (def->unbound_nonreg_file)
     966                 :          0 :                         req->work.flags |= IO_WQ_WORK_UNBOUND;
     967                 :            :         }
     968                 :            : 
     969                 :          0 :         io_req_work_grab_env(req, def);
     970                 :            : 
     971                 :          0 :         *link = io_prep_linked_timeout(req);
     972                 :          0 :         return do_hashed;
     973                 :            : }
     974                 :            : 
     975                 :          0 : static inline void io_queue_async_work(struct io_kiocb *req)
     976                 :            : {
     977                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
     978                 :          0 :         struct io_kiocb *link;
     979                 :          0 :         bool do_hashed;
     980                 :            : 
     981                 :          0 :         do_hashed = io_prep_async_work(req, &link);
     982                 :            : 
     983                 :          0 :         trace_io_uring_queue_async_work(ctx, do_hashed, req, &req->work,
     984                 :            :                                         req->flags);
     985         [ #  # ]:          0 :         if (!do_hashed) {
     986                 :          0 :                 io_wq_enqueue(ctx->io_wq, &req->work);
     987                 :            :         } else {
     988                 :          0 :                 io_wq_enqueue_hashed(ctx->io_wq, &req->work,
     989                 :          0 :                                         file_inode(req->file));
     990                 :            :         }
     991                 :            : 
     992         [ #  # ]:          0 :         if (link)
     993                 :          0 :                 io_queue_linked_timeout(link);
     994                 :          0 : }
     995                 :            : 
     996                 :          0 : static void io_kill_timeout(struct io_kiocb *req)
     997                 :            : {
     998                 :          0 :         int ret;
     999                 :            : 
    1000                 :          0 :         ret = hrtimer_try_to_cancel(&req->io->timeout.timer);
    1001         [ #  # ]:          0 :         if (ret != -1) {
    1002                 :          0 :                 atomic_inc(&req->ctx->cq_timeouts);
    1003                 :          0 :                 list_del_init(&req->list);
    1004                 :          0 :                 req->flags |= REQ_F_COMP_LOCKED;
    1005                 :          0 :                 io_cqring_fill_event(req, 0);
    1006                 :          0 :                 io_put_req(req);
    1007                 :            :         }
    1008                 :          0 : }
    1009                 :            : 
    1010                 :          0 : static void io_kill_timeouts(struct io_ring_ctx *ctx)
    1011                 :            : {
    1012                 :          0 :         struct io_kiocb *req, *tmp;
    1013                 :            : 
    1014                 :          0 :         spin_lock_irq(&ctx->completion_lock);
    1015         [ #  # ]:          0 :         list_for_each_entry_safe(req, tmp, &ctx->timeout_list, list)
    1016                 :          0 :                 io_kill_timeout(req);
    1017                 :          0 :         spin_unlock_irq(&ctx->completion_lock);
    1018                 :          0 : }
    1019                 :            : 
    1020                 :          0 : static void io_commit_cqring(struct io_ring_ctx *ctx)
    1021                 :            : {
    1022                 :          0 :         struct io_kiocb *req;
    1023                 :            : 
    1024         [ #  # ]:          0 :         while ((req = io_get_timeout_req(ctx)) != NULL)
    1025                 :          0 :                 io_kill_timeout(req);
    1026                 :            : 
    1027                 :          0 :         __io_commit_cqring(ctx);
    1028                 :            : 
    1029         [ #  # ]:          0 :         while ((req = io_get_deferred_req(ctx)) != NULL)
    1030                 :          0 :                 io_queue_async_work(req);
    1031                 :          0 : }
    1032                 :            : 
    1033                 :          0 : static struct io_uring_cqe *io_get_cqring(struct io_ring_ctx *ctx)
    1034                 :            : {
    1035                 :          0 :         struct io_rings *rings = ctx->rings;
    1036                 :          0 :         unsigned tail;
    1037                 :            : 
    1038                 :          0 :         tail = ctx->cached_cq_tail;
    1039                 :            :         /*
    1040                 :            :          * writes to the cq entry need to come after reading head; the
    1041                 :            :          * control dependency is enough as we're using WRITE_ONCE to
    1042                 :            :          * fill the cq entry
    1043                 :            :          */
    1044                 :          0 :         if (tail - READ_ONCE(rings->cq.head) == rings->cq_ring_entries)
    1045                 :            :                 return NULL;
    1046                 :            : 
    1047                 :          0 :         ctx->cached_cq_tail++;
    1048                 :          0 :         return &rings->cqes[tail & ctx->cq_mask];
    1049                 :            : }
    1050                 :            : 
    1051                 :          0 : static inline bool io_should_trigger_evfd(struct io_ring_ctx *ctx)
    1052                 :            : {
    1053         [ #  # ]:          0 :         if (!ctx->cq_ev_fd)
    1054                 :            :                 return false;
    1055         [ #  # ]:          0 :         if (!ctx->eventfd_async)
    1056                 :            :                 return true;
    1057   [ #  #  #  #  :          0 :         return io_wq_current_is_worker() || in_interrupt();
                   #  # ]
    1058                 :            : }
    1059                 :            : 
    1060                 :          0 : static void __io_cqring_ev_posted(struct io_ring_ctx *ctx, bool trigger_ev)
    1061                 :            : {
    1062         [ #  # ]:          0 :         if (waitqueue_active(&ctx->wait))
    1063                 :          0 :                 wake_up(&ctx->wait);
    1064         [ #  # ]:          0 :         if (waitqueue_active(&ctx->sqo_wait))
    1065                 :          0 :                 wake_up(&ctx->sqo_wait);
    1066         [ #  # ]:          0 :         if (trigger_ev)
    1067                 :          0 :                 eventfd_signal(ctx->cq_ev_fd, 1);
    1068                 :          0 : }
    1069                 :            : 
    1070                 :          0 : static void io_cqring_ev_posted(struct io_ring_ctx *ctx)
    1071                 :            : {
    1072                 :          0 :         __io_cqring_ev_posted(ctx, io_should_trigger_evfd(ctx));
    1073                 :          0 : }
    1074                 :            : 
    1075                 :            : /* Returns true if there are no backlogged entries after the flush */
    1076                 :          0 : static bool io_cqring_overflow_flush(struct io_ring_ctx *ctx, bool force)
    1077                 :            : {
    1078                 :          0 :         struct io_rings *rings = ctx->rings;
    1079                 :          0 :         struct io_uring_cqe *cqe;
    1080                 :          0 :         struct io_kiocb *req;
    1081                 :          0 :         unsigned long flags;
    1082                 :          0 :         LIST_HEAD(list);
    1083                 :            : 
    1084         [ #  # ]:          0 :         if (!force) {
    1085         [ #  # ]:          0 :                 if (list_empty_careful(&ctx->cq_overflow_list))
    1086                 :            :                         return true;
    1087         [ #  # ]:          0 :                 if ((ctx->cached_cq_tail - READ_ONCE(rings->cq.head) ==
    1088         [ #  # ]:          0 :                     rings->cq_ring_entries))
    1089                 :            :                         return false;
    1090                 :            :         }
    1091                 :            : 
    1092                 :          0 :         spin_lock_irqsave(&ctx->completion_lock, flags);
    1093                 :            : 
    1094                 :            :         /* if force is set, the ring is going away. always drop after that */
    1095         [ #  # ]:          0 :         if (force)
    1096                 :          0 :                 ctx->cq_overflow_flushed = 1;
    1097                 :            : 
    1098                 :            :         cqe = NULL;
    1099         [ #  # ]:          0 :         while (!list_empty(&ctx->cq_overflow_list)) {
    1100         [ #  # ]:          0 :                 cqe = io_get_cqring(ctx);
    1101         [ #  # ]:          0 :                 if (!cqe && !force)
    1102                 :            :                         break;
    1103                 :            : 
    1104                 :          0 :                 req = list_first_entry(&ctx->cq_overflow_list, struct io_kiocb,
    1105                 :            :                                                 list);
    1106         [ #  # ]:          0 :                 list_move(&req->list, &list);
    1107                 :          0 :                 req->flags &= ~REQ_F_OVERFLOW;
    1108         [ #  # ]:          0 :                 if (cqe) {
    1109                 :          0 :                         WRITE_ONCE(cqe->user_data, req->user_data);
    1110                 :          0 :                         WRITE_ONCE(cqe->res, req->result);
    1111                 :          0 :                         WRITE_ONCE(cqe->flags, 0);
    1112                 :            :                 } else {
    1113                 :          0 :                         WRITE_ONCE(ctx->rings->cq_overflow,
    1114                 :            :                                 atomic_inc_return(&ctx->cached_cq_overflow));
    1115                 :            :                 }
    1116                 :            :         }
    1117                 :            : 
    1118                 :          0 :         io_commit_cqring(ctx);
    1119         [ #  # ]:          0 :         if (cqe) {
    1120                 :          0 :                 clear_bit(0, &ctx->sq_check_overflow);
    1121                 :          0 :                 clear_bit(0, &ctx->cq_check_overflow);
    1122                 :            :         }
    1123                 :          0 :         spin_unlock_irqrestore(&ctx->completion_lock, flags);
    1124                 :          0 :         io_cqring_ev_posted(ctx);
    1125                 :            : 
    1126         [ #  # ]:          0 :         while (!list_empty(&list)) {
    1127                 :          0 :                 req = list_first_entry(&list, struct io_kiocb, list);
    1128                 :          0 :                 list_del(&req->list);
    1129                 :          0 :                 io_put_req(req);
    1130                 :            :         }
    1131                 :            : 
    1132                 :          0 :         return cqe != NULL;
    1133                 :            : }
    1134                 :            : 
    1135                 :          0 : static void io_cqring_fill_event(struct io_kiocb *req, long res)
    1136                 :            : {
    1137                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    1138                 :          0 :         struct io_uring_cqe *cqe;
    1139                 :            : 
    1140                 :          0 :         trace_io_uring_complete(ctx, req->user_data, res);
    1141                 :            : 
    1142                 :            :         /*
    1143                 :            :          * If we can't get a cq entry, userspace overflowed the
    1144                 :            :          * submission (by quite a lot). Increment the overflow count in
    1145                 :            :          * the ring.
    1146                 :            :          */
    1147         [ #  # ]:          0 :         cqe = io_get_cqring(ctx);
    1148         [ #  # ]:          0 :         if (likely(cqe)) {
    1149                 :          0 :                 WRITE_ONCE(cqe->user_data, req->user_data);
    1150                 :          0 :                 WRITE_ONCE(cqe->res, res);
    1151                 :          0 :                 WRITE_ONCE(cqe->flags, 0);
    1152         [ #  # ]:          0 :         } else if (ctx->cq_overflow_flushed) {
    1153                 :          0 :                 WRITE_ONCE(ctx->rings->cq_overflow,
    1154                 :            :                                 atomic_inc_return(&ctx->cached_cq_overflow));
    1155                 :            :         } else {
    1156         [ #  # ]:          0 :                 if (list_empty(&ctx->cq_overflow_list)) {
    1157                 :          0 :                         set_bit(0, &ctx->sq_check_overflow);
    1158                 :          0 :                         set_bit(0, &ctx->cq_check_overflow);
    1159                 :            :                 }
    1160                 :          0 :                 req->flags |= REQ_F_OVERFLOW;
    1161                 :          0 :                 refcount_inc(&req->refs);
    1162                 :          0 :                 req->result = res;
    1163                 :          0 :                 list_add_tail(&req->list, &ctx->cq_overflow_list);
    1164                 :            :         }
    1165                 :          0 : }
    1166                 :            : 
    1167                 :          0 : static void io_cqring_add_event(struct io_kiocb *req, long res)
    1168                 :            : {
    1169                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    1170                 :          0 :         unsigned long flags;
    1171                 :            : 
    1172                 :          0 :         spin_lock_irqsave(&ctx->completion_lock, flags);
    1173                 :          0 :         io_cqring_fill_event(req, res);
    1174                 :          0 :         io_commit_cqring(ctx);
    1175                 :          0 :         spin_unlock_irqrestore(&ctx->completion_lock, flags);
    1176                 :            : 
    1177                 :          0 :         io_cqring_ev_posted(ctx);
    1178                 :          0 : }
    1179                 :            : 
    1180                 :          0 : static inline bool io_is_fallback_req(struct io_kiocb *req)
    1181                 :            : {
    1182                 :          0 :         return req == (struct io_kiocb *)
    1183                 :          0 :                         ((unsigned long) req->ctx->fallback_req & ~1UL);
    1184                 :            : }
    1185                 :            : 
    1186                 :          0 : static struct io_kiocb *io_get_fallback_req(struct io_ring_ctx *ctx)
    1187                 :            : {
    1188                 :          0 :         struct io_kiocb *req;
    1189                 :            : 
    1190                 :          0 :         req = ctx->fallback_req;
    1191         [ #  # ]:          0 :         if (!test_and_set_bit_lock(0, (unsigned long *) ctx->fallback_req))
    1192                 :          0 :                 return req;
    1193                 :            : 
    1194                 :            :         return NULL;
    1195                 :            : }
    1196                 :            : 
    1197                 :          0 : static struct io_kiocb *io_get_req(struct io_ring_ctx *ctx,
    1198                 :            :                                    struct io_submit_state *state)
    1199                 :            : {
    1200                 :          0 :         gfp_t gfp = GFP_KERNEL | __GFP_NOWARN;
    1201                 :          0 :         struct io_kiocb *req;
    1202                 :            : 
    1203         [ #  # ]:          0 :         if (!state) {
    1204                 :          0 :                 req = kmem_cache_alloc(req_cachep, gfp);
    1205         [ #  # ]:          0 :                 if (unlikely(!req))
    1206                 :          0 :                         goto fallback;
    1207         [ #  # ]:          0 :         } else if (!state->free_reqs) {
    1208                 :          0 :                 size_t sz;
    1209                 :          0 :                 int ret;
    1210                 :            : 
    1211                 :          0 :                 sz = min_t(size_t, state->ios_left, ARRAY_SIZE(state->reqs));
    1212                 :          0 :                 ret = kmem_cache_alloc_bulk(req_cachep, gfp, sz, state->reqs);
    1213                 :            : 
    1214                 :            :                 /*
    1215                 :            :                  * Bulk alloc is all-or-nothing. If we fail to get a batch,
    1216                 :            :                  * retry single alloc to be on the safe side.
    1217                 :            :                  */
    1218         [ #  # ]:          0 :                 if (unlikely(ret <= 0)) {
    1219                 :          0 :                         state->reqs[0] = kmem_cache_alloc(req_cachep, gfp);
    1220         [ #  # ]:          0 :                         if (!state->reqs[0])
    1221                 :          0 :                                 goto fallback;
    1222                 :            :                         ret = 1;
    1223                 :            :                 }
    1224                 :          0 :                 state->free_reqs = ret - 1;
    1225                 :          0 :                 req = state->reqs[ret - 1];
    1226                 :            :         } else {
    1227                 :          0 :                 state->free_reqs--;
    1228                 :          0 :                 req = state->reqs[state->free_reqs];
    1229                 :            :         }
    1230                 :            : 
    1231                 :          0 : got_it:
    1232                 :          0 :         req->io = NULL;
    1233                 :          0 :         req->file = NULL;
    1234                 :          0 :         req->ctx = ctx;
    1235                 :          0 :         req->flags = 0;
    1236                 :            :         /* one is dropped after submission, the other at completion */
    1237                 :          0 :         refcount_set(&req->refs, 2);
    1238                 :          0 :         req->result = 0;
    1239                 :          0 :         INIT_IO_WORK(&req->work, io_wq_submit_work);
    1240                 :          0 :         return req;
    1241                 :          0 : fallback:
    1242                 :          0 :         req = io_get_fallback_req(ctx);
    1243         [ #  # ]:          0 :         if (req)
    1244                 :          0 :                 goto got_it;
    1245                 :          0 :         percpu_ref_put(&ctx->refs);
    1246                 :          0 :         return NULL;
    1247                 :            : }
    1248                 :            : 
    1249                 :          0 : static void __io_req_do_free(struct io_kiocb *req)
    1250                 :            : {
    1251         [ #  # ]:          0 :         if (likely(!io_is_fallback_req(req)))
    1252                 :          0 :                 kmem_cache_free(req_cachep, req);
    1253                 :            :         else
    1254                 :          0 :                 clear_bit_unlock(0, (unsigned long *) req->ctx->fallback_req);
    1255                 :          0 : }
    1256                 :            : 
    1257                 :          0 : static void __io_req_aux_free(struct io_kiocb *req)
    1258                 :            : {
    1259                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    1260                 :            : 
    1261         [ #  # ]:          0 :         if (req->flags & REQ_F_NEED_CLEANUP)
    1262                 :          0 :                 io_cleanup_req(req);
    1263                 :            : 
    1264                 :          0 :         kfree(req->io);
    1265         [ #  # ]:          0 :         if (req->file) {
    1266         [ #  # ]:          0 :                 if (req->flags & REQ_F_FIXED_FILE)
    1267                 :          0 :                         percpu_ref_put(&ctx->file_data->refs);
    1268                 :            :                 else
    1269                 :          0 :                         fput(req->file);
    1270                 :            :         }
    1271                 :            : 
    1272                 :          0 :         io_req_work_drop_env(req);
    1273                 :          0 : }
    1274                 :            : 
    1275                 :          0 : static void __io_free_req(struct io_kiocb *req)
    1276                 :            : {
    1277                 :          0 :         __io_req_aux_free(req);
    1278                 :            : 
    1279         [ #  # ]:          0 :         if (req->flags & REQ_F_INFLIGHT) {
    1280                 :          0 :                 struct io_ring_ctx *ctx = req->ctx;
    1281                 :          0 :                 unsigned long flags;
    1282                 :            : 
    1283                 :          0 :                 spin_lock_irqsave(&ctx->inflight_lock, flags);
    1284         [ #  # ]:          0 :                 list_del(&req->inflight_entry);
    1285         [ #  # ]:          0 :                 if (waitqueue_active(&ctx->inflight_wait))
    1286                 :          0 :                         wake_up(&ctx->inflight_wait);
    1287                 :          0 :                 spin_unlock_irqrestore(&ctx->inflight_lock, flags);
    1288                 :            :         }
    1289                 :            : 
    1290                 :          0 :         percpu_ref_put(&req->ctx->refs);
    1291                 :          0 :         __io_req_do_free(req);
    1292                 :          0 : }
    1293                 :            : 
    1294                 :            : struct req_batch {
    1295                 :            :         void *reqs[IO_IOPOLL_BATCH];
    1296                 :            :         int to_free;
    1297                 :            :         int need_iter;
    1298                 :            : };
    1299                 :            : 
    1300                 :          0 : static void io_free_req_many(struct io_ring_ctx *ctx, struct req_batch *rb)
    1301                 :            : {
    1302                 :          0 :         int fixed_refs = rb->to_free;
    1303                 :            : 
    1304         [ #  # ]:          0 :         if (!rb->to_free)
    1305                 :            :                 return;
    1306         [ #  # ]:          0 :         if (rb->need_iter) {
    1307                 :            :                 int i, inflight = 0;
    1308                 :            :                 unsigned long flags;
    1309                 :            : 
    1310                 :            :                 fixed_refs = 0;
    1311         [ #  # ]:          0 :                 for (i = 0; i < rb->to_free; i++) {
    1312                 :          0 :                         struct io_kiocb *req = rb->reqs[i];
    1313                 :            : 
    1314         [ #  # ]:          0 :                         if (req->flags & REQ_F_FIXED_FILE) {
    1315                 :          0 :                                 req->file = NULL;
    1316                 :          0 :                                 fixed_refs++;
    1317                 :            :                         }
    1318         [ #  # ]:          0 :                         if (req->flags & REQ_F_INFLIGHT)
    1319                 :          0 :                                 inflight++;
    1320                 :          0 :                         __io_req_aux_free(req);
    1321                 :            :                 }
    1322         [ #  # ]:          0 :                 if (!inflight)
    1323                 :          0 :                         goto do_free;
    1324                 :            : 
    1325                 :          0 :                 spin_lock_irqsave(&ctx->inflight_lock, flags);
    1326         [ #  # ]:          0 :                 for (i = 0; i < rb->to_free; i++) {
    1327                 :          0 :                         struct io_kiocb *req = rb->reqs[i];
    1328                 :            : 
    1329         [ #  # ]:          0 :                         if (req->flags & REQ_F_INFLIGHT) {
    1330         [ #  # ]:          0 :                                 list_del(&req->inflight_entry);
    1331         [ #  # ]:          0 :                                 if (!--inflight)
    1332                 :            :                                         break;
    1333                 :            :                         }
    1334                 :            :                 }
    1335                 :          0 :                 spin_unlock_irqrestore(&ctx->inflight_lock, flags);
    1336                 :            : 
    1337         [ #  # ]:          0 :                 if (waitqueue_active(&ctx->inflight_wait))
    1338                 :          0 :                         wake_up(&ctx->inflight_wait);
    1339                 :            :         }
    1340                 :          0 : do_free:
    1341                 :          0 :         kmem_cache_free_bulk(req_cachep, rb->to_free, rb->reqs);
    1342         [ #  # ]:          0 :         if (fixed_refs)
    1343                 :          0 :                 percpu_ref_put_many(&ctx->file_data->refs, fixed_refs);
    1344                 :          0 :         percpu_ref_put_many(&ctx->refs, rb->to_free);
    1345                 :          0 :         rb->to_free = rb->need_iter = 0;
    1346                 :            : }
    1347                 :            : 
    1348                 :          0 : static bool io_link_cancel_timeout(struct io_kiocb *req)
    1349                 :            : {
    1350                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    1351                 :          0 :         int ret;
    1352                 :            : 
    1353                 :          0 :         ret = hrtimer_try_to_cancel(&req->io->timeout.timer);
    1354         [ #  # ]:          0 :         if (ret != -1) {
    1355                 :          0 :                 io_cqring_fill_event(req, -ECANCELED);
    1356                 :          0 :                 io_commit_cqring(ctx);
    1357                 :          0 :                 req->flags &= ~REQ_F_LINK;
    1358                 :          0 :                 io_put_req(req);
    1359                 :          0 :                 return true;
    1360                 :            :         }
    1361                 :            : 
    1362                 :            :         return false;
    1363                 :            : }
    1364                 :            : 
    1365                 :          0 : static void io_req_link_next(struct io_kiocb *req, struct io_kiocb **nxtptr)
    1366                 :            : {
    1367                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    1368                 :          0 :         bool wake_ev = false;
    1369                 :            : 
    1370                 :            :         /* Already got next link */
    1371         [ #  # ]:          0 :         if (req->flags & REQ_F_LINK_NEXT)
    1372                 :            :                 return;
    1373                 :            : 
    1374                 :            :         /*
    1375                 :            :          * The list should never be empty when we are called here. But could
    1376                 :            :          * potentially happen if the chain is messed up, check to be on the
    1377                 :            :          * safe side.
    1378                 :            :          */
    1379         [ #  # ]:          0 :         while (!list_empty(&req->link_list)) {
    1380                 :          0 :                 struct io_kiocb *nxt = list_first_entry(&req->link_list,
    1381                 :            :                                                 struct io_kiocb, link_list);
    1382                 :            : 
    1383   [ #  #  #  # ]:          0 :                 if (unlikely((req->flags & REQ_F_LINK_TIMEOUT) &&
    1384                 :            :                              (nxt->flags & REQ_F_TIMEOUT))) {
    1385                 :          0 :                         list_del_init(&nxt->link_list);
    1386                 :          0 :                         wake_ev |= io_link_cancel_timeout(nxt);
    1387                 :          0 :                         req->flags &= ~REQ_F_LINK_TIMEOUT;
    1388                 :          0 :                         continue;
    1389                 :            :                 }
    1390                 :            : 
    1391         [ #  # ]:          0 :                 list_del_init(&req->link_list);
    1392         [ #  # ]:          0 :                 if (!list_empty(&nxt->link_list))
    1393                 :          0 :                         nxt->flags |= REQ_F_LINK;
    1394                 :          0 :                 *nxtptr = nxt;
    1395                 :          0 :                 break;
    1396                 :            :         }
    1397                 :            : 
    1398                 :          0 :         req->flags |= REQ_F_LINK_NEXT;
    1399         [ #  # ]:          0 :         if (wake_ev)
    1400                 :          0 :                 io_cqring_ev_posted(ctx);
    1401                 :            : }
    1402                 :            : 
    1403                 :            : /*
    1404                 :            :  * Called if REQ_F_LINK is set, and we fail the head request
    1405                 :            :  */
    1406                 :          0 : static void io_fail_links(struct io_kiocb *req)
    1407                 :            : {
    1408                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    1409                 :          0 :         unsigned long flags;
    1410                 :            : 
    1411                 :          0 :         spin_lock_irqsave(&ctx->completion_lock, flags);
    1412                 :            : 
    1413         [ #  # ]:          0 :         while (!list_empty(&req->link_list)) {
    1414                 :          0 :                 struct io_kiocb *link = list_first_entry(&req->link_list,
    1415                 :            :                                                 struct io_kiocb, link_list);
    1416                 :            : 
    1417                 :          0 :                 list_del_init(&link->link_list);
    1418                 :          0 :                 trace_io_uring_fail_link(req, link);
    1419                 :            : 
    1420         [ #  # ]:          0 :                 if ((req->flags & REQ_F_LINK_TIMEOUT) &&
    1421         [ #  # ]:          0 :                     link->opcode == IORING_OP_LINK_TIMEOUT) {
    1422                 :          0 :                         io_link_cancel_timeout(link);
    1423                 :            :                 } else {
    1424                 :          0 :                         io_cqring_fill_event(link, -ECANCELED);
    1425                 :          0 :                         __io_double_put_req(link);
    1426                 :            :                 }
    1427                 :          0 :                 req->flags &= ~REQ_F_LINK_TIMEOUT;
    1428                 :            :         }
    1429                 :            : 
    1430                 :          0 :         io_commit_cqring(ctx);
    1431                 :          0 :         spin_unlock_irqrestore(&ctx->completion_lock, flags);
    1432                 :          0 :         io_cqring_ev_posted(ctx);
    1433                 :          0 : }
    1434                 :            : 
    1435                 :          0 : static void io_req_find_next(struct io_kiocb *req, struct io_kiocb **nxt)
    1436                 :            : {
    1437         [ #  # ]:          0 :         if (likely(!(req->flags & REQ_F_LINK)))
    1438                 :            :                 return;
    1439                 :            : 
    1440                 :            :         /*
    1441                 :            :          * If LINK is set, we have dependent requests in this chain. If we
    1442                 :            :          * didn't fail this request, queue the first one up, moving any other
    1443                 :            :          * dependencies to the next request. In case of failure, fail the rest
    1444                 :            :          * of the chain.
    1445                 :            :          */
    1446         [ #  # ]:          0 :         if (req->flags & REQ_F_FAIL_LINK) {
    1447                 :          0 :                 io_fail_links(req);
    1448         [ #  # ]:          0 :         } else if ((req->flags & (REQ_F_LINK_TIMEOUT | REQ_F_COMP_LOCKED)) ==
    1449                 :            :                         REQ_F_LINK_TIMEOUT) {
    1450                 :          0 :                 struct io_ring_ctx *ctx = req->ctx;
    1451                 :          0 :                 unsigned long flags;
    1452                 :            : 
    1453                 :            :                 /*
    1454                 :            :                  * If this is a timeout link, we could be racing with the
    1455                 :            :                  * timeout timer. Grab the completion lock for this case to
    1456                 :            :                  * protect against that.
    1457                 :            :                  */
    1458                 :          0 :                 spin_lock_irqsave(&ctx->completion_lock, flags);
    1459                 :          0 :                 io_req_link_next(req, nxt);
    1460                 :          0 :                 spin_unlock_irqrestore(&ctx->completion_lock, flags);
    1461                 :            :         } else {
    1462                 :          0 :                 io_req_link_next(req, nxt);
    1463                 :            :         }
    1464                 :            : }
    1465                 :            : 
    1466                 :          0 : static void io_free_req(struct io_kiocb *req)
    1467                 :            : {
    1468                 :          0 :         struct io_kiocb *nxt = NULL;
    1469                 :            : 
    1470                 :          0 :         io_req_find_next(req, &nxt);
    1471                 :          0 :         __io_free_req(req);
    1472                 :            : 
    1473         [ #  # ]:          0 :         if (nxt)
    1474                 :          0 :                 io_queue_async_work(nxt);
    1475                 :          0 : }
    1476                 :            : 
    1477                 :            : /*
    1478                 :            :  * Drop reference to request, return next in chain (if there is one) if this
    1479                 :            :  * was the last reference to this request.
    1480                 :            :  */
    1481                 :            : __attribute__((nonnull))
    1482                 :          0 : static void io_put_req_find_next(struct io_kiocb *req, struct io_kiocb **nxtptr)
    1483                 :            : {
    1484         [ #  # ]:          0 :         if (refcount_dec_and_test(&req->refs)) {
    1485                 :          0 :                 io_req_find_next(req, nxtptr);
    1486                 :          0 :                 __io_free_req(req);
    1487                 :            :         }
    1488                 :          0 : }
    1489                 :            : 
    1490                 :          0 : static void io_put_req(struct io_kiocb *req)
    1491                 :            : {
    1492         [ #  # ]:          0 :         if (refcount_dec_and_test(&req->refs))
    1493                 :          0 :                 io_free_req(req);
    1494                 :          0 : }
    1495                 :            : 
    1496                 :            : /*
    1497                 :            :  * Must only be used if we don't need to care about links, usually from
    1498                 :            :  * within the completion handling itself.
    1499                 :            :  */
    1500                 :          0 : static void __io_double_put_req(struct io_kiocb *req)
    1501                 :            : {
    1502                 :            :         /* drop both submit and complete references */
    1503         [ #  # ]:          0 :         if (refcount_sub_and_test(2, &req->refs))
    1504                 :          0 :                 __io_free_req(req);
    1505                 :          0 : }
    1506                 :            : 
    1507                 :          0 : static void io_double_put_req(struct io_kiocb *req)
    1508                 :            : {
    1509                 :            :         /* drop both submit and complete references */
    1510         [ #  # ]:          0 :         if (refcount_sub_and_test(2, &req->refs))
    1511                 :          0 :                 io_free_req(req);
    1512                 :          0 : }
    1513                 :            : 
    1514                 :          0 : static unsigned io_cqring_events(struct io_ring_ctx *ctx, bool noflush)
    1515                 :            : {
    1516                 :          0 :         struct io_rings *rings = ctx->rings;
    1517                 :            : 
    1518         [ #  # ]:          0 :         if (test_bit(0, &ctx->cq_check_overflow)) {
    1519                 :            :                 /*
    1520                 :            :                  * noflush == true is from the waitqueue handler, just ensure
    1521                 :            :                  * we wake up the task, and the next invocation will flush the
    1522                 :            :                  * entries. We cannot safely to it from here.
    1523                 :            :                  */
    1524   [ #  #  #  # ]:          0 :                 if (noflush && !list_empty(&ctx->cq_overflow_list))
    1525                 :            :                         return -1U;
    1526                 :            : 
    1527                 :          0 :                 io_cqring_overflow_flush(ctx, false);
    1528                 :            :         }
    1529                 :            : 
    1530                 :            :         /* See comment at the top of this file */
    1531                 :          0 :         smp_rmb();
    1532                 :          0 :         return ctx->cached_cq_tail - READ_ONCE(rings->cq.head);
    1533                 :            : }
    1534                 :            : 
    1535                 :          0 : static inline unsigned int io_sqring_entries(struct io_ring_ctx *ctx)
    1536                 :            : {
    1537                 :          0 :         struct io_rings *rings = ctx->rings;
    1538                 :            : 
    1539                 :            :         /* make sure SQ entry isn't read before tail */
    1540                 :          0 :         return smp_load_acquire(&rings->sq.tail) - ctx->cached_sq_head;
    1541                 :            : }
    1542                 :            : 
    1543                 :          0 : static inline bool io_req_multi_free(struct req_batch *rb, struct io_kiocb *req)
    1544                 :            : {
    1545   [ #  #  #  # ]:          0 :         if ((req->flags & REQ_F_LINK) || io_is_fallback_req(req))
    1546                 :            :                 return false;
    1547                 :            : 
    1548   [ #  #  #  # ]:          0 :         if (!(req->flags & REQ_F_FIXED_FILE) || req->io)
    1549                 :          0 :                 rb->need_iter++;
    1550                 :            : 
    1551                 :          0 :         rb->reqs[rb->to_free++] = req;
    1552         [ #  # ]:          0 :         if (unlikely(rb->to_free == ARRAY_SIZE(rb->reqs)))
    1553                 :          0 :                 io_free_req_many(req->ctx, rb);
    1554                 :            :         return true;
    1555                 :            : }
    1556                 :            : 
    1557                 :            : /*
    1558                 :            :  * Find and free completed poll iocbs
    1559                 :            :  */
    1560                 :          0 : static void io_iopoll_complete(struct io_ring_ctx *ctx, unsigned int *nr_events,
    1561                 :            :                                struct list_head *done)
    1562                 :            : {
    1563                 :          0 :         struct req_batch rb;
    1564                 :          0 :         struct io_kiocb *req;
    1565                 :            : 
    1566                 :          0 :         rb.to_free = rb.need_iter = 0;
    1567         [ #  # ]:          0 :         while (!list_empty(done)) {
    1568                 :          0 :                 req = list_first_entry(done, struct io_kiocb, list);
    1569                 :          0 :                 list_del(&req->list);
    1570                 :            : 
    1571                 :          0 :                 io_cqring_fill_event(req, req->result);
    1572                 :          0 :                 (*nr_events)++;
    1573                 :            : 
    1574   [ #  #  #  # ]:          0 :                 if (refcount_dec_and_test(&req->refs) &&
    1575                 :          0 :                     !io_req_multi_free(&rb, req))
    1576                 :          0 :                         io_free_req(req);
    1577                 :            :         }
    1578                 :            : 
    1579                 :          0 :         io_commit_cqring(ctx);
    1580                 :          0 :         io_free_req_many(ctx, &rb);
    1581                 :          0 : }
    1582                 :            : 
    1583                 :          0 : static int io_do_iopoll(struct io_ring_ctx *ctx, unsigned int *nr_events,
    1584                 :            :                         long min)
    1585                 :            : {
    1586                 :          0 :         struct io_kiocb *req, *tmp;
    1587                 :          0 :         LIST_HEAD(done);
    1588                 :          0 :         bool spin;
    1589                 :          0 :         int ret;
    1590                 :            : 
    1591                 :            :         /*
    1592                 :            :          * Only spin for completions if we don't have multiple devices hanging
    1593                 :            :          * off our complete list, and we're under the requested amount.
    1594                 :            :          */
    1595   [ #  #  #  # ]:          0 :         spin = !ctx->poll_multi_file && *nr_events < min;
    1596                 :            : 
    1597                 :          0 :         ret = 0;
    1598         [ #  # ]:          0 :         list_for_each_entry_safe(req, tmp, &ctx->poll_list, list) {
    1599                 :          0 :                 struct kiocb *kiocb = &req->rw.kiocb;
    1600                 :            : 
    1601                 :            :                 /*
    1602                 :            :                  * Move completed entries to our local list. If we find a
    1603                 :            :                  * request that requires polling, break out and complete
    1604                 :            :                  * the done list first, if we have entries there.
    1605                 :            :                  */
    1606         [ #  # ]:          0 :                 if (req->flags & REQ_F_IOPOLL_COMPLETED) {
    1607                 :          0 :                         list_move_tail(&req->list, &done);
    1608                 :          0 :                         continue;
    1609                 :            :                 }
    1610         [ #  # ]:          0 :                 if (!list_empty(&done))
    1611                 :            :                         break;
    1612                 :            : 
    1613                 :          0 :                 ret = kiocb->ki_filp->f_op->iopoll(kiocb, spin);
    1614         [ #  # ]:          0 :                 if (ret < 0)
    1615                 :            :                         break;
    1616                 :            : 
    1617         [ #  # ]:          0 :                 if (ret && spin)
    1618                 :          0 :                         spin = false;
    1619                 :            :                 ret = 0;
    1620                 :            :         }
    1621                 :            : 
    1622         [ #  # ]:          0 :         if (!list_empty(&done))
    1623                 :          0 :                 io_iopoll_complete(ctx, nr_events, &done);
    1624                 :            : 
    1625                 :          0 :         return ret;
    1626                 :            : }
    1627                 :            : 
    1628                 :            : /*
    1629                 :            :  * Poll for a minimum of 'min' events. Note that if min == 0 we consider that a
    1630                 :            :  * non-spinning poll check - we'll still enter the driver poll loop, but only
    1631                 :            :  * as a non-spinning completion check.
    1632                 :            :  */
    1633                 :          0 : static int io_iopoll_getevents(struct io_ring_ctx *ctx, unsigned int *nr_events,
    1634                 :            :                                 long min)
    1635                 :            : {
    1636   [ #  #  #  # ]:          0 :         while (!list_empty(&ctx->poll_list) && !need_resched()) {
    1637                 :          0 :                 int ret;
    1638                 :            : 
    1639                 :          0 :                 ret = io_do_iopoll(ctx, nr_events, min);
    1640         [ #  # ]:          0 :                 if (ret < 0)
    1641                 :          0 :                         return ret;
    1642   [ #  #  #  # ]:          0 :                 if (!min || *nr_events >= min)
    1643                 :            :                         return 0;
    1644                 :            :         }
    1645                 :            : 
    1646                 :            :         return 1;
    1647                 :            : }
    1648                 :            : 
    1649                 :            : /*
    1650                 :            :  * We can't just wait for polled events to come to us, we have to actively
    1651                 :            :  * find and complete them.
    1652                 :            :  */
    1653                 :          0 : static void io_iopoll_reap_events(struct io_ring_ctx *ctx)
    1654                 :            : {
    1655         [ #  # ]:          0 :         if (!(ctx->flags & IORING_SETUP_IOPOLL))
    1656                 :            :                 return;
    1657                 :            : 
    1658                 :          0 :         mutex_lock(&ctx->uring_lock);
    1659         [ #  # ]:          0 :         while (!list_empty(&ctx->poll_list)) {
    1660                 :          0 :                 unsigned int nr_events = 0;
    1661                 :            : 
    1662                 :          0 :                 io_iopoll_getevents(ctx, &nr_events, 1);
    1663                 :            : 
    1664                 :            :                 /*
    1665                 :            :                  * Ensure we allow local-to-the-cpu processing to take place,
    1666                 :            :                  * in this case we need to ensure that we reap all events.
    1667                 :            :                  */
    1668                 :          0 :                 cond_resched();
    1669                 :            :         }
    1670                 :          0 :         mutex_unlock(&ctx->uring_lock);
    1671                 :            : }
    1672                 :            : 
    1673                 :          0 : static int io_iopoll_check(struct io_ring_ctx *ctx, unsigned *nr_events,
    1674                 :            :                            long min)
    1675                 :            : {
    1676                 :          0 :         int iters = 0, ret = 0;
    1677                 :            : 
    1678                 :            :         /*
    1679                 :            :          * We disallow the app entering submit/complete with polling, but we
    1680                 :            :          * still need to lock the ring to prevent racing with polled issue
    1681                 :            :          * that got punted to a workqueue.
    1682                 :            :          */
    1683                 :          0 :         mutex_lock(&ctx->uring_lock);
    1684                 :          0 :         do {
    1685                 :          0 :                 int tmin = 0;
    1686                 :            : 
    1687                 :            :                 /*
    1688                 :            :                  * Don't enter poll loop if we already have events pending.
    1689                 :            :                  * If we do, we can potentially be spinning for commands that
    1690                 :            :                  * already triggered a CQE (eg in error).
    1691                 :            :                  */
    1692         [ #  # ]:          0 :                 if (io_cqring_events(ctx, false))
    1693                 :            :                         break;
    1694                 :            : 
    1695                 :            :                 /*
    1696                 :            :                  * If a submit got punted to a workqueue, we can have the
    1697                 :            :                  * application entering polling for a command before it gets
    1698                 :            :                  * issued. That app will hold the uring_lock for the duration
    1699                 :            :                  * of the poll right here, so we need to take a breather every
    1700                 :            :                  * now and then to ensure that the issue has a chance to add
    1701                 :            :                  * the poll to the issued list. Otherwise we can spin here
    1702                 :            :                  * forever, while the workqueue is stuck trying to acquire the
    1703                 :            :                  * very same mutex.
    1704                 :            :                  */
    1705         [ #  # ]:          0 :                 if (!(++iters & 7)) {
    1706                 :          0 :                         mutex_unlock(&ctx->uring_lock);
    1707                 :          0 :                         mutex_lock(&ctx->uring_lock);
    1708                 :            :                 }
    1709                 :            : 
    1710         [ #  # ]:          0 :                 if (*nr_events < min)
    1711                 :          0 :                         tmin = min - *nr_events;
    1712                 :            : 
    1713                 :          0 :                 ret = io_iopoll_getevents(ctx, nr_events, tmin);
    1714         [ #  # ]:          0 :                 if (ret <= 0)
    1715                 :            :                         break;
    1716                 :          0 :                 ret = 0;
    1717   [ #  #  #  #  :          0 :         } while (min && !*nr_events && !need_resched());
                   #  # ]
    1718                 :            : 
    1719                 :          0 :         mutex_unlock(&ctx->uring_lock);
    1720                 :          0 :         return ret;
    1721                 :            : }
    1722                 :            : 
    1723                 :          0 : static void kiocb_end_write(struct io_kiocb *req)
    1724                 :            : {
    1725                 :            :         /*
    1726                 :            :          * Tell lockdep we inherited freeze protection from submission
    1727                 :            :          * thread.
    1728                 :            :          */
    1729                 :          0 :         if (req->flags & REQ_F_ISREG) {
    1730                 :            :                 struct inode *inode = file_inode(req->file);
    1731                 :            : 
    1732                 :          0 :                 __sb_writers_acquired(inode->i_sb, SB_FREEZE_WRITE);
    1733                 :            :         }
    1734   [ #  #  #  # ]:          0 :         file_end_write(req->file);
    1735                 :            : }
    1736                 :            : 
    1737                 :          0 : static inline void req_set_fail_links(struct io_kiocb *req)
    1738                 :            : {
    1739                 :          0 :         if ((req->flags & (REQ_F_LINK | REQ_F_HARDLINK)) == REQ_F_LINK)
    1740                 :          0 :                 req->flags |= REQ_F_FAIL_LINK;
    1741                 :            : }
    1742                 :            : 
    1743                 :          0 : static void io_complete_rw_common(struct kiocb *kiocb, long res)
    1744                 :            : {
    1745                 :          0 :         struct io_kiocb *req = container_of(kiocb, struct io_kiocb, rw.kiocb);
    1746                 :            : 
    1747         [ #  # ]:          0 :         if (kiocb->ki_flags & IOCB_WRITE)
    1748                 :          0 :                 kiocb_end_write(req);
    1749                 :            : 
    1750         [ #  # ]:          0 :         if (res != req->result)
    1751         [ #  # ]:          0 :                 req_set_fail_links(req);
    1752                 :          0 :         io_cqring_add_event(req, res);
    1753                 :          0 : }
    1754                 :            : 
    1755                 :          0 : static void io_complete_rw(struct kiocb *kiocb, long res, long res2)
    1756                 :            : {
    1757                 :          0 :         struct io_kiocb *req = container_of(kiocb, struct io_kiocb, rw.kiocb);
    1758                 :            : 
    1759                 :          0 :         io_complete_rw_common(kiocb, res);
    1760                 :          0 :         io_put_req(req);
    1761                 :          0 : }
    1762                 :            : 
    1763                 :          0 : static struct io_kiocb *__io_complete_rw(struct kiocb *kiocb, long res)
    1764                 :            : {
    1765                 :          0 :         struct io_kiocb *req = container_of(kiocb, struct io_kiocb, rw.kiocb);
    1766                 :          0 :         struct io_kiocb *nxt = NULL;
    1767                 :            : 
    1768                 :          0 :         io_complete_rw_common(kiocb, res);
    1769                 :          0 :         io_put_req_find_next(req, &nxt);
    1770                 :            : 
    1771                 :          0 :         return nxt;
    1772                 :            : }
    1773                 :            : 
    1774                 :          0 : static void io_complete_rw_iopoll(struct kiocb *kiocb, long res, long res2)
    1775                 :            : {
    1776                 :          0 :         struct io_kiocb *req = container_of(kiocb, struct io_kiocb, rw.kiocb);
    1777                 :            : 
    1778         [ #  # ]:          0 :         if (kiocb->ki_flags & IOCB_WRITE)
    1779                 :          0 :                 kiocb_end_write(req);
    1780                 :            : 
    1781         [ #  # ]:          0 :         if (res != req->result)
    1782         [ #  # ]:          0 :                 req_set_fail_links(req);
    1783                 :          0 :         req->result = res;
    1784         [ #  # ]:          0 :         if (res != -EAGAIN)
    1785                 :          0 :                 req->flags |= REQ_F_IOPOLL_COMPLETED;
    1786                 :          0 : }
    1787                 :            : 
    1788                 :            : /*
    1789                 :            :  * After the iocb has been issued, it's safe to be found on the poll list.
    1790                 :            :  * Adding the kiocb to the list AFTER submission ensures that we don't
    1791                 :            :  * find it from a io_iopoll_getevents() thread before the issuer is done
    1792                 :            :  * accessing the kiocb cookie.
    1793                 :            :  */
    1794                 :          0 : static void io_iopoll_req_issued(struct io_kiocb *req)
    1795                 :            : {
    1796                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    1797                 :            : 
    1798                 :            :         /*
    1799                 :            :          * Track whether we have multiple files in our lists. This will impact
    1800                 :            :          * how we do polling eventually, not spinning if we're on potentially
    1801                 :            :          * different devices.
    1802                 :            :          */
    1803         [ #  # ]:          0 :         if (list_empty(&ctx->poll_list)) {
    1804                 :          0 :                 ctx->poll_multi_file = false;
    1805         [ #  # ]:          0 :         } else if (!ctx->poll_multi_file) {
    1806                 :          0 :                 struct io_kiocb *list_req;
    1807                 :            : 
    1808                 :          0 :                 list_req = list_first_entry(&ctx->poll_list, struct io_kiocb,
    1809                 :            :                                                 list);
    1810         [ #  # ]:          0 :                 if (list_req->file != req->file)
    1811                 :          0 :                         ctx->poll_multi_file = true;
    1812                 :            :         }
    1813                 :            : 
    1814                 :            :         /*
    1815                 :            :          * For fast devices, IO may have already completed. If it has, add
    1816                 :            :          * it to the front so we find it first.
    1817                 :            :          */
    1818         [ #  # ]:          0 :         if (req->flags & REQ_F_IOPOLL_COMPLETED)
    1819                 :          0 :                 list_add(&req->list, &ctx->poll_list);
    1820                 :            :         else
    1821                 :          0 :                 list_add_tail(&req->list, &ctx->poll_list);
    1822                 :            : 
    1823   [ #  #  #  # ]:          0 :         if ((ctx->flags & IORING_SETUP_SQPOLL) &&
    1824                 :            :             wq_has_sleeper(&ctx->sqo_wait))
    1825                 :          0 :                 wake_up(&ctx->sqo_wait);
    1826                 :          0 : }
    1827                 :            : 
    1828                 :          0 : static void io_file_put(struct io_submit_state *state)
    1829                 :            : {
    1830         [ #  # ]:          0 :         if (state->file) {
    1831                 :          0 :                 int diff = state->has_refs - state->used_refs;
    1832                 :            : 
    1833         [ #  # ]:          0 :                 if (diff)
    1834                 :          0 :                         fput_many(state->file, diff);
    1835                 :          0 :                 state->file = NULL;
    1836                 :            :         }
    1837                 :          0 : }
    1838                 :            : 
    1839                 :            : /*
    1840                 :            :  * Get as many references to a file as we have IOs left in this submission,
    1841                 :            :  * assuming most submissions are for one file, or at least that each file
    1842                 :            :  * has more than one submission.
    1843                 :            :  */
    1844                 :          0 : static struct file *io_file_get(struct io_submit_state *state, int fd)
    1845                 :            : {
    1846         [ #  # ]:          0 :         if (!state)
    1847                 :          0 :                 return fget(fd);
    1848                 :            : 
    1849         [ #  # ]:          0 :         if (state->file) {
    1850         [ #  # ]:          0 :                 if (state->fd == fd) {
    1851                 :          0 :                         state->used_refs++;
    1852                 :          0 :                         state->ios_left--;
    1853                 :          0 :                         return state->file;
    1854                 :            :                 }
    1855                 :          0 :                 io_file_put(state);
    1856                 :            :         }
    1857                 :          0 :         state->file = fget_many(fd, state->ios_left);
    1858         [ #  # ]:          0 :         if (!state->file)
    1859                 :            :                 return NULL;
    1860                 :            : 
    1861                 :          0 :         state->fd = fd;
    1862                 :          0 :         state->has_refs = state->ios_left;
    1863                 :          0 :         state->used_refs = 1;
    1864                 :          0 :         state->ios_left--;
    1865                 :          0 :         return state->file;
    1866                 :            : }
    1867                 :            : 
    1868                 :            : /*
    1869                 :            :  * If we tracked the file through the SCM inflight mechanism, we could support
    1870                 :            :  * any file. For now, just ensure that anything potentially problematic is done
    1871                 :            :  * inline.
    1872                 :            :  */
    1873                 :          0 : static bool io_file_supports_async(struct file *file)
    1874                 :            : {
    1875                 :          0 :         umode_t mode = file_inode(file)->i_mode;
    1876                 :            : 
    1877   [ #  #  #  #  :          0 :         if (S_ISBLK(mode) || S_ISCHR(mode) || S_ISSOCK(mode))
             #  #  #  # ]
    1878                 :            :                 return true;
    1879   [ #  #  #  #  :          0 :         if (S_ISREG(mode) && file->f_op != &io_uring_fops)
             #  #  #  # ]
    1880                 :            :                 return true;
    1881                 :            : 
    1882                 :            :         return false;
    1883                 :            : }
    1884                 :            : 
    1885                 :          0 : static int io_prep_rw(struct io_kiocb *req, const struct io_uring_sqe *sqe,
    1886                 :            :                       bool force_nonblock)
    1887                 :            : {
    1888                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    1889                 :          0 :         struct kiocb *kiocb = &req->rw.kiocb;
    1890                 :          0 :         unsigned ioprio;
    1891                 :          0 :         int ret;
    1892                 :            : 
    1893         [ #  # ]:          0 :         if (S_ISREG(file_inode(req->file)->i_mode))
    1894                 :          0 :                 req->flags |= REQ_F_ISREG;
    1895                 :            : 
    1896         [ #  # ]:          0 :         kiocb->ki_pos = READ_ONCE(sqe->off);
    1897   [ #  #  #  # ]:          0 :         if (kiocb->ki_pos == -1 && !(req->file->f_mode & FMODE_STREAM)) {
    1898                 :          0 :                 req->flags |= REQ_F_CUR_POS;
    1899                 :          0 :                 kiocb->ki_pos = req->file->f_pos;
    1900                 :            :         }
    1901         [ #  # ]:          0 :         kiocb->ki_hint = ki_hint_validate(file_write_hint(kiocb->ki_filp));
    1902                 :          0 :         kiocb->ki_flags = iocb_flags(kiocb->ki_filp);
    1903                 :          0 :         ret = kiocb_set_rw_flags(kiocb, READ_ONCE(sqe->rw_flags));
    1904         [ #  # ]:          0 :         if (unlikely(ret))
    1905                 :            :                 return ret;
    1906                 :            : 
    1907         [ #  # ]:          0 :         ioprio = READ_ONCE(sqe->ioprio);
    1908         [ #  # ]:          0 :         if (ioprio) {
    1909                 :          0 :                 ret = ioprio_check_cap(ioprio);
    1910         [ #  # ]:          0 :                 if (ret)
    1911                 :            :                         return ret;
    1912                 :            : 
    1913                 :          0 :                 kiocb->ki_ioprio = ioprio;
    1914                 :            :         } else
    1915         [ #  # ]:          0 :                 kiocb->ki_ioprio = get_current_ioprio();
    1916                 :            : 
    1917                 :            :         /* don't allow async punt if RWF_NOWAIT was requested */
    1918         [ #  # ]:          0 :         if ((kiocb->ki_flags & IOCB_NOWAIT) ||
    1919         [ #  # ]:          0 :             (req->file->f_flags & O_NONBLOCK))
    1920                 :          0 :                 req->flags |= REQ_F_NOWAIT;
    1921                 :            : 
    1922         [ #  # ]:          0 :         if (force_nonblock)
    1923                 :          0 :                 kiocb->ki_flags |= IOCB_NOWAIT;
    1924                 :            : 
    1925         [ #  # ]:          0 :         if (ctx->flags & IORING_SETUP_IOPOLL) {
    1926         [ #  # ]:          0 :                 if (!(kiocb->ki_flags & IOCB_DIRECT) ||
    1927         [ #  # ]:          0 :                     !kiocb->ki_filp->f_op->iopoll)
    1928                 :            :                         return -EOPNOTSUPP;
    1929                 :            : 
    1930                 :          0 :                 kiocb->ki_flags |= IOCB_HIPRI;
    1931                 :          0 :                 kiocb->ki_complete = io_complete_rw_iopoll;
    1932                 :          0 :                 req->result = 0;
    1933                 :            :         } else {
    1934         [ #  # ]:          0 :                 if (kiocb->ki_flags & IOCB_HIPRI)
    1935                 :            :                         return -EINVAL;
    1936                 :          0 :                 kiocb->ki_complete = io_complete_rw;
    1937                 :            :         }
    1938                 :            : 
    1939                 :          0 :         req->rw.addr = READ_ONCE(sqe->addr);
    1940                 :          0 :         req->rw.len = READ_ONCE(sqe->len);
    1941                 :            :         /* we own ->private, reuse it for the buffer index */
    1942                 :          0 :         req->rw.kiocb.private = (void *) (unsigned long)
    1943                 :          0 :                                         READ_ONCE(sqe->buf_index);
    1944                 :          0 :         return 0;
    1945                 :            : }
    1946                 :            : 
    1947                 :          0 : static inline void io_rw_done(struct kiocb *kiocb, ssize_t ret)
    1948                 :            : {
    1949                 :          0 :         switch (ret) {
    1950                 :            :         case -EIOCBQUEUED:
    1951                 :            :                 break;
    1952                 :          0 :         case -ERESTARTSYS:
    1953                 :            :         case -ERESTARTNOINTR:
    1954                 :            :         case -ERESTARTNOHAND:
    1955                 :            :         case -ERESTART_RESTARTBLOCK:
    1956                 :            :                 /*
    1957                 :            :                  * We can't just restart the syscall, since previously
    1958                 :            :                  * submitted sqes may already be in progress. Just fail this
    1959                 :            :                  * IO with EINTR.
    1960                 :            :                  */
    1961                 :          0 :                 ret = -EINTR;
    1962                 :            :                 /* fall through */
    1963                 :          0 :         default:
    1964                 :          0 :                 kiocb->ki_complete(kiocb, ret, 0);
    1965                 :            :         }
    1966                 :            : }
    1967                 :            : 
    1968                 :          0 : static void kiocb_done(struct kiocb *kiocb, ssize_t ret, struct io_kiocb **nxt,
    1969                 :            :                        bool in_async)
    1970                 :            : {
    1971                 :          0 :         struct io_kiocb *req = container_of(kiocb, struct io_kiocb, rw.kiocb);
    1972                 :            : 
    1973         [ #  # ]:          0 :         if (req->flags & REQ_F_CUR_POS)
    1974                 :          0 :                 req->file->f_pos = kiocb->ki_pos;
    1975   [ #  #  #  # ]:          0 :         if (in_async && ret >= 0 && kiocb->ki_complete == io_complete_rw)
    1976                 :          0 :                 *nxt = __io_complete_rw(kiocb, ret);
    1977                 :            :         else
    1978      [ #  #  # ]:          0 :                 io_rw_done(kiocb, ret);
    1979                 :          0 : }
    1980                 :            : 
    1981                 :          0 : static ssize_t io_import_fixed(struct io_kiocb *req, int rw,
    1982                 :            :                                struct iov_iter *iter)
    1983                 :            : {
    1984                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    1985                 :          0 :         size_t len = req->rw.len;
    1986                 :          0 :         struct io_mapped_ubuf *imu;
    1987                 :          0 :         unsigned index, buf_index;
    1988                 :          0 :         size_t offset;
    1989                 :          0 :         u64 buf_addr;
    1990                 :            : 
    1991                 :            :         /* attempt to use fixed buffers without having provided iovecs */
    1992         [ #  # ]:          0 :         if (unlikely(!ctx->user_bufs))
    1993                 :            :                 return -EFAULT;
    1994                 :            : 
    1995                 :          0 :         buf_index = (unsigned long) req->rw.kiocb.private;
    1996         [ #  # ]:          0 :         if (unlikely(buf_index >= ctx->nr_user_bufs))
    1997                 :            :                 return -EFAULT;
    1998                 :            : 
    1999                 :          0 :         index = array_index_nospec(buf_index, ctx->nr_user_bufs);
    2000                 :          0 :         imu = &ctx->user_bufs[index];
    2001                 :          0 :         buf_addr = req->rw.addr;
    2002                 :            : 
    2003                 :            :         /* overflow */
    2004         [ #  # ]:          0 :         if (buf_addr + len < buf_addr)
    2005                 :            :                 return -EFAULT;
    2006                 :            :         /* not inside the mapped region */
    2007   [ #  #  #  # ]:          0 :         if (buf_addr < imu->ubuf || buf_addr + len > imu->ubuf + imu->len)
    2008                 :            :                 return -EFAULT;
    2009                 :            : 
    2010                 :            :         /*
    2011                 :            :          * May not be a start of buffer, set size appropriately
    2012                 :            :          * and advance us to the beginning.
    2013                 :            :          */
    2014                 :          0 :         offset = buf_addr - imu->ubuf;
    2015                 :          0 :         iov_iter_bvec(iter, rw, imu->bvec, imu->nr_bvecs, offset + len);
    2016                 :            : 
    2017         [ #  # ]:          0 :         if (offset) {
    2018                 :            :                 /*
    2019                 :            :                  * Don't use iov_iter_advance() here, as it's really slow for
    2020                 :            :                  * using the latter parts of a big fixed buffer - it iterates
    2021                 :            :                  * over each segment manually. We can cheat a bit here, because
    2022                 :            :                  * we know that:
    2023                 :            :                  *
    2024                 :            :                  * 1) it's a BVEC iter, we set it up
    2025                 :            :                  * 2) all bvecs are PAGE_SIZE in size, except potentially the
    2026                 :            :                  *    first and last bvec
    2027                 :            :                  *
    2028                 :            :                  * So just find our index, and adjust the iterator afterwards.
    2029                 :            :                  * If the offset is within the first bvec (or the whole first
    2030                 :            :                  * bvec, just use iov_iter_advance(). This makes it easier
    2031                 :            :                  * since we can just skip the first segment, which may not
    2032                 :            :                  * be PAGE_SIZE aligned.
    2033                 :            :                  */
    2034                 :          0 :                 const struct bio_vec *bvec = imu->bvec;
    2035                 :            : 
    2036         [ #  # ]:          0 :                 if (offset <= bvec->bv_len) {
    2037                 :          0 :                         iov_iter_advance(iter, offset);
    2038                 :            :                 } else {
    2039                 :          0 :                         unsigned long seg_skip;
    2040                 :            : 
    2041                 :            :                         /* skip first vec */
    2042                 :          0 :                         offset -= bvec->bv_len;
    2043                 :          0 :                         seg_skip = 1 + (offset >> PAGE_SHIFT);
    2044                 :            : 
    2045                 :          0 :                         iter->bvec = bvec + seg_skip;
    2046                 :          0 :                         iter->nr_segs -= seg_skip;
    2047                 :          0 :                         iter->count -= bvec->bv_len + offset;
    2048                 :          0 :                         iter->iov_offset = offset & ~PAGE_MASK;
    2049                 :            :                 }
    2050                 :            :         }
    2051                 :            : 
    2052                 :          0 :         return len;
    2053                 :            : }
    2054                 :            : 
    2055                 :          0 : static ssize_t io_import_iovec(int rw, struct io_kiocb *req,
    2056                 :            :                                struct iovec **iovec, struct iov_iter *iter)
    2057                 :            : {
    2058                 :          0 :         void __user *buf = u64_to_user_ptr(req->rw.addr);
    2059                 :          0 :         size_t sqe_len = req->rw.len;
    2060                 :          0 :         u8 opcode;
    2061                 :            : 
    2062                 :          0 :         opcode = req->opcode;
    2063         [ #  # ]:          0 :         if (opcode == IORING_OP_READ_FIXED || opcode == IORING_OP_WRITE_FIXED) {
    2064                 :          0 :                 *iovec = NULL;
    2065                 :          0 :                 return io_import_fixed(req, rw, iter);
    2066                 :            :         }
    2067                 :            : 
    2068                 :            :         /* buffer index only valid with fixed read/write */
    2069         [ #  # ]:          0 :         if (req->rw.kiocb.private)
    2070                 :            :                 return -EINVAL;
    2071                 :            : 
    2072         [ #  # ]:          0 :         if (opcode == IORING_OP_READ || opcode == IORING_OP_WRITE) {
    2073                 :          0 :                 ssize_t ret;
    2074                 :          0 :                 ret = import_single_range(rw, buf, sqe_len, *iovec, iter);
    2075                 :          0 :                 *iovec = NULL;
    2076         [ #  # ]:          0 :                 return ret < 0 ? ret : sqe_len;
    2077                 :            :         }
    2078                 :            : 
    2079         [ #  # ]:          0 :         if (req->io) {
    2080                 :          0 :                 struct io_async_rw *iorw = &req->io->rw;
    2081                 :            : 
    2082                 :          0 :                 *iovec = iorw->iov;
    2083                 :          0 :                 iov_iter_init(iter, rw, *iovec, iorw->nr_segs, iorw->size);
    2084         [ #  # ]:          0 :                 if (iorw->iov == iorw->fast_iov)
    2085                 :          0 :                         *iovec = NULL;
    2086                 :          0 :                 return iorw->size;
    2087                 :            :         }
    2088                 :            : 
    2089                 :            : #ifdef CONFIG_COMPAT
    2090         [ #  # ]:          0 :         if (req->ctx->compat)
    2091                 :          0 :                 return compat_import_iovec(rw, buf, sqe_len, UIO_FASTIOV,
    2092                 :            :                                                 iovec, iter);
    2093                 :            : #endif
    2094                 :            : 
    2095                 :          0 :         return import_iovec(rw, buf, sqe_len, UIO_FASTIOV, iovec, iter);
    2096                 :            : }
    2097                 :            : 
    2098                 :            : /*
    2099                 :            :  * For files that don't have ->read_iter() and ->write_iter(), handle them
    2100                 :            :  * by looping over ->read() or ->write() manually.
    2101                 :            :  */
    2102                 :          0 : static ssize_t loop_rw_iter(int rw, struct file *file, struct kiocb *kiocb,
    2103                 :            :                            struct iov_iter *iter)
    2104                 :            : {
    2105                 :          0 :         ssize_t ret = 0;
    2106                 :            : 
    2107                 :            :         /*
    2108                 :            :          * Don't support polled IO through this interface, and we can't
    2109                 :            :          * support non-blocking either. For the latter, this just causes
    2110                 :            :          * the kiocb to be handled from an async context.
    2111                 :            :          */
    2112         [ #  # ]:          0 :         if (kiocb->ki_flags & IOCB_HIPRI)
    2113                 :            :                 return -EOPNOTSUPP;
    2114         [ #  # ]:          0 :         if (kiocb->ki_flags & IOCB_NOWAIT)
    2115                 :            :                 return -EAGAIN;
    2116                 :            : 
    2117         [ #  # ]:          0 :         while (iov_iter_count(iter)) {
    2118                 :          0 :                 struct iovec iovec;
    2119                 :          0 :                 ssize_t nr;
    2120                 :            : 
    2121         [ #  # ]:          0 :                 if (!iov_iter_is_bvec(iter)) {
    2122                 :          0 :                         iovec = iov_iter_iovec(iter);
    2123                 :            :                 } else {
    2124                 :            :                         /* fixed buffers import bvec */
    2125                 :          0 :                         iovec.iov_base = kmap(iter->bvec->bv_page)
    2126                 :          0 :                                                 + iter->iov_offset;
    2127                 :          0 :                         iovec.iov_len = min(iter->count,
    2128                 :            :                                         iter->bvec->bv_len - iter->iov_offset);
    2129                 :            :                 }
    2130                 :            : 
    2131         [ #  # ]:          0 :                 if (rw == READ) {
    2132                 :          0 :                         nr = file->f_op->read(file, iovec.iov_base,
    2133                 :            :                                               iovec.iov_len, &kiocb->ki_pos);
    2134                 :            :                 } else {
    2135                 :          0 :                         nr = file->f_op->write(file, iovec.iov_base,
    2136                 :            :                                                iovec.iov_len, &kiocb->ki_pos);
    2137                 :            :                 }
    2138                 :            : 
    2139         [ #  # ]:          0 :                 if (iov_iter_is_bvec(iter))
    2140                 :            :                         kunmap(iter->bvec->bv_page);
    2141                 :            : 
    2142         [ #  # ]:          0 :                 if (nr < 0) {
    2143         [ #  # ]:          0 :                         if (!ret)
    2144                 :          0 :                                 ret = nr;
    2145                 :            :                         break;
    2146                 :            :                 }
    2147                 :          0 :                 ret += nr;
    2148         [ #  # ]:          0 :                 if (nr != iovec.iov_len)
    2149                 :            :                         break;
    2150                 :          0 :                 iov_iter_advance(iter, nr);
    2151                 :            :         }
    2152                 :            : 
    2153                 :            :         return ret;
    2154                 :            : }
    2155                 :            : 
    2156                 :            : static void io_req_map_rw(struct io_kiocb *req, ssize_t io_size,
    2157                 :            :                           struct iovec *iovec, struct iovec *fast_iov,
    2158                 :            :                           struct iov_iter *iter)
    2159                 :            : {
    2160                 :            :         req->io->rw.nr_segs = iter->nr_segs;
    2161                 :            :         req->io->rw.size = io_size;
    2162                 :            :         req->io->rw.iov = iovec;
    2163                 :            :         if (!req->io->rw.iov) {
    2164                 :            :                 req->io->rw.iov = req->io->rw.fast_iov;
    2165                 :            :                 memcpy(req->io->rw.iov, fast_iov,
    2166                 :            :                         sizeof(struct iovec) * iter->nr_segs);
    2167                 :            :         } else {
    2168                 :            :                 req->flags |= REQ_F_NEED_CLEANUP;
    2169                 :            :         }
    2170                 :            : }
    2171                 :            : 
    2172                 :          0 : static int io_alloc_async_ctx(struct io_kiocb *req)
    2173                 :            : {
    2174                 :          0 :         if (!io_op_defs[req->opcode].async_ctx)
    2175                 :            :                 return 0;
    2176                 :          0 :         req->io = kmalloc(sizeof(*req->io), GFP_KERNEL);
    2177                 :          0 :         return req->io == NULL;
    2178                 :            : }
    2179                 :            : 
    2180                 :          0 : static int io_setup_async_rw(struct io_kiocb *req, ssize_t io_size,
    2181                 :            :                              struct iovec *iovec, struct iovec *fast_iov,
    2182                 :            :                              struct iov_iter *iter)
    2183                 :            : {
    2184         [ #  # ]:          0 :         if (!io_op_defs[req->opcode].async_ctx)
    2185                 :            :                 return 0;
    2186         [ #  # ]:          0 :         if (!req->io) {
    2187         [ #  # ]:          0 :                 if (io_alloc_async_ctx(req))
    2188                 :            :                         return -ENOMEM;
    2189                 :            : 
    2190                 :          0 :                 io_req_map_rw(req, io_size, iovec, fast_iov, iter);
    2191                 :            :         }
    2192                 :            :         return 0;
    2193                 :            : }
    2194                 :            : 
    2195                 :          0 : static int io_read_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe,
    2196                 :            :                         bool force_nonblock)
    2197                 :            : {
    2198                 :          0 :         struct io_async_ctx *io;
    2199                 :          0 :         struct iov_iter iter;
    2200                 :          0 :         ssize_t ret;
    2201                 :            : 
    2202                 :          0 :         ret = io_prep_rw(req, sqe, force_nonblock);
    2203         [ #  # ]:          0 :         if (ret)
    2204                 :            :                 return ret;
    2205                 :            : 
    2206         [ #  # ]:          0 :         if (unlikely(!(req->file->f_mode & FMODE_READ)))
    2207                 :            :                 return -EBADF;
    2208                 :            : 
    2209                 :            :         /* either don't need iovec imported or already have it */
    2210   [ #  #  #  # ]:          0 :         if (!req->io || req->flags & REQ_F_NEED_CLEANUP)
    2211                 :            :                 return 0;
    2212                 :            : 
    2213                 :          0 :         io = req->io;
    2214                 :          0 :         io->rw.iov = io->rw.fast_iov;
    2215                 :          0 :         req->io = NULL;
    2216                 :          0 :         ret = io_import_iovec(READ, req, &io->rw.iov, &iter);
    2217                 :          0 :         req->io = io;
    2218         [ #  # ]:          0 :         if (ret < 0)
    2219                 :          0 :                 return ret;
    2220                 :            : 
    2221                 :          0 :         io_req_map_rw(req, ret, io->rw.iov, io->rw.fast_iov, &iter);
    2222                 :          0 :         return 0;
    2223                 :            : }
    2224                 :            : 
    2225                 :          0 : static int io_read(struct io_kiocb *req, struct io_kiocb **nxt,
    2226                 :            :                    bool force_nonblock)
    2227                 :            : {
    2228                 :          0 :         struct iovec inline_vecs[UIO_FASTIOV], *iovec = inline_vecs;
    2229                 :          0 :         struct kiocb *kiocb = &req->rw.kiocb;
    2230                 :          0 :         struct iov_iter iter;
    2231                 :          0 :         size_t iov_count;
    2232                 :          0 :         ssize_t io_size, ret;
    2233                 :            : 
    2234                 :          0 :         ret = io_import_iovec(READ, req, &iovec, &iter);
    2235         [ #  # ]:          0 :         if (ret < 0)
    2236                 :          0 :                 return ret;
    2237                 :            : 
    2238                 :            :         /* Ensure we clear previously set non-block flag */
    2239         [ #  # ]:          0 :         if (!force_nonblock)
    2240                 :          0 :                 req->rw.kiocb.ki_flags &= ~IOCB_NOWAIT;
    2241                 :            : 
    2242                 :          0 :         req->result = 0;
    2243                 :          0 :         io_size = ret;
    2244         [ #  # ]:          0 :         if (req->flags & REQ_F_LINK)
    2245                 :          0 :                 req->result = io_size;
    2246                 :            : 
    2247                 :            :         /*
    2248                 :            :          * If the file doesn't support async, mark it as REQ_F_MUST_PUNT so
    2249                 :            :          * we know to async punt it even if it was opened O_NONBLOCK
    2250                 :            :          */
    2251   [ #  #  #  # ]:          0 :         if (force_nonblock && !io_file_supports_async(req->file)) {
    2252                 :          0 :                 req->flags |= REQ_F_MUST_PUNT;
    2253                 :          0 :                 goto copy_iov;
    2254                 :            :         }
    2255                 :            : 
    2256                 :          0 :         iov_count = iov_iter_count(&iter);
    2257                 :          0 :         ret = rw_verify_area(READ, req->file, &kiocb->ki_pos, iov_count);
    2258         [ #  # ]:          0 :         if (!ret) {
    2259                 :          0 :                 ssize_t ret2;
    2260                 :            : 
    2261         [ #  # ]:          0 :                 if (req->file->f_op->read_iter)
    2262                 :          0 :                         ret2 = call_read_iter(req->file, kiocb, &iter);
    2263                 :            :                 else
    2264                 :          0 :                         ret2 = loop_rw_iter(READ, req->file, kiocb, &iter);
    2265                 :            : 
    2266                 :            :                 /* Catch -EAGAIN return for forced non-blocking submission */
    2267         [ #  # ]:          0 :                 if (!force_nonblock || ret2 != -EAGAIN) {
    2268                 :          0 :                         kiocb_done(kiocb, ret2, nxt, req->in_async);
    2269                 :            :                 } else {
    2270                 :          0 : copy_iov:
    2271                 :          0 :                         ret = io_setup_async_rw(req, io_size, iovec,
    2272                 :            :                                                 inline_vecs, &iter);
    2273         [ #  # ]:          0 :                         if (ret)
    2274                 :          0 :                                 goto out_free;
    2275                 :            :                         return -EAGAIN;
    2276                 :            :                 }
    2277                 :            :         }
    2278                 :          0 : out_free:
    2279                 :          0 :         kfree(iovec);
    2280                 :          0 :         req->flags &= ~REQ_F_NEED_CLEANUP;
    2281                 :          0 :         return ret;
    2282                 :            : }
    2283                 :            : 
    2284                 :          0 : static int io_write_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe,
    2285                 :            :                          bool force_nonblock)
    2286                 :            : {
    2287                 :          0 :         struct io_async_ctx *io;
    2288                 :          0 :         struct iov_iter iter;
    2289                 :          0 :         ssize_t ret;
    2290                 :            : 
    2291                 :          0 :         ret = io_prep_rw(req, sqe, force_nonblock);
    2292         [ #  # ]:          0 :         if (ret)
    2293                 :            :                 return ret;
    2294                 :            : 
    2295         [ #  # ]:          0 :         if (unlikely(!(req->file->f_mode & FMODE_WRITE)))
    2296                 :            :                 return -EBADF;
    2297                 :            : 
    2298                 :            :         /* either don't need iovec imported or already have it */
    2299   [ #  #  #  # ]:          0 :         if (!req->io || req->flags & REQ_F_NEED_CLEANUP)
    2300                 :            :                 return 0;
    2301                 :            : 
    2302                 :          0 :         io = req->io;
    2303                 :          0 :         io->rw.iov = io->rw.fast_iov;
    2304                 :          0 :         req->io = NULL;
    2305                 :          0 :         ret = io_import_iovec(WRITE, req, &io->rw.iov, &iter);
    2306                 :          0 :         req->io = io;
    2307         [ #  # ]:          0 :         if (ret < 0)
    2308                 :          0 :                 return ret;
    2309                 :            : 
    2310                 :          0 :         io_req_map_rw(req, ret, io->rw.iov, io->rw.fast_iov, &iter);
    2311                 :          0 :         return 0;
    2312                 :            : }
    2313                 :            : 
    2314                 :          0 : static int io_write(struct io_kiocb *req, struct io_kiocb **nxt,
    2315                 :            :                     bool force_nonblock)
    2316                 :            : {
    2317                 :          0 :         struct iovec inline_vecs[UIO_FASTIOV], *iovec = inline_vecs;
    2318                 :          0 :         struct kiocb *kiocb = &req->rw.kiocb;
    2319                 :          0 :         struct iov_iter iter;
    2320                 :          0 :         size_t iov_count;
    2321                 :          0 :         ssize_t ret, io_size;
    2322                 :            : 
    2323                 :          0 :         ret = io_import_iovec(WRITE, req, &iovec, &iter);
    2324         [ #  # ]:          0 :         if (ret < 0)
    2325                 :          0 :                 return ret;
    2326                 :            : 
    2327                 :            :         /* Ensure we clear previously set non-block flag */
    2328         [ #  # ]:          0 :         if (!force_nonblock)
    2329                 :          0 :                 req->rw.kiocb.ki_flags &= ~IOCB_NOWAIT;
    2330                 :            : 
    2331                 :          0 :         req->result = 0;
    2332                 :          0 :         io_size = ret;
    2333         [ #  # ]:          0 :         if (req->flags & REQ_F_LINK)
    2334                 :          0 :                 req->result = io_size;
    2335                 :            : 
    2336                 :            :         /*
    2337                 :            :          * If the file doesn't support async, mark it as REQ_F_MUST_PUNT so
    2338                 :            :          * we know to async punt it even if it was opened O_NONBLOCK
    2339                 :            :          */
    2340   [ #  #  #  # ]:          0 :         if (force_nonblock && !io_file_supports_async(req->file)) {
    2341                 :          0 :                 req->flags |= REQ_F_MUST_PUNT;
    2342                 :          0 :                 goto copy_iov;
    2343                 :            :         }
    2344                 :            : 
    2345                 :            :         /* file path doesn't support NOWAIT for non-direct_IO */
    2346   [ #  #  #  # ]:          0 :         if (force_nonblock && !(kiocb->ki_flags & IOCB_DIRECT) &&
    2347         [ #  # ]:          0 :             (req->flags & REQ_F_ISREG))
    2348                 :          0 :                 goto copy_iov;
    2349                 :            : 
    2350                 :          0 :         iov_count = iov_iter_count(&iter);
    2351                 :          0 :         ret = rw_verify_area(WRITE, req->file, &kiocb->ki_pos, iov_count);
    2352         [ #  # ]:          0 :         if (!ret) {
    2353                 :          0 :                 ssize_t ret2;
    2354                 :            : 
    2355                 :            :                 /*
    2356                 :            :                  * Open-code file_start_write here to grab freeze protection,
    2357                 :            :                  * which will be released by another thread in
    2358                 :            :                  * io_complete_rw().  Fool lockdep by telling it the lock got
    2359                 :            :                  * released so that it doesn't complain about the held lock when
    2360                 :            :                  * we return to userspace.
    2361                 :            :                  */
    2362         [ #  # ]:          0 :                 if (req->flags & REQ_F_ISREG) {
    2363                 :          0 :                         __sb_start_write(file_inode(req->file)->i_sb,
    2364                 :            :                                                 SB_FREEZE_WRITE, true);
    2365                 :          0 :                         __sb_writers_release(file_inode(req->file)->i_sb,
    2366                 :            :                                                 SB_FREEZE_WRITE);
    2367                 :            :                 }
    2368                 :          0 :                 kiocb->ki_flags |= IOCB_WRITE;
    2369                 :            : 
    2370         [ #  # ]:          0 :                 if (req->file->f_op->write_iter)
    2371                 :          0 :                         ret2 = call_write_iter(req->file, kiocb, &iter);
    2372                 :            :                 else
    2373                 :          0 :                         ret2 = loop_rw_iter(WRITE, req->file, kiocb, &iter);
    2374                 :            :                 /*
    2375                 :            :                  * Raw bdev writes will -EOPNOTSUPP for IOCB_NOWAIT. Just
    2376                 :            :                  * retry them without IOCB_NOWAIT.
    2377                 :            :                  */
    2378   [ #  #  #  # ]:          0 :                 if (ret2 == -EOPNOTSUPP && (kiocb->ki_flags & IOCB_NOWAIT))
    2379                 :          0 :                         ret2 = -EAGAIN;
    2380         [ #  # ]:          0 :                 if (!force_nonblock || ret2 != -EAGAIN) {
    2381                 :          0 :                         kiocb_done(kiocb, ret2, nxt, req->in_async);
    2382                 :            :                 } else {
    2383                 :          0 : copy_iov:
    2384                 :          0 :                         ret = io_setup_async_rw(req, io_size, iovec,
    2385                 :            :                                                 inline_vecs, &iter);
    2386         [ #  # ]:          0 :                         if (ret)
    2387                 :          0 :                                 goto out_free;
    2388                 :            :                         return -EAGAIN;
    2389                 :            :                 }
    2390                 :            :         }
    2391                 :          0 : out_free:
    2392                 :          0 :         req->flags &= ~REQ_F_NEED_CLEANUP;
    2393                 :          0 :         kfree(iovec);
    2394                 :          0 :         return ret;
    2395                 :            : }
    2396                 :            : 
    2397                 :            : /*
    2398                 :            :  * IORING_OP_NOP just posts a completion event, nothing else.
    2399                 :            :  */
    2400                 :          0 : static int io_nop(struct io_kiocb *req)
    2401                 :            : {
    2402                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    2403                 :            : 
    2404         [ #  # ]:          0 :         if (unlikely(ctx->flags & IORING_SETUP_IOPOLL))
    2405                 :            :                 return -EINVAL;
    2406                 :            : 
    2407                 :          0 :         io_cqring_add_event(req, 0);
    2408                 :          0 :         io_put_req(req);
    2409                 :          0 :         return 0;
    2410                 :            : }
    2411                 :            : 
    2412                 :          0 : static int io_prep_fsync(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    2413                 :            : {
    2414                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    2415                 :            : 
    2416         [ #  # ]:          0 :         if (!req->file)
    2417                 :            :                 return -EBADF;
    2418                 :            : 
    2419         [ #  # ]:          0 :         if (unlikely(ctx->flags & IORING_SETUP_IOPOLL))
    2420                 :            :                 return -EINVAL;
    2421   [ #  #  #  #  :          0 :         if (unlikely(sqe->addr || sqe->ioprio || sqe->buf_index))
                   #  # ]
    2422                 :            :                 return -EINVAL;
    2423                 :            : 
    2424         [ #  # ]:          0 :         req->sync.flags = READ_ONCE(sqe->fsync_flags);
    2425         [ #  # ]:          0 :         if (unlikely(req->sync.flags & ~IORING_FSYNC_DATASYNC))
    2426                 :            :                 return -EINVAL;
    2427                 :            : 
    2428                 :          0 :         req->sync.off = READ_ONCE(sqe->off);
    2429                 :          0 :         req->sync.len = READ_ONCE(sqe->len);
    2430                 :          0 :         return 0;
    2431                 :            : }
    2432                 :            : 
    2433                 :          0 : static bool io_req_cancelled(struct io_kiocb *req)
    2434                 :            : {
    2435         [ #  # ]:          0 :         if (req->work.flags & IO_WQ_WORK_CANCEL) {
    2436         [ #  # ]:          0 :                 req_set_fail_links(req);
    2437                 :          0 :                 io_cqring_add_event(req, -ECANCELED);
    2438                 :          0 :                 io_put_req(req);
    2439                 :          0 :                 return true;
    2440                 :            :         }
    2441                 :            : 
    2442                 :            :         return false;
    2443                 :            : }
    2444                 :            : 
    2445                 :          0 : static void io_link_work_cb(struct io_wq_work **workptr)
    2446                 :            : {
    2447                 :          0 :         struct io_wq_work *work = *workptr;
    2448                 :          0 :         struct io_kiocb *link = work->data;
    2449                 :            : 
    2450                 :          0 :         io_queue_linked_timeout(link);
    2451                 :          0 :         work->func = io_wq_submit_work;
    2452                 :          0 : }
    2453                 :            : 
    2454                 :          0 : static void io_wq_assign_next(struct io_wq_work **workptr, struct io_kiocb *nxt)
    2455                 :            : {
    2456                 :          0 :         struct io_kiocb *link;
    2457                 :            : 
    2458                 :          0 :         io_prep_async_work(nxt, &link);
    2459                 :          0 :         *workptr = &nxt->work;
    2460   [ #  #  #  #  :          0 :         if (link) {
          #  #  #  #  #  
             #  #  #  #  
                      # ]
    2461                 :          0 :                 nxt->work.flags |= IO_WQ_WORK_CB;
    2462                 :          0 :                 nxt->work.func = io_link_work_cb;
    2463                 :          0 :                 nxt->work.data = link;
    2464                 :            :         }
    2465                 :          0 : }
    2466                 :            : 
    2467                 :          0 : static void io_fsync_finish(struct io_wq_work **workptr)
    2468                 :            : {
    2469                 :          0 :         struct io_kiocb *req = container_of(*workptr, struct io_kiocb, work);
    2470                 :          0 :         loff_t end = req->sync.off + req->sync.len;
    2471                 :          0 :         struct io_kiocb *nxt = NULL;
    2472                 :          0 :         int ret;
    2473                 :            : 
    2474         [ #  # ]:          0 :         if (io_req_cancelled(req))
    2475                 :          0 :                 return;
    2476                 :            : 
    2477                 :          0 :         ret = vfs_fsync_range(req->file, req->sync.off,
    2478                 :            :                                 end > 0 ? end : LLONG_MAX,
    2479         [ #  # ]:          0 :                                 req->sync.flags & IORING_FSYNC_DATASYNC);
    2480         [ #  # ]:          0 :         if (ret < 0)
    2481         [ #  # ]:          0 :                 req_set_fail_links(req);
    2482                 :          0 :         io_cqring_add_event(req, ret);
    2483                 :          0 :         io_put_req_find_next(req, &nxt);
    2484         [ #  # ]:          0 :         if (nxt)
    2485                 :          0 :                 io_wq_assign_next(workptr, nxt);
    2486                 :            : }
    2487                 :            : 
    2488                 :          0 : static int io_fsync(struct io_kiocb *req, struct io_kiocb **nxt,
    2489                 :            :                     bool force_nonblock)
    2490                 :            : {
    2491                 :          0 :         struct io_wq_work *work, *old_work;
    2492                 :            : 
    2493                 :            :         /* fsync always requires a blocking context */
    2494         [ #  # ]:          0 :         if (force_nonblock) {
    2495                 :          0 :                 io_put_req(req);
    2496                 :          0 :                 req->work.func = io_fsync_finish;
    2497                 :          0 :                 return -EAGAIN;
    2498                 :            :         }
    2499                 :            : 
    2500                 :          0 :         work = old_work = &req->work;
    2501                 :          0 :         io_fsync_finish(&work);
    2502   [ #  #  #  # ]:          0 :         if (work && work != old_work)
    2503                 :          0 :                 *nxt = container_of(work, struct io_kiocb, work);
    2504                 :            :         return 0;
    2505                 :            : }
    2506                 :            : 
    2507                 :          0 : static void io_fallocate_finish(struct io_wq_work **workptr)
    2508                 :            : {
    2509                 :          0 :         struct io_kiocb *req = container_of(*workptr, struct io_kiocb, work);
    2510                 :          0 :         struct io_kiocb *nxt = NULL;
    2511                 :          0 :         int ret;
    2512                 :            : 
    2513         [ #  # ]:          0 :         if (io_req_cancelled(req))
    2514                 :          0 :                 return;
    2515                 :            : 
    2516                 :          0 :         ret = vfs_fallocate(req->file, req->sync.mode, req->sync.off,
    2517                 :            :                                 req->sync.len);
    2518         [ #  # ]:          0 :         if (ret < 0)
    2519         [ #  # ]:          0 :                 req_set_fail_links(req);
    2520                 :          0 :         io_cqring_add_event(req, ret);
    2521                 :          0 :         io_put_req_find_next(req, &nxt);
    2522         [ #  # ]:          0 :         if (nxt)
    2523                 :          0 :                 io_wq_assign_next(workptr, nxt);
    2524                 :            : }
    2525                 :            : 
    2526                 :          0 : static int io_fallocate_prep(struct io_kiocb *req,
    2527                 :            :                              const struct io_uring_sqe *sqe)
    2528                 :            : {
    2529   [ #  #  #  #  :          0 :         if (sqe->ioprio || sqe->buf_index || sqe->rw_flags)
             #  #  #  # ]
    2530                 :            :                 return -EINVAL;
    2531                 :            : 
    2532                 :          0 :         req->sync.off = READ_ONCE(sqe->off);
    2533                 :          0 :         req->sync.len = READ_ONCE(sqe->addr);
    2534                 :          0 :         req->sync.mode = READ_ONCE(sqe->len);
    2535                 :          0 :         return 0;
    2536                 :            : }
    2537                 :            : 
    2538                 :          0 : static int io_fallocate(struct io_kiocb *req, struct io_kiocb **nxt,
    2539                 :            :                         bool force_nonblock)
    2540                 :            : {
    2541                 :          0 :         struct io_wq_work *work, *old_work;
    2542                 :            : 
    2543                 :            :         /* fallocate always requiring blocking context */
    2544         [ #  # ]:          0 :         if (force_nonblock) {
    2545                 :          0 :                 io_put_req(req);
    2546                 :          0 :                 req->work.func = io_fallocate_finish;
    2547                 :          0 :                 return -EAGAIN;
    2548                 :            :         }
    2549                 :            : 
    2550                 :          0 :         work = old_work = &req->work;
    2551                 :          0 :         io_fallocate_finish(&work);
    2552   [ #  #  #  # ]:          0 :         if (work && work != old_work)
    2553                 :          0 :                 *nxt = container_of(work, struct io_kiocb, work);
    2554                 :            : 
    2555                 :            :         return 0;
    2556                 :            : }
    2557                 :            : 
    2558                 :          0 : static int io_openat_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    2559                 :            : {
    2560                 :          0 :         const char __user *fname;
    2561                 :          0 :         int ret;
    2562                 :            : 
    2563   [ #  #  #  # ]:          0 :         if (sqe->ioprio || sqe->buf_index)
    2564                 :            :                 return -EINVAL;
    2565         [ #  # ]:          0 :         if (sqe->flags & IOSQE_FIXED_FILE)
    2566                 :            :                 return -EBADF;
    2567         [ #  # ]:          0 :         if (req->flags & REQ_F_NEED_CLEANUP)
    2568                 :            :                 return 0;
    2569                 :            : 
    2570                 :          0 :         req->open.dfd = READ_ONCE(sqe->fd);
    2571                 :          0 :         req->open.how.mode = READ_ONCE(sqe->len);
    2572                 :          0 :         fname = u64_to_user_ptr(READ_ONCE(sqe->addr));
    2573                 :          0 :         req->open.how.flags = READ_ONCE(sqe->open_flags);
    2574                 :            : 
    2575                 :          0 :         req->open.filename = getname(fname);
    2576         [ #  # ]:          0 :         if (IS_ERR(req->open.filename)) {
    2577                 :          0 :                 ret = PTR_ERR(req->open.filename);
    2578                 :          0 :                 req->open.filename = NULL;
    2579                 :          0 :                 return ret;
    2580                 :            :         }
    2581                 :            : 
    2582                 :          0 :         req->open.nofile = rlimit(RLIMIT_NOFILE);
    2583                 :          0 :         req->flags |= REQ_F_NEED_CLEANUP;
    2584                 :          0 :         return 0;
    2585                 :            : }
    2586                 :            : 
    2587                 :          0 : static int io_openat2_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    2588                 :            : {
    2589                 :          0 :         struct open_how __user *how;
    2590                 :          0 :         const char __user *fname;
    2591                 :          0 :         size_t len;
    2592                 :          0 :         int ret;
    2593                 :            : 
    2594   [ #  #  #  # ]:          0 :         if (sqe->ioprio || sqe->buf_index)
    2595                 :            :                 return -EINVAL;
    2596         [ #  # ]:          0 :         if (sqe->flags & IOSQE_FIXED_FILE)
    2597                 :            :                 return -EBADF;
    2598         [ #  # ]:          0 :         if (req->flags & REQ_F_NEED_CLEANUP)
    2599                 :            :                 return 0;
    2600                 :            : 
    2601         [ #  # ]:          0 :         req->open.dfd = READ_ONCE(sqe->fd);
    2602                 :          0 :         fname = u64_to_user_ptr(READ_ONCE(sqe->addr));
    2603                 :          0 :         how = u64_to_user_ptr(READ_ONCE(sqe->addr2));
    2604                 :          0 :         len = READ_ONCE(sqe->len);
    2605                 :            : 
    2606         [ #  # ]:          0 :         if (len < OPEN_HOW_SIZE_VER0)
    2607                 :            :                 return -EINVAL;
    2608                 :            : 
    2609         [ #  # ]:          0 :         ret = copy_struct_from_user(&req->open.how, sizeof(req->open.how), how,
    2610                 :            :                                         len);
    2611                 :          0 :         if (ret)
    2612                 :          0 :                 return ret;
    2613                 :            : 
    2614         [ #  # ]:          0 :         if (!(req->open.how.flags & O_PATH) && force_o_largefile())
    2615                 :          0 :                 req->open.how.flags |= O_LARGEFILE;
    2616                 :            : 
    2617                 :          0 :         req->open.filename = getname(fname);
    2618         [ #  # ]:          0 :         if (IS_ERR(req->open.filename)) {
    2619                 :          0 :                 ret = PTR_ERR(req->open.filename);
    2620                 :          0 :                 req->open.filename = NULL;
    2621                 :          0 :                 return ret;
    2622                 :            :         }
    2623                 :            : 
    2624                 :          0 :         req->open.nofile = rlimit(RLIMIT_NOFILE);
    2625                 :          0 :         req->flags |= REQ_F_NEED_CLEANUP;
    2626                 :          0 :         return 0;
    2627                 :            : }
    2628                 :            : 
    2629                 :          0 : static int io_openat2(struct io_kiocb *req, struct io_kiocb **nxt,
    2630                 :            :                       bool force_nonblock)
    2631                 :            : {
    2632                 :          0 :         struct open_flags op;
    2633                 :          0 :         struct file *file;
    2634                 :          0 :         int ret;
    2635                 :            : 
    2636         [ #  # ]:          0 :         if (force_nonblock)
    2637                 :            :                 return -EAGAIN;
    2638                 :            : 
    2639                 :          0 :         ret = build_open_flags(&req->open.how, &op);
    2640         [ #  # ]:          0 :         if (ret)
    2641                 :          0 :                 goto err;
    2642                 :            : 
    2643                 :          0 :         ret = __get_unused_fd_flags(req->open.how.flags, req->open.nofile);
    2644         [ #  # ]:          0 :         if (ret < 0)
    2645                 :          0 :                 goto err;
    2646                 :            : 
    2647                 :          0 :         file = do_filp_open(req->open.dfd, req->open.filename, &op);
    2648         [ #  # ]:          0 :         if (IS_ERR(file)) {
    2649                 :          0 :                 put_unused_fd(ret);
    2650                 :          0 :                 ret = PTR_ERR(file);
    2651                 :            :         } else {
    2652                 :          0 :                 fsnotify_open(file);
    2653                 :          0 :                 fd_install(ret, file);
    2654                 :            :         }
    2655                 :          0 : err:
    2656                 :          0 :         putname(req->open.filename);
    2657                 :          0 :         req->flags &= ~REQ_F_NEED_CLEANUP;
    2658         [ #  # ]:          0 :         if (ret < 0)
    2659         [ #  # ]:          0 :                 req_set_fail_links(req);
    2660                 :          0 :         io_cqring_add_event(req, ret);
    2661                 :          0 :         io_put_req_find_next(req, nxt);
    2662                 :          0 :         return 0;
    2663                 :            : }
    2664                 :            : 
    2665                 :          0 : static int io_openat(struct io_kiocb *req, struct io_kiocb **nxt,
    2666                 :            :                      bool force_nonblock)
    2667                 :            : {
    2668                 :          0 :         req->open.how = build_open_how(req->open.how.flags, req->open.how.mode);
    2669                 :          0 :         return io_openat2(req, nxt, force_nonblock);
    2670                 :            : }
    2671                 :            : 
    2672                 :          0 : static int io_epoll_ctl_prep(struct io_kiocb *req,
    2673                 :            :                              const struct io_uring_sqe *sqe)
    2674                 :            : {
    2675                 :            : #if defined(CONFIG_EPOLL)
    2676   [ #  #  #  # ]:          0 :         if (sqe->ioprio || sqe->buf_index)
    2677                 :            :                 return -EINVAL;
    2678                 :            : 
    2679         [ #  # ]:          0 :         req->epoll.epfd = READ_ONCE(sqe->fd);
    2680                 :          0 :         req->epoll.op = READ_ONCE(sqe->len);
    2681                 :          0 :         req->epoll.fd = READ_ONCE(sqe->off);
    2682                 :            : 
    2683         [ #  # ]:          0 :         if (ep_op_has_event(req->epoll.op)) {
    2684                 :          0 :                 struct epoll_event __user *ev;
    2685                 :            : 
    2686         [ #  # ]:          0 :                 ev = u64_to_user_ptr(READ_ONCE(sqe->addr));
    2687   [ #  #  #  # ]:          0 :                 if (copy_from_user(&req->epoll.event, ev, sizeof(*ev)))
    2688                 :          0 :                         return -EFAULT;
    2689                 :            :         }
    2690                 :            : 
    2691                 :            :         return 0;
    2692                 :            : #else
    2693                 :            :         return -EOPNOTSUPP;
    2694                 :            : #endif
    2695                 :            : }
    2696                 :            : 
    2697                 :          0 : static int io_epoll_ctl(struct io_kiocb *req, struct io_kiocb **nxt,
    2698                 :            :                         bool force_nonblock)
    2699                 :            : {
    2700                 :            : #if defined(CONFIG_EPOLL)
    2701                 :          0 :         struct io_epoll *ie = &req->epoll;
    2702                 :          0 :         int ret;
    2703                 :            : 
    2704                 :          0 :         ret = do_epoll_ctl(ie->epfd, ie->op, ie->fd, &ie->event, force_nonblock);
    2705         [ #  # ]:          0 :         if (force_nonblock && ret == -EAGAIN)
    2706                 :            :                 return -EAGAIN;
    2707                 :            : 
    2708         [ #  # ]:          0 :         if (ret < 0)
    2709         [ #  # ]:          0 :                 req_set_fail_links(req);
    2710                 :          0 :         io_cqring_add_event(req, ret);
    2711                 :          0 :         io_put_req_find_next(req, nxt);
    2712                 :          0 :         return 0;
    2713                 :            : #else
    2714                 :            :         return -EOPNOTSUPP;
    2715                 :            : #endif
    2716                 :            : }
    2717                 :            : 
    2718                 :          0 : static int io_madvise_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    2719                 :            : {
    2720                 :            : #if defined(CONFIG_ADVISE_SYSCALLS) && defined(CONFIG_MMU)
    2721   [ #  #  #  #  :          0 :         if (sqe->ioprio || sqe->buf_index || sqe->off)
             #  #  #  # ]
    2722                 :            :                 return -EINVAL;
    2723                 :            : 
    2724                 :          0 :         req->madvise.addr = READ_ONCE(sqe->addr);
    2725                 :          0 :         req->madvise.len = READ_ONCE(sqe->len);
    2726                 :          0 :         req->madvise.advice = READ_ONCE(sqe->fadvise_advice);
    2727                 :          0 :         return 0;
    2728                 :            : #else
    2729                 :            :         return -EOPNOTSUPP;
    2730                 :            : #endif
    2731                 :            : }
    2732                 :            : 
    2733                 :          0 : static int io_madvise(struct io_kiocb *req, struct io_kiocb **nxt,
    2734                 :            :                       bool force_nonblock)
    2735                 :            : {
    2736                 :            : #if defined(CONFIG_ADVISE_SYSCALLS) && defined(CONFIG_MMU)
    2737                 :          0 :         struct io_madvise *ma = &req->madvise;
    2738                 :          0 :         int ret;
    2739                 :            : 
    2740         [ #  # ]:          0 :         if (force_nonblock)
    2741                 :            :                 return -EAGAIN;
    2742                 :            : 
    2743                 :          0 :         ret = do_madvise(ma->addr, ma->len, ma->advice);
    2744         [ #  # ]:          0 :         if (ret < 0)
    2745         [ #  # ]:          0 :                 req_set_fail_links(req);
    2746                 :          0 :         io_cqring_add_event(req, ret);
    2747                 :          0 :         io_put_req_find_next(req, nxt);
    2748                 :          0 :         return 0;
    2749                 :            : #else
    2750                 :            :         return -EOPNOTSUPP;
    2751                 :            : #endif
    2752                 :            : }
    2753                 :            : 
    2754                 :          0 : static int io_fadvise_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    2755                 :            : {
    2756   [ #  #  #  #  :          0 :         if (sqe->ioprio || sqe->buf_index || sqe->addr)
             #  #  #  # ]
    2757                 :            :                 return -EINVAL;
    2758                 :            : 
    2759                 :          0 :         req->fadvise.offset = READ_ONCE(sqe->off);
    2760                 :          0 :         req->fadvise.len = READ_ONCE(sqe->len);
    2761                 :          0 :         req->fadvise.advice = READ_ONCE(sqe->fadvise_advice);
    2762                 :          0 :         return 0;
    2763                 :            : }
    2764                 :            : 
    2765                 :          0 : static int io_fadvise(struct io_kiocb *req, struct io_kiocb **nxt,
    2766                 :            :                       bool force_nonblock)
    2767                 :            : {
    2768                 :          0 :         struct io_fadvise *fa = &req->fadvise;
    2769                 :          0 :         int ret;
    2770                 :            : 
    2771         [ #  # ]:          0 :         if (force_nonblock) {
    2772         [ #  # ]:          0 :                 switch (fa->advice) {
    2773                 :            :                 case POSIX_FADV_NORMAL:
    2774                 :            :                 case POSIX_FADV_RANDOM:
    2775                 :            :                 case POSIX_FADV_SEQUENTIAL:
    2776                 :            :                         break;
    2777                 :            :                 default:
    2778                 :            :                         return -EAGAIN;
    2779                 :            :                 }
    2780                 :          0 :         }
    2781                 :            : 
    2782                 :          0 :         ret = vfs_fadvise(req->file, fa->offset, fa->len, fa->advice);
    2783         [ #  # ]:          0 :         if (ret < 0)
    2784         [ #  # ]:          0 :                 req_set_fail_links(req);
    2785                 :          0 :         io_cqring_add_event(req, ret);
    2786                 :          0 :         io_put_req_find_next(req, nxt);
    2787                 :          0 :         return 0;
    2788                 :            : }
    2789                 :            : 
    2790                 :          0 : static int io_statx_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    2791                 :            : {
    2792                 :          0 :         const char __user *fname;
    2793                 :          0 :         unsigned lookup_flags;
    2794                 :          0 :         int ret;
    2795                 :            : 
    2796   [ #  #  #  # ]:          0 :         if (sqe->ioprio || sqe->buf_index)
    2797                 :            :                 return -EINVAL;
    2798         [ #  # ]:          0 :         if (sqe->flags & IOSQE_FIXED_FILE)
    2799                 :            :                 return -EBADF;
    2800         [ #  # ]:          0 :         if (req->flags & REQ_F_NEED_CLEANUP)
    2801                 :            :                 return 0;
    2802                 :            : 
    2803                 :          0 :         req->open.dfd = READ_ONCE(sqe->fd);
    2804                 :          0 :         req->open.mask = READ_ONCE(sqe->len);
    2805                 :          0 :         fname = u64_to_user_ptr(READ_ONCE(sqe->addr));
    2806                 :          0 :         req->open.buffer = u64_to_user_ptr(READ_ONCE(sqe->addr2));
    2807                 :          0 :         req->open.how.flags = READ_ONCE(sqe->statx_flags);
    2808                 :            : 
    2809         [ #  # ]:          0 :         if (vfs_stat_set_lookup_flags(&lookup_flags, req->open.how.flags))
    2810                 :            :                 return -EINVAL;
    2811                 :            : 
    2812                 :          0 :         req->open.filename = getname_flags(fname, lookup_flags, NULL);
    2813         [ #  # ]:          0 :         if (IS_ERR(req->open.filename)) {
    2814                 :          0 :                 ret = PTR_ERR(req->open.filename);
    2815                 :          0 :                 req->open.filename = NULL;
    2816                 :          0 :                 return ret;
    2817                 :            :         }
    2818                 :            : 
    2819                 :          0 :         req->flags |= REQ_F_NEED_CLEANUP;
    2820                 :          0 :         return 0;
    2821                 :            : }
    2822                 :            : 
    2823                 :          0 : static int io_statx(struct io_kiocb *req, struct io_kiocb **nxt,
    2824                 :            :                     bool force_nonblock)
    2825                 :            : {
    2826                 :          0 :         struct io_open *ctx = &req->open;
    2827                 :          0 :         unsigned lookup_flags;
    2828                 :          0 :         struct path path;
    2829                 :          0 :         struct kstat stat;
    2830                 :          0 :         int ret;
    2831                 :            : 
    2832         [ #  # ]:          0 :         if (force_nonblock)
    2833                 :            :                 return -EAGAIN;
    2834                 :            : 
    2835         [ #  # ]:          0 :         if (vfs_stat_set_lookup_flags(&lookup_flags, ctx->how.flags))
    2836                 :            :                 return -EINVAL;
    2837                 :            : 
    2838                 :          0 : retry:
    2839                 :            :         /* filename_lookup() drops it, keep a reference */
    2840                 :          0 :         ctx->filename->refcnt++;
    2841                 :            : 
    2842                 :          0 :         ret = filename_lookup(ctx->dfd, ctx->filename, lookup_flags, &path,
    2843                 :            :                                 NULL);
    2844         [ #  # ]:          0 :         if (ret)
    2845                 :          0 :                 goto err;
    2846                 :            : 
    2847                 :          0 :         ret = vfs_getattr(&path, &stat, ctx->mask, ctx->how.flags);
    2848                 :          0 :         path_put(&path);
    2849   [ #  #  #  # ]:          0 :         if (retry_estale(ret, lookup_flags)) {
    2850                 :          0 :                 lookup_flags |= LOOKUP_REVAL;
    2851                 :          0 :                 goto retry;
    2852                 :            :         }
    2853         [ #  # ]:          0 :         if (!ret)
    2854                 :          0 :                 ret = cp_statx(&stat, ctx->buffer);
    2855                 :          0 : err:
    2856                 :          0 :         putname(ctx->filename);
    2857                 :          0 :         req->flags &= ~REQ_F_NEED_CLEANUP;
    2858         [ #  # ]:          0 :         if (ret < 0)
    2859         [ #  # ]:          0 :                 req_set_fail_links(req);
    2860                 :          0 :         io_cqring_add_event(req, ret);
    2861                 :          0 :         io_put_req_find_next(req, nxt);
    2862                 :          0 :         return 0;
    2863                 :            : }
    2864                 :            : 
    2865                 :          0 : static int io_close_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    2866                 :            : {
    2867                 :            :         /*
    2868                 :            :          * If we queue this for async, it must not be cancellable. That would
    2869                 :            :          * leave the 'file' in an undeterminate state.
    2870                 :            :          */
    2871                 :          0 :         req->work.flags |= IO_WQ_WORK_NO_CANCEL;
    2872                 :            : 
    2873   [ #  #  #  #  :          0 :         if (sqe->ioprio || sqe->off || sqe->addr || sqe->len ||
             #  #  #  # ]
    2874         [ #  # ]:          0 :             sqe->rw_flags || sqe->buf_index)
    2875                 :            :                 return -EINVAL;
    2876         [ #  # ]:          0 :         if (sqe->flags & IOSQE_FIXED_FILE)
    2877                 :            :                 return -EBADF;
    2878                 :            : 
    2879         [ #  # ]:          0 :         req->close.fd = READ_ONCE(sqe->fd);
    2880         [ #  # ]:          0 :         if (req->file->f_op == &io_uring_fops ||
    2881         [ #  # ]:          0 :             req->close.fd == req->ctx->ring_fd)
    2882                 :          0 :                 return -EBADF;
    2883                 :            : 
    2884                 :            :         return 0;
    2885                 :            : }
    2886                 :            : 
    2887                 :            : /* only called when __close_fd_get_file() is done */
    2888                 :          0 : static void __io_close_finish(struct io_kiocb *req, struct io_kiocb **nxt)
    2889                 :            : {
    2890                 :          0 :         int ret;
    2891                 :            : 
    2892                 :          0 :         ret = filp_close(req->close.put_file, req->work.files);
    2893         [ #  # ]:          0 :         if (ret < 0)
    2894         [ #  # ]:          0 :                 req_set_fail_links(req);
    2895                 :          0 :         io_cqring_add_event(req, ret);
    2896                 :          0 :         fput(req->close.put_file);
    2897                 :          0 :         io_put_req_find_next(req, nxt);
    2898                 :          0 : }
    2899                 :            : 
    2900                 :          0 : static void io_close_finish(struct io_wq_work **workptr)
    2901                 :            : {
    2902                 :          0 :         struct io_kiocb *req = container_of(*workptr, struct io_kiocb, work);
    2903                 :          0 :         struct io_kiocb *nxt = NULL;
    2904                 :            : 
    2905                 :            :         /* not cancellable, don't do io_req_cancelled() */
    2906                 :          0 :         __io_close_finish(req, &nxt);
    2907         [ #  # ]:          0 :         if (nxt)
    2908                 :          0 :                 io_wq_assign_next(workptr, nxt);
    2909                 :          0 : }
    2910                 :            : 
    2911                 :          0 : static int io_close(struct io_kiocb *req, struct io_kiocb **nxt,
    2912                 :            :                     bool force_nonblock)
    2913                 :            : {
    2914                 :          0 :         int ret;
    2915                 :            : 
    2916                 :          0 :         req->close.put_file = NULL;
    2917                 :          0 :         ret = __close_fd_get_file(req->close.fd, &req->close.put_file);
    2918         [ #  # ]:          0 :         if (ret < 0)
    2919                 :            :                 return ret;
    2920                 :            : 
    2921                 :            :         /* if the file has a flush method, be safe and punt to async */
    2922   [ #  #  #  # ]:          0 :         if (req->close.put_file->f_op->flush && !io_wq_current_is_worker())
    2923                 :          0 :                 goto eagain;
    2924                 :            : 
    2925                 :            :         /*
    2926                 :            :          * No ->flush(), safely close from here and just punt the
    2927                 :            :          * fput() to async context.
    2928                 :            :          */
    2929                 :          0 :         __io_close_finish(req, nxt);
    2930                 :          0 :         return 0;
    2931                 :            : eagain:
    2932                 :          0 :         req->work.func = io_close_finish;
    2933                 :            :         /*
    2934                 :            :          * Do manual async queue here to avoid grabbing files - we don't
    2935                 :            :          * need the files, and it'll cause io_close_finish() to close
    2936                 :            :          * the file again and cause a double CQE entry for this request
    2937                 :            :          */
    2938                 :          0 :         io_queue_async_work(req);
    2939                 :          0 :         return 0;
    2940                 :            : }
    2941                 :            : 
    2942                 :          0 : static int io_prep_sfr(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    2943                 :            : {
    2944                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    2945                 :            : 
    2946                 :          0 :         if (!req->file)
    2947                 :            :                 return -EBADF;
    2948                 :            : 
    2949   [ #  #  #  # ]:          0 :         if (unlikely(ctx->flags & IORING_SETUP_IOPOLL))
    2950                 :            :                 return -EINVAL;
    2951   [ #  #  #  #  :          0 :         if (unlikely(sqe->addr || sqe->ioprio || sqe->buf_index))
          #  #  #  #  #  
                #  #  # ]
    2952                 :            :                 return -EINVAL;
    2953                 :            : 
    2954                 :          0 :         req->sync.off = READ_ONCE(sqe->off);
    2955                 :          0 :         req->sync.len = READ_ONCE(sqe->len);
    2956                 :          0 :         req->sync.flags = READ_ONCE(sqe->sync_range_flags);
    2957                 :          0 :         return 0;
    2958                 :            : }
    2959                 :            : 
    2960                 :          0 : static void io_sync_file_range_finish(struct io_wq_work **workptr)
    2961                 :            : {
    2962                 :          0 :         struct io_kiocb *req = container_of(*workptr, struct io_kiocb, work);
    2963                 :          0 :         struct io_kiocb *nxt = NULL;
    2964                 :          0 :         int ret;
    2965                 :            : 
    2966         [ #  # ]:          0 :         if (io_req_cancelled(req))
    2967                 :          0 :                 return;
    2968                 :            : 
    2969                 :          0 :         ret = sync_file_range(req->file, req->sync.off, req->sync.len,
    2970                 :          0 :                                 req->sync.flags);
    2971         [ #  # ]:          0 :         if (ret < 0)
    2972         [ #  # ]:          0 :                 req_set_fail_links(req);
    2973                 :          0 :         io_cqring_add_event(req, ret);
    2974                 :          0 :         io_put_req_find_next(req, &nxt);
    2975         [ #  # ]:          0 :         if (nxt)
    2976                 :          0 :                 io_wq_assign_next(workptr, nxt);
    2977                 :            : }
    2978                 :            : 
    2979                 :          0 : static int io_sync_file_range(struct io_kiocb *req, struct io_kiocb **nxt,
    2980                 :            :                               bool force_nonblock)
    2981                 :            : {
    2982                 :          0 :         struct io_wq_work *work, *old_work;
    2983                 :            : 
    2984                 :            :         /* sync_file_range always requires a blocking context */
    2985         [ #  # ]:          0 :         if (force_nonblock) {
    2986                 :          0 :                 io_put_req(req);
    2987                 :          0 :                 req->work.func = io_sync_file_range_finish;
    2988                 :          0 :                 return -EAGAIN;
    2989                 :            :         }
    2990                 :            : 
    2991                 :          0 :         work = old_work = &req->work;
    2992                 :          0 :         io_sync_file_range_finish(&work);
    2993   [ #  #  #  # ]:          0 :         if (work && work != old_work)
    2994                 :          0 :                 *nxt = container_of(work, struct io_kiocb, work);
    2995                 :            :         return 0;
    2996                 :            : }
    2997                 :            : 
    2998                 :          0 : static int io_sendmsg_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    2999                 :            : {
    3000                 :            : #if defined(CONFIG_NET)
    3001                 :          0 :         struct io_sr_msg *sr = &req->sr_msg;
    3002                 :          0 :         struct io_async_ctx *io = req->io;
    3003                 :          0 :         int ret;
    3004                 :            : 
    3005         [ #  # ]:          0 :         sr->msg_flags = READ_ONCE(sqe->msg_flags);
    3006                 :          0 :         sr->msg = u64_to_user_ptr(READ_ONCE(sqe->addr));
    3007                 :          0 :         sr->len = READ_ONCE(sqe->len);
    3008                 :            : 
    3009                 :            : #ifdef CONFIG_COMPAT
    3010         [ #  # ]:          0 :         if (req->ctx->compat)
    3011                 :          0 :                 sr->msg_flags |= MSG_CMSG_COMPAT;
    3012                 :            : #endif
    3013                 :            : 
    3014   [ #  #  #  # ]:          0 :         if (!io || req->opcode == IORING_OP_SEND)
    3015                 :            :                 return 0;
    3016                 :            :         /* iovec is already imported */
    3017         [ #  # ]:          0 :         if (req->flags & REQ_F_NEED_CLEANUP)
    3018                 :            :                 return 0;
    3019                 :            : 
    3020                 :          0 :         io->msg.iov = io->msg.fast_iov;
    3021                 :          0 :         ret = sendmsg_copy_msghdr(&io->msg.msg, sr->msg, sr->msg_flags,
    3022                 :            :                                         &io->msg.iov);
    3023         [ #  # ]:          0 :         if (!ret)
    3024                 :          0 :                 req->flags |= REQ_F_NEED_CLEANUP;
    3025                 :            :         return ret;
    3026                 :            : #else
    3027                 :            :         return -EOPNOTSUPP;
    3028                 :            : #endif
    3029                 :            : }
    3030                 :            : 
    3031                 :          0 : static int io_sendmsg(struct io_kiocb *req, struct io_kiocb **nxt,
    3032                 :            :                       bool force_nonblock)
    3033                 :            : {
    3034                 :            : #if defined(CONFIG_NET)
    3035                 :          0 :         struct io_async_msghdr *kmsg = NULL;
    3036                 :          0 :         struct socket *sock;
    3037                 :          0 :         int ret;
    3038                 :            : 
    3039         [ #  # ]:          0 :         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
    3040                 :            :                 return -EINVAL;
    3041                 :            : 
    3042                 :          0 :         sock = sock_from_file(req->file, &ret);
    3043         [ #  # ]:          0 :         if (sock) {
    3044                 :          0 :                 struct io_async_ctx io;
    3045                 :          0 :                 unsigned flags;
    3046                 :            : 
    3047         [ #  # ]:          0 :                 if (req->io) {
    3048                 :          0 :                         kmsg = &req->io->msg;
    3049                 :          0 :                         kmsg->msg.msg_name = &req->io->msg.addr;
    3050                 :            :                         /* if iov is set, it's allocated already */
    3051         [ #  # ]:          0 :                         if (!kmsg->iov)
    3052                 :          0 :                                 kmsg->iov = kmsg->fast_iov;
    3053                 :          0 :                         kmsg->msg.msg_iter.iov = kmsg->iov;
    3054                 :            :                 } else {
    3055                 :          0 :                         struct io_sr_msg *sr = &req->sr_msg;
    3056                 :            : 
    3057                 :          0 :                         kmsg = &io.msg;
    3058                 :          0 :                         kmsg->msg.msg_name = &io.msg.addr;
    3059                 :            : 
    3060                 :          0 :                         io.msg.iov = io.msg.fast_iov;
    3061                 :          0 :                         ret = sendmsg_copy_msghdr(&io.msg.msg, sr->msg,
    3062                 :          0 :                                         sr->msg_flags, &io.msg.iov);
    3063         [ #  # ]:          0 :                         if (ret)
    3064                 :          0 :                                 return ret;
    3065                 :            :                 }
    3066                 :            : 
    3067                 :          0 :                 flags = req->sr_msg.msg_flags;
    3068         [ #  # ]:          0 :                 if (flags & MSG_DONTWAIT)
    3069                 :          0 :                         req->flags |= REQ_F_NOWAIT;
    3070         [ #  # ]:          0 :                 else if (force_nonblock)
    3071                 :          0 :                         flags |= MSG_DONTWAIT;
    3072                 :            : 
    3073                 :          0 :                 ret = __sys_sendmsg_sock(sock, &kmsg->msg, flags);
    3074   [ #  #  #  # ]:          0 :                 if (force_nonblock && ret == -EAGAIN) {
    3075         [ #  # ]:          0 :                         if (req->io)
    3076                 :            :                                 return -EAGAIN;
    3077   [ #  #  #  # ]:          0 :                         if (io_alloc_async_ctx(req)) {
    3078         [ #  # ]:          0 :                                 if (kmsg->iov != kmsg->fast_iov)
    3079                 :          0 :                                         kfree(kmsg->iov);
    3080                 :          0 :                                 return -ENOMEM;
    3081                 :            :                         }
    3082                 :          0 :                         req->flags |= REQ_F_NEED_CLEANUP;
    3083                 :          0 :                         memcpy(&req->io->msg, &io.msg, sizeof(io.msg));
    3084                 :          0 :                         return -EAGAIN;
    3085                 :            :                 }
    3086         [ #  # ]:          0 :                 if (ret == -ERESTARTSYS)
    3087                 :          0 :                         ret = -EINTR;
    3088                 :            :         }
    3089                 :            : 
    3090         [ #  # ]:          0 :         if (kmsg && kmsg->iov != kmsg->fast_iov)
    3091                 :          0 :                 kfree(kmsg->iov);
    3092                 :          0 :         req->flags &= ~REQ_F_NEED_CLEANUP;
    3093                 :          0 :         io_cqring_add_event(req, ret);
    3094         [ #  # ]:          0 :         if (ret < 0)
    3095         [ #  # ]:          0 :                 req_set_fail_links(req);
    3096                 :          0 :         io_put_req_find_next(req, nxt);
    3097                 :          0 :         return 0;
    3098                 :            : #else
    3099                 :            :         return -EOPNOTSUPP;
    3100                 :            : #endif
    3101                 :            : }
    3102                 :            : 
    3103                 :          0 : static int io_send(struct io_kiocb *req, struct io_kiocb **nxt,
    3104                 :            :                    bool force_nonblock)
    3105                 :            : {
    3106                 :            : #if defined(CONFIG_NET)
    3107                 :          0 :         struct socket *sock;
    3108                 :          0 :         int ret;
    3109                 :            : 
    3110         [ #  # ]:          0 :         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
    3111                 :            :                 return -EINVAL;
    3112                 :            : 
    3113                 :          0 :         sock = sock_from_file(req->file, &ret);
    3114         [ #  # ]:          0 :         if (sock) {
    3115                 :          0 :                 struct io_sr_msg *sr = &req->sr_msg;
    3116                 :          0 :                 struct msghdr msg;
    3117                 :          0 :                 struct iovec iov;
    3118                 :          0 :                 unsigned flags;
    3119                 :            : 
    3120                 :          0 :                 ret = import_single_range(WRITE, sr->buf, sr->len, &iov,
    3121                 :            :                                                 &msg.msg_iter);
    3122         [ #  # ]:          0 :                 if (ret)
    3123                 :          0 :                         return ret;
    3124                 :            : 
    3125                 :          0 :                 msg.msg_name = NULL;
    3126                 :          0 :                 msg.msg_control = NULL;
    3127                 :          0 :                 msg.msg_controllen = 0;
    3128                 :          0 :                 msg.msg_namelen = 0;
    3129                 :            : 
    3130                 :          0 :                 flags = req->sr_msg.msg_flags;
    3131         [ #  # ]:          0 :                 if (flags & MSG_DONTWAIT)
    3132                 :          0 :                         req->flags |= REQ_F_NOWAIT;
    3133         [ #  # ]:          0 :                 else if (force_nonblock)
    3134                 :          0 :                         flags |= MSG_DONTWAIT;
    3135                 :            : 
    3136                 :          0 :                 msg.msg_flags = flags;
    3137                 :          0 :                 ret = sock_sendmsg(sock, &msg);
    3138   [ #  #  #  # ]:          0 :                 if (force_nonblock && ret == -EAGAIN)
    3139                 :            :                         return -EAGAIN;
    3140         [ #  # ]:          0 :                 if (ret == -ERESTARTSYS)
    3141                 :          0 :                         ret = -EINTR;
    3142                 :            :         }
    3143                 :            : 
    3144                 :          0 :         io_cqring_add_event(req, ret);
    3145         [ #  # ]:          0 :         if (ret < 0)
    3146         [ #  # ]:          0 :                 req_set_fail_links(req);
    3147                 :          0 :         io_put_req_find_next(req, nxt);
    3148                 :          0 :         return 0;
    3149                 :            : #else
    3150                 :            :         return -EOPNOTSUPP;
    3151                 :            : #endif
    3152                 :            : }
    3153                 :            : 
    3154                 :          0 : static int io_recvmsg_prep(struct io_kiocb *req,
    3155                 :            :                            const struct io_uring_sqe *sqe)
    3156                 :            : {
    3157                 :            : #if defined(CONFIG_NET)
    3158                 :          0 :         struct io_sr_msg *sr = &req->sr_msg;
    3159                 :          0 :         struct io_async_ctx *io = req->io;
    3160                 :          0 :         int ret;
    3161                 :            : 
    3162         [ #  # ]:          0 :         sr->msg_flags = READ_ONCE(sqe->msg_flags);
    3163                 :          0 :         sr->msg = u64_to_user_ptr(READ_ONCE(sqe->addr));
    3164                 :          0 :         sr->len = READ_ONCE(sqe->len);
    3165                 :            : 
    3166                 :            : #ifdef CONFIG_COMPAT
    3167         [ #  # ]:          0 :         if (req->ctx->compat)
    3168                 :          0 :                 sr->msg_flags |= MSG_CMSG_COMPAT;
    3169                 :            : #endif
    3170                 :            : 
    3171   [ #  #  #  # ]:          0 :         if (!io || req->opcode == IORING_OP_RECV)
    3172                 :            :                 return 0;
    3173                 :            :         /* iovec is already imported */
    3174         [ #  # ]:          0 :         if (req->flags & REQ_F_NEED_CLEANUP)
    3175                 :            :                 return 0;
    3176                 :            : 
    3177                 :          0 :         io->msg.iov = io->msg.fast_iov;
    3178                 :          0 :         ret = recvmsg_copy_msghdr(&io->msg.msg, sr->msg, sr->msg_flags,
    3179                 :            :                                         &io->msg.uaddr, &io->msg.iov);
    3180         [ #  # ]:          0 :         if (!ret)
    3181                 :          0 :                 req->flags |= REQ_F_NEED_CLEANUP;
    3182                 :            :         return ret;
    3183                 :            : #else
    3184                 :            :         return -EOPNOTSUPP;
    3185                 :            : #endif
    3186                 :            : }
    3187                 :            : 
    3188                 :          0 : static int io_recvmsg(struct io_kiocb *req, struct io_kiocb **nxt,
    3189                 :            :                       bool force_nonblock)
    3190                 :            : {
    3191                 :            : #if defined(CONFIG_NET)
    3192                 :          0 :         struct io_async_msghdr *kmsg = NULL;
    3193                 :          0 :         struct socket *sock;
    3194                 :          0 :         int ret;
    3195                 :            : 
    3196         [ #  # ]:          0 :         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
    3197                 :            :                 return -EINVAL;
    3198                 :            : 
    3199                 :          0 :         sock = sock_from_file(req->file, &ret);
    3200         [ #  # ]:          0 :         if (sock) {
    3201                 :          0 :                 struct io_async_ctx io;
    3202                 :          0 :                 unsigned flags;
    3203                 :            : 
    3204         [ #  # ]:          0 :                 if (req->io) {
    3205                 :          0 :                         kmsg = &req->io->msg;
    3206                 :          0 :                         kmsg->msg.msg_name = &req->io->msg.addr;
    3207                 :            :                         /* if iov is set, it's allocated already */
    3208         [ #  # ]:          0 :                         if (!kmsg->iov)
    3209                 :          0 :                                 kmsg->iov = kmsg->fast_iov;
    3210                 :          0 :                         kmsg->msg.msg_iter.iov = kmsg->iov;
    3211                 :            :                 } else {
    3212                 :          0 :                         struct io_sr_msg *sr = &req->sr_msg;
    3213                 :            : 
    3214                 :          0 :                         kmsg = &io.msg;
    3215                 :          0 :                         kmsg->msg.msg_name = &io.msg.addr;
    3216                 :            : 
    3217                 :          0 :                         io.msg.iov = io.msg.fast_iov;
    3218                 :          0 :                         ret = recvmsg_copy_msghdr(&io.msg.msg, sr->msg,
    3219                 :          0 :                                         sr->msg_flags, &io.msg.uaddr,
    3220                 :            :                                         &io.msg.iov);
    3221         [ #  # ]:          0 :                         if (ret)
    3222                 :          0 :                                 return ret;
    3223                 :            :                 }
    3224                 :            : 
    3225                 :          0 :                 flags = req->sr_msg.msg_flags;
    3226         [ #  # ]:          0 :                 if (flags & MSG_DONTWAIT)
    3227                 :          0 :                         req->flags |= REQ_F_NOWAIT;
    3228         [ #  # ]:          0 :                 else if (force_nonblock)
    3229                 :          0 :                         flags |= MSG_DONTWAIT;
    3230                 :            : 
    3231                 :          0 :                 ret = __sys_recvmsg_sock(sock, &kmsg->msg, req->sr_msg.msg,
    3232                 :            :                                                 kmsg->uaddr, flags);
    3233   [ #  #  #  # ]:          0 :                 if (force_nonblock && ret == -EAGAIN) {
    3234         [ #  # ]:          0 :                         if (req->io)
    3235                 :            :                                 return -EAGAIN;
    3236   [ #  #  #  # ]:          0 :                         if (io_alloc_async_ctx(req)) {
    3237         [ #  # ]:          0 :                                 if (kmsg->iov != kmsg->fast_iov)
    3238                 :          0 :                                         kfree(kmsg->iov);
    3239                 :          0 :                                 return -ENOMEM;
    3240                 :            :                         }
    3241                 :          0 :                         memcpy(&req->io->msg, &io.msg, sizeof(io.msg));
    3242                 :          0 :                         req->flags |= REQ_F_NEED_CLEANUP;
    3243                 :          0 :                         return -EAGAIN;
    3244                 :            :                 }
    3245         [ #  # ]:          0 :                 if (ret == -ERESTARTSYS)
    3246                 :          0 :                         ret = -EINTR;
    3247                 :            :         }
    3248                 :            : 
    3249         [ #  # ]:          0 :         if (kmsg && kmsg->iov != kmsg->fast_iov)
    3250                 :          0 :                 kfree(kmsg->iov);
    3251                 :          0 :         req->flags &= ~REQ_F_NEED_CLEANUP;
    3252                 :          0 :         io_cqring_add_event(req, ret);
    3253         [ #  # ]:          0 :         if (ret < 0)
    3254         [ #  # ]:          0 :                 req_set_fail_links(req);
    3255                 :          0 :         io_put_req_find_next(req, nxt);
    3256                 :          0 :         return 0;
    3257                 :            : #else
    3258                 :            :         return -EOPNOTSUPP;
    3259                 :            : #endif
    3260                 :            : }
    3261                 :            : 
    3262                 :          0 : static int io_recv(struct io_kiocb *req, struct io_kiocb **nxt,
    3263                 :            :                    bool force_nonblock)
    3264                 :            : {
    3265                 :            : #if defined(CONFIG_NET)
    3266                 :          0 :         struct socket *sock;
    3267                 :          0 :         int ret;
    3268                 :            : 
    3269         [ #  # ]:          0 :         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
    3270                 :            :                 return -EINVAL;
    3271                 :            : 
    3272                 :          0 :         sock = sock_from_file(req->file, &ret);
    3273         [ #  # ]:          0 :         if (sock) {
    3274                 :          0 :                 struct io_sr_msg *sr = &req->sr_msg;
    3275                 :          0 :                 struct msghdr msg;
    3276                 :          0 :                 struct iovec iov;
    3277                 :          0 :                 unsigned flags;
    3278                 :            : 
    3279                 :          0 :                 ret = import_single_range(READ, sr->buf, sr->len, &iov,
    3280                 :            :                                                 &msg.msg_iter);
    3281         [ #  # ]:          0 :                 if (ret)
    3282                 :          0 :                         return ret;
    3283                 :            : 
    3284                 :          0 :                 msg.msg_name = NULL;
    3285                 :          0 :                 msg.msg_control = NULL;
    3286                 :          0 :                 msg.msg_controllen = 0;
    3287                 :          0 :                 msg.msg_namelen = 0;
    3288                 :          0 :                 msg.msg_iocb = NULL;
    3289                 :          0 :                 msg.msg_flags = 0;
    3290                 :            : 
    3291                 :          0 :                 flags = req->sr_msg.msg_flags;
    3292         [ #  # ]:          0 :                 if (flags & MSG_DONTWAIT)
    3293                 :          0 :                         req->flags |= REQ_F_NOWAIT;
    3294         [ #  # ]:          0 :                 else if (force_nonblock)
    3295                 :          0 :                         flags |= MSG_DONTWAIT;
    3296                 :            : 
    3297                 :          0 :                 ret = sock_recvmsg(sock, &msg, flags);
    3298   [ #  #  #  # ]:          0 :                 if (force_nonblock && ret == -EAGAIN)
    3299                 :            :                         return -EAGAIN;
    3300         [ #  # ]:          0 :                 if (ret == -ERESTARTSYS)
    3301                 :          0 :                         ret = -EINTR;
    3302                 :            :         }
    3303                 :            : 
    3304                 :          0 :         io_cqring_add_event(req, ret);
    3305         [ #  # ]:          0 :         if (ret < 0)
    3306         [ #  # ]:          0 :                 req_set_fail_links(req);
    3307                 :          0 :         io_put_req_find_next(req, nxt);
    3308                 :          0 :         return 0;
    3309                 :            : #else
    3310                 :            :         return -EOPNOTSUPP;
    3311                 :            : #endif
    3312                 :            : }
    3313                 :            : 
    3314                 :            : 
    3315                 :          0 : static int io_accept_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    3316                 :            : {
    3317                 :            : #if defined(CONFIG_NET)
    3318                 :          0 :         struct io_accept *accept = &req->accept;
    3319                 :            : 
    3320         [ #  # ]:          0 :         if (unlikely(req->ctx->flags & (IORING_SETUP_IOPOLL|IORING_SETUP_SQPOLL)))
    3321                 :            :                 return -EINVAL;
    3322   [ #  #  #  #  :          0 :         if (sqe->ioprio || sqe->len || sqe->buf_index)
                   #  # ]
    3323                 :            :                 return -EINVAL;
    3324                 :            : 
    3325                 :          0 :         accept->addr = u64_to_user_ptr(READ_ONCE(sqe->addr));
    3326                 :          0 :         accept->addr_len = u64_to_user_ptr(READ_ONCE(sqe->addr2));
    3327                 :          0 :         accept->flags = READ_ONCE(sqe->accept_flags);
    3328                 :          0 :         accept->nofile = rlimit(RLIMIT_NOFILE);
    3329                 :          0 :         return 0;
    3330                 :            : #else
    3331                 :            :         return -EOPNOTSUPP;
    3332                 :            : #endif
    3333                 :            : }
    3334                 :            : 
    3335                 :            : #if defined(CONFIG_NET)
    3336                 :          0 : static int __io_accept(struct io_kiocb *req, struct io_kiocb **nxt,
    3337                 :            :                        bool force_nonblock)
    3338                 :            : {
    3339                 :          0 :         struct io_accept *accept = &req->accept;
    3340                 :          0 :         unsigned file_flags;
    3341                 :          0 :         int ret;
    3342                 :            : 
    3343         [ #  # ]:          0 :         file_flags = force_nonblock ? O_NONBLOCK : 0;
    3344                 :          0 :         ret = __sys_accept4_file(req->file, file_flags, accept->addr,
    3345                 :            :                                         accept->addr_len, accept->flags,
    3346                 :            :                                         accept->nofile);
    3347         [ #  # ]:          0 :         if (ret == -EAGAIN && force_nonblock)
    3348                 :            :                 return -EAGAIN;
    3349         [ #  # ]:          0 :         if (ret == -ERESTARTSYS)
    3350                 :            :                 ret = -EINTR;
    3351         [ #  # ]:          0 :         if (ret < 0)
    3352         [ #  # ]:          0 :                 req_set_fail_links(req);
    3353                 :          0 :         io_cqring_add_event(req, ret);
    3354                 :          0 :         io_put_req_find_next(req, nxt);
    3355                 :          0 :         return 0;
    3356                 :            : }
    3357                 :            : 
    3358                 :          0 : static void io_accept_finish(struct io_wq_work **workptr)
    3359                 :            : {
    3360                 :          0 :         struct io_kiocb *req = container_of(*workptr, struct io_kiocb, work);
    3361                 :          0 :         struct io_kiocb *nxt = NULL;
    3362                 :            : 
    3363         [ #  # ]:          0 :         if (io_req_cancelled(req))
    3364                 :          0 :                 return;
    3365                 :          0 :         __io_accept(req, &nxt, false);
    3366         [ #  # ]:          0 :         if (nxt)
    3367                 :          0 :                 io_wq_assign_next(workptr, nxt);
    3368                 :            : }
    3369                 :            : #endif
    3370                 :            : 
    3371                 :          0 : static int io_accept(struct io_kiocb *req, struct io_kiocb **nxt,
    3372                 :            :                      bool force_nonblock)
    3373                 :            : {
    3374                 :            : #if defined(CONFIG_NET)
    3375                 :          0 :         int ret;
    3376                 :            : 
    3377                 :          0 :         ret = __io_accept(req, nxt, force_nonblock);
    3378         [ #  # ]:          0 :         if (ret == -EAGAIN && force_nonblock) {
    3379                 :          0 :                 req->work.func = io_accept_finish;
    3380                 :          0 :                 io_put_req(req);
    3381                 :          0 :                 return -EAGAIN;
    3382                 :            :         }
    3383                 :            :         return 0;
    3384                 :            : #else
    3385                 :            :         return -EOPNOTSUPP;
    3386                 :            : #endif
    3387                 :            : }
    3388                 :            : 
    3389                 :          0 : static int io_connect_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    3390                 :            : {
    3391                 :            : #if defined(CONFIG_NET)
    3392                 :          0 :         struct io_connect *conn = &req->connect;
    3393                 :          0 :         struct io_async_ctx *io = req->io;
    3394                 :            : 
    3395         [ #  # ]:          0 :         if (unlikely(req->ctx->flags & (IORING_SETUP_IOPOLL|IORING_SETUP_SQPOLL)))
    3396                 :            :                 return -EINVAL;
    3397   [ #  #  #  #  :          0 :         if (sqe->ioprio || sqe->len || sqe->buf_index || sqe->rw_flags)
             #  #  #  # ]
    3398                 :            :                 return -EINVAL;
    3399                 :            : 
    3400         [ #  # ]:          0 :         conn->addr = u64_to_user_ptr(READ_ONCE(sqe->addr));
    3401                 :          0 :         conn->addr_len =  READ_ONCE(sqe->addr2);
    3402                 :            : 
    3403         [ #  # ]:          0 :         if (!io)
    3404                 :            :                 return 0;
    3405                 :            : 
    3406                 :          0 :         return move_addr_to_kernel(conn->addr, conn->addr_len,
    3407                 :            :                                         &io->connect.address);
    3408                 :            : #else
    3409                 :            :         return -EOPNOTSUPP;
    3410                 :            : #endif
    3411                 :            : }
    3412                 :            : 
    3413                 :          0 : static int io_connect(struct io_kiocb *req, struct io_kiocb **nxt,
    3414                 :            :                       bool force_nonblock)
    3415                 :            : {
    3416                 :            : #if defined(CONFIG_NET)
    3417                 :          0 :         struct io_async_ctx __io, *io;
    3418                 :          0 :         unsigned file_flags;
    3419                 :          0 :         int ret;
    3420                 :            : 
    3421         [ #  # ]:          0 :         if (req->io) {
    3422                 :            :                 io = req->io;
    3423                 :            :         } else {
    3424                 :          0 :                 ret = move_addr_to_kernel(req->connect.addr,
    3425                 :            :                                                 req->connect.addr_len,
    3426                 :            :                                                 &__io.connect.address);
    3427         [ #  # ]:          0 :                 if (ret)
    3428                 :          0 :                         goto out;
    3429                 :            :                 io = &__io;
    3430                 :            :         }
    3431                 :            : 
    3432         [ #  # ]:          0 :         file_flags = force_nonblock ? O_NONBLOCK : 0;
    3433                 :            : 
    3434                 :          0 :         ret = __sys_connect_file(req->file, &io->connect.address,
    3435                 :            :                                         req->connect.addr_len, file_flags);
    3436   [ #  #  #  # ]:          0 :         if ((ret == -EAGAIN || ret == -EINPROGRESS) && force_nonblock) {
    3437         [ #  # ]:          0 :                 if (req->io)
    3438                 :            :                         return -EAGAIN;
    3439   [ #  #  #  # ]:          0 :                 if (io_alloc_async_ctx(req)) {
    3440                 :          0 :                         ret = -ENOMEM;
    3441                 :          0 :                         goto out;
    3442                 :            :                 }
    3443                 :          0 :                 memcpy(&req->io->connect, &__io.connect, sizeof(__io.connect));
    3444                 :          0 :                 return -EAGAIN;
    3445                 :            :         }
    3446         [ #  # ]:          0 :         if (ret == -ERESTARTSYS)
    3447                 :            :                 ret = -EINTR;
    3448                 :          0 : out:
    3449         [ #  # ]:          0 :         if (ret < 0)
    3450         [ #  # ]:          0 :                 req_set_fail_links(req);
    3451                 :          0 :         io_cqring_add_event(req, ret);
    3452                 :          0 :         io_put_req_find_next(req, nxt);
    3453                 :          0 :         return 0;
    3454                 :            : #else
    3455                 :            :         return -EOPNOTSUPP;
    3456                 :            : #endif
    3457                 :            : }
    3458                 :            : 
    3459                 :          0 : static void io_poll_remove_one(struct io_kiocb *req)
    3460                 :            : {
    3461                 :          0 :         struct io_poll_iocb *poll = &req->poll;
    3462                 :            : 
    3463                 :          0 :         spin_lock(&poll->head->lock);
    3464         [ #  # ]:          0 :         WRITE_ONCE(poll->canceled, true);
    3465         [ #  # ]:          0 :         if (!list_empty(&poll->wait.entry)) {
    3466                 :          0 :                 list_del_init(&poll->wait.entry);
    3467                 :          0 :                 io_queue_async_work(req);
    3468                 :            :         }
    3469                 :          0 :         spin_unlock(&poll->head->lock);
    3470         [ #  # ]:          0 :         hash_del(&req->hash_node);
    3471                 :          0 : }
    3472                 :            : 
    3473                 :          0 : static void io_poll_remove_all(struct io_ring_ctx *ctx)
    3474                 :            : {
    3475                 :          0 :         struct hlist_node *tmp;
    3476                 :          0 :         struct io_kiocb *req;
    3477                 :          0 :         int i;
    3478                 :            : 
    3479                 :          0 :         spin_lock_irq(&ctx->completion_lock);
    3480         [ #  # ]:          0 :         for (i = 0; i < (1U << ctx->cancel_hash_bits); i++) {
    3481                 :          0 :                 struct hlist_head *list;
    3482                 :            : 
    3483                 :          0 :                 list = &ctx->cancel_hash[i];
    3484   [ #  #  #  #  :          0 :                 hlist_for_each_entry_safe(req, tmp, list, hash_node)
                   #  # ]
    3485                 :          0 :                         io_poll_remove_one(req);
    3486                 :            :         }
    3487                 :          0 :         spin_unlock_irq(&ctx->completion_lock);
    3488                 :          0 : }
    3489                 :            : 
    3490                 :            : static int io_poll_cancel(struct io_ring_ctx *ctx, __u64 sqe_addr)
    3491                 :            : {
    3492                 :            :         struct hlist_head *list;
    3493                 :            :         struct io_kiocb *req;
    3494                 :            : 
    3495                 :            :         list = &ctx->cancel_hash[hash_long(sqe_addr, ctx->cancel_hash_bits)];
    3496                 :            :         hlist_for_each_entry(req, list, hash_node) {
    3497                 :            :                 if (sqe_addr == req->user_data) {
    3498                 :            :                         io_poll_remove_one(req);
    3499                 :            :                         return 0;
    3500                 :            :                 }
    3501                 :            :         }
    3502                 :            : 
    3503                 :            :         return -ENOENT;
    3504                 :            : }
    3505                 :            : 
    3506                 :          0 : static int io_poll_remove_prep(struct io_kiocb *req,
    3507                 :            :                                const struct io_uring_sqe *sqe)
    3508                 :            : {
    3509                 :          0 :         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
    3510                 :            :                 return -EINVAL;
    3511   [ #  #  #  #  :          0 :         if (sqe->ioprio || sqe->off || sqe->len || sqe->buf_index ||
          #  #  #  #  #  
          #  #  #  #  #  
                   #  # ]
    3512   [ #  #  #  # ]:          0 :             sqe->poll_events)
    3513                 :            :                 return -EINVAL;
    3514                 :            : 
    3515                 :          0 :         req->poll.addr = READ_ONCE(sqe->addr);
    3516                 :          0 :         return 0;
    3517                 :            : }
    3518                 :            : 
    3519                 :            : /*
    3520                 :            :  * Find a running poll command that matches one specified in sqe->addr,
    3521                 :            :  * and remove it if found.
    3522                 :            :  */
    3523                 :          0 : static int io_poll_remove(struct io_kiocb *req)
    3524                 :            : {
    3525                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    3526                 :          0 :         u64 addr;
    3527                 :          0 :         int ret;
    3528                 :            : 
    3529                 :          0 :         addr = req->poll.addr;
    3530                 :          0 :         spin_lock_irq(&ctx->completion_lock);
    3531                 :          0 :         ret = io_poll_cancel(ctx, addr);
    3532                 :          0 :         spin_unlock_irq(&ctx->completion_lock);
    3533                 :            : 
    3534                 :          0 :         io_cqring_add_event(req, ret);
    3535         [ #  # ]:          0 :         if (ret < 0)
    3536         [ #  # ]:          0 :                 req_set_fail_links(req);
    3537                 :          0 :         io_put_req(req);
    3538                 :          0 :         return 0;
    3539                 :            : }
    3540                 :            : 
    3541                 :          0 : static void io_poll_complete(struct io_kiocb *req, __poll_t mask, int error)
    3542                 :            : {
    3543                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    3544                 :            : 
    3545                 :          0 :         req->poll.done = true;
    3546         [ #  # ]:          0 :         if (error)
    3547                 :          0 :                 io_cqring_fill_event(req, error);
    3548                 :            :         else
    3549                 :          0 :                 io_cqring_fill_event(req, mangle_poll(mask));
    3550                 :          0 :         io_commit_cqring(ctx);
    3551                 :          0 : }
    3552                 :            : 
    3553                 :          0 : static void io_poll_complete_work(struct io_wq_work **workptr)
    3554                 :            : {
    3555                 :          0 :         struct io_wq_work *work = *workptr;
    3556                 :          0 :         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
    3557                 :          0 :         struct io_poll_iocb *poll = &req->poll;
    3558                 :          0 :         struct poll_table_struct pt = { ._key = poll->events };
    3559                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    3560                 :          0 :         struct io_kiocb *nxt = NULL;
    3561                 :          0 :         __poll_t mask = 0;
    3562                 :          0 :         int ret = 0;
    3563                 :            : 
    3564         [ #  # ]:          0 :         if (work->flags & IO_WQ_WORK_CANCEL) {
    3565                 :          0 :                 WRITE_ONCE(poll->canceled, true);
    3566                 :          0 :                 ret = -ECANCELED;
    3567         [ #  # ]:          0 :         } else if (READ_ONCE(poll->canceled)) {
    3568                 :            :                 ret = -ECANCELED;
    3569                 :            :         }
    3570                 :            : 
    3571                 :          0 :         if (ret != -ECANCELED)
    3572         [ #  # ]:          0 :                 mask = vfs_poll(poll->file, &pt) & poll->events;
    3573                 :            : 
    3574                 :            :         /*
    3575                 :            :          * Note that ->ki_cancel callers also delete iocb from active_reqs after
    3576                 :            :          * calling ->ki_cancel.  We need the ctx_lock roundtrip here to
    3577                 :            :          * synchronize with them.  In the cancellation case the list_del_init
    3578                 :            :          * itself is not actually needed, but harmless so we keep it in to
    3579                 :            :          * avoid further branches in the fast path.
    3580                 :            :          */
    3581                 :          0 :         spin_lock_irq(&ctx->completion_lock);
    3582         [ #  # ]:          0 :         if (!mask && ret != -ECANCELED) {
    3583                 :          0 :                 add_wait_queue(poll->head, &poll->wait);
    3584                 :          0 :                 spin_unlock_irq(&ctx->completion_lock);
    3585                 :          0 :                 return;
    3586                 :            :         }
    3587         [ #  # ]:          0 :         hash_del(&req->hash_node);
    3588                 :          0 :         io_poll_complete(req, mask, ret);
    3589                 :          0 :         spin_unlock_irq(&ctx->completion_lock);
    3590                 :            : 
    3591                 :          0 :         io_cqring_ev_posted(ctx);
    3592                 :            : 
    3593         [ #  # ]:          0 :         if (ret < 0)
    3594         [ #  # ]:          0 :                 req_set_fail_links(req);
    3595                 :          0 :         io_put_req_find_next(req, &nxt);
    3596         [ #  # ]:          0 :         if (nxt)
    3597                 :          0 :                 io_wq_assign_next(workptr, nxt);
    3598                 :            : }
    3599                 :            : 
    3600                 :          0 : static void __io_poll_flush(struct io_ring_ctx *ctx, struct llist_node *nodes)
    3601                 :            : {
    3602                 :          0 :         struct io_kiocb *req, *tmp;
    3603                 :          0 :         struct req_batch rb;
    3604                 :            : 
    3605                 :          0 :         rb.to_free = rb.need_iter = 0;
    3606                 :          0 :         spin_lock_irq(&ctx->completion_lock);
    3607         [ #  # ]:          0 :         llist_for_each_entry_safe(req, tmp, nodes, llist_node) {
    3608         [ #  # ]:          0 :                 hash_del(&req->hash_node);
    3609                 :          0 :                 io_poll_complete(req, req->result, 0);
    3610                 :            : 
    3611   [ #  #  #  # ]:          0 :                 if (refcount_dec_and_test(&req->refs) &&
    3612                 :          0 :                     !io_req_multi_free(&rb, req)) {
    3613                 :          0 :                         req->flags |= REQ_F_COMP_LOCKED;
    3614                 :          0 :                         io_free_req(req);
    3615                 :            :                 }
    3616                 :            :         }
    3617                 :          0 :         spin_unlock_irq(&ctx->completion_lock);
    3618                 :            : 
    3619                 :          0 :         io_cqring_ev_posted(ctx);
    3620                 :          0 :         io_free_req_many(ctx, &rb);
    3621                 :          0 : }
    3622                 :            : 
    3623                 :          0 : static void io_poll_flush(struct io_wq_work **workptr)
    3624                 :            : {
    3625                 :          0 :         struct io_kiocb *req = container_of(*workptr, struct io_kiocb, work);
    3626                 :          0 :         struct llist_node *nodes;
    3627                 :            : 
    3628                 :          0 :         nodes = llist_del_all(&req->ctx->poll_llist);
    3629         [ #  # ]:          0 :         if (nodes)
    3630                 :          0 :                 __io_poll_flush(req->ctx, nodes);
    3631                 :          0 : }
    3632                 :            : 
    3633                 :          0 : static void io_poll_trigger_evfd(struct io_wq_work **workptr)
    3634                 :            : {
    3635                 :          0 :         struct io_kiocb *req = container_of(*workptr, struct io_kiocb, work);
    3636                 :            : 
    3637                 :          0 :         eventfd_signal(req->ctx->cq_ev_fd, 1);
    3638                 :          0 :         io_put_req(req);
    3639                 :          0 : }
    3640                 :            : 
    3641                 :          0 : static int io_poll_wake(struct wait_queue_entry *wait, unsigned mode, int sync,
    3642                 :            :                         void *key)
    3643                 :            : {
    3644                 :          0 :         struct io_poll_iocb *poll = wait->private;
    3645                 :          0 :         struct io_kiocb *req = container_of(poll, struct io_kiocb, poll);
    3646                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    3647                 :          0 :         __poll_t mask = key_to_poll(key);
    3648                 :            : 
    3649                 :            :         /* for instances that support it check for an event match first: */
    3650   [ #  #  #  # ]:          0 :         if (mask && !(mask & poll->events))
    3651                 :            :                 return 0;
    3652                 :            : 
    3653         [ #  # ]:          0 :         list_del_init(&poll->wait.entry);
    3654                 :            : 
    3655                 :            :         /*
    3656                 :            :          * Run completion inline if we can. We're using trylock here because
    3657                 :            :          * we are violating the completion_lock -> poll wq lock ordering.
    3658                 :            :          * If we have a link timeout we're going to need the completion_lock
    3659                 :            :          * for finalizing the request, mark us as having grabbed that already.
    3660                 :            :          */
    3661         [ #  # ]:          0 :         if (mask) {
    3662                 :          0 :                 unsigned long flags;
    3663                 :            : 
    3664         [ #  # ]:          0 :                 if (llist_empty(&ctx->poll_llist) &&
    3665         [ #  # ]:          0 :                     spin_trylock_irqsave(&ctx->completion_lock, flags)) {
    3666                 :          0 :                         bool trigger_ev;
    3667                 :            : 
    3668         [ #  # ]:          0 :                         hash_del(&req->hash_node);
    3669                 :          0 :                         io_poll_complete(req, mask, 0);
    3670                 :            : 
    3671                 :          0 :                         trigger_ev = io_should_trigger_evfd(ctx);
    3672   [ #  #  #  # ]:          0 :                         if (trigger_ev && eventfd_signal_count()) {
    3673                 :          0 :                                 trigger_ev = false;
    3674                 :          0 :                                 req->work.func = io_poll_trigger_evfd;
    3675                 :            :                         } else {
    3676                 :          0 :                                 req->flags |= REQ_F_COMP_LOCKED;
    3677                 :          0 :                                 io_put_req(req);
    3678                 :          0 :                                 req = NULL;
    3679                 :            :                         }
    3680                 :          0 :                         spin_unlock_irqrestore(&ctx->completion_lock, flags);
    3681                 :          0 :                         __io_cqring_ev_posted(ctx, trigger_ev);
    3682                 :            :                 } else {
    3683                 :          0 :                         req->result = mask;
    3684                 :          0 :                         req->llist_node.next = NULL;
    3685                 :            :                         /* if the list wasn't empty, we're done */
    3686         [ #  # ]:          0 :                         if (!llist_add(&req->llist_node, &ctx->poll_llist))
    3687                 :            :                                 req = NULL;
    3688                 :            :                         else
    3689                 :          0 :                                 req->work.func = io_poll_flush;
    3690                 :            :                 }
    3691                 :            :         }
    3692         [ #  # ]:          0 :         if (req)
    3693                 :          0 :                 io_queue_async_work(req);
    3694                 :            : 
    3695                 :            :         return 1;
    3696                 :            : }
    3697                 :            : 
    3698                 :            : struct io_poll_table {
    3699                 :            :         struct poll_table_struct pt;
    3700                 :            :         struct io_kiocb *req;
    3701                 :            :         int error;
    3702                 :            : };
    3703                 :            : 
    3704                 :          0 : static void io_poll_queue_proc(struct file *file, struct wait_queue_head *head,
    3705                 :            :                                struct poll_table_struct *p)
    3706                 :            : {
    3707                 :          0 :         struct io_poll_table *pt = container_of(p, struct io_poll_table, pt);
    3708                 :            : 
    3709         [ #  # ]:          0 :         if (unlikely(pt->req->poll.head)) {
    3710                 :          0 :                 pt->error = -EINVAL;
    3711                 :          0 :                 return;
    3712                 :            :         }
    3713                 :            : 
    3714                 :          0 :         pt->error = 0;
    3715                 :          0 :         pt->req->poll.head = head;
    3716                 :          0 :         add_wait_queue(head, &pt->req->poll.wait);
    3717                 :            : }
    3718                 :            : 
    3719                 :          0 : static void io_poll_req_insert(struct io_kiocb *req)
    3720                 :            : {
    3721                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    3722                 :          0 :         struct hlist_head *list;
    3723                 :            : 
    3724                 :          0 :         list = &ctx->cancel_hash[hash_long(req->user_data, ctx->cancel_hash_bits)];
    3725         [ #  # ]:          0 :         hlist_add_head(&req->hash_node, list);
    3726                 :          0 : }
    3727                 :            : 
    3728                 :          0 : static int io_poll_add_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    3729                 :            : {
    3730                 :          0 :         struct io_poll_iocb *poll = &req->poll;
    3731                 :          0 :         u16 events;
    3732                 :            : 
    3733         [ #  # ]:          0 :         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
    3734                 :            :                 return -EINVAL;
    3735   [ #  #  #  #  :          0 :         if (sqe->addr || sqe->ioprio || sqe->off || sqe->len || sqe->buf_index)
          #  #  #  #  #  
                      # ]
    3736                 :            :                 return -EINVAL;
    3737         [ #  # ]:          0 :         if (!poll->file)
    3738                 :            :                 return -EBADF;
    3739                 :            : 
    3740                 :          0 :         events = READ_ONCE(sqe->poll_events);
    3741                 :          0 :         poll->events = demangle_poll(events) | EPOLLERR | EPOLLHUP;
    3742                 :          0 :         return 0;
    3743                 :            : }
    3744                 :            : 
    3745                 :          0 : static int io_poll_add(struct io_kiocb *req, struct io_kiocb **nxt)
    3746                 :            : {
    3747                 :          0 :         struct io_poll_iocb *poll = &req->poll;
    3748                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    3749                 :          0 :         struct io_poll_table ipt;
    3750                 :          0 :         bool cancel = false;
    3751                 :          0 :         __poll_t mask;
    3752                 :            : 
    3753                 :          0 :         INIT_IO_WORK(&req->work, io_poll_complete_work);
    3754         [ #  # ]:          0 :         INIT_HLIST_NODE(&req->hash_node);
    3755                 :            : 
    3756                 :          0 :         poll->head = NULL;
    3757                 :          0 :         poll->done = false;
    3758                 :          0 :         poll->canceled = false;
    3759                 :            : 
    3760                 :          0 :         ipt.pt._qproc = io_poll_queue_proc;
    3761                 :          0 :         ipt.pt._key = poll->events;
    3762                 :          0 :         ipt.req = req;
    3763                 :          0 :         ipt.error = -EINVAL; /* same as no support for IOCB_CMD_POLL */
    3764                 :            : 
    3765                 :            :         /* initialized the list so that we can do list_empty checks */
    3766         [ #  # ]:          0 :         INIT_LIST_HEAD(&poll->wait.entry);
    3767         [ #  # ]:          0 :         init_waitqueue_func_entry(&poll->wait, io_poll_wake);
    3768                 :          0 :         poll->wait.private = poll;
    3769                 :            : 
    3770                 :          0 :         INIT_LIST_HEAD(&req->list);
    3771                 :            : 
    3772         [ #  # ]:          0 :         mask = vfs_poll(poll->file, &ipt.pt) & poll->events;
    3773                 :            : 
    3774                 :          0 :         spin_lock_irq(&ctx->completion_lock);
    3775         [ #  # ]:          0 :         if (likely(poll->head)) {
    3776                 :          0 :                 spin_lock(&poll->head->lock);
    3777         [ #  # ]:          0 :                 if (unlikely(list_empty(&poll->wait.entry))) {
    3778         [ #  # ]:          0 :                         if (ipt.error)
    3779                 :          0 :                                 cancel = true;
    3780                 :          0 :                         ipt.error = 0;
    3781                 :          0 :                         mask = 0;
    3782                 :            :                 }
    3783   [ #  #  #  # ]:          0 :                 if (mask || ipt.error)
    3784                 :          0 :                         list_del_init(&poll->wait.entry);
    3785         [ #  # ]:          0 :                 else if (cancel)
    3786                 :          0 :                         WRITE_ONCE(poll->canceled, true);
    3787         [ #  # ]:          0 :                 else if (!poll->done) /* actually waiting for an event */
    3788         [ #  # ]:          0 :                         io_poll_req_insert(req);
    3789                 :          0 :                 spin_unlock(&poll->head->lock);
    3790                 :            :         }
    3791         [ #  # ]:          0 :         if (mask) { /* no async, we'd stolen it */
    3792                 :          0 :                 ipt.error = 0;
    3793                 :          0 :                 io_poll_complete(req, mask, 0);
    3794                 :            :         }
    3795                 :          0 :         spin_unlock_irq(&ctx->completion_lock);
    3796                 :            : 
    3797         [ #  # ]:          0 :         if (mask) {
    3798                 :          0 :                 io_cqring_ev_posted(ctx);
    3799                 :          0 :                 io_put_req_find_next(req, nxt);
    3800                 :            :         }
    3801                 :          0 :         return ipt.error;
    3802                 :            : }
    3803                 :            : 
    3804                 :          0 : static enum hrtimer_restart io_timeout_fn(struct hrtimer *timer)
    3805                 :            : {
    3806                 :          0 :         struct io_timeout_data *data = container_of(timer,
    3807                 :            :                                                 struct io_timeout_data, timer);
    3808                 :          0 :         struct io_kiocb *req = data->req;
    3809                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    3810                 :          0 :         unsigned long flags;
    3811                 :            : 
    3812                 :          0 :         atomic_inc(&ctx->cq_timeouts);
    3813                 :            : 
    3814                 :          0 :         spin_lock_irqsave(&ctx->completion_lock, flags);
    3815                 :            :         /*
    3816                 :            :          * We could be racing with timeout deletion. If the list is empty,
    3817                 :            :          * then timeout lookup already found it and will be handling it.
    3818                 :            :          */
    3819         [ #  # ]:          0 :         if (!list_empty(&req->list)) {
    3820                 :          0 :                 struct io_kiocb *prev;
    3821                 :            : 
    3822                 :            :                 /*
    3823                 :            :                  * Adjust the reqs sequence before the current one because it
    3824                 :            :                  * will consume a slot in the cq_ring and the cq_tail
    3825                 :            :                  * pointer will be increased, otherwise other timeout reqs may
    3826                 :            :                  * return in advance without waiting for enough wait_nr.
    3827                 :            :                  */
    3828                 :          0 :                 prev = req;
    3829         [ #  # ]:          0 :                 list_for_each_entry_continue_reverse(prev, &ctx->timeout_list, list)
    3830                 :          0 :                         prev->sequence++;
    3831                 :          0 :                 list_del_init(&req->list);
    3832                 :            :         }
    3833                 :            : 
    3834                 :          0 :         io_cqring_fill_event(req, -ETIME);
    3835                 :          0 :         io_commit_cqring(ctx);
    3836                 :          0 :         spin_unlock_irqrestore(&ctx->completion_lock, flags);
    3837                 :            : 
    3838                 :          0 :         io_cqring_ev_posted(ctx);
    3839         [ #  # ]:          0 :         req_set_fail_links(req);
    3840                 :          0 :         io_put_req(req);
    3841                 :          0 :         return HRTIMER_NORESTART;
    3842                 :            : }
    3843                 :            : 
    3844                 :          0 : static int io_timeout_cancel(struct io_ring_ctx *ctx, __u64 user_data)
    3845                 :            : {
    3846                 :          0 :         struct io_kiocb *req;
    3847                 :          0 :         int ret = -ENOENT;
    3848                 :            : 
    3849         [ #  # ]:          0 :         list_for_each_entry(req, &ctx->timeout_list, list) {
    3850         [ #  # ]:          0 :                 if (user_data == req->user_data) {
    3851                 :          0 :                         list_del_init(&req->list);
    3852                 :          0 :                         ret = 0;
    3853                 :          0 :                         break;
    3854                 :            :                 }
    3855                 :            :         }
    3856                 :            : 
    3857                 :          0 :         if (ret == -ENOENT)
    3858                 :            :                 return ret;
    3859                 :            : 
    3860                 :          0 :         ret = hrtimer_try_to_cancel(&req->io->timeout.timer);
    3861         [ #  # ]:          0 :         if (ret == -1)
    3862                 :            :                 return -EALREADY;
    3863                 :            : 
    3864         [ #  # ]:          0 :         req_set_fail_links(req);
    3865                 :          0 :         io_cqring_fill_event(req, -ECANCELED);
    3866                 :          0 :         io_put_req(req);
    3867                 :          0 :         return 0;
    3868                 :            : }
    3869                 :            : 
    3870                 :          0 : static int io_timeout_remove_prep(struct io_kiocb *req,
    3871                 :            :                                   const struct io_uring_sqe *sqe)
    3872                 :            : {
    3873                 :          0 :         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
    3874                 :            :                 return -EINVAL;
    3875   [ #  #  #  #  :          0 :         if (sqe->flags || sqe->ioprio || sqe->buf_index || sqe->len)
          #  #  #  #  #  
                #  #  # ]
    3876                 :            :                 return -EINVAL;
    3877                 :            : 
    3878   [ #  #  #  # ]:          0 :         req->timeout.addr = READ_ONCE(sqe->addr);
    3879                 :          0 :         req->timeout.flags = READ_ONCE(sqe->timeout_flags);
    3880   [ #  #  #  # ]:          0 :         if (req->timeout.flags)
    3881                 :          0 :                 return -EINVAL;
    3882                 :            : 
    3883                 :            :         return 0;
    3884                 :            : }
    3885                 :            : 
    3886                 :            : /*
    3887                 :            :  * Remove or update an existing timeout command
    3888                 :            :  */
    3889                 :          0 : static int io_timeout_remove(struct io_kiocb *req)
    3890                 :            : {
    3891                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    3892                 :          0 :         int ret;
    3893                 :            : 
    3894                 :          0 :         spin_lock_irq(&ctx->completion_lock);
    3895                 :          0 :         ret = io_timeout_cancel(ctx, req->timeout.addr);
    3896                 :            : 
    3897                 :          0 :         io_cqring_fill_event(req, ret);
    3898                 :          0 :         io_commit_cqring(ctx);
    3899                 :          0 :         spin_unlock_irq(&ctx->completion_lock);
    3900                 :          0 :         io_cqring_ev_posted(ctx);
    3901         [ #  # ]:          0 :         if (ret < 0)
    3902         [ #  # ]:          0 :                 req_set_fail_links(req);
    3903                 :          0 :         io_put_req(req);
    3904                 :          0 :         return 0;
    3905                 :            : }
    3906                 :            : 
    3907                 :          0 : static int io_timeout_prep(struct io_kiocb *req, const struct io_uring_sqe *sqe,
    3908                 :            :                            bool is_timeout_link)
    3909                 :            : {
    3910                 :          0 :         struct io_timeout_data *data;
    3911                 :          0 :         unsigned flags;
    3912                 :            : 
    3913         [ #  # ]:          0 :         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
    3914                 :            :                 return -EINVAL;
    3915   [ #  #  #  #  :          0 :         if (sqe->ioprio || sqe->buf_index || sqe->len != 1)
                   #  # ]
    3916                 :            :                 return -EINVAL;
    3917   [ #  #  #  # ]:          0 :         if (sqe->off && is_timeout_link)
    3918                 :            :                 return -EINVAL;
    3919         [ #  # ]:          0 :         flags = READ_ONCE(sqe->timeout_flags);
    3920         [ #  # ]:          0 :         if (flags & ~IORING_TIMEOUT_ABS)
    3921                 :            :                 return -EINVAL;
    3922                 :            : 
    3923         [ #  # ]:          0 :         req->timeout.count = READ_ONCE(sqe->off);
    3924                 :            : 
    3925   [ #  #  #  #  :          0 :         if (!req->io && io_alloc_async_ctx(req))
                   #  # ]
    3926                 :            :                 return -ENOMEM;
    3927                 :            : 
    3928                 :          0 :         data = &req->io->timeout;
    3929                 :          0 :         data->req = req;
    3930                 :          0 :         req->flags |= REQ_F_TIMEOUT;
    3931                 :            : 
    3932         [ #  # ]:          0 :         if (get_timespec64(&data->ts, u64_to_user_ptr(sqe->addr)))
    3933                 :            :                 return -EFAULT;
    3934                 :            : 
    3935         [ #  # ]:          0 :         if (flags & IORING_TIMEOUT_ABS)
    3936                 :          0 :                 data->mode = HRTIMER_MODE_ABS;
    3937                 :            :         else
    3938                 :          0 :                 data->mode = HRTIMER_MODE_REL;
    3939                 :            : 
    3940                 :          0 :         hrtimer_init(&data->timer, CLOCK_MONOTONIC, data->mode);
    3941                 :          0 :         return 0;
    3942                 :            : }
    3943                 :            : 
    3944                 :          0 : static int io_timeout(struct io_kiocb *req)
    3945                 :            : {
    3946                 :          0 :         unsigned count;
    3947                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    3948                 :          0 :         struct io_timeout_data *data;
    3949                 :          0 :         struct list_head *entry;
    3950                 :          0 :         unsigned span = 0;
    3951                 :            : 
    3952                 :          0 :         data = &req->io->timeout;
    3953                 :            : 
    3954                 :            :         /*
    3955                 :            :          * sqe->off holds how many events that need to occur for this
    3956                 :            :          * timeout event to be satisfied. If it isn't set, then this is
    3957                 :            :          * a pure timeout request, sequence isn't used.
    3958                 :            :          */
    3959                 :          0 :         count = req->timeout.count;
    3960         [ #  # ]:          0 :         if (!count) {
    3961                 :          0 :                 req->flags |= REQ_F_TIMEOUT_NOSEQ;
    3962                 :          0 :                 spin_lock_irq(&ctx->completion_lock);
    3963                 :          0 :                 entry = ctx->timeout_list.prev;
    3964                 :          0 :                 goto add;
    3965                 :            :         }
    3966                 :            : 
    3967                 :          0 :         req->sequence = ctx->cached_sq_head + count - 1;
    3968                 :          0 :         data->seq_offset = count;
    3969                 :            : 
    3970                 :            :         /*
    3971                 :            :          * Insertion sort, ensuring the first entry in the list is always
    3972                 :            :          * the one we need first.
    3973                 :            :          */
    3974                 :          0 :         spin_lock_irq(&ctx->completion_lock);
    3975         [ #  # ]:          0 :         list_for_each_prev(entry, &ctx->timeout_list) {
    3976                 :          0 :                 struct io_kiocb *nxt = list_entry(entry, struct io_kiocb, list);
    3977                 :          0 :                 unsigned nxt_sq_head;
    3978                 :          0 :                 long long tmp, tmp_nxt;
    3979                 :          0 :                 u32 nxt_offset = nxt->io->timeout.seq_offset;
    3980                 :            : 
    3981         [ #  # ]:          0 :                 if (nxt->flags & REQ_F_TIMEOUT_NOSEQ)
    3982                 :          0 :                         continue;
    3983                 :            : 
    3984                 :            :                 /*
    3985                 :            :                  * Since cached_sq_head + count - 1 can overflow, use type long
    3986                 :            :                  * long to store it.
    3987                 :            :                  */
    3988                 :          0 :                 tmp = (long long)ctx->cached_sq_head + count - 1;
    3989                 :          0 :                 nxt_sq_head = nxt->sequence - nxt_offset + 1;
    3990                 :          0 :                 tmp_nxt = (long long)nxt_sq_head + nxt_offset - 1;
    3991                 :            : 
    3992                 :            :                 /*
    3993                 :            :                  * cached_sq_head may overflow, and it will never overflow twice
    3994                 :            :                  * once there is some timeout req still be valid.
    3995                 :            :                  */
    3996         [ #  # ]:          0 :                 if (ctx->cached_sq_head < nxt_sq_head)
    3997                 :          0 :                         tmp += UINT_MAX;
    3998                 :            : 
    3999         [ #  # ]:          0 :                 if (tmp > tmp_nxt)
    4000                 :            :                         break;
    4001                 :            : 
    4002                 :            :                 /*
    4003                 :            :                  * Sequence of reqs after the insert one and itself should
    4004                 :            :                  * be adjusted because each timeout req consumes a slot.
    4005                 :            :                  */
    4006                 :          0 :                 span++;
    4007                 :          0 :                 nxt->sequence++;
    4008                 :            :         }
    4009                 :          0 :         req->sequence -= span;
    4010                 :          0 : add:
    4011         [ #  # ]:          0 :         list_add(&req->list, entry);
    4012                 :          0 :         data->timer.function = io_timeout_fn;
    4013         [ #  # ]:          0 :         hrtimer_start(&data->timer, timespec64_to_ktime(data->ts), data->mode);
    4014                 :          0 :         spin_unlock_irq(&ctx->completion_lock);
    4015                 :          0 :         return 0;
    4016                 :            : }
    4017                 :            : 
    4018                 :          0 : static bool io_cancel_cb(struct io_wq_work *work, void *data)
    4019                 :            : {
    4020                 :          0 :         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
    4021                 :            : 
    4022                 :          0 :         return req->user_data == (unsigned long) data;
    4023                 :            : }
    4024                 :            : 
    4025                 :          0 : static int io_async_cancel_one(struct io_ring_ctx *ctx, void *sqe_addr)
    4026                 :            : {
    4027                 :          0 :         enum io_wq_cancel cancel_ret;
    4028                 :          0 :         int ret = 0;
    4029                 :            : 
    4030                 :          0 :         cancel_ret = io_wq_cancel_cb(ctx->io_wq, io_cancel_cb, sqe_addr);
    4031      [ #  #  # ]:          0 :         switch (cancel_ret) {
    4032                 :            :         case IO_WQ_CANCEL_OK:
    4033                 :            :                 ret = 0;
    4034                 :            :                 break;
    4035                 :            :         case IO_WQ_CANCEL_RUNNING:
    4036                 :          0 :                 ret = -EALREADY;
    4037                 :          0 :                 break;
    4038                 :            :         case IO_WQ_CANCEL_NOTFOUND:
    4039                 :          0 :                 ret = -ENOENT;
    4040                 :          0 :                 break;
    4041                 :            :         }
    4042                 :            : 
    4043                 :          0 :         return ret;
    4044                 :            : }
    4045                 :            : 
    4046                 :          0 : static void io_async_find_and_cancel(struct io_ring_ctx *ctx,
    4047                 :            :                                      struct io_kiocb *req, __u64 sqe_addr,
    4048                 :            :                                      struct io_kiocb **nxt, int success_ret)
    4049                 :            : {
    4050                 :          0 :         unsigned long flags;
    4051                 :          0 :         int ret;
    4052                 :            : 
    4053                 :          0 :         ret = io_async_cancel_one(ctx, (void *) (unsigned long) sqe_addr);
    4054                 :          0 :         if (ret != -ENOENT) {
    4055                 :          0 :                 spin_lock_irqsave(&ctx->completion_lock, flags);
    4056                 :          0 :                 goto done;
    4057                 :            :         }
    4058                 :            : 
    4059                 :          0 :         spin_lock_irqsave(&ctx->completion_lock, flags);
    4060                 :          0 :         ret = io_timeout_cancel(ctx, sqe_addr);
    4061         [ #  # ]:          0 :         if (ret != -ENOENT)
    4062                 :          0 :                 goto done;
    4063                 :          0 :         ret = io_poll_cancel(ctx, sqe_addr);
    4064                 :          0 : done:
    4065         [ #  # ]:          0 :         if (!ret)
    4066                 :          0 :                 ret = success_ret;
    4067                 :          0 :         io_cqring_fill_event(req, ret);
    4068                 :          0 :         io_commit_cqring(ctx);
    4069                 :          0 :         spin_unlock_irqrestore(&ctx->completion_lock, flags);
    4070                 :          0 :         io_cqring_ev_posted(ctx);
    4071                 :            : 
    4072         [ #  # ]:          0 :         if (ret < 0)
    4073         [ #  # ]:          0 :                 req_set_fail_links(req);
    4074                 :          0 :         io_put_req_find_next(req, nxt);
    4075                 :          0 : }
    4076                 :            : 
    4077                 :          0 : static int io_async_cancel_prep(struct io_kiocb *req,
    4078                 :            :                                 const struct io_uring_sqe *sqe)
    4079                 :            : {
    4080                 :          0 :         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
    4081                 :            :                 return -EINVAL;
    4082   [ #  #  #  #  :          0 :         if (sqe->flags || sqe->ioprio || sqe->off || sqe->len ||
          #  #  #  #  #  
                #  #  # ]
    4083                 :            :             sqe->cancel_flags)
    4084                 :            :                 return -EINVAL;
    4085                 :            : 
    4086                 :          0 :         req->cancel.addr = READ_ONCE(sqe->addr);
    4087                 :          0 :         return 0;
    4088                 :            : }
    4089                 :            : 
    4090                 :          0 : static int io_async_cancel(struct io_kiocb *req, struct io_kiocb **nxt)
    4091                 :            : {
    4092                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    4093                 :            : 
    4094                 :          0 :         io_async_find_and_cancel(ctx, req, req->cancel.addr, nxt, 0);
    4095                 :          0 :         return 0;
    4096                 :            : }
    4097                 :            : 
    4098                 :          0 : static int io_files_update_prep(struct io_kiocb *req,
    4099                 :            :                                 const struct io_uring_sqe *sqe)
    4100                 :            : {
    4101   [ #  #  #  # ]:          0 :         if (sqe->flags || sqe->ioprio || sqe->rw_flags)
    4102                 :            :                 return -EINVAL;
    4103                 :            : 
    4104   [ #  #  #  # ]:          0 :         req->files_update.offset = READ_ONCE(sqe->off);
    4105                 :          0 :         req->files_update.nr_args = READ_ONCE(sqe->len);
    4106   [ #  #  #  # ]:          0 :         if (!req->files_update.nr_args)
    4107                 :            :                 return -EINVAL;
    4108                 :          0 :         req->files_update.arg = READ_ONCE(sqe->addr);
    4109                 :          0 :         return 0;
    4110                 :            : }
    4111                 :            : 
    4112                 :          0 : static int io_files_update(struct io_kiocb *req, bool force_nonblock)
    4113                 :            : {
    4114                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    4115                 :          0 :         struct io_uring_files_update up;
    4116                 :          0 :         int ret;
    4117                 :            : 
    4118         [ #  # ]:          0 :         if (force_nonblock)
    4119                 :            :                 return -EAGAIN;
    4120                 :            : 
    4121                 :          0 :         up.offset = req->files_update.offset;
    4122                 :          0 :         up.fds = req->files_update.arg;
    4123                 :            : 
    4124                 :          0 :         mutex_lock(&ctx->uring_lock);
    4125                 :          0 :         ret = __io_sqe_files_update(ctx, &up, req->files_update.nr_args);
    4126                 :          0 :         mutex_unlock(&ctx->uring_lock);
    4127                 :            : 
    4128         [ #  # ]:          0 :         if (ret < 0)
    4129         [ #  # ]:          0 :                 req_set_fail_links(req);
    4130                 :          0 :         io_cqring_add_event(req, ret);
    4131                 :          0 :         io_put_req(req);
    4132                 :          0 :         return 0;
    4133                 :            : }
    4134                 :            : 
    4135                 :          0 : static int io_req_defer_prep(struct io_kiocb *req,
    4136                 :            :                              const struct io_uring_sqe *sqe)
    4137                 :            : {
    4138                 :          0 :         ssize_t ret = 0;
    4139                 :            : 
    4140         [ #  # ]:          0 :         if (!sqe)
    4141                 :            :                 return 0;
    4142                 :            : 
    4143         [ #  # ]:          0 :         if (io_op_defs[req->opcode].file_table) {
    4144                 :          0 :                 ret = io_grab_files(req);
    4145         [ #  # ]:          0 :                 if (unlikely(ret))
    4146                 :            :                         return ret;
    4147                 :            :         }
    4148                 :            : 
    4149                 :          0 :         io_req_work_grab_env(req, &io_op_defs[req->opcode]);
    4150                 :            : 
    4151   [ #  #  #  #  :          0 :         switch (req->opcode) {
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
                      # ]
    4152                 :            :         case IORING_OP_NOP:
    4153                 :            :                 break;
    4154                 :          0 :         case IORING_OP_READV:
    4155                 :            :         case IORING_OP_READ_FIXED:
    4156                 :            :         case IORING_OP_READ:
    4157                 :          0 :                 ret = io_read_prep(req, sqe, true);
    4158                 :          0 :                 break;
    4159                 :          0 :         case IORING_OP_WRITEV:
    4160                 :            :         case IORING_OP_WRITE_FIXED:
    4161                 :            :         case IORING_OP_WRITE:
    4162                 :          0 :                 ret = io_write_prep(req, sqe, true);
    4163                 :          0 :                 break;
    4164                 :          0 :         case IORING_OP_POLL_ADD:
    4165                 :          0 :                 ret = io_poll_add_prep(req, sqe);
    4166                 :          0 :                 break;
    4167                 :          0 :         case IORING_OP_POLL_REMOVE:
    4168         [ #  # ]:          0 :                 ret = io_poll_remove_prep(req, sqe);
    4169                 :          0 :                 break;
    4170                 :          0 :         case IORING_OP_FSYNC:
    4171                 :          0 :                 ret = io_prep_fsync(req, sqe);
    4172                 :          0 :                 break;
    4173                 :            :         case IORING_OP_SYNC_FILE_RANGE:
    4174         [ #  # ]:          0 :                 ret = io_prep_sfr(req, sqe);
    4175                 :          0 :                 break;
    4176                 :          0 :         case IORING_OP_SENDMSG:
    4177                 :            :         case IORING_OP_SEND:
    4178                 :          0 :                 ret = io_sendmsg_prep(req, sqe);
    4179                 :          0 :                 break;
    4180                 :          0 :         case IORING_OP_RECVMSG:
    4181                 :            :         case IORING_OP_RECV:
    4182                 :          0 :                 ret = io_recvmsg_prep(req, sqe);
    4183                 :          0 :                 break;
    4184                 :          0 :         case IORING_OP_CONNECT:
    4185                 :          0 :                 ret = io_connect_prep(req, sqe);
    4186                 :          0 :                 break;
    4187                 :          0 :         case IORING_OP_TIMEOUT:
    4188                 :          0 :                 ret = io_timeout_prep(req, sqe, false);
    4189                 :          0 :                 break;
    4190                 :            :         case IORING_OP_TIMEOUT_REMOVE:
    4191         [ #  # ]:          0 :                 ret = io_timeout_remove_prep(req, sqe);
    4192                 :          0 :                 break;
    4193                 :          0 :         case IORING_OP_ASYNC_CANCEL:
    4194         [ #  # ]:          0 :                 ret = io_async_cancel_prep(req, sqe);
    4195                 :          0 :                 break;
    4196                 :          0 :         case IORING_OP_LINK_TIMEOUT:
    4197                 :          0 :                 ret = io_timeout_prep(req, sqe, true);
    4198                 :          0 :                 break;
    4199                 :          0 :         case IORING_OP_ACCEPT:
    4200                 :          0 :                 ret = io_accept_prep(req, sqe);
    4201                 :          0 :                 break;
    4202                 :            :         case IORING_OP_FALLOCATE:
    4203         [ #  # ]:          0 :                 ret = io_fallocate_prep(req, sqe);
    4204                 :          0 :                 break;
    4205                 :          0 :         case IORING_OP_OPENAT:
    4206                 :          0 :                 ret = io_openat_prep(req, sqe);
    4207                 :          0 :                 break;
    4208                 :          0 :         case IORING_OP_CLOSE:
    4209                 :          0 :                 ret = io_close_prep(req, sqe);
    4210                 :          0 :                 break;
    4211                 :            :         case IORING_OP_FILES_UPDATE:
    4212         [ #  # ]:          0 :                 ret = io_files_update_prep(req, sqe);
    4213                 :          0 :                 break;
    4214                 :          0 :         case IORING_OP_STATX:
    4215                 :          0 :                 ret = io_statx_prep(req, sqe);
    4216                 :          0 :                 break;
    4217                 :            :         case IORING_OP_FADVISE:
    4218         [ #  # ]:          0 :                 ret = io_fadvise_prep(req, sqe);
    4219                 :          0 :                 break;
    4220                 :            :         case IORING_OP_MADVISE:
    4221         [ #  # ]:          0 :                 ret = io_madvise_prep(req, sqe);
    4222                 :          0 :                 break;
    4223                 :          0 :         case IORING_OP_OPENAT2:
    4224                 :          0 :                 ret = io_openat2_prep(req, sqe);
    4225                 :          0 :                 break;
    4226                 :          0 :         case IORING_OP_EPOLL_CTL:
    4227                 :          0 :                 ret = io_epoll_ctl_prep(req, sqe);
    4228                 :          0 :                 break;
    4229                 :          0 :         default:
    4230         [ #  # ]:          0 :                 printk_once(KERN_WARNING "io_uring: unhandled opcode %d\n",
    4231                 :            :                                 req->opcode);
    4232                 :          0 :                 ret = -EINVAL;
    4233                 :          0 :                 break;
    4234                 :            :         }
    4235                 :            : 
    4236                 :          0 :         return ret;
    4237                 :            : }
    4238                 :            : 
    4239                 :          0 : static int io_req_defer(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    4240                 :            : {
    4241                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    4242                 :          0 :         int ret;
    4243                 :            : 
    4244                 :            :         /* Still need defer if there is pending req in defer list. */
    4245   [ #  #  #  # ]:          0 :         if (!req_need_defer(req) && list_empty(&ctx->defer_list))
    4246                 :            :                 return 0;
    4247                 :            : 
    4248   [ #  #  #  #  :          0 :         if (!req->io && io_alloc_async_ctx(req))
                   #  # ]
    4249                 :            :                 return -EAGAIN;
    4250                 :            : 
    4251                 :          0 :         ret = io_req_defer_prep(req, sqe);
    4252         [ #  # ]:          0 :         if (ret < 0)
    4253                 :            :                 return ret;
    4254                 :            : 
    4255                 :          0 :         spin_lock_irq(&ctx->completion_lock);
    4256   [ #  #  #  # ]:          0 :         if (!req_need_defer(req) && list_empty(&ctx->defer_list)) {
    4257                 :          0 :                 spin_unlock_irq(&ctx->completion_lock);
    4258                 :          0 :                 return 0;
    4259                 :            :         }
    4260                 :            : 
    4261                 :          0 :         trace_io_uring_defer(ctx, req, req->user_data);
    4262                 :          0 :         list_add_tail(&req->list, &ctx->defer_list);
    4263                 :          0 :         spin_unlock_irq(&ctx->completion_lock);
    4264                 :          0 :         return -EIOCBQUEUED;
    4265                 :            : }
    4266                 :            : 
    4267                 :          0 : static void io_cleanup_req(struct io_kiocb *req)
    4268                 :            : {
    4269                 :          0 :         struct io_async_ctx *io = req->io;
    4270                 :            : 
    4271   [ #  #  #  # ]:          0 :         switch (req->opcode) {
    4272                 :          0 :         case IORING_OP_READV:
    4273                 :            :         case IORING_OP_READ_FIXED:
    4274                 :            :         case IORING_OP_READ:
    4275                 :            :         case IORING_OP_WRITEV:
    4276                 :            :         case IORING_OP_WRITE_FIXED:
    4277                 :            :         case IORING_OP_WRITE:
    4278         [ #  # ]:          0 :                 if (io->rw.iov != io->rw.fast_iov)
    4279                 :          0 :                         kfree(io->rw.iov);
    4280                 :            :                 break;
    4281                 :          0 :         case IORING_OP_SENDMSG:
    4282                 :            :         case IORING_OP_RECVMSG:
    4283         [ #  # ]:          0 :                 if (io->msg.iov != io->msg.fast_iov)
    4284                 :          0 :                         kfree(io->msg.iov);
    4285                 :            :                 break;
    4286                 :          0 :         case IORING_OP_OPENAT:
    4287                 :            :         case IORING_OP_OPENAT2:
    4288                 :            :         case IORING_OP_STATX:
    4289                 :          0 :                 putname(req->open.filename);
    4290                 :          0 :                 break;
    4291                 :            :         }
    4292                 :            : 
    4293                 :          0 :         req->flags &= ~REQ_F_NEED_CLEANUP;
    4294                 :          0 : }
    4295                 :            : 
    4296                 :          0 : static int io_issue_sqe(struct io_kiocb *req, const struct io_uring_sqe *sqe,
    4297                 :            :                         struct io_kiocb **nxt, bool force_nonblock)
    4298                 :            : {
    4299                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    4300                 :          0 :         int ret;
    4301                 :            : 
    4302   [ #  #  #  #  :          0 :         switch (req->opcode) {
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
             #  #  #  #  
                      # ]
    4303                 :          0 :         case IORING_OP_NOP:
    4304                 :          0 :                 ret = io_nop(req);
    4305                 :          0 :                 break;
    4306                 :          0 :         case IORING_OP_READV:
    4307                 :            :         case IORING_OP_READ_FIXED:
    4308                 :            :         case IORING_OP_READ:
    4309         [ #  # ]:          0 :                 if (sqe) {
    4310                 :          0 :                         ret = io_read_prep(req, sqe, force_nonblock);
    4311         [ #  # ]:          0 :                         if (ret < 0)
    4312                 :            :                                 break;
    4313                 :            :                 }
    4314                 :          0 :                 ret = io_read(req, nxt, force_nonblock);
    4315                 :          0 :                 break;
    4316                 :          0 :         case IORING_OP_WRITEV:
    4317                 :            :         case IORING_OP_WRITE_FIXED:
    4318                 :            :         case IORING_OP_WRITE:
    4319         [ #  # ]:          0 :                 if (sqe) {
    4320                 :          0 :                         ret = io_write_prep(req, sqe, force_nonblock);
    4321         [ #  # ]:          0 :                         if (ret < 0)
    4322                 :            :                                 break;
    4323                 :            :                 }
    4324                 :          0 :                 ret = io_write(req, nxt, force_nonblock);
    4325                 :          0 :                 break;
    4326                 :          0 :         case IORING_OP_FSYNC:
    4327         [ #  # ]:          0 :                 if (sqe) {
    4328                 :          0 :                         ret = io_prep_fsync(req, sqe);
    4329         [ #  # ]:          0 :                         if (ret < 0)
    4330                 :            :                                 break;
    4331                 :            :                 }
    4332                 :          0 :                 ret = io_fsync(req, nxt, force_nonblock);
    4333                 :          0 :                 break;
    4334                 :          0 :         case IORING_OP_POLL_ADD:
    4335         [ #  # ]:          0 :                 if (sqe) {
    4336                 :          0 :                         ret = io_poll_add_prep(req, sqe);
    4337         [ #  # ]:          0 :                         if (ret)
    4338                 :            :                                 break;
    4339                 :            :                 }
    4340                 :          0 :                 ret = io_poll_add(req, nxt);
    4341                 :          0 :                 break;
    4342                 :          0 :         case IORING_OP_POLL_REMOVE:
    4343         [ #  # ]:          0 :                 if (sqe) {
    4344         [ #  # ]:          0 :                         ret = io_poll_remove_prep(req, sqe);
    4345                 :          0 :                         if (ret < 0)
    4346                 :            :                                 break;
    4347                 :            :                 }
    4348                 :          0 :                 ret = io_poll_remove(req);
    4349                 :          0 :                 break;
    4350                 :          0 :         case IORING_OP_SYNC_FILE_RANGE:
    4351         [ #  # ]:          0 :                 if (sqe) {
    4352         [ #  # ]:          0 :                         ret = io_prep_sfr(req, sqe);
    4353                 :          0 :                         if (ret < 0)
    4354                 :            :                                 break;
    4355                 :            :                 }
    4356                 :          0 :                 ret = io_sync_file_range(req, nxt, force_nonblock);
    4357                 :          0 :                 break;
    4358                 :          0 :         case IORING_OP_SENDMSG:
    4359                 :            :         case IORING_OP_SEND:
    4360         [ #  # ]:          0 :                 if (sqe) {
    4361                 :          0 :                         ret = io_sendmsg_prep(req, sqe);
    4362         [ #  # ]:          0 :                         if (ret < 0)
    4363                 :            :                                 break;
    4364                 :            :                 }
    4365         [ #  # ]:          0 :                 if (req->opcode == IORING_OP_SENDMSG)
    4366                 :          0 :                         ret = io_sendmsg(req, nxt, force_nonblock);
    4367                 :            :                 else
    4368                 :          0 :                         ret = io_send(req, nxt, force_nonblock);
    4369                 :            :                 break;
    4370                 :          0 :         case IORING_OP_RECVMSG:
    4371                 :            :         case IORING_OP_RECV:
    4372         [ #  # ]:          0 :                 if (sqe) {
    4373                 :          0 :                         ret = io_recvmsg_prep(req, sqe);
    4374         [ #  # ]:          0 :                         if (ret)
    4375                 :            :                                 break;
    4376                 :            :                 }
    4377         [ #  # ]:          0 :                 if (req->opcode == IORING_OP_RECVMSG)
    4378                 :          0 :                         ret = io_recvmsg(req, nxt, force_nonblock);
    4379                 :            :                 else
    4380                 :          0 :                         ret = io_recv(req, nxt, force_nonblock);
    4381                 :            :                 break;
    4382                 :          0 :         case IORING_OP_TIMEOUT:
    4383         [ #  # ]:          0 :                 if (sqe) {
    4384                 :          0 :                         ret = io_timeout_prep(req, sqe, false);
    4385         [ #  # ]:          0 :                         if (ret)
    4386                 :            :                                 break;
    4387                 :            :                 }
    4388                 :          0 :                 ret = io_timeout(req);
    4389                 :          0 :                 break;
    4390                 :          0 :         case IORING_OP_TIMEOUT_REMOVE:
    4391         [ #  # ]:          0 :                 if (sqe) {
    4392         [ #  # ]:          0 :                         ret = io_timeout_remove_prep(req, sqe);
    4393                 :            :                         if (ret)
    4394                 :            :                                 break;
    4395                 :            :                 }
    4396                 :          0 :                 ret = io_timeout_remove(req);
    4397                 :          0 :                 break;
    4398                 :          0 :         case IORING_OP_ACCEPT:
    4399         [ #  # ]:          0 :                 if (sqe) {
    4400                 :          0 :                         ret = io_accept_prep(req, sqe);
    4401         [ #  # ]:          0 :                         if (ret)
    4402                 :            :                                 break;
    4403                 :            :                 }
    4404                 :          0 :                 ret = io_accept(req, nxt, force_nonblock);
    4405                 :          0 :                 break;
    4406                 :          0 :         case IORING_OP_CONNECT:
    4407         [ #  # ]:          0 :                 if (sqe) {
    4408                 :          0 :                         ret = io_connect_prep(req, sqe);
    4409         [ #  # ]:          0 :                         if (ret)
    4410                 :            :                                 break;
    4411                 :            :                 }
    4412                 :          0 :                 ret = io_connect(req, nxt, force_nonblock);
    4413                 :          0 :                 break;
    4414                 :          0 :         case IORING_OP_ASYNC_CANCEL:
    4415         [ #  # ]:          0 :                 if (sqe) {
    4416         [ #  # ]:          0 :                         ret = io_async_cancel_prep(req, sqe);
    4417                 :          0 :                         if (ret)
    4418                 :            :                                 break;
    4419                 :            :                 }
    4420                 :          0 :                 ret = io_async_cancel(req, nxt);
    4421                 :          0 :                 break;
    4422                 :          0 :         case IORING_OP_FALLOCATE:
    4423         [ #  # ]:          0 :                 if (sqe) {
    4424         [ #  # ]:          0 :                         ret = io_fallocate_prep(req, sqe);
    4425                 :          0 :                         if (ret)
    4426                 :            :                                 break;
    4427                 :            :                 }
    4428                 :          0 :                 ret = io_fallocate(req, nxt, force_nonblock);
    4429                 :          0 :                 break;
    4430                 :          0 :         case IORING_OP_OPENAT:
    4431         [ #  # ]:          0 :                 if (sqe) {
    4432                 :          0 :                         ret = io_openat_prep(req, sqe);
    4433         [ #  # ]:          0 :                         if (ret)
    4434                 :            :                                 break;
    4435                 :            :                 }
    4436                 :          0 :                 ret = io_openat(req, nxt, force_nonblock);
    4437                 :          0 :                 break;
    4438                 :          0 :         case IORING_OP_CLOSE:
    4439         [ #  # ]:          0 :                 if (sqe) {
    4440                 :          0 :                         ret = io_close_prep(req, sqe);
    4441         [ #  # ]:          0 :                         if (ret)
    4442                 :            :                                 break;
    4443                 :            :                 }
    4444                 :          0 :                 ret = io_close(req, nxt, force_nonblock);
    4445                 :          0 :                 break;
    4446                 :          0 :         case IORING_OP_FILES_UPDATE:
    4447         [ #  # ]:          0 :                 if (sqe) {
    4448         [ #  # ]:          0 :                         ret = io_files_update_prep(req, sqe);
    4449                 :          0 :                         if (ret)
    4450                 :            :                                 break;
    4451                 :            :                 }
    4452                 :          0 :                 ret = io_files_update(req, force_nonblock);
    4453                 :          0 :                 break;
    4454                 :          0 :         case IORING_OP_STATX:
    4455         [ #  # ]:          0 :                 if (sqe) {
    4456                 :          0 :                         ret = io_statx_prep(req, sqe);
    4457         [ #  # ]:          0 :                         if (ret)
    4458                 :            :                                 break;
    4459                 :            :                 }
    4460                 :          0 :                 ret = io_statx(req, nxt, force_nonblock);
    4461                 :          0 :                 break;
    4462                 :          0 :         case IORING_OP_FADVISE:
    4463         [ #  # ]:          0 :                 if (sqe) {
    4464         [ #  # ]:          0 :                         ret = io_fadvise_prep(req, sqe);
    4465                 :          0 :                         if (ret)
    4466                 :            :                                 break;
    4467                 :            :                 }
    4468                 :          0 :                 ret = io_fadvise(req, nxt, force_nonblock);
    4469                 :          0 :                 break;
    4470                 :          0 :         case IORING_OP_MADVISE:
    4471         [ #  # ]:          0 :                 if (sqe) {
    4472         [ #  # ]:          0 :                         ret = io_madvise_prep(req, sqe);
    4473                 :          0 :                         if (ret)
    4474                 :            :                                 break;
    4475                 :            :                 }
    4476                 :          0 :                 ret = io_madvise(req, nxt, force_nonblock);
    4477                 :          0 :                 break;
    4478                 :          0 :         case IORING_OP_OPENAT2:
    4479         [ #  # ]:          0 :                 if (sqe) {
    4480                 :          0 :                         ret = io_openat2_prep(req, sqe);
    4481         [ #  # ]:          0 :                         if (ret)
    4482                 :            :                                 break;
    4483                 :            :                 }
    4484                 :          0 :                 ret = io_openat2(req, nxt, force_nonblock);
    4485                 :          0 :                 break;
    4486                 :          0 :         case IORING_OP_EPOLL_CTL:
    4487         [ #  # ]:          0 :                 if (sqe) {
    4488                 :          0 :                         ret = io_epoll_ctl_prep(req, sqe);
    4489         [ #  # ]:          0 :                         if (ret)
    4490                 :            :                                 break;
    4491                 :            :                 }
    4492                 :          0 :                 ret = io_epoll_ctl(req, nxt, force_nonblock);
    4493                 :          0 :                 break;
    4494                 :            :         default:
    4495                 :            :                 ret = -EINVAL;
    4496                 :            :                 break;
    4497                 :            :         }
    4498                 :            : 
    4499         [ #  # ]:          0 :         if (ret)
    4500                 :          0 :                 return ret;
    4501                 :            : 
    4502         [ #  # ]:          0 :         if (ctx->flags & IORING_SETUP_IOPOLL) {
    4503         [ #  # ]:          0 :                 const bool in_async = io_wq_current_is_worker();
    4504                 :            : 
    4505         [ #  # ]:          0 :                 if (req->result == -EAGAIN)
    4506                 :            :                         return -EAGAIN;
    4507                 :            : 
    4508                 :            :                 /* workqueue context doesn't hold uring_lock, grab it now */
    4509         [ #  # ]:          0 :                 if (in_async)
    4510                 :          0 :                         mutex_lock(&ctx->uring_lock);
    4511                 :            : 
    4512                 :          0 :                 io_iopoll_req_issued(req);
    4513                 :            : 
    4514         [ #  # ]:          0 :                 if (in_async)
    4515                 :          0 :                         mutex_unlock(&ctx->uring_lock);
    4516                 :            :         }
    4517                 :            : 
    4518                 :            :         return 0;
    4519                 :            : }
    4520                 :            : 
    4521                 :          0 : static void io_wq_submit_work(struct io_wq_work **workptr)
    4522                 :            : {
    4523                 :          0 :         struct io_wq_work *work = *workptr;
    4524                 :          0 :         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
    4525                 :          0 :         struct io_kiocb *nxt = NULL;
    4526                 :          0 :         int ret = 0;
    4527                 :            : 
    4528                 :            :         /* if NO_CANCEL is set, we must still run the work */
    4529         [ #  # ]:          0 :         if ((work->flags & (IO_WQ_WORK_CANCEL|IO_WQ_WORK_NO_CANCEL)) ==
    4530                 :            :                                 IO_WQ_WORK_CANCEL) {
    4531                 :            :                 ret = -ECANCELED;
    4532                 :            :         }
    4533                 :            : 
    4534                 :          0 :         if (!ret) {
    4535                 :          0 :                 req->in_async = true;
    4536                 :          0 :                 do {
    4537                 :          0 :                         ret = io_issue_sqe(req, NULL, &nxt, false);
    4538                 :            :                         /*
    4539                 :            :                          * We can get EAGAIN for polled IO even though we're
    4540                 :            :                          * forcing a sync submission from here, since we can't
    4541                 :            :                          * wait for request slots on the block side.
    4542                 :            :                          */
    4543         [ #  # ]:          0 :                         if (ret != -EAGAIN)
    4544                 :            :                                 break;
    4545                 :          0 :                         cond_resched();
    4546                 :          0 :                 } while (1);
    4547                 :            :         }
    4548                 :            : 
    4549                 :            :         /* drop submission reference */
    4550                 :          0 :         io_put_req(req);
    4551                 :            : 
    4552         [ #  # ]:          0 :         if (ret) {
    4553         [ #  # ]:          0 :                 req_set_fail_links(req);
    4554                 :          0 :                 io_cqring_add_event(req, ret);
    4555                 :          0 :                 io_put_req(req);
    4556                 :            :         }
    4557                 :            : 
    4558                 :            :         /* if a dependent link is ready, pass it back */
    4559   [ #  #  #  # ]:          0 :         if (!ret && nxt)
    4560                 :          0 :                 io_wq_assign_next(workptr, nxt);
    4561                 :          0 : }
    4562                 :            : 
    4563                 :          0 : static int io_req_needs_file(struct io_kiocb *req, int fd)
    4564                 :            : {
    4565                 :          0 :         if (!io_op_defs[req->opcode].needs_file)
    4566                 :            :                 return 0;
    4567   [ #  #  #  # ]:          0 :         if ((fd == -1 || fd == AT_FDCWD) && io_op_defs[req->opcode].fd_non_neg)
    4568                 :            :                 return 0;
    4569                 :            :         return 1;
    4570                 :            : }
    4571                 :            : 
    4572                 :          0 : static inline struct file *io_file_from_index(struct io_ring_ctx *ctx,
    4573                 :            :                                               int index)
    4574                 :            : {
    4575                 :          0 :         struct fixed_file_table *table;
    4576                 :            : 
    4577                 :          0 :         table = &ctx->file_data->table[index >> IORING_FILE_TABLE_SHIFT];
    4578                 :          0 :         return table->files[index & IORING_FILE_TABLE_MASK];;
    4579                 :            : }
    4580                 :            : 
    4581                 :          0 : static int io_req_set_file(struct io_submit_state *state, struct io_kiocb *req,
    4582                 :            :                            const struct io_uring_sqe *sqe)
    4583                 :            : {
    4584                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    4585                 :          0 :         unsigned flags;
    4586                 :          0 :         int fd;
    4587                 :            : 
    4588         [ #  # ]:          0 :         flags = READ_ONCE(sqe->flags);
    4589                 :          0 :         fd = READ_ONCE(sqe->fd);
    4590                 :            : 
    4591         [ #  # ]:          0 :         if (!io_req_needs_file(req, fd))
    4592                 :            :                 return 0;
    4593                 :            : 
    4594         [ #  # ]:          0 :         if (flags & IOSQE_FIXED_FILE) {
    4595   [ #  #  #  # ]:          0 :                 if (unlikely(!ctx->file_data ||
    4596                 :            :                     (unsigned) fd >= ctx->nr_user_files))
    4597                 :            :                         return -EBADF;
    4598                 :          0 :                 fd = array_index_nospec(fd, ctx->nr_user_files);
    4599                 :          0 :                 req->file = io_file_from_index(ctx, fd);
    4600         [ #  # ]:          0 :                 if (!req->file)
    4601                 :            :                         return -EBADF;
    4602                 :          0 :                 req->flags |= REQ_F_FIXED_FILE;
    4603                 :          0 :                 percpu_ref_get(&ctx->file_data->refs);
    4604                 :            :         } else {
    4605         [ #  # ]:          0 :                 if (req->needs_fixed_file)
    4606                 :            :                         return -EBADF;
    4607                 :          0 :                 trace_io_uring_file_get(ctx, fd);
    4608                 :          0 :                 req->file = io_file_get(state, fd);
    4609         [ #  # ]:          0 :                 if (unlikely(!req->file))
    4610                 :          0 :                         return -EBADF;
    4611                 :            :         }
    4612                 :            : 
    4613                 :            :         return 0;
    4614                 :            : }
    4615                 :            : 
    4616                 :          0 : static int io_grab_files(struct io_kiocb *req)
    4617                 :            : {
    4618                 :          0 :         int ret = -EBADF;
    4619                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    4620                 :            : 
    4621         [ #  # ]:          0 :         if (req->work.files)
    4622                 :            :                 return 0;
    4623         [ #  # ]:          0 :         if (!ctx->ring_file)
    4624                 :            :                 return -EBADF;
    4625                 :            : 
    4626                 :          0 :         rcu_read_lock();
    4627                 :          0 :         spin_lock_irq(&ctx->inflight_lock);
    4628                 :            :         /*
    4629                 :            :          * We use the f_ops->flush() handler to ensure that we can flush
    4630                 :            :          * out work accessing these files if the fd is closed. Check if
    4631                 :            :          * the fd has changed since we started down this path, and disallow
    4632                 :            :          * this operation if it has.
    4633                 :            :          */
    4634   [ #  #  #  # ]:          0 :         if (fcheck(ctx->ring_fd) == ctx->ring_file) {
    4635                 :          0 :                 list_add(&req->inflight_entry, &ctx->inflight_list);
    4636                 :          0 :                 req->flags |= REQ_F_INFLIGHT;
    4637                 :          0 :                 req->work.files = current->files;
    4638                 :          0 :                 ret = 0;
    4639                 :            :         }
    4640                 :          0 :         spin_unlock_irq(&ctx->inflight_lock);
    4641                 :          0 :         rcu_read_unlock();
    4642                 :            : 
    4643                 :          0 :         return ret;
    4644                 :            : }
    4645                 :            : 
    4646                 :          0 : static enum hrtimer_restart io_link_timeout_fn(struct hrtimer *timer)
    4647                 :            : {
    4648                 :          0 :         struct io_timeout_data *data = container_of(timer,
    4649                 :            :                                                 struct io_timeout_data, timer);
    4650                 :          0 :         struct io_kiocb *req = data->req;
    4651                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    4652                 :          0 :         struct io_kiocb *prev = NULL;
    4653                 :          0 :         unsigned long flags;
    4654                 :            : 
    4655                 :          0 :         spin_lock_irqsave(&ctx->completion_lock, flags);
    4656                 :            : 
    4657                 :            :         /*
    4658                 :            :          * We don't expect the list to be empty, that will only happen if we
    4659                 :            :          * race with the completion of the linked work.
    4660                 :            :          */
    4661         [ #  # ]:          0 :         if (!list_empty(&req->link_list)) {
    4662                 :          0 :                 prev = list_entry(req->link_list.prev, struct io_kiocb,
    4663                 :            :                                   link_list);
    4664         [ #  # ]:          0 :                 if (refcount_inc_not_zero(&prev->refs)) {
    4665                 :          0 :                         list_del_init(&req->link_list);
    4666                 :          0 :                         prev->flags &= ~REQ_F_LINK_TIMEOUT;
    4667                 :            :                 } else
    4668                 :            :                         prev = NULL;
    4669                 :            :         }
    4670                 :            : 
    4671                 :          0 :         spin_unlock_irqrestore(&ctx->completion_lock, flags);
    4672                 :            : 
    4673         [ #  # ]:          0 :         if (prev) {
    4674         [ #  # ]:          0 :                 req_set_fail_links(prev);
    4675                 :          0 :                 io_async_find_and_cancel(ctx, req, prev->user_data, NULL,
    4676                 :            :                                                 -ETIME);
    4677                 :          0 :                 io_put_req(prev);
    4678                 :            :         } else {
    4679                 :          0 :                 io_cqring_add_event(req, -ETIME);
    4680                 :          0 :                 io_put_req(req);
    4681                 :            :         }
    4682                 :          0 :         return HRTIMER_NORESTART;
    4683                 :            : }
    4684                 :            : 
    4685                 :          0 : static void io_queue_linked_timeout(struct io_kiocb *req)
    4686                 :            : {
    4687                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    4688                 :            : 
    4689                 :            :         /*
    4690                 :            :          * If the list is now empty, then our linked request finished before
    4691                 :            :          * we got a chance to setup the timer
    4692                 :            :          */
    4693                 :          0 :         spin_lock_irq(&ctx->completion_lock);
    4694         [ #  # ]:          0 :         if (!list_empty(&req->link_list)) {
    4695                 :          0 :                 struct io_timeout_data *data = &req->io->timeout;
    4696                 :            : 
    4697                 :          0 :                 data->timer.function = io_link_timeout_fn;
    4698         [ #  # ]:          0 :                 hrtimer_start(&data->timer, timespec64_to_ktime(data->ts),
    4699                 :            :                                 data->mode);
    4700                 :            :         }
    4701                 :          0 :         spin_unlock_irq(&ctx->completion_lock);
    4702                 :            : 
    4703                 :            :         /* drop submission reference */
    4704                 :          0 :         io_put_req(req);
    4705                 :          0 : }
    4706                 :            : 
    4707                 :          0 : static struct io_kiocb *io_prep_linked_timeout(struct io_kiocb *req)
    4708                 :            : {
    4709                 :          0 :         struct io_kiocb *nxt;
    4710                 :            : 
    4711         [ #  # ]:          0 :         if (!(req->flags & REQ_F_LINK))
    4712                 :            :                 return NULL;
    4713                 :            : 
    4714   [ #  #  #  # ]:          0 :         nxt = list_first_entry_or_null(&req->link_list, struct io_kiocb,
    4715                 :            :                                         link_list);
    4716   [ #  #  #  #  :          0 :         if (!nxt || nxt->opcode != IORING_OP_LINK_TIMEOUT)
             #  #  #  # ]
    4717                 :            :                 return NULL;
    4718                 :            : 
    4719                 :          0 :         req->flags |= REQ_F_LINK_TIMEOUT;
    4720                 :          0 :         return nxt;
    4721                 :            : }
    4722                 :            : 
    4723                 :          0 : static void __io_queue_sqe(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    4724                 :            : {
    4725                 :          0 :         struct io_kiocb *linked_timeout;
    4726                 :          0 :         struct io_kiocb *nxt = NULL;
    4727                 :          0 :         const struct cred *old_creds = NULL;
    4728                 :          0 :         int ret;
    4729                 :            : 
    4730                 :          0 : again:
    4731         [ #  # ]:          0 :         linked_timeout = io_prep_linked_timeout(req);
    4732                 :            : 
    4733   [ #  #  #  # ]:          0 :         if (req->work.creds && req->work.creds != current_cred()) {
    4734         [ #  # ]:          0 :                 if (old_creds)
    4735                 :          0 :                         revert_creds(old_creds);
    4736         [ #  # ]:          0 :                 if (old_creds == req->work.creds)
    4737                 :            :                         old_creds = NULL; /* restored original creds */
    4738                 :            :                 else
    4739                 :          0 :                         old_creds = override_creds(req->work.creds);
    4740                 :            :         }
    4741                 :            : 
    4742                 :          0 :         ret = io_issue_sqe(req, sqe, &nxt, true);
    4743                 :            : 
    4744                 :            :         /*
    4745                 :            :          * We async punt it if the file wasn't marked NOWAIT, or if the file
    4746                 :            :          * doesn't support non-blocking read/write attempts
    4747                 :            :          */
    4748   [ #  #  #  # ]:          0 :         if (ret == -EAGAIN && (!(req->flags & REQ_F_NOWAIT) ||
    4749                 :            :             (req->flags & REQ_F_MUST_PUNT))) {
    4750                 :          0 : punt:
    4751         [ #  # ]:          0 :                 if (io_op_defs[req->opcode].file_table) {
    4752                 :          0 :                         ret = io_grab_files(req);
    4753         [ #  # ]:          0 :                         if (ret)
    4754                 :          0 :                                 goto err;
    4755                 :            :                 }
    4756                 :            : 
    4757                 :            :                 /*
    4758                 :            :                  * Queued up for async execution, worker will release
    4759                 :            :                  * submit reference when the iocb is actually submitted.
    4760                 :            :                  */
    4761                 :          0 :                 io_queue_async_work(req);
    4762                 :          0 :                 goto done_req;
    4763                 :            :         }
    4764                 :            : 
    4765                 :          0 : err:
    4766                 :            :         /* drop submission reference */
    4767                 :          0 :         io_put_req_find_next(req, &nxt);
    4768                 :            : 
    4769         [ #  # ]:          0 :         if (linked_timeout) {
    4770         [ #  # ]:          0 :                 if (!ret)
    4771                 :          0 :                         io_queue_linked_timeout(linked_timeout);
    4772                 :            :                 else
    4773                 :          0 :                         io_put_req(linked_timeout);
    4774                 :            :         }
    4775                 :            : 
    4776                 :            :         /* and drop final reference, if we failed */
    4777         [ #  # ]:          0 :         if (ret) {
    4778                 :          0 :                 io_cqring_add_event(req, ret);
    4779         [ #  # ]:          0 :                 req_set_fail_links(req);
    4780                 :          0 :                 io_put_req(req);
    4781                 :            :         }
    4782                 :          0 : done_req:
    4783         [ #  # ]:          0 :         if (nxt) {
    4784                 :          0 :                 req = nxt;
    4785                 :          0 :                 nxt = NULL;
    4786                 :            : 
    4787         [ #  # ]:          0 :                 if (req->flags & REQ_F_FORCE_ASYNC)
    4788                 :          0 :                         goto punt;
    4789                 :          0 :                 goto again;
    4790                 :            :         }
    4791         [ #  # ]:          0 :         if (old_creds)
    4792                 :          0 :                 revert_creds(old_creds);
    4793                 :          0 : }
    4794                 :            : 
    4795                 :          0 : static void io_queue_sqe(struct io_kiocb *req, const struct io_uring_sqe *sqe)
    4796                 :            : {
    4797                 :          0 :         int ret;
    4798                 :            : 
    4799                 :          0 :         ret = io_req_defer(req, sqe);
    4800         [ #  # ]:          0 :         if (ret) {
    4801         [ #  # ]:          0 :                 if (ret != -EIOCBQUEUED) {
    4802                 :          0 : fail_req:
    4803                 :          0 :                         io_cqring_add_event(req, ret);
    4804         [ #  # ]:          0 :                         req_set_fail_links(req);
    4805                 :          0 :                         io_double_put_req(req);
    4806                 :            :                 }
    4807         [ #  # ]:          0 :         } else if (req->flags & REQ_F_FORCE_ASYNC) {
    4808                 :          0 :                 ret = io_req_defer_prep(req, sqe);
    4809         [ #  # ]:          0 :                 if (unlikely(ret < 0))
    4810                 :          0 :                         goto fail_req;
    4811                 :            :                 /*
    4812                 :            :                  * Never try inline submit of IOSQE_ASYNC is set, go straight
    4813                 :            :                  * to async execution.
    4814                 :            :                  */
    4815                 :          0 :                 req->work.flags |= IO_WQ_WORK_CONCURRENT;
    4816                 :          0 :                 io_queue_async_work(req);
    4817                 :            :         } else {
    4818                 :          0 :                 __io_queue_sqe(req, sqe);
    4819                 :            :         }
    4820                 :          0 : }
    4821                 :            : 
    4822                 :          0 : static inline void io_queue_link_head(struct io_kiocb *req)
    4823                 :            : {
    4824         [ #  # ]:          0 :         if (unlikely(req->flags & REQ_F_FAIL_LINK)) {
    4825                 :          0 :                 io_cqring_add_event(req, -ECANCELED);
    4826                 :          0 :                 io_double_put_req(req);
    4827                 :            :         } else
    4828                 :          0 :                 io_queue_sqe(req, NULL);
    4829                 :          0 : }
    4830                 :            : 
    4831                 :            : #define SQE_VALID_FLAGS (IOSQE_FIXED_FILE|IOSQE_IO_DRAIN|IOSQE_IO_LINK| \
    4832                 :            :                                 IOSQE_IO_HARDLINK | IOSQE_ASYNC)
    4833                 :            : 
    4834                 :          0 : static bool io_submit_sqe(struct io_kiocb *req, const struct io_uring_sqe *sqe,
    4835                 :            :                           struct io_submit_state *state, struct io_kiocb **link)
    4836                 :            : {
    4837                 :          0 :         struct io_ring_ctx *ctx = req->ctx;
    4838                 :          0 :         unsigned int sqe_flags;
    4839                 :          0 :         int ret, id;
    4840                 :            : 
    4841         [ #  # ]:          0 :         sqe_flags = READ_ONCE(sqe->flags);
    4842                 :            : 
    4843                 :            :         /* enforce forwards compatibility on users */
    4844         [ #  # ]:          0 :         if (unlikely(sqe_flags & ~SQE_VALID_FLAGS)) {
    4845                 :          0 :                 ret = -EINVAL;
    4846                 :          0 :                 goto err_req;
    4847                 :            :         }
    4848                 :            : 
    4849         [ #  # ]:          0 :         id = READ_ONCE(sqe->personality);
    4850         [ #  # ]:          0 :         if (id) {
    4851                 :          0 :                 req->work.creds = idr_find(&ctx->personality_idr, id);
    4852         [ #  # ]:          0 :                 if (unlikely(!req->work.creds)) {
    4853                 :          0 :                         ret = -EINVAL;
    4854                 :          0 :                         goto err_req;
    4855                 :            :                 }
    4856         [ #  # ]:          0 :                 get_cred(req->work.creds);
    4857                 :            :         }
    4858                 :            : 
    4859                 :            :         /* same numerical values with corresponding REQ_F_*, safe to copy */
    4860                 :          0 :         req->flags |= sqe_flags & (IOSQE_IO_DRAIN|IOSQE_IO_HARDLINK|
    4861                 :            :                                         IOSQE_ASYNC);
    4862                 :            : 
    4863                 :          0 :         ret = io_req_set_file(state, req, sqe);
    4864         [ #  # ]:          0 :         if (unlikely(ret)) {
    4865                 :          0 : err_req:
    4866                 :          0 :                 io_cqring_add_event(req, ret);
    4867                 :          0 :                 io_double_put_req(req);
    4868                 :          0 :                 return false;
    4869                 :            :         }
    4870                 :            : 
    4871                 :            :         /*
    4872                 :            :          * If we already have a head request, queue this one for async
    4873                 :            :          * submittal once the head completes. If we don't have a head but
    4874                 :            :          * IOSQE_IO_LINK is set in the sqe, start a new head. This one will be
    4875                 :            :          * submitted sync once the chain is complete. If none of those
    4876                 :            :          * conditions are true (normal request), then just queue it.
    4877                 :            :          */
    4878         [ #  # ]:          0 :         if (*link) {
    4879                 :          0 :                 struct io_kiocb *head = *link;
    4880                 :            : 
    4881                 :            :                 /*
    4882                 :            :                  * Taking sequential execution of a link, draining both sides
    4883                 :            :                  * of the link also fullfils IOSQE_IO_DRAIN semantics for all
    4884                 :            :                  * requests in the link. So, it drains the head and the
    4885                 :            :                  * next after the link request. The last one is done via
    4886                 :            :                  * drain_next flag to persist the effect across calls.
    4887                 :            :                  */
    4888         [ #  # ]:          0 :                 if (sqe_flags & IOSQE_IO_DRAIN) {
    4889                 :          0 :                         head->flags |= REQ_F_IO_DRAIN;
    4890                 :          0 :                         ctx->drain_next = 1;
    4891                 :            :                 }
    4892   [ #  #  #  # ]:          0 :                 if (io_alloc_async_ctx(req)) {
    4893                 :          0 :                         ret = -EAGAIN;
    4894                 :          0 :                         goto err_req;
    4895                 :            :                 }
    4896                 :            : 
    4897                 :          0 :                 ret = io_req_defer_prep(req, sqe);
    4898         [ #  # ]:          0 :                 if (ret) {
    4899                 :            :                         /* fail even hard links since we don't submit */
    4900                 :          0 :                         head->flags |= REQ_F_FAIL_LINK;
    4901                 :          0 :                         goto err_req;
    4902                 :            :                 }
    4903                 :          0 :                 trace_io_uring_link(ctx, req, head);
    4904         [ #  # ]:          0 :                 list_add_tail(&req->link_list, &head->link_list);
    4905                 :            : 
    4906                 :            :                 /* last request of a link, enqueue the link */
    4907         [ #  # ]:          0 :                 if (!(sqe_flags & (IOSQE_IO_LINK|IOSQE_IO_HARDLINK))) {
    4908                 :          0 :                         io_queue_link_head(head);
    4909                 :          0 :                         *link = NULL;
    4910                 :            :                 }
    4911                 :            :         } else {
    4912         [ #  # ]:          0 :                 if (unlikely(ctx->drain_next)) {
    4913                 :          0 :                         req->flags |= REQ_F_IO_DRAIN;
    4914                 :          0 :                         req->ctx->drain_next = 0;
    4915                 :            :                 }
    4916         [ #  # ]:          0 :                 if (sqe_flags & (IOSQE_IO_LINK|IOSQE_IO_HARDLINK)) {
    4917                 :          0 :                         req->flags |= REQ_F_LINK;
    4918         [ #  # ]:          0 :                         INIT_LIST_HEAD(&req->link_list);
    4919                 :            : 
    4920   [ #  #  #  # ]:          0 :                         if (io_alloc_async_ctx(req)) {
    4921                 :          0 :                                 ret = -EAGAIN;
    4922                 :          0 :                                 goto err_req;
    4923                 :            :                         }
    4924                 :          0 :                         ret = io_req_defer_prep(req, sqe);
    4925         [ #  # ]:          0 :                         if (ret)
    4926                 :          0 :                                 req->flags |= REQ_F_FAIL_LINK;
    4927                 :          0 :                         *link = req;
    4928                 :            :                 } else {
    4929                 :          0 :                         io_queue_sqe(req, sqe);
    4930                 :            :                 }
    4931                 :            :         }
    4932                 :            : 
    4933                 :            :         return true;
    4934                 :            : }
    4935                 :            : 
    4936                 :            : /*
    4937                 :            :  * Batched submission is done, ensure local IO is flushed out.
    4938                 :            :  */
    4939                 :          0 : static void io_submit_state_end(struct io_submit_state *state)
    4940                 :            : {
    4941                 :          0 :         blk_finish_plug(&state->plug);
    4942                 :          0 :         io_file_put(state);
    4943         [ #  # ]:          0 :         if (state->free_reqs)
    4944                 :          0 :                 kmem_cache_free_bulk(req_cachep, state->free_reqs, state->reqs);
    4945                 :          0 : }
    4946                 :            : 
    4947                 :            : /*
    4948                 :            :  * Start submission side cache.
    4949                 :            :  */
    4950                 :          0 : static void io_submit_state_start(struct io_submit_state *state,
    4951                 :            :                                   unsigned int max_ios)
    4952                 :            : {
    4953                 :          0 :         blk_start_plug(&state->plug);
    4954                 :          0 :         state->free_reqs = 0;
    4955                 :          0 :         state->file = NULL;
    4956                 :          0 :         state->ios_left = max_ios;
    4957                 :            : }
    4958                 :            : 
    4959                 :          0 : static void io_commit_sqring(struct io_ring_ctx *ctx)
    4960                 :            : {
    4961                 :          0 :         struct io_rings *rings = ctx->rings;
    4962                 :            : 
    4963                 :            :         /*
    4964                 :            :          * Ensure any loads from the SQEs are done at this point,
    4965                 :            :          * since once we write the new head, the application could
    4966                 :            :          * write new data to them.
    4967                 :            :          */
    4968                 :          0 :         smp_store_release(&rings->sq.head, ctx->cached_sq_head);
    4969                 :            : }
    4970                 :            : 
    4971                 :            : /*
    4972                 :            :  * Fetch an sqe, if one is available. Note that sqe_ptr will point to memory
    4973                 :            :  * that is mapped by userspace. This means that care needs to be taken to
    4974                 :            :  * ensure that reads are stable, as we cannot rely on userspace always
    4975                 :            :  * being a good citizen. If members of the sqe are validated and then later
    4976                 :            :  * used, it's important that those reads are done through READ_ONCE() to
    4977                 :            :  * prevent a re-load down the line.
    4978                 :            :  */
    4979                 :          0 : static bool io_get_sqring(struct io_ring_ctx *ctx, struct io_kiocb *req,
    4980                 :            :                           const struct io_uring_sqe **sqe_ptr)
    4981                 :            : {
    4982                 :          0 :         u32 *sq_array = ctx->sq_array;
    4983                 :          0 :         unsigned head;
    4984                 :            : 
    4985                 :            :         /*
    4986                 :            :          * The cached sq head (or cq tail) serves two purposes:
    4987                 :            :          *
    4988                 :            :          * 1) allows us to batch the cost of updating the user visible
    4989                 :            :          *    head updates.
    4990                 :            :          * 2) allows the kernel side to track the head on its own, even
    4991                 :            :          *    though the application is the one updating it.
    4992                 :            :          */
    4993         [ #  # ]:          0 :         head = READ_ONCE(sq_array[ctx->cached_sq_head & ctx->sq_mask]);
    4994         [ #  # ]:          0 :         if (likely(head < ctx->sq_entries)) {
    4995                 :            :                 /*
    4996                 :            :                  * All io need record the previous position, if LINK vs DARIN,
    4997                 :            :                  * it can be used to mark the position of the first IO in the
    4998                 :            :                  * link list.
    4999                 :            :                  */
    5000                 :          0 :                 req->sequence = ctx->cached_sq_head;
    5001                 :          0 :                 *sqe_ptr = &ctx->sq_sqes[head];
    5002                 :          0 :                 req->opcode = READ_ONCE((*sqe_ptr)->opcode);
    5003                 :          0 :                 req->user_data = READ_ONCE((*sqe_ptr)->user_data);
    5004                 :          0 :                 ctx->cached_sq_head++;
    5005                 :          0 :                 return true;
    5006                 :            :         }
    5007                 :            : 
    5008                 :            :         /* drop invalid entries */
    5009                 :          0 :         ctx->cached_sq_head++;
    5010                 :          0 :         ctx->cached_sq_dropped++;
    5011                 :          0 :         WRITE_ONCE(ctx->rings->sq_dropped, ctx->cached_sq_dropped);
    5012                 :          0 :         return false;
    5013                 :            : }
    5014                 :            : 
    5015                 :          0 : static int io_submit_sqes(struct io_ring_ctx *ctx, unsigned int nr,
    5016                 :            :                           struct file *ring_file, int ring_fd,
    5017                 :            :                           struct mm_struct **mm, bool async)
    5018                 :            : {
    5019                 :          0 :         struct io_submit_state state, *statep = NULL;
    5020                 :          0 :         struct io_kiocb *link = NULL;
    5021                 :          0 :         int i, submitted = 0;
    5022                 :          0 :         bool mm_fault = false;
    5023                 :            : 
    5024                 :            :         /* if we have a backlog and couldn't flush it all, return BUSY */
    5025         [ #  # ]:          0 :         if (test_bit(0, &ctx->sq_check_overflow)) {
    5026   [ #  #  #  # ]:          0 :                 if (!list_empty(&ctx->cq_overflow_list) &&
    5027                 :          0 :                     !io_cqring_overflow_flush(ctx, false))
    5028                 :            :                         return -EBUSY;
    5029                 :            :         }
    5030                 :            : 
    5031                 :            :         /* make sure SQ entry isn't read before tail */
    5032                 :          0 :         nr = min3(nr, ctx->sq_entries, io_sqring_entries(ctx));
    5033                 :            : 
    5034         [ #  # ]:          0 :         if (!percpu_ref_tryget_many(&ctx->refs, nr))
    5035                 :            :                 return -EAGAIN;
    5036                 :            : 
    5037         [ #  # ]:          0 :         if (nr > IO_PLUG_THRESHOLD) {
    5038                 :          0 :                 io_submit_state_start(&state, nr);
    5039                 :          0 :                 statep = &state;
    5040                 :            :         }
    5041                 :            : 
    5042                 :          0 :         ctx->ring_fd = ring_fd;
    5043                 :          0 :         ctx->ring_file = ring_file;
    5044                 :            : 
    5045         [ #  # ]:          0 :         for (i = 0; i < nr; i++) {
    5046                 :          0 :                 const struct io_uring_sqe *sqe;
    5047                 :          0 :                 struct io_kiocb *req;
    5048                 :          0 :                 int err;
    5049                 :            : 
    5050                 :          0 :                 req = io_get_req(ctx, statep);
    5051         [ #  # ]:          0 :                 if (unlikely(!req)) {
    5052         [ #  # ]:          0 :                         if (!submitted)
    5053                 :          0 :                                 submitted = -EAGAIN;
    5054                 :          0 :                         break;
    5055                 :            :                 }
    5056         [ #  # ]:          0 :                 if (!io_get_sqring(ctx, req, &sqe)) {
    5057                 :          0 :                         __io_req_do_free(req);
    5058                 :          0 :                         break;
    5059                 :            :                 }
    5060                 :            : 
    5061                 :            :                 /* will complete beyond this point, count as submitted */
    5062                 :          0 :                 submitted++;
    5063                 :            : 
    5064         [ #  # ]:          0 :                 if (unlikely(req->opcode >= IORING_OP_LAST)) {
    5065                 :            :                         err = -EINVAL;
    5066                 :          0 : fail_req:
    5067                 :          0 :                         io_cqring_add_event(req, err);
    5068                 :          0 :                         io_double_put_req(req);
    5069                 :          0 :                         break;
    5070                 :            :                 }
    5071                 :            : 
    5072   [ #  #  #  # ]:          0 :                 if (io_op_defs[req->opcode].needs_mm && !*mm) {
    5073   [ #  #  #  # ]:          0 :                         mm_fault = mm_fault || !mmget_not_zero(ctx->sqo_mm);
    5074         [ #  # ]:          0 :                         if (unlikely(mm_fault)) {
    5075                 :          0 :                                 err = -EFAULT;
    5076                 :          0 :                                 goto fail_req;
    5077                 :            :                         }
    5078                 :          0 :                         use_mm(ctx->sqo_mm);
    5079                 :          0 :                         *mm = ctx->sqo_mm;
    5080                 :            :                 }
    5081                 :            : 
    5082                 :          0 :                 req->in_async = async;
    5083                 :          0 :                 req->needs_fixed_file = async;
    5084                 :          0 :                 trace_io_uring_submit_sqe(ctx, req->opcode, req->user_data,
    5085                 :            :                                                 true, async);
    5086         [ #  # ]:          0 :                 if (!io_submit_sqe(req, sqe, statep, &link))
    5087                 :            :                         break;
    5088                 :            :         }
    5089                 :            : 
    5090         [ #  # ]:          0 :         if (unlikely(submitted != nr)) {
    5091         [ #  # ]:          0 :                 int ref_used = (submitted == -EAGAIN) ? 0 : submitted;
    5092                 :            : 
    5093                 :          0 :                 percpu_ref_put_many(&ctx->refs, nr - ref_used);
    5094                 :            :         }
    5095         [ #  # ]:          0 :         if (link)
    5096                 :          0 :                 io_queue_link_head(link);
    5097         [ #  # ]:          0 :         if (statep)
    5098                 :          0 :                 io_submit_state_end(&state);
    5099                 :            : 
    5100                 :            :          /* Commit SQ ring head once we've consumed and submitted all SQEs */
    5101                 :          0 :         io_commit_sqring(ctx);
    5102                 :            : 
    5103                 :          0 :         return submitted;
    5104                 :            : }
    5105                 :            : 
    5106                 :          0 : static int io_sq_thread(void *data)
    5107                 :            : {
    5108                 :          0 :         struct io_ring_ctx *ctx = data;
    5109                 :          0 :         struct mm_struct *cur_mm = NULL;
    5110                 :          0 :         const struct cred *old_cred;
    5111                 :          0 :         mm_segment_t old_fs;
    5112                 :          0 :         DEFINE_WAIT(wait);
    5113                 :          0 :         unsigned long timeout;
    5114                 :          0 :         int ret = 0;
    5115                 :            : 
    5116                 :          0 :         complete(&ctx->completions[1]);
    5117                 :            : 
    5118      [ #  #  # ]:          0 :         old_fs = get_fs();
    5119      [ #  #  # ]:          0 :         set_fs(USER_DS);
    5120                 :          0 :         old_cred = override_creds(ctx->creds);
    5121                 :            : 
    5122                 :          0 :         timeout = jiffies + ctx->sq_thread_idle;
    5123         [ #  # ]:          0 :         while (!kthread_should_park()) {
    5124                 :          0 :                 unsigned int to_submit;
    5125                 :            : 
    5126         [ #  # ]:          0 :                 if (!list_empty(&ctx->poll_list)) {
    5127                 :          0 :                         unsigned nr_events = 0;
    5128                 :            : 
    5129                 :          0 :                         mutex_lock(&ctx->uring_lock);
    5130         [ #  # ]:          0 :                         if (!list_empty(&ctx->poll_list))
    5131                 :          0 :                                 io_iopoll_getevents(ctx, &nr_events, 0);
    5132                 :            :                         else
    5133                 :          0 :                                 timeout = jiffies + ctx->sq_thread_idle;
    5134                 :          0 :                         mutex_unlock(&ctx->uring_lock);
    5135                 :            :                 }
    5136                 :            : 
    5137                 :          0 :                 to_submit = io_sqring_entries(ctx);
    5138                 :            : 
    5139                 :            :                 /*
    5140                 :            :                  * If submit got -EBUSY, flag us as needing the application
    5141                 :            :                  * to enter the kernel to reap and flush events.
    5142                 :            :                  */
    5143         [ #  # ]:          0 :                 if (!to_submit || ret == -EBUSY) {
    5144                 :            :                         /*
    5145                 :            :                          * Drop cur_mm before scheduling, we can't hold it for
    5146                 :            :                          * long periods (or over schedule()). Do this before
    5147                 :            :                          * adding ourselves to the waitqueue, as the unuse/drop
    5148                 :            :                          * may sleep.
    5149                 :            :                          */
    5150         [ #  # ]:          0 :                         if (cur_mm) {
    5151                 :          0 :                                 unuse_mm(cur_mm);
    5152                 :          0 :                                 mmput(cur_mm);
    5153                 :          0 :                                 cur_mm = NULL;
    5154                 :            :                         }
    5155                 :            : 
    5156                 :            :                         /*
    5157                 :            :                          * We're polling. If we're within the defined idle
    5158                 :            :                          * period, then let us spin without work before going
    5159                 :            :                          * to sleep. The exception is if we got EBUSY doing
    5160                 :            :                          * more IO, we should wait for the application to
    5161                 :            :                          * reap events and wake us up.
    5162                 :            :                          */
    5163         [ #  # ]:          0 :                         if (!list_empty(&ctx->poll_list) ||
    5164   [ #  #  #  #  :          0 :                             (!time_after(jiffies, timeout) && ret != -EBUSY &&
                   #  # ]
    5165         [ #  # ]:          0 :                             !percpu_ref_is_dying(&ctx->refs))) {
    5166                 :          0 :                                 cond_resched();
    5167                 :          0 :                                 continue;
    5168                 :            :                         }
    5169                 :            : 
    5170                 :          0 :                         prepare_to_wait(&ctx->sqo_wait, &wait,
    5171                 :            :                                                 TASK_INTERRUPTIBLE);
    5172                 :            : 
    5173                 :            :                         /*
    5174                 :            :                          * While doing polled IO, before going to sleep, we need
    5175                 :            :                          * to check if there are new reqs added to poll_list, it
    5176                 :            :                          * is because reqs may have been punted to io worker and
    5177                 :            :                          * will be added to poll_list later, hence check the
    5178                 :            :                          * poll_list again.
    5179                 :            :                          */
    5180         [ #  # ]:          0 :                         if ((ctx->flags & IORING_SETUP_IOPOLL) &&
    5181                 :            :                             !list_empty_careful(&ctx->poll_list)) {
    5182                 :          0 :                                 finish_wait(&ctx->sqo_wait, &wait);
    5183                 :          0 :                                 continue;
    5184                 :            :                         }
    5185                 :            : 
    5186                 :            :                         /* Tell userspace we may need a wakeup call */
    5187                 :          0 :                         ctx->rings->sq_flags |= IORING_SQ_NEED_WAKEUP;
    5188                 :            :                         /* make sure to read SQ tail after writing flags */
    5189                 :          0 :                         smp_mb();
    5190                 :            : 
    5191                 :          0 :                         to_submit = io_sqring_entries(ctx);
    5192         [ #  # ]:          0 :                         if (!to_submit || ret == -EBUSY) {
    5193         [ #  # ]:          0 :                                 if (kthread_should_park()) {
    5194                 :          0 :                                         finish_wait(&ctx->sqo_wait, &wait);
    5195                 :          0 :                                         break;
    5196                 :            :                                 }
    5197         [ #  # ]:          0 :                                 if (signal_pending(current))
    5198                 :          0 :                                         flush_signals(current);
    5199                 :          0 :                                 schedule();
    5200                 :          0 :                                 finish_wait(&ctx->sqo_wait, &wait);
    5201                 :            : 
    5202                 :          0 :                                 ctx->rings->sq_flags &= ~IORING_SQ_NEED_WAKEUP;
    5203                 :          0 :                                 continue;
    5204                 :            :                         }
    5205                 :          0 :                         finish_wait(&ctx->sqo_wait, &wait);
    5206                 :            : 
    5207                 :          0 :                         ctx->rings->sq_flags &= ~IORING_SQ_NEED_WAKEUP;
    5208                 :            :                 }
    5209                 :            : 
    5210                 :          0 :                 mutex_lock(&ctx->uring_lock);
    5211                 :          0 :                 ret = io_submit_sqes(ctx, to_submit, NULL, -1, &cur_mm, true);
    5212                 :          0 :                 mutex_unlock(&ctx->uring_lock);
    5213                 :          0 :                 timeout = jiffies + ctx->sq_thread_idle;
    5214                 :            :         }
    5215                 :            : 
    5216                 :          0 :         set_fs(old_fs);
    5217         [ #  # ]:          0 :         if (cur_mm) {
    5218                 :          0 :                 unuse_mm(cur_mm);
    5219                 :          0 :                 mmput(cur_mm);
    5220                 :            :         }
    5221                 :          0 :         revert_creds(old_cred);
    5222                 :            : 
    5223                 :          0 :         kthread_parkme();
    5224                 :            : 
    5225                 :          0 :         return 0;
    5226                 :            : }
    5227                 :            : 
    5228                 :            : struct io_wait_queue {
    5229                 :            :         struct wait_queue_entry wq;
    5230                 :            :         struct io_ring_ctx *ctx;
    5231                 :            :         unsigned to_wait;
    5232                 :            :         unsigned nr_timeouts;
    5233                 :            : };
    5234                 :            : 
    5235                 :          0 : static inline bool io_should_wake(struct io_wait_queue *iowq, bool noflush)
    5236                 :            : {
    5237                 :          0 :         struct io_ring_ctx *ctx = iowq->ctx;
    5238                 :            : 
    5239                 :            :         /*
    5240                 :            :          * Wake up if we have enough events, or if a timeout occurred since we
    5241                 :            :          * started waiting. For timeouts, we always want to return to userspace,
    5242                 :            :          * regardless of event count.
    5243                 :            :          */
    5244         [ #  # ]:          0 :         return io_cqring_events(ctx, noflush) >= iowq->to_wait ||
    5245         [ #  # ]:          0 :                         atomic_read(&ctx->cq_timeouts) != iowq->nr_timeouts;
    5246                 :            : }
    5247                 :            : 
    5248                 :          0 : static int io_wake_function(struct wait_queue_entry *curr, unsigned int mode,
    5249                 :            :                             int wake_flags, void *key)
    5250                 :            : {
    5251                 :          0 :         struct io_wait_queue *iowq = container_of(curr, struct io_wait_queue,
    5252                 :            :                                                         wq);
    5253                 :            : 
    5254                 :            :         /* use noflush == true, as we can't safely rely on locking context */
    5255         [ #  # ]:          0 :         if (!io_should_wake(iowq, true))
    5256                 :            :                 return -1;
    5257                 :            : 
    5258                 :          0 :         return autoremove_wake_function(curr, mode, wake_flags, key);
    5259                 :            : }
    5260                 :            : 
    5261                 :            : /*
    5262                 :            :  * Wait until events become available, if we don't already have some. The
    5263                 :            :  * application must reap them itself, as they reside on the shared cq ring.
    5264                 :            :  */
    5265                 :          0 : static int io_cqring_wait(struct io_ring_ctx *ctx, int min_events,
    5266                 :            :                           const sigset_t __user *sig, size_t sigsz)
    5267                 :            : {
    5268                 :          0 :         struct io_wait_queue iowq = {
    5269                 :            :                 .wq = {
    5270                 :            :                         .private        = current,
    5271                 :            :                         .func           = io_wake_function,
    5272                 :            :                         .entry          = LIST_HEAD_INIT(iowq.wq.entry),
    5273                 :            :                 },
    5274                 :            :                 .ctx            = ctx,
    5275                 :            :                 .to_wait        = min_events,
    5276                 :            :         };
    5277                 :          0 :         struct io_rings *rings = ctx->rings;
    5278                 :          0 :         int ret = 0;
    5279                 :            : 
    5280         [ #  # ]:          0 :         if (io_cqring_events(ctx, false) >= min_events)
    5281                 :            :                 return 0;
    5282                 :            : 
    5283         [ #  # ]:          0 :         if (sig) {
    5284                 :            : #ifdef CONFIG_COMPAT
    5285   [ #  #  #  # ]:          0 :                 if (in_compat_syscall())
    5286                 :          0 :                         ret = set_compat_user_sigmask((const compat_sigset_t __user *)sig,
    5287                 :            :                                                       sigsz);
    5288                 :            :                 else
    5289                 :            : #endif
    5290                 :          0 :                         ret = set_user_sigmask(sig, sigsz);
    5291                 :            : 
    5292         [ #  # ]:          0 :                 if (ret)
    5293                 :            :                         return ret;
    5294                 :            :         }
    5295                 :            : 
    5296                 :          0 :         iowq.nr_timeouts = atomic_read(&ctx->cq_timeouts);
    5297                 :          0 :         trace_io_uring_cqring_wait(ctx, min_events);
    5298                 :          0 :         do {
    5299                 :          0 :                 prepare_to_wait_exclusive(&ctx->wait, &iowq.wq,
    5300                 :            :                                                 TASK_INTERRUPTIBLE);
    5301         [ #  # ]:          0 :                 if (io_should_wake(&iowq, false))
    5302                 :            :                         break;
    5303                 :          0 :                 schedule();
    5304         [ #  # ]:          0 :                 if (signal_pending(current)) {
    5305                 :            :                         ret = -EINTR;
    5306                 :            :                         break;
    5307                 :            :                 }
    5308                 :            :         } while (1);
    5309                 :          0 :         finish_wait(&ctx->wait, &iowq.wq);
    5310                 :            : 
    5311                 :          0 :         restore_saved_sigmask_unless(ret == -EINTR);
    5312                 :            : 
    5313         [ #  # ]:          0 :         return READ_ONCE(rings->cq.head) == READ_ONCE(rings->cq.tail) ? ret : 0;
    5314                 :            : }
    5315                 :            : 
    5316                 :            : static void __io_sqe_files_unregister(struct io_ring_ctx *ctx)
    5317                 :            : {
    5318                 :            : #if defined(CONFIG_UNIX)
    5319                 :            :         if (ctx->ring_sock) {
    5320                 :            :                 struct sock *sock = ctx->ring_sock->sk;
    5321                 :            :                 struct sk_buff *skb;
    5322                 :            : 
    5323                 :            :                 while ((skb = skb_dequeue(&sock->sk_receive_queue)) != NULL)
    5324                 :            :                         kfree_skb(skb);
    5325                 :            :         }
    5326                 :            : #else
    5327                 :            :         int i;
    5328                 :            : 
    5329                 :            :         for (i = 0; i < ctx->nr_user_files; i++) {
    5330                 :            :                 struct file *file;
    5331                 :            : 
    5332                 :            :                 file = io_file_from_index(ctx, i);
    5333                 :            :                 if (file)
    5334                 :            :                         fput(file);
    5335                 :            :         }
    5336                 :            : #endif
    5337                 :            : }
    5338                 :            : 
    5339                 :          0 : static void io_file_ref_kill(struct percpu_ref *ref)
    5340                 :            : {
    5341                 :          0 :         struct fixed_file_data *data;
    5342                 :            : 
    5343                 :          0 :         data = container_of(ref, struct fixed_file_data, refs);
    5344                 :          0 :         complete(&data->done);
    5345                 :          0 : }
    5346                 :            : 
    5347                 :          0 : static void io_file_ref_exit_and_free(struct work_struct *work)
    5348                 :            : {
    5349                 :          0 :         struct fixed_file_data *data;
    5350                 :            : 
    5351                 :          0 :         data = container_of(work, struct fixed_file_data, ref_work);
    5352                 :            : 
    5353                 :            :         /*
    5354                 :            :          * Ensure any percpu-ref atomic switch callback has run, it could have
    5355                 :            :          * been in progress when the files were being unregistered. Once
    5356                 :            :          * that's done, we can safely exit and free the ref and containing
    5357                 :            :          * data structure.
    5358                 :            :          */
    5359                 :          0 :         rcu_barrier();
    5360                 :          0 :         percpu_ref_exit(&data->refs);
    5361                 :          0 :         kfree(data);
    5362                 :          0 : }
    5363                 :            : 
    5364                 :          0 : static int io_sqe_files_unregister(struct io_ring_ctx *ctx)
    5365                 :            : {
    5366                 :          0 :         struct fixed_file_data *data = ctx->file_data;
    5367                 :          0 :         unsigned nr_tables, i;
    5368                 :            : 
    5369         [ #  # ]:          0 :         if (!data)
    5370                 :            :                 return -ENXIO;
    5371                 :            : 
    5372                 :          0 :         percpu_ref_kill_and_confirm(&data->refs, io_file_ref_kill);
    5373                 :          0 :         flush_work(&data->ref_work);
    5374                 :          0 :         wait_for_completion(&data->done);
    5375                 :          0 :         io_ring_file_ref_flush(data);
    5376                 :            : 
    5377                 :          0 :         __io_sqe_files_unregister(ctx);
    5378                 :          0 :         nr_tables = DIV_ROUND_UP(ctx->nr_user_files, IORING_MAX_FILES_TABLE);
    5379         [ #  # ]:          0 :         for (i = 0; i < nr_tables; i++)
    5380                 :          0 :                 kfree(data->table[i].files);
    5381                 :          0 :         kfree(data->table);
    5382                 :          0 :         INIT_WORK(&data->ref_work, io_file_ref_exit_and_free);
    5383                 :          0 :         queue_work(system_wq, &data->ref_work);
    5384                 :          0 :         ctx->file_data = NULL;
    5385                 :          0 :         ctx->nr_user_files = 0;
    5386                 :          0 :         return 0;
    5387                 :            : }
    5388                 :            : 
    5389                 :            : static void io_sq_thread_stop(struct io_ring_ctx *ctx)
    5390                 :            : {
    5391                 :            :         if (ctx->sqo_thread) {
    5392                 :            :                 wait_for_completion(&ctx->completions[1]);
    5393                 :            :                 /*
    5394                 :            :                  * The park is a bit of a work-around, without it we get
    5395                 :            :                  * warning spews on shutdown with SQPOLL set and affinity
    5396                 :            :                  * set to a single CPU.
    5397                 :            :                  */
    5398                 :            :                 kthread_park(ctx->sqo_thread);
    5399                 :            :                 kthread_stop(ctx->sqo_thread);
    5400                 :            :                 ctx->sqo_thread = NULL;
    5401                 :            :         }
    5402                 :            : }
    5403                 :            : 
    5404                 :          0 : static void io_finish_async(struct io_ring_ctx *ctx)
    5405                 :            : {
    5406                 :          0 :         io_sq_thread_stop(ctx);
    5407                 :            : 
    5408         [ #  # ]:          0 :         if (ctx->io_wq) {
    5409                 :          0 :                 io_wq_destroy(ctx->io_wq);
    5410                 :          0 :                 ctx->io_wq = NULL;
    5411                 :            :         }
    5412                 :          0 : }
    5413                 :            : 
    5414                 :            : #if defined(CONFIG_UNIX)
    5415                 :            : /*
    5416                 :            :  * Ensure the UNIX gc is aware of our file set, so we are certain that
    5417                 :            :  * the io_uring can be safely unregistered on process exit, even if we have
    5418                 :            :  * loops in the file referencing.
    5419                 :            :  */
    5420                 :          0 : static int __io_sqe_files_scm(struct io_ring_ctx *ctx, int nr, int offset)
    5421                 :            : {
    5422                 :          0 :         struct sock *sk = ctx->ring_sock->sk;
    5423                 :          0 :         struct scm_fp_list *fpl;
    5424                 :          0 :         struct sk_buff *skb;
    5425                 :          0 :         int i, nr_files;
    5426                 :            : 
    5427   [ #  #  #  # ]:          0 :         if (!capable(CAP_SYS_RESOURCE) && !capable(CAP_SYS_ADMIN)) {
    5428                 :          0 :                 unsigned long inflight = ctx->user->unix_inflight + nr;
    5429                 :            : 
    5430         [ #  # ]:          0 :                 if (inflight > task_rlimit(current, RLIMIT_NOFILE))
    5431                 :            :                         return -EMFILE;
    5432                 :            :         }
    5433                 :            : 
    5434                 :          0 :         fpl = kzalloc(sizeof(*fpl), GFP_KERNEL);
    5435         [ #  # ]:          0 :         if (!fpl)
    5436                 :            :                 return -ENOMEM;
    5437                 :            : 
    5438                 :          0 :         skb = alloc_skb(0, GFP_KERNEL);
    5439         [ #  # ]:          0 :         if (!skb) {
    5440                 :          0 :                 kfree(fpl);
    5441                 :          0 :                 return -ENOMEM;
    5442                 :            :         }
    5443                 :            : 
    5444                 :          0 :         skb->sk = sk;
    5445                 :            : 
    5446                 :          0 :         nr_files = 0;
    5447                 :          0 :         fpl->user = get_uid(ctx->user);
    5448         [ #  # ]:          0 :         for (i = 0; i < nr; i++) {
    5449                 :          0 :                 struct file *file = io_file_from_index(ctx, i + offset);
    5450                 :            : 
    5451         [ #  # ]:          0 :                 if (!file)
    5452                 :          0 :                         continue;
    5453                 :          0 :                 fpl->fp[nr_files] = get_file(file);
    5454                 :          0 :                 unix_inflight(fpl->user, fpl->fp[nr_files]);
    5455                 :          0 :                 nr_files++;
    5456                 :            :         }
    5457                 :            : 
    5458         [ #  # ]:          0 :         if (nr_files) {
    5459                 :          0 :                 fpl->max = SCM_MAX_FD;
    5460                 :          0 :                 fpl->count = nr_files;
    5461                 :          0 :                 UNIXCB(skb).fp = fpl;
    5462                 :          0 :                 skb->destructor = unix_destruct_scm;
    5463                 :          0 :                 refcount_add(skb->truesize, &sk->sk_wmem_alloc);
    5464                 :          0 :                 skb_queue_head(&sk->sk_receive_queue, skb);
    5465                 :            : 
    5466         [ #  # ]:          0 :                 for (i = 0; i < nr_files; i++)
    5467                 :          0 :                         fput(fpl->fp[i]);
    5468                 :            :         } else {
    5469                 :          0 :                 kfree_skb(skb);
    5470                 :          0 :                 kfree(fpl);
    5471                 :            :         }
    5472                 :            : 
    5473                 :            :         return 0;
    5474                 :            : }
    5475                 :            : 
    5476                 :            : /*
    5477                 :            :  * If UNIX sockets are enabled, fd passing can cause a reference cycle which
    5478                 :            :  * causes regular reference counting to break down. We rely on the UNIX
    5479                 :            :  * garbage collection to take care of this problem for us.
    5480                 :            :  */
    5481                 :          0 : static int io_sqe_files_scm(struct io_ring_ctx *ctx)
    5482                 :            : {
    5483                 :          0 :         unsigned left, total;
    5484                 :          0 :         int ret = 0;
    5485                 :            : 
    5486                 :          0 :         total = 0;
    5487                 :          0 :         left = ctx->nr_user_files;
    5488         [ #  # ]:          0 :         while (left) {
    5489                 :          0 :                 unsigned this_files = min_t(unsigned, left, SCM_MAX_FD);
    5490                 :            : 
    5491                 :          0 :                 ret = __io_sqe_files_scm(ctx, this_files, total);
    5492         [ #  # ]:          0 :                 if (ret)
    5493                 :            :                         break;
    5494                 :          0 :                 left -= this_files;
    5495                 :          0 :                 total += this_files;
    5496                 :            :         }
    5497                 :            : 
    5498         [ #  # ]:          0 :         if (!ret)
    5499                 :            :                 return 0;
    5500                 :            : 
    5501         [ #  # ]:          0 :         while (total < ctx->nr_user_files) {
    5502                 :          0 :                 struct file *file = io_file_from_index(ctx, total);
    5503                 :            : 
    5504         [ #  # ]:          0 :                 if (file)
    5505                 :          0 :                         fput(file);
    5506                 :          0 :                 total++;
    5507                 :            :         }
    5508                 :            : 
    5509                 :            :         return ret;
    5510                 :            : }
    5511                 :            : #else
    5512                 :            : static int io_sqe_files_scm(struct io_ring_ctx *ctx)
    5513                 :            : {
    5514                 :            :         return 0;
    5515                 :            : }
    5516                 :            : #endif
    5517                 :            : 
    5518                 :            : static int io_sqe_alloc_file_tables(struct io_ring_ctx *ctx, unsigned nr_tables,
    5519                 :            :                                     unsigned nr_files)
    5520                 :            : {
    5521                 :            :         int i;
    5522                 :            : 
    5523                 :            :         for (i = 0; i < nr_tables; i++) {
    5524                 :            :                 struct fixed_file_table *table = &ctx->file_data->table[i];
    5525                 :            :                 unsigned this_files;
    5526                 :            : 
    5527                 :            :                 this_files = min(nr_files, IORING_MAX_FILES_TABLE);
    5528                 :            :                 table->files = kcalloc(this_files, sizeof(struct file *),
    5529                 :            :                                         GFP_KERNEL);
    5530                 :            :                 if (!table->files)
    5531                 :            :                         break;
    5532                 :            :                 nr_files -= this_files;
    5533                 :            :         }
    5534                 :            : 
    5535                 :            :         if (i == nr_tables)
    5536                 :            :                 return 0;
    5537                 :            : 
    5538                 :            :         for (i = 0; i < nr_tables; i++) {
    5539                 :            :                 struct fixed_file_table *table = &ctx->file_data->table[i];
    5540                 :            :                 kfree(table->files);
    5541                 :            :         }
    5542                 :            :         return 1;
    5543                 :            : }
    5544                 :            : 
    5545                 :            : static void io_ring_file_put(struct io_ring_ctx *ctx, struct file *file)
    5546                 :            : {
    5547                 :            : #if defined(CONFIG_UNIX)
    5548                 :            :         struct sock *sock = ctx->ring_sock->sk;
    5549                 :            :         struct sk_buff_head list, *head = &sock->sk_receive_queue;
    5550                 :            :         struct sk_buff *skb;
    5551                 :            :         int i;
    5552                 :            : 
    5553                 :            :         __skb_queue_head_init(&list);
    5554                 :            : 
    5555                 :            :         /*
    5556                 :            :          * Find the skb that holds this file in its SCM_RIGHTS. When found,
    5557                 :            :          * remove this entry and rearrange the file array.
    5558                 :            :          */
    5559                 :            :         skb = skb_dequeue(head);
    5560                 :            :         while (skb) {
    5561                 :            :                 struct scm_fp_list *fp;
    5562                 :            : 
    5563                 :            :                 fp = UNIXCB(skb).fp;
    5564                 :            :                 for (i = 0; i < fp->count; i++) {
    5565                 :            :                         int left;
    5566                 :            : 
    5567                 :            :                         if (fp->fp[i] != file)
    5568                 :            :                                 continue;
    5569                 :            : 
    5570                 :            :                         unix_notinflight(fp->user, fp->fp[i]);
    5571                 :            :                         left = fp->count - 1 - i;
    5572                 :            :                         if (left) {
    5573                 :            :                                 memmove(&fp->fp[i], &fp->fp[i + 1],
    5574                 :            :                                                 left * sizeof(struct file *));
    5575                 :            :                         }
    5576                 :            :                         fp->count--;
    5577                 :            :                         if (!fp->count) {
    5578                 :            :                                 kfree_skb(skb);
    5579                 :            :                                 skb = NULL;
    5580                 :            :                         } else {
    5581                 :            :                                 __skb_queue_tail(&list, skb);
    5582                 :            :                         }
    5583                 :            :                         fput(file);
    5584                 :            :                         file = NULL;
    5585                 :            :                         break;
    5586                 :            :                 }
    5587                 :            : 
    5588                 :            :                 if (!file)
    5589                 :            :                         break;
    5590                 :            : 
    5591                 :            :                 __skb_queue_tail(&list, skb);
    5592                 :            : 
    5593                 :            :                 skb = skb_dequeue(head);
    5594                 :            :         }
    5595                 :            : 
    5596                 :            :         if (skb_peek(&list)) {
    5597                 :            :                 spin_lock_irq(&head->lock);
    5598                 :            :                 while ((skb = __skb_dequeue(&list)) != NULL)
    5599                 :            :                         __skb_queue_tail(head, skb);
    5600                 :            :                 spin_unlock_irq(&head->lock);
    5601                 :            :         }
    5602                 :            : #else
    5603                 :            :         fput(file);
    5604                 :            : #endif
    5605                 :            : }
    5606                 :            : 
    5607                 :            : struct io_file_put {
    5608                 :            :         struct llist_node llist;
    5609                 :            :         struct file *file;
    5610                 :            :         struct completion *done;
    5611                 :            : };
    5612                 :            : 
    5613                 :          0 : static void io_ring_file_ref_flush(struct fixed_file_data *data)
    5614                 :            : {
    5615                 :          0 :         struct io_file_put *pfile, *tmp;
    5616                 :          0 :         struct llist_node *node;
    5617                 :            : 
    5618         [ #  # ]:          0 :         while ((node = llist_del_all(&data->put_llist)) != NULL) {
    5619         [ #  # ]:          0 :                 llist_for_each_entry_safe(pfile, tmp, node, llist) {
    5620                 :          0 :                         io_ring_file_put(data->ctx, pfile->file);
    5621         [ #  # ]:          0 :                         if (pfile->done)
    5622                 :          0 :                                 complete(pfile->done);
    5623                 :            :                         else
    5624                 :          0 :                                 kfree(pfile);
    5625                 :            :                 }
    5626                 :            :         }
    5627                 :          0 : }
    5628                 :            : 
    5629                 :          0 : static void io_ring_file_ref_switch(struct work_struct *work)
    5630                 :            : {
    5631                 :          0 :         struct fixed_file_data *data;
    5632                 :            : 
    5633                 :          0 :         data = container_of(work, struct fixed_file_data, ref_work);
    5634                 :          0 :         io_ring_file_ref_flush(data);
    5635                 :          0 :         percpu_ref_switch_to_percpu(&data->refs);
    5636                 :          0 : }
    5637                 :            : 
    5638                 :          0 : static void io_file_data_ref_zero(struct percpu_ref *ref)
    5639                 :            : {
    5640                 :          0 :         struct fixed_file_data *data;
    5641                 :            : 
    5642                 :          0 :         data = container_of(ref, struct fixed_file_data, refs);
    5643                 :            : 
    5644                 :            :         /*
    5645                 :            :          * We can't safely switch from inside this context, punt to wq. If
    5646                 :            :          * the table ref is going away, the table is being unregistered.
    5647                 :            :          * Don't queue up the async work for that case, the caller will
    5648                 :            :          * handle it.
    5649                 :            :          */
    5650         [ #  # ]:          0 :         if (!percpu_ref_is_dying(&data->refs))
    5651                 :          0 :                 queue_work(system_wq, &data->ref_work);
    5652                 :          0 : }
    5653                 :            : 
    5654                 :          0 : static int io_sqe_files_register(struct io_ring_ctx *ctx, void __user *arg,
    5655                 :            :                                  unsigned nr_args)
    5656                 :            : {
    5657                 :          0 :         __s32 __user *fds = (__s32 __user *) arg;
    5658                 :          0 :         unsigned nr_tables;
    5659                 :          0 :         struct file *file;
    5660                 :          0 :         int fd, ret = 0;
    5661                 :          0 :         unsigned i;
    5662                 :            : 
    5663         [ #  # ]:          0 :         if (ctx->file_data)
    5664                 :            :                 return -EBUSY;
    5665         [ #  # ]:          0 :         if (!nr_args)
    5666                 :            :                 return -EINVAL;
    5667         [ #  # ]:          0 :         if (nr_args > IORING_MAX_FIXED_FILES)
    5668                 :            :                 return -EMFILE;
    5669                 :            : 
    5670                 :          0 :         ctx->file_data = kzalloc(sizeof(*ctx->file_data), GFP_KERNEL);
    5671         [ #  # ]:          0 :         if (!ctx->file_data)
    5672                 :            :                 return -ENOMEM;
    5673                 :          0 :         ctx->file_data->ctx = ctx;
    5674                 :          0 :         init_completion(&ctx->file_data->done);
    5675                 :            : 
    5676                 :          0 :         nr_tables = DIV_ROUND_UP(nr_args, IORING_MAX_FILES_TABLE);
    5677                 :          0 :         ctx->file_data->table = kcalloc(nr_tables,
    5678                 :            :                                         sizeof(struct fixed_file_table),
    5679                 :            :                                         GFP_KERNEL);
    5680         [ #  # ]:          0 :         if (!ctx->file_data->table) {
    5681                 :          0 :                 kfree(ctx->file_data);
    5682                 :          0 :                 ctx->file_data = NULL;
    5683                 :          0 :                 return -ENOMEM;
    5684                 :            :         }
    5685                 :            : 
    5686         [ #  # ]:          0 :         if (percpu_ref_init(&ctx->file_data->refs, io_file_data_ref_zero,
    5687                 :            :                                 PERCPU_REF_ALLOW_REINIT, GFP_KERNEL)) {
    5688                 :          0 :                 kfree(ctx->file_data->table);
    5689                 :          0 :                 kfree(ctx->file_data);
    5690                 :          0 :                 ctx->file_data = NULL;
    5691                 :          0 :                 return -ENOMEM;
    5692                 :            :         }
    5693                 :          0 :         ctx->file_data->put_llist.first = NULL;
    5694                 :          0 :         INIT_WORK(&ctx->file_data->ref_work, io_ring_file_ref_switch);
    5695                 :            : 
    5696         [ #  # ]:          0 :         if (io_sqe_alloc_file_tables(ctx, nr_tables, nr_args)) {
    5697                 :          0 :                 percpu_ref_exit(&ctx->file_data->refs);
    5698                 :          0 :                 kfree(ctx->file_data->table);
    5699                 :          0 :                 kfree(ctx->file_data);
    5700                 :          0 :                 ctx->file_data = NULL;
    5701                 :          0 :                 return -ENOMEM;
    5702                 :            :         }
    5703                 :            : 
    5704         [ #  # ]:          0 :         for (i = 0; i < nr_args; i++, ctx->nr_user_files++) {
    5705                 :          0 :                 struct fixed_file_table *table;
    5706                 :          0 :                 unsigned index;
    5707                 :            : 
    5708                 :          0 :                 ret = -EFAULT;
    5709         [ #  # ]:          0 :                 if (copy_from_user(&fd, &fds[i], sizeof(fd)))
    5710                 :            :                         break;
    5711                 :            :                 /* allow sparse sets */
    5712         [ #  # ]:          0 :                 if (fd == -1) {
    5713                 :          0 :                         ret = 0;
    5714                 :          0 :                         continue;
    5715                 :            :                 }
    5716                 :            : 
    5717                 :          0 :                 table = &ctx->file_data->table[i >> IORING_FILE_TABLE_SHIFT];
    5718                 :          0 :                 index = i & IORING_FILE_TABLE_MASK;
    5719                 :          0 :                 file = fget(fd);
    5720                 :            : 
    5721                 :          0 :                 ret = -EBADF;
    5722         [ #  # ]:          0 :                 if (!file)
    5723                 :            :                         break;
    5724                 :            : 
    5725                 :            :                 /*
    5726                 :            :                  * Don't allow io_uring instances to be registered. If UNIX
    5727                 :            :                  * isn't enabled, then this causes a reference cycle and this
    5728                 :            :                  * instance can never get freed. If UNIX is enabled we'll
    5729                 :            :                  * handle it just fine, but there's still no point in allowing
    5730                 :            :                  * a ring fd as it doesn't support regular read/write anyway.
    5731                 :            :                  */
    5732         [ #  # ]:          0 :                 if (file->f_op == &io_uring_fops) {
    5733                 :          0 :                         fput(file);
    5734                 :          0 :                         break;
    5735                 :            :                 }
    5736                 :          0 :                 ret = 0;
    5737                 :          0 :                 table->files[index] = file;
    5738                 :            :         }
    5739                 :            : 
    5740         [ #  # ]:          0 :         if (ret) {
    5741         [ #  # ]:          0 :                 for (i = 0; i < ctx->nr_user_files; i++) {
    5742                 :          0 :                         file = io_file_from_index(ctx, i);
    5743         [ #  # ]:          0 :                         if (file)
    5744                 :          0 :                                 fput(file);
    5745                 :            :                 }
    5746         [ #  # ]:          0 :                 for (i = 0; i < nr_tables; i++)
    5747                 :          0 :                         kfree(ctx->file_data->table[i].files);
    5748                 :            : 
    5749                 :          0 :                 kfree(ctx->file_data->table);
    5750                 :          0 :                 kfree(ctx->file_data);
    5751                 :          0 :                 ctx->file_data = NULL;
    5752                 :          0 :                 ctx->nr_user_files = 0;
    5753                 :          0 :                 return ret;
    5754                 :            :         }
    5755                 :            : 
    5756                 :          0 :         ret = io_sqe_files_scm(ctx);
    5757         [ #  # ]:          0 :         if (ret)
    5758                 :          0 :                 io_sqe_files_unregister(ctx);
    5759                 :            : 
    5760                 :            :         return ret;
    5761                 :            : }
    5762                 :            : 
    5763                 :          0 : static int io_sqe_file_register(struct io_ring_ctx *ctx, struct file *file,
    5764                 :            :                                 int index)
    5765                 :            : {
    5766                 :            : #if defined(CONFIG_UNIX)
    5767                 :          0 :         struct sock *sock = ctx->ring_sock->sk;
    5768                 :          0 :         struct sk_buff_head *head = &sock->sk_receive_queue;
    5769                 :          0 :         struct sk_buff *skb;
    5770                 :            : 
    5771                 :            :         /*
    5772                 :            :          * See if we can merge this file into an existing skb SCM_RIGHTS
    5773                 :            :          * file set. If there's no room, fall back to allocating a new skb
    5774                 :            :          * and filling it in.
    5775                 :            :          */
    5776                 :          0 :         spin_lock_irq(&head->lock);
    5777         [ #  # ]:          0 :         skb = skb_peek(head);
    5778         [ #  # ]:          0 :         if (skb) {
    5779                 :          0 :                 struct scm_fp_list *fpl = UNIXCB(skb).fp;
    5780                 :            : 
    5781         [ #  # ]:          0 :                 if (fpl->count < SCM_MAX_FD) {
    5782                 :          0 :                         __skb_unlink(skb, head);
    5783                 :          0 :                         spin_unlock_irq(&head->lock);
    5784                 :          0 :                         fpl->fp[fpl->count] = get_file(file);
    5785                 :          0 :                         unix_inflight(fpl->user, fpl->fp[fpl->count]);
    5786                 :          0 :                         fpl->count++;
    5787                 :          0 :                         spin_lock_irq(&head->lock);
    5788                 :          0 :                         __skb_queue_head(head, skb);
    5789                 :            :                 } else {
    5790                 :            :                         skb = NULL;
    5791                 :            :                 }
    5792                 :            :         }
    5793                 :          0 :         spin_unlock_irq(&head->lock);
    5794                 :            : 
    5795         [ #  # ]:          0 :         if (skb) {
    5796                 :          0 :                 fput(file);
    5797                 :          0 :                 return 0;
    5798                 :            :         }
    5799                 :            : 
    5800                 :          0 :         return __io_sqe_files_scm(ctx, 1, index);
    5801                 :            : #else
    5802                 :            :         return 0;
    5803                 :            : #endif
    5804                 :            : }
    5805                 :            : 
    5806                 :          0 : static void io_atomic_switch(struct percpu_ref *ref)
    5807                 :            : {
    5808                 :          0 :         struct fixed_file_data *data;
    5809                 :            : 
    5810                 :            :         /*
    5811                 :            :          * Juggle reference to ensure we hit zero, if needed, so we can
    5812                 :            :          * switch back to percpu mode
    5813                 :            :          */
    5814                 :          0 :         data = container_of(ref, struct fixed_file_data, refs);
    5815                 :          0 :         percpu_ref_put(&data->refs);
    5816                 :          0 :         percpu_ref_get(&data->refs);
    5817                 :          0 : }
    5818                 :            : 
    5819                 :          0 : static bool io_queue_file_removal(struct fixed_file_data *data,
    5820                 :            :                                   struct file *file)
    5821                 :            : {
    5822                 :          0 :         struct io_file_put *pfile, pfile_stack;
    5823                 :          0 :         DECLARE_COMPLETION_ONSTACK(done);
    5824                 :            : 
    5825                 :            :         /*
    5826                 :            :          * If we fail allocating the struct we need for doing async reomval
    5827                 :            :          * of this file, just punt to sync and wait for it.
    5828                 :            :          */
    5829                 :          0 :         pfile = kzalloc(sizeof(*pfile), GFP_KERNEL);
    5830         [ #  # ]:          0 :         if (!pfile) {
    5831                 :          0 :                 pfile = &pfile_stack;
    5832                 :          0 :                 pfile->done = &done;
    5833                 :            :         }
    5834                 :            : 
    5835                 :          0 :         pfile->file = file;
    5836                 :          0 :         llist_add(&pfile->llist, &data->put_llist);
    5837                 :            : 
    5838         [ #  # ]:          0 :         if (pfile == &pfile_stack) {
    5839                 :          0 :                 percpu_ref_switch_to_atomic(&data->refs, io_atomic_switch);
    5840                 :          0 :                 wait_for_completion(&done);
    5841                 :          0 :                 flush_work(&data->ref_work);
    5842                 :          0 :                 return false;
    5843                 :            :         }
    5844                 :            : 
    5845                 :            :         return true;
    5846                 :            : }
    5847                 :            : 
    5848                 :            : static int __io_sqe_files_update(struct io_ring_ctx *ctx,
    5849                 :            :                                  struct io_uring_files_update *up,
    5850                 :            :                                  unsigned nr_args)
    5851                 :            : {
    5852                 :            :         struct fixed_file_data *data = ctx->file_data;
    5853                 :            :         bool ref_switch = false;
    5854                 :            :         struct file *file;
    5855                 :            :         __s32 __user *fds;
    5856                 :            :         int fd, i, err;
    5857                 :            :         __u32 done;
    5858                 :            : 
    5859                 :            :         if (check_add_overflow(up->offset, nr_args, &done))
    5860                 :            :                 return -EOVERFLOW;
    5861                 :            :         if (done > ctx->nr_user_files)
    5862                 :            :                 return -EINVAL;
    5863                 :            : 
    5864                 :            :         done = 0;
    5865                 :            :         fds = u64_to_user_ptr(up->fds);
    5866                 :            :         while (nr_args) {
    5867                 :            :                 struct fixed_file_table *table;
    5868                 :            :                 unsigned index;
    5869                 :            : 
    5870                 :            :                 err = 0;
    5871                 :            :                 if (copy_from_user(&fd, &fds[done], sizeof(fd))) {
    5872                 :            :                         err = -EFAULT;
    5873                 :            :                         break;
    5874                 :            :                 }
    5875                 :            :                 i = array_index_nospec(up->offset, ctx->nr_user_files);
    5876                 :            :                 table = &ctx->file_data->table[i >> IORING_FILE_TABLE_SHIFT];
    5877                 :            :                 index = i & IORING_FILE_TABLE_MASK;
    5878                 :            :                 if (table->files[index]) {
    5879                 :            :                         file = io_file_from_index(ctx, index);
    5880                 :            :                         table->files[index] = NULL;
    5881                 :            :                         if (io_queue_file_removal(data, file))
    5882                 :            :                                 ref_switch = true;
    5883                 :            :                 }
    5884                 :            :                 if (fd != -1) {
    5885                 :            :                         file = fget(fd);
    5886                 :            :                         if (!file) {
    5887                 :            :                                 err = -EBADF;
    5888                 :            :                                 break;
    5889                 :            :                         }
    5890                 :            :                         /*
    5891                 :            :                          * Don't allow io_uring instances to be registered. If
    5892                 :            :                          * UNIX isn't enabled, then this causes a reference
    5893                 :            :                          * cycle and this instance can never get freed. If UNIX
    5894                 :            :                          * is enabled we'll handle it just fine, but there's
    5895                 :            :                          * still no point in allowing a ring fd as it doesn't
    5896                 :            :                          * support regular read/write anyway.
    5897                 :            :                          */
    5898                 :            :                         if (file->f_op == &io_uring_fops) {
    5899                 :            :                                 fput(file);
    5900                 :            :                                 err = -EBADF;
    5901                 :            :                                 break;
    5902                 :            :                         }
    5903                 :            :                         table->files[index] = file;
    5904                 :            :                         err = io_sqe_file_register(ctx, file, i);
    5905                 :            :                         if (err)
    5906                 :            :                                 break;
    5907                 :            :                 }
    5908                 :            :                 nr_args--;
    5909                 :            :                 done++;
    5910                 :            :                 up->offset++;
    5911                 :            :         }
    5912                 :            : 
    5913                 :            :         if (ref_switch)
    5914                 :            :                 percpu_ref_switch_to_atomic(&data->refs, io_atomic_switch);
    5915                 :            : 
    5916                 :            :         return done ? done : err;
    5917                 :            : }
    5918                 :          0 : static int io_sqe_files_update(struct io_ring_ctx *ctx, void __user *arg,
    5919                 :            :                                unsigned nr_args)
    5920                 :            : {
    5921                 :          0 :         struct io_uring_files_update up;
    5922                 :            : 
    5923         [ #  # ]:          0 :         if (!ctx->file_data)
    5924                 :            :                 return -ENXIO;
    5925         [ #  # ]:          0 :         if (!nr_args)
    5926                 :            :                 return -EINVAL;
    5927         [ #  # ]:          0 :         if (copy_from_user(&up, arg, sizeof(up)))
    5928                 :            :                 return -EFAULT;
    5929         [ #  # ]:          0 :         if (up.resv)
    5930                 :            :                 return -EINVAL;
    5931                 :            : 
    5932                 :          0 :         return __io_sqe_files_update(ctx, &up, nr_args);
    5933                 :            : }
    5934                 :            : 
    5935                 :          0 : static void io_put_work(struct io_wq_work *work)
    5936                 :            : {
    5937                 :          0 :         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
    5938                 :            : 
    5939                 :          0 :         io_put_req(req);
    5940                 :          0 : }
    5941                 :            : 
    5942                 :          0 : static void io_get_work(struct io_wq_work *work)
    5943                 :            : {
    5944                 :          0 :         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
    5945                 :            : 
    5946                 :          0 :         refcount_inc(&req->refs);
    5947                 :          0 : }
    5948                 :            : 
    5949                 :            : static int io_init_wq_offload(struct io_ring_ctx *ctx,
    5950                 :            :                               struct io_uring_params *p)
    5951                 :            : {
    5952                 :            :         struct io_wq_data data;
    5953                 :            :         struct fd f;
    5954                 :            :         struct io_ring_ctx *ctx_attach;
    5955                 :            :         unsigned int concurrency;
    5956                 :            :         int ret = 0;
    5957                 :            : 
    5958                 :            :         data.user = ctx->user;
    5959                 :            :         data.get_work = io_get_work;
    5960                 :            :         data.put_work = io_put_work;
    5961                 :            : 
    5962                 :            :         if (!(p->flags & IORING_SETUP_ATTACH_WQ)) {
    5963                 :            :                 /* Do QD, or 4 * CPUS, whatever is smallest */
    5964                 :            :                 concurrency = min(ctx->sq_entries, 4 * num_online_cpus());
    5965                 :            : 
    5966                 :            :                 ctx->io_wq = io_wq_create(concurrency, &data);
    5967                 :            :                 if (IS_ERR(ctx->io_wq)) {
    5968                 :            :                         ret = PTR_ERR(ctx->io_wq);
    5969                 :            :                         ctx->io_wq = NULL;
    5970                 :            :                 }
    5971                 :            :                 return ret;
    5972                 :            :         }
    5973                 :            : 
    5974                 :            :         f = fdget(p->wq_fd);
    5975                 :            :         if (!f.file)
    5976                 :            :                 return -EBADF;
    5977                 :            : 
    5978                 :            :         if (f.file->f_op != &io_uring_fops) {
    5979                 :            :                 ret = -EINVAL;
    5980                 :            :                 goto out_fput;
    5981                 :            :         }
    5982                 :            : 
    5983                 :            :         ctx_attach = f.file->private_data;
    5984                 :            :         /* @io_wq is protected by holding the fd */
    5985                 :            :         if (!io_wq_get(ctx_attach->io_wq, &data)) {
    5986                 :            :                 ret = -EINVAL;
    5987                 :            :                 goto out_fput;
    5988                 :            :         }
    5989                 :            : 
    5990                 :            :         ctx->io_wq = ctx_attach->io_wq;
    5991                 :            : out_fput:
    5992                 :            :         fdput(f);
    5993                 :            :         return ret;
    5994                 :            : }
    5995                 :            : 
    5996                 :          0 : static int io_sq_offload_start(struct io_ring_ctx *ctx,
    5997                 :            :                                struct io_uring_params *p)
    5998                 :            : {
    5999                 :          0 :         int ret;
    6000                 :            : 
    6001                 :          0 :         init_waitqueue_head(&ctx->sqo_wait);
    6002                 :          0 :         mmgrab(current->mm);
    6003         [ #  # ]:          0 :         ctx->sqo_mm = current->mm;
    6004                 :            : 
    6005         [ #  # ]:          0 :         if (ctx->flags & IORING_SETUP_SQPOLL) {
    6006                 :          0 :                 ret = -EPERM;
    6007         [ #  # ]:          0 :                 if (!capable(CAP_SYS_ADMIN))
    6008                 :          0 :                         goto err;
    6009                 :            : 
    6010         [ #  # ]:          0 :                 ctx->sq_thread_idle = msecs_to_jiffies(p->sq_thread_idle);
    6011         [ #  # ]:          0 :                 if (!ctx->sq_thread_idle)
    6012                 :          0 :                         ctx->sq_thread_idle = HZ;
    6013                 :            : 
    6014         [ #  # ]:          0 :                 if (p->flags & IORING_SETUP_SQ_AFF) {
    6015                 :          0 :                         int cpu = p->sq_thread_cpu;
    6016                 :            : 
    6017                 :          0 :                         ret = -EINVAL;
    6018         [ #  # ]:          0 :                         if (cpu >= nr_cpu_ids)
    6019                 :          0 :                                 goto err;
    6020         [ #  # ]:          0 :                         if (!cpu_online(cpu))
    6021                 :          0 :                                 goto err;
    6022                 :            : 
    6023                 :          0 :                         ctx->sqo_thread = kthread_create_on_cpu(io_sq_thread,
    6024                 :            :                                                         ctx, cpu,
    6025                 :            :                                                         "io_uring-sq");
    6026                 :            :                 } else {
    6027                 :          0 :                         ctx->sqo_thread = kthread_create(io_sq_thread, ctx,
    6028                 :            :                                                         "io_uring-sq");
    6029                 :            :                 }
    6030         [ #  # ]:          0 :                 if (IS_ERR(ctx->sqo_thread)) {
    6031                 :          0 :                         ret = PTR_ERR(ctx->sqo_thread);
    6032                 :          0 :                         ctx->sqo_thread = NULL;
    6033                 :          0 :                         goto err;
    6034                 :            :                 }
    6035                 :          0 :                 wake_up_process(ctx->sqo_thread);
    6036         [ #  # ]:          0 :         } else if (p->flags & IORING_SETUP_SQ_AFF) {
    6037                 :            :                 /* Can't have SQ_AFF without SQPOLL */
    6038                 :          0 :                 ret = -EINVAL;
    6039                 :          0 :                 goto err;
    6040                 :            :         }
    6041                 :            : 
    6042                 :          0 :         ret = io_init_wq_offload(ctx, p);
    6043         [ #  # ]:          0 :         if (ret)
    6044                 :          0 :                 goto err;
    6045                 :            : 
    6046                 :            :         return 0;
    6047                 :          0 : err:
    6048                 :          0 :         io_finish_async(ctx);
    6049                 :          0 :         mmdrop(ctx->sqo_mm);
    6050                 :          0 :         ctx->sqo_mm = NULL;
    6051                 :          0 :         return ret;
    6052                 :            : }
    6053                 :            : 
    6054                 :          0 : static void io_unaccount_mem(struct user_struct *user, unsigned long nr_pages)
    6055                 :            : {
    6056                 :          0 :         atomic_long_sub(nr_pages, &user->locked_vm);
    6057                 :          0 : }
    6058                 :            : 
    6059                 :          0 : static int io_account_mem(struct user_struct *user, unsigned long nr_pages)
    6060                 :            : {
    6061                 :          0 :         unsigned long page_limit, cur_pages, new_pages;
    6062                 :            : 
    6063                 :            :         /* Don't allow more pages than we can safely lock */
    6064                 :          0 :         page_limit = rlimit(RLIMIT_MEMLOCK) >> PAGE_SHIFT;
    6065                 :            : 
    6066                 :          0 :         do {
    6067                 :          0 :                 cur_pages = atomic_long_read(&user->locked_vm);
    6068                 :          0 :                 new_pages = cur_pages + nr_pages;
    6069         [ #  # ]:          0 :                 if (new_pages > page_limit)
    6070                 :            :                         return -ENOMEM;
    6071                 :          0 :         } while (atomic_long_cmpxchg(&user->locked_vm, cur_pages,
    6072         [ #  # ]:          0 :                                         new_pages) != cur_pages);
    6073                 :            : 
    6074                 :            :         return 0;
    6075                 :            : }
    6076                 :            : 
    6077                 :          0 : static void io_mem_free(void *ptr)
    6078                 :            : {
    6079                 :          0 :         struct page *page;
    6080                 :            : 
    6081         [ #  # ]:          0 :         if (!ptr)
    6082                 :            :                 return;
    6083                 :            : 
    6084         [ #  # ]:          0 :         page = virt_to_head_page(ptr);
    6085         [ #  # ]:          0 :         if (put_page_testzero(page))
    6086                 :          0 :                 free_compound_page(page);
    6087                 :            : }
    6088                 :            : 
    6089                 :            : static void *io_mem_alloc(size_t size)
    6090                 :            : {
    6091                 :            :         gfp_t gfp_flags = GFP_KERNEL | __GFP_ZERO | __GFP_NOWARN | __GFP_COMP |
    6092                 :            :                                 __GFP_NORETRY;
    6093                 :            : 
    6094                 :            :         return (void *) __get_free_pages(gfp_flags, get_order(size));
    6095                 :            : }
    6096                 :            : 
    6097                 :          0 : static unsigned long rings_size(unsigned sq_entries, unsigned cq_entries,
    6098                 :            :                                 size_t *sq_offset)
    6099                 :            : {
    6100                 :          0 :         struct io_rings *rings;
    6101                 :          0 :         size_t off, sq_array_size;
    6102                 :            : 
    6103                 :          0 :         off = struct_size(rings, cqes, cq_entries);
    6104         [ #  # ]:          0 :         if (off == SIZE_MAX)
    6105                 :            :                 return SIZE_MAX;
    6106                 :            : 
    6107                 :            : #ifdef CONFIG_SMP
    6108                 :          0 :         off = ALIGN(off, SMP_CACHE_BYTES);
    6109         [ #  # ]:          0 :         if (off == 0)
    6110                 :            :                 return SIZE_MAX;
    6111                 :            : #endif
    6112                 :            : 
    6113         [ #  # ]:          0 :         sq_array_size = array_size(sizeof(u32), sq_entries);
    6114                 :          0 :         if (sq_array_size == SIZE_MAX)
    6115                 :            :                 return SIZE_MAX;
    6116                 :            : 
    6117         [ #  # ]:          0 :         if (check_add_overflow(off, sq_array_size, &off))
    6118                 :            :                 return SIZE_MAX;
    6119                 :            : 
    6120                 :          0 :         if (sq_offset)
    6121                 :            :                 *sq_offset = off;
    6122                 :            : 
    6123                 :            :         return off;
    6124                 :            : }
    6125                 :            : 
    6126                 :          0 : static unsigned long ring_pages(unsigned sq_entries, unsigned cq_entries)
    6127                 :            : {
    6128                 :          0 :         size_t pages;
    6129                 :            : 
    6130         [ #  # ]:          0 :         pages = (size_t)1 << get_order(
    6131                 :            :                 rings_size(sq_entries, cq_entries, NULL));
    6132                 :          0 :         pages += (size_t)1 << get_order(
    6133                 :            :                 array_size(sizeof(struct io_uring_sqe), sq_entries));
    6134                 :            : 
    6135                 :          0 :         return pages;
    6136                 :            : }
    6137                 :            : 
    6138                 :          0 : static int io_sqe_buffer_unregister(struct io_ring_ctx *ctx)
    6139                 :            : {
    6140                 :          0 :         int i, j;
    6141                 :            : 
    6142         [ #  # ]:          0 :         if (!ctx->user_bufs)
    6143                 :            :                 return -ENXIO;
    6144                 :            : 
    6145         [ #  # ]:          0 :         for (i = 0; i < ctx->nr_user_bufs; i++) {
    6146                 :          0 :                 struct io_mapped_ubuf *imu = &ctx->user_bufs[i];
    6147                 :            : 
    6148         [ #  # ]:          0 :                 for (j = 0; j < imu->nr_bvecs; j++)
    6149                 :          0 :                         unpin_user_page(imu->bvec[j].bv_page);
    6150                 :            : 
    6151         [ #  # ]:          0 :                 if (ctx->account_mem)
    6152                 :          0 :                         io_unaccount_mem(ctx->user, imu->nr_bvecs);
    6153                 :          0 :                 kvfree(imu->bvec);
    6154                 :          0 :                 imu->nr_bvecs = 0;
    6155                 :            :         }
    6156                 :            : 
    6157                 :          0 :         kfree(ctx->user_bufs);
    6158                 :          0 :         ctx->user_bufs = NULL;
    6159                 :          0 :         ctx->nr_user_bufs = 0;
    6160                 :          0 :         return 0;
    6161                 :            : }
    6162                 :            : 
    6163                 :          0 : static int io_copy_iov(struct io_ring_ctx *ctx, struct iovec *dst,
    6164                 :            :                        void __user *arg, unsigned index)
    6165                 :            : {
    6166                 :          0 :         struct iovec __user *src;
    6167                 :            : 
    6168                 :            : #ifdef CONFIG_COMPAT
    6169         [ #  # ]:          0 :         if (ctx->compat) {
    6170                 :          0 :                 struct compat_iovec __user *ciovs;
    6171                 :          0 :                 struct compat_iovec ciov;
    6172                 :            : 
    6173                 :          0 :                 ciovs = (struct compat_iovec __user *) arg;
    6174         [ #  # ]:          0 :                 if (copy_from_user(&ciov, &ciovs[index], sizeof(ciov)))
    6175                 :            :                         return -EFAULT;
    6176                 :            : 
    6177                 :          0 :                 dst->iov_base = u64_to_user_ptr((u64)ciov.iov_base);
    6178                 :          0 :                 dst->iov_len = ciov.iov_len;
    6179                 :          0 :                 return 0;
    6180                 :            :         }
    6181                 :            : #endif
    6182                 :          0 :         src = (struct iovec __user *) arg;
    6183   [ #  #  #  # ]:          0 :         if (copy_from_user(dst, &src[index], sizeof(*dst)))
    6184                 :          0 :                 return -EFAULT;
    6185                 :            :         return 0;
    6186                 :            : }
    6187                 :            : 
    6188                 :          0 : static int io_sqe_buffer_register(struct io_ring_ctx *ctx, void __user *arg,
    6189                 :            :                                   unsigned nr_args)
    6190                 :            : {
    6191                 :          0 :         struct vm_area_struct **vmas = NULL;
    6192                 :          0 :         struct page **pages = NULL;
    6193                 :          0 :         int i, j, got_pages = 0;
    6194                 :          0 :         int ret = -EINVAL;
    6195                 :            : 
    6196         [ #  # ]:          0 :         if (ctx->user_bufs)
    6197                 :            :                 return -EBUSY;
    6198         [ #  # ]:          0 :         if (!nr_args || nr_args > UIO_MAXIOV)
    6199                 :            :                 return -EINVAL;
    6200                 :            : 
    6201                 :          0 :         ctx->user_bufs = kcalloc(nr_args, sizeof(struct io_mapped_ubuf),
    6202                 :            :                                         GFP_KERNEL);
    6203         [ #  # ]:          0 :         if (!ctx->user_bufs)
    6204                 :            :                 return -ENOMEM;
    6205                 :            : 
    6206         [ #  # ]:          0 :         for (i = 0; i < nr_args; i++) {
    6207                 :          0 :                 struct io_mapped_ubuf *imu = &ctx->user_bufs[i];
    6208                 :          0 :                 unsigned long off, start, end, ubuf;
    6209                 :          0 :                 int pret, nr_pages;
    6210                 :          0 :                 struct iovec iov;
    6211                 :          0 :                 size_t size;
    6212                 :            : 
    6213                 :          0 :                 ret = io_copy_iov(ctx, &iov, arg, i);
    6214         [ #  # ]:          0 :                 if (ret)
    6215                 :          0 :                         goto err;
    6216                 :            : 
    6217                 :            :                 /*
    6218                 :            :                  * Don't impose further limits on the size and buffer
    6219                 :            :                  * constraints here, we'll -EINVAL later when IO is
    6220                 :            :                  * submitted if they are wrong.
    6221                 :            :                  */
    6222                 :          0 :                 ret = -EFAULT;
    6223   [ #  #  #  # ]:          0 :                 if (!iov.iov_base || !iov.iov_len)
    6224                 :          0 :                         goto err;
    6225                 :            : 
    6226                 :            :                 /* arbitrary limit, but we need something */
    6227         [ #  # ]:          0 :                 if (iov.iov_len > SZ_1G)
    6228                 :          0 :                         goto err;
    6229                 :            : 
    6230                 :          0 :                 ubuf = (unsigned long) iov.iov_base;
    6231                 :          0 :                 end = (ubuf + iov.iov_len + PAGE_SIZE - 1) >> PAGE_SHIFT;
    6232                 :          0 :                 start = ubuf >> PAGE_SHIFT;
    6233                 :          0 :                 nr_pages = end - start;
    6234                 :            : 
    6235         [ #  # ]:          0 :                 if (ctx->account_mem) {
    6236                 :          0 :                         ret = io_account_mem(ctx->user, nr_pages);
    6237         [ #  # ]:          0 :                         if (ret)
    6238                 :          0 :                                 goto err;
    6239                 :            :                 }
    6240                 :            : 
    6241                 :          0 :                 ret = 0;
    6242         [ #  # ]:          0 :                 if (!pages || nr_pages > got_pages) {
    6243                 :          0 :                         kfree(vmas);
    6244                 :          0 :                         kfree(pages);
    6245         [ #  # ]:          0 :                         pages = kvmalloc_array(nr_pages, sizeof(struct page *),
    6246                 :            :                                                 GFP_KERNEL);
    6247         [ #  # ]:          0 :                         vmas = kvmalloc_array(nr_pages,
    6248                 :            :                                         sizeof(struct vm_area_struct *),
    6249                 :            :                                         GFP_KERNEL);
    6250         [ #  # ]:          0 :                         if (!pages || !vmas) {
    6251                 :          0 :                                 ret = -ENOMEM;
    6252         [ #  # ]:          0 :                                 if (ctx->account_mem)
    6253                 :          0 :                                         io_unaccount_mem(ctx->user, nr_pages);
    6254                 :          0 :                                 goto err;
    6255                 :            :                         }
    6256                 :            :                         got_pages = nr_pages;
    6257                 :            :                 }
    6258                 :            : 
    6259         [ #  # ]:          0 :                 imu->bvec = kvmalloc_array(nr_pages, sizeof(struct bio_vec),
    6260                 :            :                                                 GFP_KERNEL);
    6261                 :          0 :                 ret = -ENOMEM;
    6262         [ #  # ]:          0 :                 if (!imu->bvec) {
    6263         [ #  # ]:          0 :                         if (ctx->account_mem)
    6264                 :          0 :                                 io_unaccount_mem(ctx->user, nr_pages);
    6265                 :          0 :                         goto err;
    6266                 :            :                 }
    6267                 :            : 
    6268                 :          0 :                 ret = 0;
    6269                 :          0 :                 down_read(&current->mm->mmap_sem);
    6270                 :          0 :                 pret = pin_user_pages(ubuf, nr_pages,
    6271                 :            :                                       FOLL_WRITE | FOLL_LONGTERM,
    6272                 :            :                                       pages, vmas);
    6273         [ #  # ]:          0 :                 if (pret == nr_pages) {
    6274                 :            :                         /* don't support file backed memory */
    6275         [ #  # ]:          0 :                         for (j = 0; j < nr_pages; j++) {
    6276                 :          0 :                                 struct vm_area_struct *vma = vmas[j];
    6277                 :            : 
    6278   [ #  #  #  # ]:          0 :                                 if (vma->vm_file &&
    6279                 :            :                                     !is_file_hugepages(vma->vm_file)) {
    6280                 :            :                                         ret = -EOPNOTSUPP;
    6281                 :            :                                         break;
    6282                 :            :                                 }
    6283                 :            :                         }
    6284                 :            :                 } else {
    6285         [ #  # ]:          0 :                         ret = pret < 0 ? pret : -EFAULT;
    6286                 :            :                 }
    6287                 :          0 :                 up_read(&current->mm->mmap_sem);
    6288         [ #  # ]:          0 :                 if (ret) {
    6289                 :            :                         /*
    6290                 :            :                          * if we did partial map, or found file backed vmas,
    6291                 :            :                          * release any pages we did get
    6292                 :            :                          */
    6293         [ #  # ]:          0 :                         if (pret > 0)
    6294                 :          0 :                                 unpin_user_pages(pages, pret);
    6295         [ #  # ]:          0 :                         if (ctx->account_mem)
    6296                 :          0 :                                 io_unaccount_mem(ctx->user, nr_pages);
    6297                 :          0 :                         kvfree(imu->bvec);
    6298                 :          0 :                         goto err;
    6299                 :            :                 }
    6300                 :            : 
    6301                 :          0 :                 off = ubuf & ~PAGE_MASK;
    6302                 :          0 :                 size = iov.iov_len;
    6303         [ #  # ]:          0 :                 for (j = 0; j < nr_pages; j++) {
    6304                 :          0 :                         size_t vec_len;
    6305                 :            : 
    6306                 :          0 :                         vec_len = min_t(size_t, size, PAGE_SIZE - off);
    6307                 :          0 :                         imu->bvec[j].bv_page = pages[j];
    6308                 :          0 :                         imu->bvec[j].bv_len = vec_len;
    6309                 :          0 :                         imu->bvec[j].bv_offset = off;
    6310                 :          0 :                         off = 0;
    6311                 :          0 :                         size -= vec_len;
    6312                 :            :                 }
    6313                 :            :                 /* store original address for later verification */
    6314                 :          0 :                 imu->ubuf = ubuf;
    6315                 :          0 :                 imu->len = iov.iov_len;
    6316                 :          0 :                 imu->nr_bvecs = nr_pages;
    6317                 :            : 
    6318                 :          0 :                 ctx->nr_user_bufs++;
    6319                 :            :         }
    6320                 :          0 :         kvfree(pages);
    6321                 :          0 :         kvfree(vmas);
    6322                 :          0 :         return 0;
    6323                 :            : err:
    6324                 :          0 :         kvfree(pages);
    6325                 :          0 :         kvfree(vmas);
    6326                 :          0 :         io_sqe_buffer_unregister(ctx);
    6327                 :          0 :         return ret;
    6328                 :            : }
    6329                 :            : 
    6330                 :            : static int io_eventfd_register(struct io_ring_ctx *ctx, void __user *arg)
    6331                 :            : {
    6332                 :            :         __s32 __user *fds = arg;
    6333                 :            :         int fd;
    6334                 :            : 
    6335                 :            :         if (ctx->cq_ev_fd)
    6336                 :            :                 return -EBUSY;
    6337                 :            : 
    6338                 :            :         if (copy_from_user(&fd, fds, sizeof(*fds)))
    6339                 :            :                 return -EFAULT;
    6340                 :            : 
    6341                 :            :         ctx->cq_ev_fd = eventfd_ctx_fdget(fd);
    6342                 :            :         if (IS_ERR(ctx->cq_ev_fd)) {
    6343                 :            :                 int ret = PTR_ERR(ctx->cq_ev_fd);
    6344                 :            :                 ctx->cq_ev_fd = NULL;
    6345                 :            :                 return ret;
    6346                 :            :         }
    6347                 :            : 
    6348                 :            :         return 0;
    6349                 :            : }
    6350                 :            : 
    6351                 :          0 : static int io_eventfd_unregister(struct io_ring_ctx *ctx)
    6352                 :            : {
    6353                 :          0 :         if (ctx->cq_ev_fd) {
    6354                 :          0 :                 eventfd_ctx_put(ctx->cq_ev_fd);
    6355                 :          0 :                 ctx->cq_ev_fd = NULL;
    6356                 :          0 :                 return 0;
    6357                 :            :         }
    6358                 :            : 
    6359                 :            :         return -ENXIO;
    6360                 :            : }
    6361                 :            : 
    6362                 :          0 : static void io_ring_ctx_free(struct io_ring_ctx *ctx)
    6363                 :            : {
    6364                 :          0 :         io_finish_async(ctx);
    6365         [ #  # ]:          0 :         if (ctx->sqo_mm)
    6366                 :          0 :                 mmdrop(ctx->sqo_mm);
    6367                 :            : 
    6368                 :          0 :         io_iopoll_reap_events(ctx);
    6369                 :          0 :         io_sqe_buffer_unregister(ctx);
    6370                 :          0 :         io_sqe_files_unregister(ctx);
    6371         [ #  # ]:          0 :         io_eventfd_unregister(ctx);
    6372                 :          0 :         idr_destroy(&ctx->personality_idr);
    6373                 :            : 
    6374                 :            : #if defined(CONFIG_UNIX)
    6375         [ #  # ]:          0 :         if (ctx->ring_sock) {
    6376                 :          0 :                 ctx->ring_sock->file = NULL; /* so that iput() is called */
    6377                 :          0 :                 sock_release(ctx->ring_sock);
    6378                 :            :         }
    6379                 :            : #endif
    6380                 :            : 
    6381                 :          0 :         io_mem_free(ctx->rings);
    6382                 :          0 :         io_mem_free(ctx->sq_sqes);
    6383                 :            : 
    6384                 :          0 :         percpu_ref_exit(&ctx->refs);
    6385         [ #  # ]:          0 :         if (ctx->account_mem)
    6386                 :          0 :                 io_unaccount_mem(ctx->user,
    6387                 :            :                                 ring_pages(ctx->sq_entries, ctx->cq_entries));
    6388                 :          0 :         free_uid(ctx->user);
    6389                 :          0 :         put_cred(ctx->creds);
    6390                 :          0 :         kfree(ctx->completions);
    6391                 :          0 :         kfree(ctx->cancel_hash);
    6392                 :          0 :         kmem_cache_free(req_cachep, ctx->fallback_req);
    6393                 :          0 :         kfree(ctx);
    6394                 :          0 : }
    6395                 :            : 
    6396                 :          0 : static __poll_t io_uring_poll(struct file *file, poll_table *wait)
    6397                 :            : {
    6398                 :          0 :         struct io_ring_ctx *ctx = file->private_data;
    6399                 :          0 :         __poll_t mask = 0;
    6400                 :            : 
    6401         [ #  # ]:          0 :         poll_wait(file, &ctx->cq_wait, wait);
    6402                 :            :         /*
    6403                 :            :          * synchronizes with barrier from wq_has_sleeper call in
    6404                 :            :          * io_commit_cqring
    6405                 :            :          */
    6406                 :          0 :         smp_rmb();
    6407         [ #  # ]:          0 :         if (READ_ONCE(ctx->rings->sq.tail) - ctx->cached_sq_head !=
    6408         [ #  # ]:          0 :             ctx->rings->sq_ring_entries)
    6409                 :          0 :                 mask |= EPOLLOUT | EPOLLWRNORM;
    6410         [ #  # ]:          0 :         if (io_cqring_events(ctx, false))
    6411                 :          0 :                 mask |= EPOLLIN | EPOLLRDNORM;
    6412                 :            : 
    6413                 :          0 :         return mask;
    6414                 :            : }
    6415                 :            : 
    6416                 :          0 : static int io_uring_fasync(int fd, struct file *file, int on)
    6417                 :            : {
    6418                 :          0 :         struct io_ring_ctx *ctx = file->private_data;
    6419                 :            : 
    6420                 :          0 :         return fasync_helper(fd, file, on, &ctx->cq_fasync);
    6421                 :            : }
    6422                 :            : 
    6423                 :          0 : static int io_remove_personalities(int id, void *p, void *data)
    6424                 :            : {
    6425                 :          0 :         struct io_ring_ctx *ctx = data;
    6426                 :          0 :         const struct cred *cred;
    6427                 :            : 
    6428                 :          0 :         cred = idr_remove(&ctx->personality_idr, id);
    6429         [ #  # ]:          0 :         if (cred)
    6430                 :          0 :                 put_cred(cred);
    6431                 :          0 :         return 0;
    6432                 :            : }
    6433                 :            : 
    6434                 :          0 : static void io_ring_ctx_wait_and_kill(struct io_ring_ctx *ctx)
    6435                 :            : {
    6436                 :          0 :         mutex_lock(&ctx->uring_lock);
    6437                 :          0 :         percpu_ref_kill(&ctx->refs);
    6438                 :          0 :         mutex_unlock(&ctx->uring_lock);
    6439                 :            : 
    6440                 :            :         /*
    6441                 :            :          * Wait for sq thread to idle, if we have one. It won't spin on new
    6442                 :            :          * work after we've killed the ctx ref above. This is important to do
    6443                 :            :          * before we cancel existing commands, as the thread could otherwise
    6444                 :            :          * be queueing new work post that. If that's work we need to cancel,
    6445                 :            :          * it could cause shutdown to hang.
    6446                 :            :          */
    6447   [ #  #  #  # ]:          0 :         while (ctx->sqo_thread && !wq_has_sleeper(&ctx->sqo_wait))
    6448                 :          0 :                 cpu_relax();
    6449                 :            : 
    6450                 :          0 :         io_kill_timeouts(ctx);
    6451                 :          0 :         io_poll_remove_all(ctx);
    6452                 :            : 
    6453         [ #  # ]:          0 :         if (ctx->io_wq)
    6454                 :          0 :                 io_wq_cancel_all(ctx->io_wq);
    6455                 :            : 
    6456                 :          0 :         io_iopoll_reap_events(ctx);
    6457                 :            :         /* if we failed setting up the ctx, we might not have any rings */
    6458         [ #  # ]:          0 :         if (ctx->rings)
    6459                 :          0 :                 io_cqring_overflow_flush(ctx, true);
    6460                 :          0 :         idr_for_each(&ctx->personality_idr, io_remove_personalities, ctx);
    6461                 :          0 :         wait_for_completion(&ctx->completions[0]);
    6462                 :          0 :         io_ring_ctx_free(ctx);
    6463                 :          0 : }
    6464                 :            : 
    6465                 :          0 : static int io_uring_release(struct inode *inode, struct file *file)
    6466                 :            : {
    6467                 :          0 :         struct io_ring_ctx *ctx = file->private_data;
    6468                 :            : 
    6469                 :          0 :         file->private_data = NULL;
    6470                 :          0 :         io_ring_ctx_wait_and_kill(ctx);
    6471                 :          0 :         return 0;
    6472                 :            : }
    6473                 :            : 
    6474                 :          0 : static void io_uring_cancel_files(struct io_ring_ctx *ctx,
    6475                 :            :                                   struct files_struct *files)
    6476                 :            : {
    6477                 :          0 :         struct io_kiocb *req;
    6478                 :          0 :         DEFINE_WAIT(wait);
    6479                 :            : 
    6480         [ #  # ]:          0 :         while (!list_empty_careful(&ctx->inflight_list)) {
    6481                 :          0 :                 struct io_kiocb *cancel_req = NULL;
    6482                 :            : 
    6483                 :          0 :                 spin_lock_irq(&ctx->inflight_lock);
    6484         [ #  # ]:          0 :                 list_for_each_entry(req, &ctx->inflight_list, inflight_entry) {
    6485         [ #  # ]:          0 :                         if (req->work.files != files)
    6486                 :          0 :                                 continue;
    6487                 :            :                         /* req is being completed, ignore */
    6488         [ #  # ]:          0 :                         if (!refcount_inc_not_zero(&req->refs))
    6489                 :          0 :                                 continue;
    6490                 :            :                         cancel_req = req;
    6491                 :            :                         break;
    6492                 :            :                 }
    6493         [ #  # ]:          0 :                 if (cancel_req)
    6494                 :          0 :                         prepare_to_wait(&ctx->inflight_wait, &wait,
    6495                 :            :                                                 TASK_UNINTERRUPTIBLE);
    6496                 :          0 :                 spin_unlock_irq(&ctx->inflight_lock);
    6497                 :            : 
    6498                 :            :                 /* We need to keep going until we don't find a matching req */
    6499         [ #  # ]:          0 :                 if (!cancel_req)
    6500                 :            :                         break;
    6501                 :            : 
    6502         [ #  # ]:          0 :                 if (cancel_req->flags & REQ_F_OVERFLOW) {
    6503                 :          0 :                         spin_lock_irq(&ctx->completion_lock);
    6504         [ #  # ]:          0 :                         list_del(&cancel_req->list);
    6505                 :          0 :                         cancel_req->flags &= ~REQ_F_OVERFLOW;
    6506         [ #  # ]:          0 :                         if (list_empty(&ctx->cq_overflow_list)) {
    6507                 :          0 :                                 clear_bit(0, &ctx->sq_check_overflow);
    6508                 :          0 :                                 clear_bit(0, &ctx->cq_check_overflow);
    6509                 :            :                         }
    6510                 :          0 :                         spin_unlock_irq(&ctx->completion_lock);
    6511                 :            : 
    6512                 :          0 :                         WRITE_ONCE(ctx->rings->cq_overflow,
    6513                 :            :                                 atomic_inc_return(&ctx->cached_cq_overflow));
    6514                 :            : 
    6515                 :            :                         /*
    6516                 :            :                          * Put inflight ref and overflow ref. If that's
    6517                 :            :                          * all we had, then we're done with this request.
    6518                 :            :                          */
    6519         [ #  # ]:          0 :                         if (refcount_sub_and_test(2, &cancel_req->refs)) {
    6520                 :          0 :                                 io_put_req(cancel_req);
    6521                 :          0 :                                 continue;
    6522                 :            :                         }
    6523                 :            :                 }
    6524                 :            : 
    6525                 :          0 :                 io_wq_cancel_work(ctx->io_wq, &cancel_req->work);
    6526                 :          0 :                 io_put_req(cancel_req);
    6527                 :          0 :                 schedule();
    6528                 :            :         }
    6529                 :          0 :         finish_wait(&ctx->inflight_wait, &wait);
    6530                 :          0 : }
    6531                 :            : 
    6532                 :          0 : static int io_uring_flush(struct file *file, void *data)
    6533                 :            : {
    6534                 :          0 :         struct io_ring_ctx *ctx = file->private_data;
    6535                 :            : 
    6536                 :          0 :         io_uring_cancel_files(ctx, data);
    6537                 :            : 
    6538                 :            :         /*
    6539                 :            :          * If the task is going away, cancel work it may have pending
    6540                 :            :          */
    6541   [ #  #  #  # ]:          0 :         if (fatal_signal_pending(current) || (current->flags & PF_EXITING))
    6542                 :          0 :                 io_wq_cancel_pid(ctx->io_wq, task_pid_vnr(current));
    6543                 :            : 
    6544                 :          0 :         return 0;
    6545                 :            : }
    6546                 :            : 
    6547                 :            : static void *io_uring_validate_mmap_request(struct file *file,
    6548                 :            :                                             loff_t pgoff, size_t sz)
    6549                 :            : {
    6550                 :            :         struct io_ring_ctx *ctx = file->private_data;
    6551                 :            :         loff_t offset = pgoff << PAGE_SHIFT;
    6552                 :            :         struct page *page;
    6553                 :            :         void *ptr;
    6554                 :            : 
    6555                 :            :         switch (offset) {
    6556                 :            :         case IORING_OFF_SQ_RING:
    6557                 :            :         case IORING_OFF_CQ_RING:
    6558                 :            :                 ptr = ctx->rings;
    6559                 :            :                 break;
    6560                 :            :         case IORING_OFF_SQES:
    6561                 :            :                 ptr = ctx->sq_sqes;
    6562                 :            :                 break;
    6563                 :            :         default:
    6564                 :            :                 return ERR_PTR(-EINVAL);
    6565                 :            :         }
    6566                 :            : 
    6567                 :            :         page = virt_to_head_page(ptr);
    6568                 :            :         if (sz > page_size(page))
    6569                 :            :                 return ERR_PTR(-EINVAL);
    6570                 :            : 
    6571                 :            :         return ptr;
    6572                 :            : }
    6573                 :            : 
    6574                 :            : #ifdef CONFIG_MMU
    6575                 :            : 
    6576                 :          0 : static int io_uring_mmap(struct file *file, struct vm_area_struct *vma)
    6577                 :            : {
    6578                 :          0 :         size_t sz = vma->vm_end - vma->vm_start;
    6579                 :          0 :         unsigned long pfn;
    6580                 :          0 :         void *ptr;
    6581                 :            : 
    6582                 :          0 :         ptr = io_uring_validate_mmap_request(file, vma->vm_pgoff, sz);
    6583         [ #  # ]:          0 :         if (IS_ERR(ptr))
    6584                 :          0 :                 return PTR_ERR(ptr);
    6585                 :            : 
    6586         [ #  # ]:          0 :         pfn = virt_to_phys(ptr) >> PAGE_SHIFT;
    6587                 :          0 :         return remap_pfn_range(vma, vma->vm_start, pfn, sz, vma->vm_page_prot);
    6588                 :            : }
    6589                 :            : 
    6590                 :            : #else /* !CONFIG_MMU */
    6591                 :            : 
    6592                 :            : static int io_uring_mmap(struct file *file, struct vm_area_struct *vma)
    6593                 :            : {
    6594                 :            :         return vma->vm_flags & (VM_SHARED | VM_MAYSHARE) ? 0 : -EINVAL;
    6595                 :            : }
    6596                 :            : 
    6597                 :            : static unsigned int io_uring_nommu_mmap_capabilities(struct file *file)
    6598                 :            : {
    6599                 :            :         return NOMMU_MAP_DIRECT | NOMMU_MAP_READ | NOMMU_MAP_WRITE;
    6600                 :            : }
    6601                 :            : 
    6602                 :            : static unsigned long io_uring_nommu_get_unmapped_area(struct file *file,
    6603                 :            :         unsigned long addr, unsigned long len,
    6604                 :            :         unsigned long pgoff, unsigned long flags)
    6605                 :            : {
    6606                 :            :         void *ptr;
    6607                 :            : 
    6608                 :            :         ptr = io_uring_validate_mmap_request(file, pgoff, len);
    6609                 :            :         if (IS_ERR(ptr))
    6610                 :            :                 return PTR_ERR(ptr);
    6611                 :            : 
    6612                 :            :         return (unsigned long) ptr;
    6613                 :            : }
    6614                 :            : 
    6615                 :            : #endif /* !CONFIG_MMU */
    6616                 :            : 
    6617                 :          0 : SYSCALL_DEFINE6(io_uring_enter, unsigned int, fd, u32, to_submit,
    6618                 :            :                 u32, min_complete, u32, flags, const sigset_t __user *, sig,
    6619                 :            :                 size_t, sigsz)
    6620                 :            : {
    6621                 :          0 :         struct io_ring_ctx *ctx;
    6622                 :          0 :         long ret = -EBADF;
    6623                 :          0 :         int submitted = 0;
    6624                 :          0 :         struct fd f;
    6625                 :            : 
    6626         [ #  # ]:          0 :         if (flags & ~(IORING_ENTER_GETEVENTS | IORING_ENTER_SQ_WAKEUP))
    6627                 :            :                 return -EINVAL;
    6628                 :            : 
    6629                 :          0 :         f = fdget(fd);
    6630         [ #  # ]:          0 :         if (!f.file)
    6631                 :            :                 return -EBADF;
    6632                 :            : 
    6633                 :          0 :         ret = -EOPNOTSUPP;
    6634         [ #  # ]:          0 :         if (f.file->f_op != &io_uring_fops)
    6635                 :          0 :                 goto out_fput;
    6636                 :            : 
    6637                 :          0 :         ret = -ENXIO;
    6638                 :          0 :         ctx = f.file->private_data;
    6639         [ #  # ]:          0 :         if (!percpu_ref_tryget(&ctx->refs))
    6640                 :          0 :                 goto out_fput;
    6641                 :            : 
    6642                 :            :         /*
    6643                 :            :          * For SQ polling, the thread will do all submissions and completions.
    6644                 :            :          * Just return the requested submit count, and wake the thread if
    6645                 :            :          * we were asked to.
    6646                 :            :          */
    6647                 :          0 :         ret = 0;
    6648         [ #  # ]:          0 :         if (ctx->flags & IORING_SETUP_SQPOLL) {
    6649         [ #  # ]:          0 :                 if (!list_empty_careful(&ctx->cq_overflow_list))
    6650                 :          0 :                         io_cqring_overflow_flush(ctx, false);
    6651         [ #  # ]:          0 :                 if (flags & IORING_ENTER_SQ_WAKEUP)
    6652                 :          0 :                         wake_up(&ctx->sqo_wait);
    6653                 :          0 :                 submitted = to_submit;
    6654         [ #  # ]:          0 :         } else if (to_submit) {
    6655                 :          0 :                 struct mm_struct *cur_mm;
    6656                 :            : 
    6657                 :          0 :                 mutex_lock(&ctx->uring_lock);
    6658                 :            :                 /* already have mm, so io_submit_sqes() won't try to grab it */
    6659                 :          0 :                 cur_mm = ctx->sqo_mm;
    6660                 :          0 :                 submitted = io_submit_sqes(ctx, to_submit, f.file, fd,
    6661                 :            :                                            &cur_mm, false);
    6662                 :          0 :                 mutex_unlock(&ctx->uring_lock);
    6663                 :            : 
    6664         [ #  # ]:          0 :                 if (submitted != to_submit)
    6665                 :          0 :                         goto out;
    6666                 :            :         }
    6667         [ #  # ]:          0 :         if (flags & IORING_ENTER_GETEVENTS) {
    6668                 :          0 :                 unsigned nr_events = 0;
    6669                 :            : 
    6670                 :          0 :                 min_complete = min(min_complete, ctx->cq_entries);
    6671                 :            : 
    6672         [ #  # ]:          0 :                 if (ctx->flags & IORING_SETUP_IOPOLL) {
    6673                 :          0 :                         ret = io_iopoll_check(ctx, &nr_events, min_complete);
    6674                 :            :                 } else {
    6675                 :          0 :                         ret = io_cqring_wait(ctx, min_complete, sig, sigsz);
    6676                 :            :                 }
    6677                 :            :         }
    6678                 :            : 
    6679                 :          0 : out:
    6680                 :          0 :         percpu_ref_put(&ctx->refs);
    6681                 :          0 : out_fput:
    6682         [ #  # ]:          0 :         fdput(f);
    6683         [ #  # ]:          0 :         return submitted ? submitted : ret;
    6684                 :            : }
    6685                 :            : 
    6686                 :            : #ifdef CONFIG_PROC_FS
    6687                 :          0 : static int io_uring_show_cred(int id, void *p, void *data)
    6688                 :            : {
    6689                 :          0 :         const struct cred *cred = p;
    6690                 :          0 :         struct seq_file *m = data;
    6691                 :          0 :         struct user_namespace *uns = seq_user_ns(m);
    6692                 :          0 :         struct group_info *gi;
    6693                 :          0 :         kernel_cap_t cap;
    6694                 :          0 :         unsigned __capi;
    6695                 :          0 :         int g;
    6696                 :            : 
    6697                 :          0 :         seq_printf(m, "%5d\n", id);
    6698         [ #  # ]:          0 :         seq_put_decimal_ull(m, "\tUid:\t", from_kuid_munged(uns, cred->uid));
    6699         [ #  # ]:          0 :         seq_put_decimal_ull(m, "\t\t", from_kuid_munged(uns, cred->euid));
    6700         [ #  # ]:          0 :         seq_put_decimal_ull(m, "\t\t", from_kuid_munged(uns, cred->suid));
    6701         [ #  # ]:          0 :         seq_put_decimal_ull(m, "\t\t", from_kuid_munged(uns, cred->fsuid));
    6702         [ #  # ]:          0 :         seq_put_decimal_ull(m, "\n\tGid:\t", from_kgid_munged(uns, cred->gid));
    6703         [ #  # ]:          0 :         seq_put_decimal_ull(m, "\t\t", from_kgid_munged(uns, cred->egid));
    6704         [ #  # ]:          0 :         seq_put_decimal_ull(m, "\t\t", from_kgid_munged(uns, cred->sgid));
    6705         [ #  # ]:          0 :         seq_put_decimal_ull(m, "\t\t", from_kgid_munged(uns, cred->fsgid));
    6706                 :          0 :         seq_puts(m, "\n\tGroups:\t");
    6707                 :          0 :         gi = cred->group_info;
    6708         [ #  # ]:          0 :         for (g = 0; g < gi->ngroups; g++) {
    6709   [ #  #  #  # ]:          0 :                 seq_put_decimal_ull(m, g ? " " : "",
    6710                 :            :                                         from_kgid_munged(uns, gi->gid[g]));
    6711                 :            :         }
    6712                 :          0 :         seq_puts(m, "\n\tCapEff:\t");
    6713                 :          0 :         cap = cred->cap_effective;
    6714         [ #  # ]:          0 :         CAP_FOR_EACH_U32(__capi)
    6715                 :          0 :                 seq_put_hex_ll(m, NULL, cap.cap[CAP_LAST_U32 - __capi], 8);
    6716                 :          0 :         seq_putc(m, '\n');
    6717                 :          0 :         return 0;
    6718                 :            : }
    6719                 :            : 
    6720                 :          0 : static void __io_uring_show_fdinfo(struct io_ring_ctx *ctx, struct seq_file *m)
    6721                 :            : {
    6722                 :          0 :         int i;
    6723                 :            : 
    6724                 :          0 :         mutex_lock(&ctx->uring_lock);
    6725                 :          0 :         seq_printf(m, "UserFiles:\t%u\n", ctx->nr_user_files);
    6726         [ #  # ]:          0 :         for (i = 0; i < ctx->nr_user_files; i++) {
    6727                 :          0 :                 struct fixed_file_table *table;
    6728                 :          0 :                 struct file *f;
    6729                 :            : 
    6730                 :          0 :                 table = &ctx->file_data->table[i >> IORING_FILE_TABLE_SHIFT];
    6731                 :          0 :                 f = table->files[i & IORING_FILE_TABLE_MASK];
    6732         [ #  # ]:          0 :                 if (f)
    6733         [ #  # ]:          0 :                         seq_printf(m, "%5u: %s\n", i, file_dentry(f)->d_iname);
    6734                 :            :                 else
    6735                 :          0 :                         seq_printf(m, "%5u: <none>\n", i);
    6736                 :            :         }
    6737                 :          0 :         seq_printf(m, "UserBufs:\t%u\n", ctx->nr_user_bufs);
    6738         [ #  # ]:          0 :         for (i = 0; i < ctx->nr_user_bufs; i++) {
    6739                 :          0 :                 struct io_mapped_ubuf *buf = &ctx->user_bufs[i];
    6740                 :            : 
    6741                 :          0 :                 seq_printf(m, "%5u: 0x%llx/%u\n", i, buf->ubuf,
    6742                 :          0 :                                                 (unsigned int) buf->len);
    6743                 :            :         }
    6744   [ #  #  #  # ]:          0 :         if (!idr_is_empty(&ctx->personality_idr)) {
    6745                 :          0 :                 seq_printf(m, "Personalities:\n");
    6746                 :          0 :                 idr_for_each(&ctx->personality_idr, io_uring_show_cred, m);
    6747                 :            :         }
    6748                 :          0 :         mutex_unlock(&ctx->uring_lock);
    6749                 :          0 : }
    6750                 :            : 
    6751                 :          0 : static void io_uring_show_fdinfo(struct seq_file *m, struct file *f)
    6752                 :            : {
    6753                 :          0 :         struct io_ring_ctx *ctx = f->private_data;
    6754                 :            : 
    6755         [ #  # ]:          0 :         if (percpu_ref_tryget(&ctx->refs)) {
    6756                 :          0 :                 __io_uring_show_fdinfo(ctx, m);
    6757                 :          0 :                 percpu_ref_put(&ctx->refs);
    6758                 :            :         }
    6759                 :          0 : }
    6760                 :            : #endif
    6761                 :            : 
    6762                 :            : static const struct file_operations io_uring_fops = {
    6763                 :            :         .release        = io_uring_release,
    6764                 :            :         .flush          = io_uring_flush,
    6765                 :            :         .mmap           = io_uring_mmap,
    6766                 :            : #ifndef CONFIG_MMU
    6767                 :            :         .get_unmapped_area = io_uring_nommu_get_unmapped_area,
    6768                 :            :         .mmap_capabilities = io_uring_nommu_mmap_capabilities,
    6769                 :            : #endif
    6770                 :            :         .poll           = io_uring_poll,
    6771                 :            :         .fasync         = io_uring_fasync,
    6772                 :            : #ifdef CONFIG_PROC_FS
    6773                 :            :         .show_fdinfo    = io_uring_show_fdinfo,
    6774                 :            : #endif
    6775                 :            : };
    6776                 :            : 
    6777                 :            : static int io_allocate_scq_urings(struct io_ring_ctx *ctx,
    6778                 :            :                                   struct io_uring_params *p)
    6779                 :            : {
    6780                 :            :         struct io_rings *rings;
    6781                 :            :         size_t size, sq_array_offset;
    6782                 :            : 
    6783                 :            :         size = rings_size(p->sq_entries, p->cq_entries, &sq_array_offset);
    6784                 :            :         if (size == SIZE_MAX)
    6785                 :            :                 return -EOVERFLOW;
    6786                 :            : 
    6787                 :            :         rings = io_mem_alloc(size);
    6788                 :            :         if (!rings)
    6789                 :            :                 return -ENOMEM;
    6790                 :            : 
    6791                 :            :         ctx->rings = rings;
    6792                 :            :         ctx->sq_array = (u32 *)((char *)rings + sq_array_offset);
    6793                 :            :         rings->sq_ring_mask = p->sq_entries - 1;
    6794                 :            :         rings->cq_ring_mask = p->cq_entries - 1;
    6795                 :            :         rings->sq_ring_entries = p->sq_entries;
    6796                 :            :         rings->cq_ring_entries = p->cq_entries;
    6797                 :            :         ctx->sq_mask = rings->sq_ring_mask;
    6798                 :            :         ctx->cq_mask = rings->cq_ring_mask;
    6799                 :            :         ctx->sq_entries = rings->sq_ring_entries;
    6800                 :            :         ctx->cq_entries = rings->cq_ring_entries;
    6801                 :            : 
    6802                 :            :         size = array_size(sizeof(struct io_uring_sqe), p->sq_entries);
    6803                 :            :         if (size == SIZE_MAX) {
    6804                 :            :                 io_mem_free(ctx->rings);
    6805                 :            :                 ctx->rings = NULL;
    6806                 :            :                 return -EOVERFLOW;
    6807                 :            :         }
    6808                 :            : 
    6809                 :            :         ctx->sq_sqes = io_mem_alloc(size);
    6810                 :            :         if (!ctx->sq_sqes) {
    6811                 :            :                 io_mem_free(ctx->rings);
    6812                 :            :                 ctx->rings = NULL;
    6813                 :            :                 return -ENOMEM;
    6814                 :            :         }
    6815                 :            : 
    6816                 :            :         return 0;
    6817                 :            : }
    6818                 :            : 
    6819                 :            : /*
    6820                 :            :  * Allocate an anonymous fd, this is what constitutes the application
    6821                 :            :  * visible backing of an io_uring instance. The application mmaps this
    6822                 :            :  * fd to gain access to the SQ/CQ ring details. If UNIX sockets are enabled,
    6823                 :            :  * we have to tie this fd to a socket for file garbage collection purposes.
    6824                 :            :  */
    6825                 :          0 : static int io_uring_get_fd(struct io_ring_ctx *ctx)
    6826                 :            : {
    6827                 :          0 :         struct file *file;
    6828                 :          0 :         int ret;
    6829                 :            : 
    6830                 :            : #if defined(CONFIG_UNIX)
    6831                 :          0 :         ret = sock_create_kern(&init_net, PF_UNIX, SOCK_RAW, IPPROTO_IP,
    6832                 :            :                                 &ctx->ring_sock);
    6833         [ #  # ]:          0 :         if (ret)
    6834                 :            :                 return ret;
    6835                 :            : #endif
    6836                 :            : 
    6837                 :          0 :         ret = get_unused_fd_flags(O_RDWR | O_CLOEXEC);
    6838         [ #  # ]:          0 :         if (ret < 0)
    6839                 :          0 :                 goto err;
    6840                 :            : 
    6841                 :          0 :         file = anon_inode_getfile("[io_uring]", &io_uring_fops, ctx,
    6842                 :            :                                         O_RDWR | O_CLOEXEC);
    6843         [ #  # ]:          0 :         if (IS_ERR(file)) {
    6844                 :          0 :                 put_unused_fd(ret);
    6845                 :          0 :                 ret = PTR_ERR(file);
    6846                 :          0 :                 goto err;
    6847                 :            :         }
    6848                 :            : 
    6849                 :            : #if defined(CONFIG_UNIX)
    6850                 :          0 :         ctx->ring_sock->file = file;
    6851                 :            : #endif
    6852                 :          0 :         fd_install(ret, file);
    6853                 :          0 :         return ret;
    6854                 :          0 : err:
    6855                 :            : #if defined(CONFIG_UNIX)
    6856                 :          0 :         sock_release(ctx->ring_sock);
    6857                 :          0 :         ctx->ring_sock = NULL;
    6858                 :            : #endif
    6859                 :          0 :         return ret;
    6860                 :            : }
    6861                 :            : 
    6862                 :          0 : static int io_uring_create(unsigned entries, struct io_uring_params *p)
    6863                 :            : {
    6864                 :          0 :         struct user_struct *user = NULL;
    6865                 :          0 :         struct io_ring_ctx *ctx;
    6866                 :          0 :         bool account_mem;
    6867                 :          0 :         int ret;
    6868                 :            : 
    6869         [ #  # ]:          0 :         if (!entries)
    6870                 :            :                 return -EINVAL;
    6871         [ #  # ]:          0 :         if (entries > IORING_MAX_ENTRIES) {
    6872         [ #  # ]:          0 :                 if (!(p->flags & IORING_SETUP_CLAMP))
    6873                 :            :                         return -EINVAL;
    6874                 :            :                 entries = IORING_MAX_ENTRIES;
    6875                 :            :         }
    6876                 :            : 
    6877                 :            :         /*
    6878                 :            :          * Use twice as many entries for the CQ ring. It's possible for the
    6879                 :            :          * application to drive a higher depth than the size of the SQ ring,
    6880                 :            :          * since the sqes are only used at submission time. This allows for
    6881                 :            :          * some flexibility in overcommitting a bit. If the application has
    6882                 :            :          * set IORING_SETUP_CQSIZE, it will have passed in the desired number
    6883                 :            :          * of CQ ring entries manually.
    6884                 :            :          */
    6885   [ #  #  #  #  :          0 :         p->sq_entries = roundup_pow_of_two(entries);
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
             #  #  #  # ]
    6886         [ #  # ]:          0 :         if (p->flags & IORING_SETUP_CQSIZE) {
    6887                 :            :                 /*
    6888                 :            :                  * If IORING_SETUP_CQSIZE is set, we do the same roundup
    6889                 :            :                  * to a power-of-two, if it isn't already. We do NOT impose
    6890                 :            :                  * any cq vs sq ring sizing.
    6891                 :            :                  */
    6892         [ #  # ]:          0 :                 if (p->cq_entries < p->sq_entries)
    6893                 :            :                         return -EINVAL;
    6894         [ #  # ]:          0 :                 if (p->cq_entries > IORING_MAX_CQ_ENTRIES) {
    6895         [ #  # ]:          0 :                         if (!(p->flags & IORING_SETUP_CLAMP))
    6896                 :            :                                 return -EINVAL;
    6897                 :          0 :                         p->cq_entries = IORING_MAX_CQ_ENTRIES;
    6898                 :            :                 }
    6899   [ #  #  #  #  :          0 :                 p->cq_entries = roundup_pow_of_two(p->cq_entries);
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
          #  #  #  #  #  
             #  #  #  # ]
    6900                 :            :         } else {
    6901                 :          0 :                 p->cq_entries = 2 * p->sq_entries;
    6902                 :            :         }
    6903                 :            : 
    6904                 :          0 :         user = get_uid(current_user());
    6905                 :          0 :         account_mem = !capable(CAP_IPC_LOCK);
    6906                 :            : 
    6907         [ #  # ]:          0 :         if (account_mem) {
    6908                 :          0 :                 ret = io_account_mem(user,
    6909                 :            :                                 ring_pages(p->sq_entries, p->cq_entries));
    6910         [ #  # ]:          0 :                 if (ret) {
    6911                 :          0 :                         free_uid(user);
    6912                 :          0 :                         return ret;
    6913                 :            :                 }
    6914                 :            :         }
    6915                 :            : 
    6916                 :          0 :         ctx = io_ring_ctx_alloc(p);
    6917         [ #  # ]:          0 :         if (!ctx) {
    6918         [ #  # ]:          0 :                 if (account_mem)
    6919                 :          0 :                         io_unaccount_mem(user, ring_pages(p->sq_entries,
    6920                 :            :                                                                 p->cq_entries));
    6921                 :          0 :                 free_uid(user);
    6922                 :          0 :                 return -ENOMEM;
    6923                 :            :         }
    6924         [ #  # ]:          0 :         ctx->compat = in_compat_syscall();
    6925                 :          0 :         ctx->account_mem = account_mem;
    6926                 :          0 :         ctx->user = user;
    6927         [ #  # ]:          0 :         ctx->creds = get_current_cred();
    6928                 :            : 
    6929                 :          0 :         ret = io_allocate_scq_urings(ctx, p);
    6930         [ #  # ]:          0 :         if (ret)
    6931                 :          0 :                 goto err;
    6932                 :            : 
    6933                 :          0 :         ret = io_sq_offload_start(ctx, p);
    6934         [ #  # ]:          0 :         if (ret)
    6935                 :          0 :                 goto err;
    6936                 :            : 
    6937                 :          0 :         memset(&p->sq_off, 0, sizeof(p->sq_off));
    6938                 :          0 :         p->sq_off.head = offsetof(struct io_rings, sq.head);
    6939                 :          0 :         p->sq_off.tail = offsetof(struct io_rings, sq.tail);
    6940                 :          0 :         p->sq_off.ring_mask = offsetof(struct io_rings, sq_ring_mask);
    6941                 :          0 :         p->sq_off.ring_entries = offsetof(struct io_rings, sq_ring_entries);
    6942                 :          0 :         p->sq_off.flags = offsetof(struct io_rings, sq_flags);
    6943                 :          0 :         p->sq_off.dropped = offsetof(struct io_rings, sq_dropped);
    6944                 :          0 :         p->sq_off.array = (char *)ctx->sq_array - (char *)ctx->rings;
    6945                 :            : 
    6946                 :          0 :         memset(&p->cq_off, 0, sizeof(p->cq_off));
    6947                 :          0 :         p->cq_off.head = offsetof(struct io_rings, cq.head);
    6948                 :          0 :         p->cq_off.tail = offsetof(struct io_rings, cq.tail);
    6949                 :          0 :         p->cq_off.ring_mask = offsetof(struct io_rings, cq_ring_mask);
    6950                 :          0 :         p->cq_off.ring_entries = offsetof(struct io_rings, cq_ring_entries);
    6951                 :          0 :         p->cq_off.overflow = offsetof(struct io_rings, cq_overflow);
    6952                 :          0 :         p->cq_off.cqes = offsetof(struct io_rings, cqes);
    6953                 :            : 
    6954                 :            :         /*
    6955                 :            :          * Install ring fd as the very last thing, so we don't risk someone
    6956                 :            :          * having closed it before we finish setup
    6957                 :            :          */
    6958                 :          0 :         ret = io_uring_get_fd(ctx);
    6959         [ #  # ]:          0 :         if (ret < 0)
    6960                 :          0 :                 goto err;
    6961                 :            : 
    6962                 :          0 :         p->features = IORING_FEAT_SINGLE_MMAP | IORING_FEAT_NODROP |
    6963                 :            :                         IORING_FEAT_SUBMIT_STABLE | IORING_FEAT_RW_CUR_POS |
    6964                 :            :                         IORING_FEAT_CUR_PERSONALITY;
    6965                 :          0 :         trace_io_uring_create(ret, ctx, p->sq_entries, p->cq_entries, p->flags);
    6966                 :          0 :         return ret;
    6967                 :          0 : err:
    6968                 :          0 :         io_ring_ctx_wait_and_kill(ctx);
    6969                 :          0 :         return ret;
    6970                 :            : }
    6971                 :            : 
    6972                 :            : /*
    6973                 :            :  * Sets up an aio uring context, and returns the fd. Applications asks for a
    6974                 :            :  * ring size, we return the actual sq/cq ring sizes (among other things) in the
    6975                 :            :  * params structure passed in.
    6976                 :            :  */
    6977                 :          0 : static long io_uring_setup(u32 entries, struct io_uring_params __user *params)
    6978                 :            : {
    6979                 :          0 :         struct io_uring_params p;
    6980                 :          0 :         long ret;
    6981                 :          0 :         int i;
    6982                 :            : 
    6983         [ #  # ]:          0 :         if (copy_from_user(&p, params, sizeof(p)))
    6984                 :            :                 return -EFAULT;
    6985         [ #  # ]:          0 :         for (i = 0; i < ARRAY_SIZE(p.resv); i++) {
    6986         [ #  # ]:          0 :                 if (p.resv[i])
    6987                 :            :                         return -EINVAL;
    6988                 :            :         }
    6989                 :            : 
    6990         [ #  # ]:          0 :         if (p.flags & ~(IORING_SETUP_IOPOLL | IORING_SETUP_SQPOLL |
    6991                 :            :                         IORING_SETUP_SQ_AFF | IORING_SETUP_CQSIZE |
    6992                 :            :                         IORING_SETUP_CLAMP | IORING_SETUP_ATTACH_WQ))
    6993                 :            :                 return -EINVAL;
    6994                 :            : 
    6995                 :          0 :         ret = io_uring_create(entries, &p);
    6996         [ #  # ]:          0 :         if (ret < 0)
    6997                 :            :                 return ret;
    6998                 :            : 
    6999         [ #  # ]:          0 :         if (copy_to_user(params, &p, sizeof(p)))
    7000                 :          0 :                 return -EFAULT;
    7001                 :            : 
    7002                 :            :         return ret;
    7003                 :            : }
    7004                 :            : 
    7005                 :          0 : SYSCALL_DEFINE2(io_uring_setup, u32, entries,
    7006                 :            :                 struct io_uring_params __user *, params)
    7007                 :            : {
    7008                 :          0 :         return io_uring_setup(entries, params);
    7009                 :            : }
    7010                 :            : 
    7011                 :            : static int io_probe(struct io_ring_ctx *ctx, void __user *arg, unsigned nr_args)
    7012                 :            : {
    7013                 :            :         struct io_uring_probe *p;
    7014                 :            :         size_t size;
    7015                 :            :         int i, ret;
    7016                 :            : 
    7017                 :            :         size = struct_size(p, ops, nr_args);
    7018                 :            :         if (size == SIZE_MAX)
    7019                 :            :                 return -EOVERFLOW;
    7020                 :            :         p = kzalloc(size, GFP_KERNEL);
    7021                 :            :         if (!p)
    7022                 :            :                 return -ENOMEM;
    7023                 :            : 
    7024                 :            :         ret = -EFAULT;
    7025                 :            :         if (copy_from_user(p, arg, size))
    7026                 :            :                 goto out;
    7027                 :            :         ret = -EINVAL;
    7028                 :            :         if (memchr_inv(p, 0, size))
    7029                 :            :                 goto out;
    7030                 :            : 
    7031                 :            :         p->last_op = IORING_OP_LAST - 1;
    7032                 :            :         if (nr_args > IORING_OP_LAST)
    7033                 :            :                 nr_args = IORING_OP_LAST;
    7034                 :            : 
    7035                 :            :         for (i = 0; i < nr_args; i++) {
    7036                 :            :                 p->ops[i].op = i;
    7037                 :            :                 if (!io_op_defs[i].not_supported)
    7038                 :            :                         p->ops[i].flags = IO_URING_OP_SUPPORTED;
    7039                 :            :         }
    7040                 :            :         p->ops_len = i;
    7041                 :            : 
    7042                 :            :         ret = 0;
    7043                 :            :         if (copy_to_user(arg, p, size))
    7044                 :            :                 ret = -EFAULT;
    7045                 :            : out:
    7046                 :            :         kfree(p);
    7047                 :            :         return ret;
    7048                 :            : }
    7049                 :            : 
    7050                 :          0 : static int io_register_personality(struct io_ring_ctx *ctx)
    7051                 :            : {
    7052         [ #  # ]:          0 :         const struct cred *creds = get_current_cred();
    7053                 :          0 :         int id;
    7054                 :            : 
    7055                 :          0 :         id = idr_alloc_cyclic(&ctx->personality_idr, (void *) creds, 1,
    7056                 :            :                                 USHRT_MAX, GFP_KERNEL);
    7057         [ #  # ]:          0 :         if (id < 0)
    7058                 :          0 :                 put_cred(creds);
    7059                 :          0 :         return id;
    7060                 :            : }
    7061                 :            : 
    7062                 :          0 : static int io_unregister_personality(struct io_ring_ctx *ctx, unsigned id)
    7063                 :            : {
    7064                 :          0 :         const struct cred *old_creds;
    7065                 :            : 
    7066                 :          0 :         old_creds = idr_remove(&ctx->personality_idr, id);
    7067         [ #  # ]:          0 :         if (old_creds) {
    7068                 :          0 :                 put_cred(old_creds);
    7069                 :          0 :                 return 0;
    7070                 :            :         }
    7071                 :            : 
    7072                 :            :         return -EINVAL;
    7073                 :            : }
    7074                 :            : 
    7075                 :          0 : static bool io_register_op_must_quiesce(int op)
    7076                 :            : {
    7077                 :          0 :         switch (op) {
    7078                 :            :         case IORING_UNREGISTER_FILES:
    7079                 :            :         case IORING_REGISTER_FILES_UPDATE:
    7080                 :            :         case IORING_REGISTER_PROBE:
    7081                 :            :         case IORING_REGISTER_PERSONALITY:
    7082                 :            :         case IORING_UNREGISTER_PERSONALITY:
    7083                 :            :                 return false;
    7084                 :            :         default:
    7085                 :          0 :                 return true;
    7086                 :            :         }
    7087                 :            : }
    7088                 :            : 
    7089                 :          0 : static int __io_uring_register(struct io_ring_ctx *ctx, unsigned opcode,
    7090                 :            :                                void __user *arg, unsigned nr_args)
    7091                 :            :         __releases(ctx->uring_lock)
    7092                 :            :         __acquires(ctx->uring_lock)
    7093                 :            : {
    7094                 :          0 :         int ret;
    7095                 :            : 
    7096                 :            :         /*
    7097                 :            :          * We're inside the ring mutex, if the ref is already dying, then
    7098                 :            :          * someone else killed the ctx or is already going through
    7099                 :            :          * io_uring_register().
    7100                 :            :          */
    7101         [ #  # ]:          0 :         if (percpu_ref_is_dying(&ctx->refs))
    7102                 :            :                 return -ENXIO;
    7103                 :            : 
    7104         [ #  # ]:          0 :         if (io_register_op_must_quiesce(opcode)) {
    7105                 :          0 :                 percpu_ref_kill(&ctx->refs);
    7106                 :            : 
    7107                 :            :                 /*
    7108                 :            :                  * Drop uring mutex before waiting for references to exit. If
    7109                 :            :                  * another thread is currently inside io_uring_enter() it might
    7110                 :            :                  * need to grab the uring_lock to make progress. If we hold it
    7111                 :            :                  * here across the drain wait, then we can deadlock. It's safe
    7112                 :            :                  * to drop the mutex here, since no new references will come in
    7113                 :            :                  * after we've killed the percpu ref.
    7114                 :            :                  */
    7115                 :          0 :                 mutex_unlock(&ctx->uring_lock);
    7116                 :          0 :                 ret = wait_for_completion_interruptible(&ctx->completions[0]);
    7117                 :          0 :                 mutex_lock(&ctx->uring_lock);
    7118         [ #  # ]:          0 :                 if (ret) {
    7119                 :          0 :                         percpu_ref_resurrect(&ctx->refs);
    7120                 :          0 :                         ret = -EINTR;
    7121                 :          0 :                         goto out;
    7122                 :            :                 }
    7123                 :            :         }
    7124                 :            : 
    7125   [ #  #  #  #  :          0 :         switch (opcode) {
          #  #  #  #  #  
                   #  # ]
    7126                 :          0 :         case IORING_REGISTER_BUFFERS:
    7127                 :          0 :                 ret = io_sqe_buffer_register(ctx, arg, nr_args);
    7128                 :          0 :                 break;
    7129                 :          0 :         case IORING_UNREGISTER_BUFFERS:
    7130                 :          0 :                 ret = -EINVAL;
    7131         [ #  # ]:          0 :                 if (arg || nr_args)
    7132                 :            :                         break;
    7133                 :          0 :                 ret = io_sqe_buffer_unregister(ctx);
    7134                 :          0 :                 break;
    7135                 :          0 :         case IORING_REGISTER_FILES:
    7136                 :          0 :                 ret = io_sqe_files_register(ctx, arg, nr_args);
    7137                 :          0 :                 break;
    7138                 :          0 :         case IORING_UNREGISTER_FILES:
    7139                 :          0 :                 ret = -EINVAL;
    7140         [ #  # ]:          0 :                 if (arg || nr_args)
    7141                 :            :                         break;
    7142                 :          0 :                 ret = io_sqe_files_unregister(ctx);
    7143                 :          0 :                 break;
    7144                 :          0 :         case IORING_REGISTER_FILES_UPDATE:
    7145                 :          0 :                 ret = io_sqe_files_update(ctx, arg, nr_args);
    7146                 :          0 :                 break;
    7147                 :          0 :         case IORING_REGISTER_EVENTFD:
    7148                 :            :         case IORING_REGISTER_EVENTFD_ASYNC:
    7149                 :          0 :                 ret = -EINVAL;
    7150         [ #  # ]:          0 :                 if (nr_args != 1)
    7151                 :            :                         break;
    7152                 :          0 :                 ret = io_eventfd_register(ctx, arg);
    7153         [ #  # ]:          0 :                 if (ret)
    7154                 :            :                         break;
    7155         [ #  # ]:          0 :                 if (opcode == IORING_REGISTER_EVENTFD_ASYNC)
    7156                 :          0 :                         ctx->eventfd_async = 1;
    7157                 :            :                 else
    7158                 :          0 :                         ctx->eventfd_async = 0;
    7159                 :            :                 break;
    7160                 :          0 :         case IORING_UNREGISTER_EVENTFD:
    7161                 :          0 :                 ret = -EINVAL;
    7162         [ #  # ]:          0 :                 if (arg || nr_args)
    7163                 :            :                         break;
    7164         [ #  # ]:          0 :                 ret = io_eventfd_unregister(ctx);
    7165                 :            :                 break;
    7166                 :          0 :         case IORING_REGISTER_PROBE:
    7167                 :          0 :                 ret = -EINVAL;
    7168         [ #  # ]:          0 :                 if (!arg || nr_args > 256)
    7169                 :            :                         break;
    7170                 :          0 :                 ret = io_probe(ctx, arg, nr_args);
    7171                 :          0 :                 break;
    7172                 :          0 :         case IORING_REGISTER_PERSONALITY:
    7173                 :          0 :                 ret = -EINVAL;
    7174         [ #  # ]:          0 :                 if (arg || nr_args)
    7175                 :            :                         break;
    7176                 :          0 :                 ret = io_register_personality(ctx);
    7177                 :          0 :                 break;
    7178                 :          0 :         case IORING_UNREGISTER_PERSONALITY:
    7179                 :          0 :                 ret = -EINVAL;
    7180         [ #  # ]:          0 :                 if (arg)
    7181                 :            :                         break;
    7182                 :          0 :                 ret = io_unregister_personality(ctx, nr_args);
    7183                 :            :                 break;
    7184                 :            :         default:
    7185                 :            :                 ret = -EINVAL;
    7186                 :            :                 break;
    7187                 :            :         }
    7188                 :            : 
    7189         [ #  # ]:          0 :         if (io_register_op_must_quiesce(opcode)) {
    7190                 :            :                 /* bring the ctx back to life */
    7191                 :          0 :                 percpu_ref_reinit(&ctx->refs);
    7192                 :          0 : out:
    7193                 :          0 :                 reinit_completion(&ctx->completions[0]);
    7194                 :            :         }
    7195                 :            :         return ret;
    7196                 :            : }
    7197                 :            : 
    7198                 :          0 : SYSCALL_DEFINE4(io_uring_register, unsigned int, fd, unsigned int, opcode,
    7199                 :            :                 void __user *, arg, unsigned int, nr_args)
    7200                 :            : {
    7201                 :          0 :         struct io_ring_ctx *ctx;
    7202                 :          0 :         long ret = -EBADF;
    7203                 :          0 :         struct fd f;
    7204                 :            : 
    7205                 :          0 :         f = fdget(fd);
    7206         [ #  # ]:          0 :         if (!f.file)
    7207                 :            :                 return -EBADF;
    7208                 :            : 
    7209                 :          0 :         ret = -EOPNOTSUPP;
    7210         [ #  # ]:          0 :         if (f.file->f_op != &io_uring_fops)
    7211                 :          0 :                 goto out_fput;
    7212                 :            : 
    7213                 :          0 :         ctx = f.file->private_data;
    7214                 :            : 
    7215                 :          0 :         mutex_lock(&ctx->uring_lock);
    7216                 :          0 :         ret = __io_uring_register(ctx, opcode, arg, nr_args);
    7217                 :          0 :         mutex_unlock(&ctx->uring_lock);
    7218                 :          0 :         trace_io_uring_register(ctx, opcode, ctx->nr_user_files, ctx->nr_user_bufs,
    7219                 :          0 :                                                         ctx->cq_ev_fd != NULL, ret);
    7220                 :          0 : out_fput:
    7221         [ #  # ]:          0 :         fdput(f);
    7222                 :            :         return ret;
    7223                 :            : }
    7224                 :            : 
    7225                 :         28 : static int __init io_uring_init(void)
    7226                 :            : {
    7227                 :            : #define __BUILD_BUG_VERIFY_ELEMENT(stype, eoffset, etype, ename) do { \
    7228                 :            :         BUILD_BUG_ON(offsetof(stype, ename) != eoffset); \
    7229                 :            :         BUILD_BUG_ON(sizeof(etype) != sizeof_field(stype, ename)); \
    7230                 :            : } while (0)
    7231                 :            : 
    7232                 :            : #define BUILD_BUG_SQE_ELEM(eoffset, etype, ename) \
    7233                 :            :         __BUILD_BUG_VERIFY_ELEMENT(struct io_uring_sqe, eoffset, etype, ename)
    7234                 :         28 :         BUILD_BUG_ON(sizeof(struct io_uring_sqe) != 64);
    7235                 :         28 :         BUILD_BUG_SQE_ELEM(0,  __u8,   opcode);
    7236                 :         28 :         BUILD_BUG_SQE_ELEM(1,  __u8,   flags);
    7237                 :         28 :         BUILD_BUG_SQE_ELEM(2,  __u16,  ioprio);
    7238                 :         28 :         BUILD_BUG_SQE_ELEM(4,  __s32,  fd);
    7239                 :         28 :         BUILD_BUG_SQE_ELEM(8,  __u64,  off);
    7240                 :         28 :         BUILD_BUG_SQE_ELEM(8,  __u64,  addr2);
    7241                 :         28 :         BUILD_BUG_SQE_ELEM(16, __u64,  addr);
    7242                 :         28 :         BUILD_BUG_SQE_ELEM(24, __u32,  len);
    7243                 :         28 :         BUILD_BUG_SQE_ELEM(28,     __kernel_rwf_t, rw_flags);
    7244                 :         28 :         BUILD_BUG_SQE_ELEM(28, /* compat */   int, rw_flags);
    7245                 :         28 :         BUILD_BUG_SQE_ELEM(28, /* compat */ __u32, rw_flags);
    7246                 :         28 :         BUILD_BUG_SQE_ELEM(28, __u32,  fsync_flags);
    7247                 :         28 :         BUILD_BUG_SQE_ELEM(28, __u16,  poll_events);
    7248                 :         28 :         BUILD_BUG_SQE_ELEM(28, __u32,  sync_range_flags);
    7249                 :         28 :         BUILD_BUG_SQE_ELEM(28, __u32,  msg_flags);
    7250                 :         28 :         BUILD_BUG_SQE_ELEM(28, __u32,  timeout_flags);
    7251                 :         28 :         BUILD_BUG_SQE_ELEM(28, __u32,  accept_flags);
    7252                 :         28 :         BUILD_BUG_SQE_ELEM(28, __u32,  cancel_flags);
    7253                 :         28 :         BUILD_BUG_SQE_ELEM(28, __u32,  open_flags);
    7254                 :         28 :         BUILD_BUG_SQE_ELEM(28, __u32,  statx_flags);
    7255                 :         28 :         BUILD_BUG_SQE_ELEM(28, __u32,  fadvise_advice);
    7256                 :         28 :         BUILD_BUG_SQE_ELEM(32, __u64,  user_data);
    7257                 :         28 :         BUILD_BUG_SQE_ELEM(40, __u16,  buf_index);
    7258                 :         28 :         BUILD_BUG_SQE_ELEM(42, __u16,  personality);
    7259                 :            : 
    7260                 :         28 :         BUILD_BUG_ON(ARRAY_SIZE(io_op_defs) != IORING_OP_LAST);
    7261                 :         28 :         req_cachep = KMEM_CACHE(io_kiocb, SLAB_HWCACHE_ALIGN | SLAB_PANIC);
    7262                 :         28 :         return 0;
    7263                 :            : };
    7264                 :            : __initcall(io_uring_init);

Generated by: LCOV version 1.14