LCOV - code coverage report
Current view: top level - mm - madvise.c (source / functions) Hit Total Coverage
Test: Real Lines: 52 268 19.4 %
Date: 2020-10-17 15:46:43 Functions: 1 17 5.9 %
Legend: Neither, QEMU, Real, Both Branches: 0 0 -

           Branch data     Line data    Source code
       1                 :            : // SPDX-License-Identifier: GPL-2.0
       2                 :            : /*
       3                 :            :  *      linux/mm/madvise.c
       4                 :            :  *
       5                 :            :  * Copyright (C) 1999  Linus Torvalds
       6                 :            :  * Copyright (C) 2002  Christoph Hellwig
       7                 :            :  */
       8                 :            : 
       9                 :            : #include <linux/mman.h>
      10                 :            : #include <linux/pagemap.h>
      11                 :            : #include <linux/syscalls.h>
      12                 :            : #include <linux/mempolicy.h>
      13                 :            : #include <linux/page-isolation.h>
      14                 :            : #include <linux/page_idle.h>
      15                 :            : #include <linux/userfaultfd_k.h>
      16                 :            : #include <linux/hugetlb.h>
      17                 :            : #include <linux/falloc.h>
      18                 :            : #include <linux/fadvise.h>
      19                 :            : #include <linux/sched.h>
      20                 :            : #include <linux/ksm.h>
      21                 :            : #include <linux/fs.h>
      22                 :            : #include <linux/file.h>
      23                 :            : #include <linux/blkdev.h>
      24                 :            : #include <linux/backing-dev.h>
      25                 :            : #include <linux/pagewalk.h>
      26                 :            : #include <linux/swap.h>
      27                 :            : #include <linux/swapops.h>
      28                 :            : #include <linux/shmem_fs.h>
      29                 :            : #include <linux/mmu_notifier.h>
      30                 :            : 
      31                 :            : #include <asm/tlb.h>
      32                 :            : 
      33                 :            : #include "internal.h"
      34                 :            : 
      35                 :            : struct madvise_walk_private {
      36                 :            :         struct mmu_gather *tlb;
      37                 :            :         bool pageout;
      38                 :            : };
      39                 :            : 
      40                 :            : /*
      41                 :            :  * Any behaviour which results in changes to the vma->vm_flags needs to
      42                 :            :  * take mmap_sem for writing. Others, which simply traverse vmas, need
      43                 :            :  * to only take it for reading.
      44                 :            :  */
      45                 :            : static int madvise_need_mmap_write(int behavior)
      46                 :            : {
      47                 :          3 :         switch (behavior) {
      48                 :            :         case MADV_REMOVE:
      49                 :            :         case MADV_WILLNEED:
      50                 :            :         case MADV_DONTNEED:
      51                 :            :         case MADV_COLD:
      52                 :            :         case MADV_PAGEOUT:
      53                 :            :         case MADV_FREE:
      54                 :            :                 return 0;
      55                 :            :         default:
      56                 :            :                 /* be safe, default to 1. list exceptions explicitly */
      57                 :            :                 return 1;
      58                 :            :         }
      59                 :            : }
      60                 :            : 
      61                 :            : /*
      62                 :            :  * We can potentially split a vm area into separate
      63                 :            :  * areas, each area with its own behavior.
      64                 :            :  */
      65                 :          2 : static long madvise_behavior(struct vm_area_struct *vma,
      66                 :            :                      struct vm_area_struct **prev,
      67                 :            :                      unsigned long start, unsigned long end, int behavior)
      68                 :            : {
      69                 :          2 :         struct mm_struct *mm = vma->vm_mm;
      70                 :            :         int error = 0;
      71                 :            :         pgoff_t pgoff;
      72                 :          2 :         unsigned long new_flags = vma->vm_flags;
      73                 :            : 
      74                 :          2 :         switch (behavior) {
      75                 :            :         case MADV_NORMAL:
      76                 :          0 :                 new_flags = new_flags & ~VM_RAND_READ & ~VM_SEQ_READ;
      77                 :          0 :                 break;
      78                 :            :         case MADV_SEQUENTIAL:
      79                 :          0 :                 new_flags = (new_flags & ~VM_RAND_READ) | VM_SEQ_READ;
      80                 :          0 :                 break;
      81                 :            :         case MADV_RANDOM:
      82                 :          0 :                 new_flags = (new_flags & ~VM_SEQ_READ) | VM_RAND_READ;
      83                 :          0 :                 break;
      84                 :            :         case MADV_DONTFORK:
      85                 :          0 :                 new_flags |= VM_DONTCOPY;
      86                 :          0 :                 break;
      87                 :            :         case MADV_DOFORK:
      88                 :          2 :                 if (vma->vm_flags & VM_IO) {
      89                 :            :                         error = -EINVAL;
      90                 :            :                         goto out;
      91                 :            :                 }
      92                 :          2 :                 new_flags &= ~VM_DONTCOPY;
      93                 :          2 :                 break;
      94                 :            :         case MADV_WIPEONFORK:
      95                 :            :                 /* MADV_WIPEONFORK is only supported on anonymous memory. */
      96                 :          0 :                 if (vma->vm_file || vma->vm_flags & VM_SHARED) {
      97                 :            :                         error = -EINVAL;
      98                 :            :                         goto out;
      99                 :            :                 }
     100                 :          0 :                 new_flags |= VM_WIPEONFORK;
     101                 :          0 :                 break;
     102                 :            :         case MADV_KEEPONFORK:
     103                 :          0 :                 new_flags &= ~VM_WIPEONFORK;
     104                 :          0 :                 break;
     105                 :            :         case MADV_DONTDUMP:
     106                 :          0 :                 new_flags |= VM_DONTDUMP;
     107                 :          0 :                 break;
     108                 :            :         case MADV_DODUMP:
     109                 :          0 :                 if (!is_vm_hugetlb_page(vma) && new_flags & VM_SPECIAL) {
     110                 :            :                         error = -EINVAL;
     111                 :            :                         goto out;
     112                 :            :                 }
     113                 :          0 :                 new_flags &= ~VM_DONTDUMP;
     114                 :          0 :                 break;
     115                 :            :         case MADV_MERGEABLE:
     116                 :            :         case MADV_UNMERGEABLE:
     117                 :            :                 error = ksm_madvise(vma, start, end, behavior, &new_flags);
     118                 :            :                 if (error)
     119                 :            :                         goto out_convert_errno;
     120                 :            :                 break;
     121                 :            :         case MADV_HUGEPAGE:
     122                 :            :         case MADV_NOHUGEPAGE:
     123                 :          0 :                 error = hugepage_madvise(vma, &new_flags, behavior);
     124                 :            :                 if (error)
     125                 :            :                         goto out_convert_errno;
     126                 :            :                 break;
     127                 :            :         }
     128                 :            : 
     129                 :          2 :         if (new_flags == vma->vm_flags) {
     130                 :          2 :                 *prev = vma;
     131                 :          2 :                 goto out;
     132                 :            :         }
     133                 :            : 
     134                 :          0 :         pgoff = vma->vm_pgoff + ((start - vma->vm_start) >> PAGE_SHIFT);
     135                 :          0 :         *prev = vma_merge(mm, *prev, start, end, new_flags, vma->anon_vma,
     136                 :            :                           vma->vm_file, pgoff, vma_policy(vma),
     137                 :            :                           vma->vm_userfaultfd_ctx);
     138                 :          0 :         if (*prev) {
     139                 :            :                 vma = *prev;
     140                 :            :                 goto success;
     141                 :            :         }
     142                 :            : 
     143                 :          0 :         *prev = vma;
     144                 :            : 
     145                 :          0 :         if (start != vma->vm_start) {
     146                 :          0 :                 if (unlikely(mm->map_count >= sysctl_max_map_count)) {
     147                 :            :                         error = -ENOMEM;
     148                 :            :                         goto out;
     149                 :            :                 }
     150                 :          0 :                 error = __split_vma(mm, vma, start, 1);
     151                 :          0 :                 if (error)
     152                 :            :                         goto out_convert_errno;
     153                 :            :         }
     154                 :            : 
     155                 :          0 :         if (end != vma->vm_end) {
     156                 :          0 :                 if (unlikely(mm->map_count >= sysctl_max_map_count)) {
     157                 :            :                         error = -ENOMEM;
     158                 :            :                         goto out;
     159                 :            :                 }
     160                 :          0 :                 error = __split_vma(mm, vma, end, 0);
     161                 :          0 :                 if (error)
     162                 :            :                         goto out_convert_errno;
     163                 :            :         }
     164                 :            : 
     165                 :            : success:
     166                 :            :         /*
     167                 :            :          * vm_flags is protected by the mmap_sem held in write mode.
     168                 :            :          */
     169                 :          0 :         vma->vm_flags = new_flags;
     170                 :            : 
     171                 :            : out_convert_errno:
     172                 :            :         /*
     173                 :            :          * madvise() returns EAGAIN if kernel resources, such as
     174                 :            :          * slab, are temporarily unavailable.
     175                 :            :          */
     176                 :          0 :         if (error == -ENOMEM)
     177                 :            :                 error = -EAGAIN;
     178                 :            : out:
     179                 :          2 :         return error;
     180                 :            : }
     181                 :            : 
     182                 :            : #ifdef CONFIG_SWAP
     183                 :          0 : static int swapin_walk_pmd_entry(pmd_t *pmd, unsigned long start,
     184                 :            :         unsigned long end, struct mm_walk *walk)
     185                 :            : {
     186                 :            :         pte_t *orig_pte;
     187                 :          0 :         struct vm_area_struct *vma = walk->private;
     188                 :            :         unsigned long index;
     189                 :            : 
     190                 :          0 :         if (pmd_none_or_trans_huge_or_clear_bad(pmd))
     191                 :            :                 return 0;
     192                 :            : 
     193                 :          0 :         for (index = start; index != end; index += PAGE_SIZE) {
     194                 :            :                 pte_t pte;
     195                 :            :                 swp_entry_t entry;
     196                 :            :                 struct page *page;
     197                 :            :                 spinlock_t *ptl;
     198                 :            : 
     199                 :          0 :                 orig_pte = pte_offset_map_lock(vma->vm_mm, pmd, start, &ptl);
     200                 :          0 :                 pte = *(orig_pte + ((index - start) / PAGE_SIZE));
     201                 :            :                 pte_unmap_unlock(orig_pte, ptl);
     202                 :            : 
     203                 :          0 :                 if (pte_present(pte) || pte_none(pte))
     204                 :          0 :                         continue;
     205                 :            :                 entry = pte_to_swp_entry(pte);
     206                 :          0 :                 if (unlikely(non_swap_entry(entry)))
     207                 :          0 :                         continue;
     208                 :            : 
     209                 :          0 :                 page = read_swap_cache_async(entry, GFP_HIGHUSER_MOVABLE,
     210                 :            :                                                         vma, index, false);
     211                 :          0 :                 if (page)
     212                 :          0 :                         put_page(page);
     213                 :            :         }
     214                 :            : 
     215                 :            :         return 0;
     216                 :            : }
     217                 :            : 
     218                 :            : static const struct mm_walk_ops swapin_walk_ops = {
     219                 :            :         .pmd_entry              = swapin_walk_pmd_entry,
     220                 :            : };
     221                 :            : 
     222                 :          0 : static void force_shm_swapin_readahead(struct vm_area_struct *vma,
     223                 :            :                 unsigned long start, unsigned long end,
     224                 :            :                 struct address_space *mapping)
     225                 :            : {
     226                 :            :         pgoff_t index;
     227                 :            :         struct page *page;
     228                 :            :         swp_entry_t swap;
     229                 :            : 
     230                 :          0 :         for (; start < end; start += PAGE_SIZE) {
     231                 :          0 :                 index = ((start - vma->vm_start) >> PAGE_SHIFT) + vma->vm_pgoff;
     232                 :            : 
     233                 :          0 :                 page = find_get_entry(mapping, index);
     234                 :          0 :                 if (!xa_is_value(page)) {
     235                 :          0 :                         if (page)
     236                 :          0 :                                 put_page(page);
     237                 :          0 :                         continue;
     238                 :            :                 }
     239                 :            :                 swap = radix_to_swp_entry(page);
     240                 :          0 :                 page = read_swap_cache_async(swap, GFP_HIGHUSER_MOVABLE,
     241                 :            :                                                         NULL, 0, false);
     242                 :          0 :                 if (page)
     243                 :          0 :                         put_page(page);
     244                 :            :         }
     245                 :            : 
     246                 :          0 :         lru_add_drain();        /* Push any new pages onto the LRU now */
     247                 :          0 : }
     248                 :            : #endif          /* CONFIG_SWAP */
     249                 :            : 
     250                 :            : /*
     251                 :            :  * Schedule all required I/O operations.  Do not wait for completion.
     252                 :            :  */
     253                 :          0 : static long madvise_willneed(struct vm_area_struct *vma,
     254                 :            :                              struct vm_area_struct **prev,
     255                 :            :                              unsigned long start, unsigned long end)
     256                 :            : {
     257                 :          0 :         struct file *file = vma->vm_file;
     258                 :            :         loff_t offset;
     259                 :            : 
     260                 :          0 :         *prev = vma;
     261                 :            : #ifdef CONFIG_SWAP
     262                 :          0 :         if (!file) {
     263                 :          0 :                 walk_page_range(vma->vm_mm, start, end, &swapin_walk_ops, vma);
     264                 :          0 :                 lru_add_drain(); /* Push any new pages onto the LRU now */
     265                 :          0 :                 return 0;
     266                 :            :         }
     267                 :            : 
     268                 :          0 :         if (shmem_mapping(file->f_mapping)) {
     269                 :          0 :                 force_shm_swapin_readahead(vma, start, end,
     270                 :            :                                         file->f_mapping);
     271                 :          0 :                 return 0;
     272                 :            :         }
     273                 :            : #else
     274                 :            :         if (!file)
     275                 :            :                 return -EBADF;
     276                 :            : #endif
     277                 :            : 
     278                 :            :         if (IS_DAX(file_inode(file))) {
     279                 :            :                 /* no bad return value, but ignore advice */
     280                 :            :                 return 0;
     281                 :            :         }
     282                 :            : 
     283                 :            :         /*
     284                 :            :          * Filesystem's fadvise may need to take various locks.  We need to
     285                 :            :          * explicitly grab a reference because the vma (and hence the
     286                 :            :          * vma's reference to the file) can go away as soon as we drop
     287                 :            :          * mmap_sem.
     288                 :            :          */
     289                 :          0 :         *prev = NULL;   /* tell sys_madvise we drop mmap_sem */
     290                 :            :         get_file(file);
     291                 :          0 :         up_read(&current->mm->mmap_sem);
     292                 :          0 :         offset = (loff_t)(start - vma->vm_start)
     293                 :          0 :                         + ((loff_t)vma->vm_pgoff << PAGE_SHIFT);
     294                 :          0 :         vfs_fadvise(file, offset, end - start, POSIX_FADV_WILLNEED);
     295                 :          0 :         fput(file);
     296                 :          0 :         down_read(&current->mm->mmap_sem);
     297                 :          0 :         return 0;
     298                 :            : }
     299                 :            : 
     300                 :          0 : static int madvise_cold_or_pageout_pte_range(pmd_t *pmd,
     301                 :            :                                 unsigned long addr, unsigned long end,
     302                 :            :                                 struct mm_walk *walk)
     303                 :            : {
     304                 :          0 :         struct madvise_walk_private *private = walk->private;
     305                 :          0 :         struct mmu_gather *tlb = private->tlb;
     306                 :          0 :         bool pageout = private->pageout;
     307                 :          0 :         struct mm_struct *mm = tlb->mm;
     308                 :          0 :         struct vm_area_struct *vma = walk->vma;
     309                 :            :         pte_t *orig_pte, *pte, ptent;
     310                 :            :         spinlock_t *ptl;
     311                 :            :         struct page *page = NULL;
     312                 :          0 :         LIST_HEAD(page_list);
     313                 :            : 
     314                 :          0 :         if (fatal_signal_pending(current))
     315                 :            :                 return -EINTR;
     316                 :            : 
     317                 :            : #ifdef CONFIG_TRANSPARENT_HUGEPAGE
     318                 :            :         if (pmd_trans_huge(*pmd)) {
     319                 :            :                 pmd_t orig_pmd;
     320                 :            :                 unsigned long next = pmd_addr_end(addr, end);
     321                 :            : 
     322                 :            :                 tlb_change_page_size(tlb, HPAGE_PMD_SIZE);
     323                 :            :                 ptl = pmd_trans_huge_lock(pmd, vma);
     324                 :            :                 if (!ptl)
     325                 :            :                         return 0;
     326                 :            : 
     327                 :            :                 orig_pmd = *pmd;
     328                 :            :                 if (is_huge_zero_pmd(orig_pmd))
     329                 :            :                         goto huge_unlock;
     330                 :            : 
     331                 :            :                 if (unlikely(!pmd_present(orig_pmd))) {
     332                 :            :                         VM_BUG_ON(thp_migration_supported() &&
     333                 :            :                                         !is_pmd_migration_entry(orig_pmd));
     334                 :            :                         goto huge_unlock;
     335                 :            :                 }
     336                 :            : 
     337                 :            :                 page = pmd_page(orig_pmd);
     338                 :            : 
     339                 :            :                 /* Do not interfere with other mappings of this page */
     340                 :            :                 if (page_mapcount(page) != 1)
     341                 :            :                         goto huge_unlock;
     342                 :            : 
     343                 :            :                 if (next - addr != HPAGE_PMD_SIZE) {
     344                 :            :                         int err;
     345                 :            : 
     346                 :            :                         get_page(page);
     347                 :            :                         spin_unlock(ptl);
     348                 :            :                         lock_page(page);
     349                 :            :                         err = split_huge_page(page);
     350                 :            :                         unlock_page(page);
     351                 :            :                         put_page(page);
     352                 :            :                         if (!err)
     353                 :            :                                 goto regular_page;
     354                 :            :                         return 0;
     355                 :            :                 }
     356                 :            : 
     357                 :            :                 if (pmd_young(orig_pmd)) {
     358                 :            :                         pmdp_invalidate(vma, addr, pmd);
     359                 :            :                         orig_pmd = pmd_mkold(orig_pmd);
     360                 :            : 
     361                 :            :                         set_pmd_at(mm, addr, pmd, orig_pmd);
     362                 :            :                         tlb_remove_pmd_tlb_entry(tlb, pmd, addr);
     363                 :            :                 }
     364                 :            : 
     365                 :            :                 ClearPageReferenced(page);
     366                 :            :                 test_and_clear_page_young(page);
     367                 :            :                 if (pageout) {
     368                 :            :                         if (!isolate_lru_page(page)) {
     369                 :            :                                 if (PageUnevictable(page))
     370                 :            :                                         putback_lru_page(page);
     371                 :            :                                 else
     372                 :            :                                         list_add(&page->lru, &page_list);
     373                 :            :                         }
     374                 :            :                 } else
     375                 :            :                         deactivate_page(page);
     376                 :            : huge_unlock:
     377                 :            :                 spin_unlock(ptl);
     378                 :            :                 if (pageout)
     379                 :            :                         reclaim_pages(&page_list);
     380                 :            :                 return 0;
     381                 :            :         }
     382                 :            : 
     383                 :            :         if (pmd_trans_unstable(pmd))
     384                 :            :                 return 0;
     385                 :            : regular_page:
     386                 :            : #endif
     387                 :            :         tlb_change_page_size(tlb, PAGE_SIZE);
     388                 :          0 :         orig_pte = pte = pte_offset_map_lock(vma->vm_mm, pmd, addr, &ptl);
     389                 :            :         flush_tlb_batched_pending(mm);
     390                 :            :         arch_enter_lazy_mmu_mode();
     391                 :          0 :         for (; addr < end; pte++, addr += PAGE_SIZE) {
     392                 :          0 :                 ptent = *pte;
     393                 :            : 
     394                 :          0 :                 if (pte_none(ptent))
     395                 :          0 :                         continue;
     396                 :            : 
     397                 :          0 :                 if (!pte_present(ptent))
     398                 :          0 :                         continue;
     399                 :            : 
     400                 :          0 :                 page = vm_normal_page(vma, addr, ptent);
     401                 :          0 :                 if (!page)
     402                 :          0 :                         continue;
     403                 :            : 
     404                 :            :                 /*
     405                 :            :                  * Creating a THP page is expensive so split it only if we
     406                 :            :                  * are sure it's worth. Split it if we are only owner.
     407                 :            :                  */
     408                 :            :                 if (PageTransCompound(page)) {
     409                 :            :                         if (page_mapcount(page) != 1)
     410                 :            :                                 break;
     411                 :            :                         get_page(page);
     412                 :            :                         if (!trylock_page(page)) {
     413                 :            :                                 put_page(page);
     414                 :            :                                 break;
     415                 :            :                         }
     416                 :            :                         pte_unmap_unlock(orig_pte, ptl);
     417                 :            :                         if (split_huge_page(page)) {
     418                 :            :                                 unlock_page(page);
     419                 :            :                                 put_page(page);
     420                 :            :                                 pte_offset_map_lock(mm, pmd, addr, &ptl);
     421                 :            :                                 break;
     422                 :            :                         }
     423                 :            :                         unlock_page(page);
     424                 :            :                         put_page(page);
     425                 :            :                         pte = pte_offset_map_lock(mm, pmd, addr, &ptl);
     426                 :            :                         pte--;
     427                 :            :                         addr -= PAGE_SIZE;
     428                 :            :                         continue;
     429                 :            :                 }
     430                 :            : 
     431                 :            :                 /* Do not interfere with other mappings of this page */
     432                 :          0 :                 if (page_mapcount(page) != 1)
     433                 :          0 :                         continue;
     434                 :            : 
     435                 :            :                 VM_BUG_ON_PAGE(PageTransCompound(page), page);
     436                 :            : 
     437                 :          0 :                 if (pte_young(ptent)) {
     438                 :            :                         ptent = ptep_get_and_clear_full(mm, addr, pte,
     439                 :            :                                                         tlb->fullmm);
     440                 :            :                         ptent = pte_mkold(ptent);
     441                 :          0 :                         set_pte_at(mm, addr, pte, ptent);
     442                 :          0 :                         tlb_remove_tlb_entry(tlb, pte, addr);
     443                 :            :                 }
     444                 :            : 
     445                 :            :                 /*
     446                 :            :                  * We are deactivating a page for accelerating reclaiming.
     447                 :            :                  * VM couldn't reclaim the page unless we clear PG_young.
     448                 :            :                  * As a side effect, it makes confuse idle-page tracking
     449                 :            :                  * because they will miss recent referenced history.
     450                 :            :                  */
     451                 :            :                 ClearPageReferenced(page);
     452                 :            :                 test_and_clear_page_young(page);
     453                 :          0 :                 if (pageout) {
     454                 :          0 :                         if (!isolate_lru_page(page)) {
     455                 :          0 :                                 if (PageUnevictable(page))
     456                 :          0 :                                         putback_lru_page(page);
     457                 :            :                                 else
     458                 :          0 :                                         list_add(&page->lru, &page_list);
     459                 :            :                         }
     460                 :            :                 } else
     461                 :          0 :                         deactivate_page(page);
     462                 :            :         }
     463                 :            : 
     464                 :            :         arch_leave_lazy_mmu_mode();
     465                 :            :         pte_unmap_unlock(orig_pte, ptl);
     466                 :          0 :         if (pageout)
     467                 :          0 :                 reclaim_pages(&page_list);
     468                 :          0 :         cond_resched();
     469                 :            : 
     470                 :          0 :         return 0;
     471                 :            : }
     472                 :            : 
     473                 :            : static const struct mm_walk_ops cold_walk_ops = {
     474                 :            :         .pmd_entry = madvise_cold_or_pageout_pte_range,
     475                 :            : };
     476                 :            : 
     477                 :          0 : static void madvise_cold_page_range(struct mmu_gather *tlb,
     478                 :            :                              struct vm_area_struct *vma,
     479                 :            :                              unsigned long addr, unsigned long end)
     480                 :            : {
     481                 :          0 :         struct madvise_walk_private walk_private = {
     482                 :            :                 .pageout = false,
     483                 :            :                 .tlb = tlb,
     484                 :            :         };
     485                 :            : 
     486                 :          0 :         tlb_start_vma(tlb, vma);
     487                 :          0 :         walk_page_range(vma->vm_mm, addr, end, &cold_walk_ops, &walk_private);
     488                 :            :         tlb_end_vma(tlb, vma);
     489                 :          0 : }
     490                 :            : 
     491                 :          0 : static long madvise_cold(struct vm_area_struct *vma,
     492                 :            :                         struct vm_area_struct **prev,
     493                 :            :                         unsigned long start_addr, unsigned long end_addr)
     494                 :            : {
     495                 :          0 :         struct mm_struct *mm = vma->vm_mm;
     496                 :            :         struct mmu_gather tlb;
     497                 :            : 
     498                 :          0 :         *prev = vma;
     499                 :          0 :         if (!can_madv_lru_vma(vma))
     500                 :            :                 return -EINVAL;
     501                 :            : 
     502                 :          0 :         lru_add_drain();
     503                 :          0 :         tlb_gather_mmu(&tlb, mm, start_addr, end_addr);
     504                 :          0 :         madvise_cold_page_range(&tlb, vma, start_addr, end_addr);
     505                 :          0 :         tlb_finish_mmu(&tlb, start_addr, end_addr);
     506                 :            : 
     507                 :          0 :         return 0;
     508                 :            : }
     509                 :            : 
     510                 :          0 : static void madvise_pageout_page_range(struct mmu_gather *tlb,
     511                 :            :                              struct vm_area_struct *vma,
     512                 :            :                              unsigned long addr, unsigned long end)
     513                 :            : {
     514                 :          0 :         struct madvise_walk_private walk_private = {
     515                 :            :                 .pageout = true,
     516                 :            :                 .tlb = tlb,
     517                 :            :         };
     518                 :            : 
     519                 :          0 :         tlb_start_vma(tlb, vma);
     520                 :          0 :         walk_page_range(vma->vm_mm, addr, end, &cold_walk_ops, &walk_private);
     521                 :            :         tlb_end_vma(tlb, vma);
     522                 :          0 : }
     523                 :            : 
     524                 :          0 : static inline bool can_do_pageout(struct vm_area_struct *vma)
     525                 :            : {
     526                 :          0 :         if (vma_is_anonymous(vma))
     527                 :            :                 return true;
     528                 :          0 :         if (!vma->vm_file)
     529                 :            :                 return false;
     530                 :            :         /*
     531                 :            :          * paging out pagecache only for non-anonymous mappings that correspond
     532                 :            :          * to the files the calling process could (if tried) open for writing;
     533                 :            :          * otherwise we'd be including shared non-exclusive mappings, which
     534                 :            :          * opens a side channel.
     535                 :            :          */
     536                 :          0 :         return inode_owner_or_capable(file_inode(vma->vm_file)) ||
     537                 :          0 :                 inode_permission(file_inode(vma->vm_file), MAY_WRITE) == 0;
     538                 :            : }
     539                 :            : 
     540                 :          0 : static long madvise_pageout(struct vm_area_struct *vma,
     541                 :            :                         struct vm_area_struct **prev,
     542                 :            :                         unsigned long start_addr, unsigned long end_addr)
     543                 :            : {
     544                 :          0 :         struct mm_struct *mm = vma->vm_mm;
     545                 :            :         struct mmu_gather tlb;
     546                 :            : 
     547                 :          0 :         *prev = vma;
     548                 :          0 :         if (!can_madv_lru_vma(vma))
     549                 :            :                 return -EINVAL;
     550                 :            : 
     551                 :          0 :         if (!can_do_pageout(vma))
     552                 :            :                 return 0;
     553                 :            : 
     554                 :          0 :         lru_add_drain();
     555                 :          0 :         tlb_gather_mmu(&tlb, mm, start_addr, end_addr);
     556                 :          0 :         madvise_pageout_page_range(&tlb, vma, start_addr, end_addr);
     557                 :          0 :         tlb_finish_mmu(&tlb, start_addr, end_addr);
     558                 :            : 
     559                 :          0 :         return 0;
     560                 :            : }
     561                 :            : 
     562                 :          0 : static int madvise_free_pte_range(pmd_t *pmd, unsigned long addr,
     563                 :            :                                 unsigned long end, struct mm_walk *walk)
     564                 :            : 
     565                 :            : {
     566                 :          0 :         struct mmu_gather *tlb = walk->private;
     567                 :          0 :         struct mm_struct *mm = tlb->mm;
     568                 :          0 :         struct vm_area_struct *vma = walk->vma;
     569                 :            :         spinlock_t *ptl;
     570                 :            :         pte_t *orig_pte, *pte, ptent;
     571                 :            :         struct page *page;
     572                 :            :         int nr_swap = 0;
     573                 :            :         unsigned long next;
     574                 :            : 
     575                 :            :         next = pmd_addr_end(addr, end);
     576                 :            :         if (pmd_trans_huge(*pmd))
     577                 :            :                 if (madvise_free_huge_pmd(tlb, vma, pmd, addr, next))
     578                 :            :                         goto next;
     579                 :            : 
     580                 :            :         if (pmd_trans_unstable(pmd))
     581                 :            :                 return 0;
     582                 :            : 
     583                 :            :         tlb_change_page_size(tlb, PAGE_SIZE);
     584                 :          0 :         orig_pte = pte = pte_offset_map_lock(mm, pmd, addr, &ptl);
     585                 :            :         flush_tlb_batched_pending(mm);
     586                 :            :         arch_enter_lazy_mmu_mode();
     587                 :          0 :         for (; addr != end; pte++, addr += PAGE_SIZE) {
     588                 :          0 :                 ptent = *pte;
     589                 :            : 
     590                 :          0 :                 if (pte_none(ptent))
     591                 :          0 :                         continue;
     592                 :            :                 /*
     593                 :            :                  * If the pte has swp_entry, just clear page table to
     594                 :            :                  * prevent swap-in which is more expensive rather than
     595                 :            :                  * (page allocation + zeroing).
     596                 :            :                  */
     597                 :          0 :                 if (!pte_present(ptent)) {
     598                 :            :                         swp_entry_t entry;
     599                 :            : 
     600                 :            :                         entry = pte_to_swp_entry(ptent);
     601                 :          0 :                         if (non_swap_entry(entry))
     602                 :          0 :                                 continue;
     603                 :          0 :                         nr_swap--;
     604                 :          0 :                         free_swap_and_cache(entry);
     605                 :            :                         pte_clear_not_present_full(mm, addr, pte, tlb->fullmm);
     606                 :          0 :                         continue;
     607                 :            :                 }
     608                 :            : 
     609                 :          0 :                 page = vm_normal_page(vma, addr, ptent);
     610                 :          0 :                 if (!page)
     611                 :          0 :                         continue;
     612                 :            : 
     613                 :            :                 /*
     614                 :            :                  * If pmd isn't transhuge but the page is THP and
     615                 :            :                  * is owned by only this process, split it and
     616                 :            :                  * deactivate all pages.
     617                 :            :                  */
     618                 :            :                 if (PageTransCompound(page)) {
     619                 :            :                         if (page_mapcount(page) != 1)
     620                 :            :                                 goto out;
     621                 :            :                         get_page(page);
     622                 :            :                         if (!trylock_page(page)) {
     623                 :            :                                 put_page(page);
     624                 :            :                                 goto out;
     625                 :            :                         }
     626                 :            :                         pte_unmap_unlock(orig_pte, ptl);
     627                 :            :                         if (split_huge_page(page)) {
     628                 :            :                                 unlock_page(page);
     629                 :            :                                 put_page(page);
     630                 :            :                                 pte_offset_map_lock(mm, pmd, addr, &ptl);
     631                 :            :                                 goto out;
     632                 :            :                         }
     633                 :            :                         unlock_page(page);
     634                 :            :                         put_page(page);
     635                 :            :                         pte = pte_offset_map_lock(mm, pmd, addr, &ptl);
     636                 :            :                         pte--;
     637                 :            :                         addr -= PAGE_SIZE;
     638                 :            :                         continue;
     639                 :            :                 }
     640                 :            : 
     641                 :            :                 VM_BUG_ON_PAGE(PageTransCompound(page), page);
     642                 :            : 
     643                 :          0 :                 if (PageSwapCache(page) || PageDirty(page)) {
     644                 :          0 :                         if (!trylock_page(page))
     645                 :          0 :                                 continue;
     646                 :            :                         /*
     647                 :            :                          * If page is shared with others, we couldn't clear
     648                 :            :                          * PG_dirty of the page.
     649                 :            :                          */
     650                 :          0 :                         if (page_mapcount(page) != 1) {
     651                 :          0 :                                 unlock_page(page);
     652                 :          0 :                                 continue;
     653                 :            :                         }
     654                 :            : 
     655                 :          0 :                         if (PageSwapCache(page) && !try_to_free_swap(page)) {
     656                 :          0 :                                 unlock_page(page);
     657                 :          0 :                                 continue;
     658                 :            :                         }
     659                 :            : 
     660                 :            :                         ClearPageDirty(page);
     661                 :          0 :                         unlock_page(page);
     662                 :            :                 }
     663                 :            : 
     664                 :          0 :                 if (pte_young(ptent) || pte_dirty(ptent)) {
     665                 :            :                         /*
     666                 :            :                          * Some of architecture(ex, PPC) don't update TLB
     667                 :            :                          * with set_pte_at and tlb_remove_tlb_entry so for
     668                 :            :                          * the portability, remap the pte with old|clean
     669                 :            :                          * after pte clearing.
     670                 :            :                          */
     671                 :            :                         ptent = ptep_get_and_clear_full(mm, addr, pte,
     672                 :            :                                                         tlb->fullmm);
     673                 :            : 
     674                 :            :                         ptent = pte_mkold(ptent);
     675                 :            :                         ptent = pte_mkclean(ptent);
     676                 :          0 :                         set_pte_at(mm, addr, pte, ptent);
     677                 :          0 :                         tlb_remove_tlb_entry(tlb, pte, addr);
     678                 :            :                 }
     679                 :          0 :                 mark_page_lazyfree(page);
     680                 :            :         }
     681                 :            : out:
     682                 :          0 :         if (nr_swap) {
     683                 :          0 :                 if (current->mm == mm)
     684                 :          0 :                         sync_mm_rss(mm);
     685                 :            : 
     686                 :            :                 add_mm_counter(mm, MM_SWAPENTS, nr_swap);
     687                 :            :         }
     688                 :            :         arch_leave_lazy_mmu_mode();
     689                 :            :         pte_unmap_unlock(orig_pte, ptl);
     690                 :          0 :         cond_resched();
     691                 :            : next:
     692                 :            :         return 0;
     693                 :            : }
     694                 :            : 
     695                 :            : static const struct mm_walk_ops madvise_free_walk_ops = {
     696                 :            :         .pmd_entry              = madvise_free_pte_range,
     697                 :            : };
     698                 :            : 
     699                 :          0 : static int madvise_free_single_vma(struct vm_area_struct *vma,
     700                 :            :                         unsigned long start_addr, unsigned long end_addr)
     701                 :            : {
     702                 :          0 :         struct mm_struct *mm = vma->vm_mm;
     703                 :            :         struct mmu_notifier_range range;
     704                 :            :         struct mmu_gather tlb;
     705                 :            : 
     706                 :            :         /* MADV_FREE works for only anon vma at the moment */
     707                 :          0 :         if (!vma_is_anonymous(vma))
     708                 :            :                 return -EINVAL;
     709                 :            : 
     710                 :          0 :         range.start = max(vma->vm_start, start_addr);
     711                 :          0 :         if (range.start >= vma->vm_end)
     712                 :            :                 return -EINVAL;
     713                 :          0 :         range.end = min(vma->vm_end, end_addr);
     714                 :          0 :         if (range.end <= vma->vm_start)
     715                 :            :                 return -EINVAL;
     716                 :            :         mmu_notifier_range_init(&range, MMU_NOTIFY_CLEAR, 0, vma, mm,
     717                 :            :                                 range.start, range.end);
     718                 :            : 
     719                 :          0 :         lru_add_drain();
     720                 :          0 :         tlb_gather_mmu(&tlb, mm, range.start, range.end);
     721                 :            :         update_hiwater_rss(mm);
     722                 :            : 
     723                 :            :         mmu_notifier_invalidate_range_start(&range);
     724                 :          0 :         tlb_start_vma(&tlb, vma);
     725                 :          0 :         walk_page_range(vma->vm_mm, range.start, range.end,
     726                 :            :                         &madvise_free_walk_ops, &tlb);
     727                 :            :         tlb_end_vma(&tlb, vma);
     728                 :            :         mmu_notifier_invalidate_range_end(&range);
     729                 :          0 :         tlb_finish_mmu(&tlb, range.start, range.end);
     730                 :            : 
     731                 :          0 :         return 0;
     732                 :            : }
     733                 :            : 
     734                 :            : /*
     735                 :            :  * Application no longer needs these pages.  If the pages are dirty,
     736                 :            :  * it's OK to just throw them away.  The app will be more careful about
     737                 :            :  * data it wants to keep.  Be sure to free swap resources too.  The
     738                 :            :  * zap_page_range call sets things up for shrink_active_list to actually free
     739                 :            :  * these pages later if no one else has touched them in the meantime,
     740                 :            :  * although we could add these pages to a global reuse list for
     741                 :            :  * shrink_active_list to pick up before reclaiming other pages.
     742                 :            :  *
     743                 :            :  * NB: This interface discards data rather than pushes it out to swap,
     744                 :            :  * as some implementations do.  This has performance implications for
     745                 :            :  * applications like large transactional databases which want to discard
     746                 :            :  * pages in anonymous maps after committing to backing store the data
     747                 :            :  * that was kept in them.  There is no reason to write this data out to
     748                 :            :  * the swap area if the application is discarding it.
     749                 :            :  *
     750                 :            :  * An interface that causes the system to free clean pages and flush
     751                 :            :  * dirty pages is already available as msync(MS_INVALIDATE).
     752                 :            :  */
     753                 :            : static long madvise_dontneed_single_vma(struct vm_area_struct *vma,
     754                 :            :                                         unsigned long start, unsigned long end)
     755                 :            : {
     756                 :          3 :         zap_page_range(vma, start, end - start);
     757                 :            :         return 0;
     758                 :            : }
     759                 :            : 
     760                 :          3 : static long madvise_dontneed_free(struct vm_area_struct *vma,
     761                 :            :                                   struct vm_area_struct **prev,
     762                 :            :                                   unsigned long start, unsigned long end,
     763                 :            :                                   int behavior)
     764                 :            : {
     765                 :          3 :         *prev = vma;
     766                 :          3 :         if (!can_madv_lru_vma(vma))
     767                 :            :                 return -EINVAL;
     768                 :            : 
     769                 :            :         if (!userfaultfd_remove(vma, start, end)) {
     770                 :            :                 *prev = NULL; /* mmap_sem has been dropped, prev is stale */
     771                 :            : 
     772                 :            :                 down_read(&current->mm->mmap_sem);
     773                 :            :                 vma = find_vma(current->mm, start);
     774                 :            :                 if (!vma)
     775                 :            :                         return -ENOMEM;
     776                 :            :                 if (start < vma->vm_start) {
     777                 :            :                         /*
     778                 :            :                          * This "vma" under revalidation is the one
     779                 :            :                          * with the lowest vma->vm_start where start
     780                 :            :                          * is also < vma->vm_end. If start <
     781                 :            :                          * vma->vm_start it means an hole materialized
     782                 :            :                          * in the user address space within the
     783                 :            :                          * virtual range passed to MADV_DONTNEED
     784                 :            :                          * or MADV_FREE.
     785                 :            :                          */
     786                 :            :                         return -ENOMEM;
     787                 :            :                 }
     788                 :            :                 if (!can_madv_lru_vma(vma))
     789                 :            :                         return -EINVAL;
     790                 :            :                 if (end > vma->vm_end) {
     791                 :            :                         /*
     792                 :            :                          * Don't fail if end > vma->vm_end. If the old
     793                 :            :                          * vma was splitted while the mmap_sem was
     794                 :            :                          * released the effect of the concurrent
     795                 :            :                          * operation may not cause madvise() to
     796                 :            :                          * have an undefined result. There may be an
     797                 :            :                          * adjacent next vma that we'll walk
     798                 :            :                          * next. userfaultfd_remove() will generate an
     799                 :            :                          * UFFD_EVENT_REMOVE repetition on the
     800                 :            :                          * end-vma->vm_end range, but the manager can
     801                 :            :                          * handle a repetition fine.
     802                 :            :                          */
     803                 :            :                         end = vma->vm_end;
     804                 :            :                 }
     805                 :            :                 VM_WARN_ON(start >= end);
     806                 :            :         }
     807                 :            : 
     808                 :          3 :         if (behavior == MADV_DONTNEED)
     809                 :          3 :                 return madvise_dontneed_single_vma(vma, start, end);
     810                 :          0 :         else if (behavior == MADV_FREE)
     811                 :          0 :                 return madvise_free_single_vma(vma, start, end);
     812                 :            :         else
     813                 :            :                 return -EINVAL;
     814                 :            : }
     815                 :            : 
     816                 :            : /*
     817                 :            :  * Application wants to free up the pages and associated backing store.
     818                 :            :  * This is effectively punching a hole into the middle of a file.
     819                 :            :  */
     820                 :          0 : static long madvise_remove(struct vm_area_struct *vma,
     821                 :            :                                 struct vm_area_struct **prev,
     822                 :            :                                 unsigned long start, unsigned long end)
     823                 :            : {
     824                 :            :         loff_t offset;
     825                 :            :         int error;
     826                 :            :         struct file *f;
     827                 :            : 
     828                 :          0 :         *prev = NULL;   /* tell sys_madvise we drop mmap_sem */
     829                 :            : 
     830                 :          0 :         if (vma->vm_flags & VM_LOCKED)
     831                 :            :                 return -EINVAL;
     832                 :            : 
     833                 :          0 :         f = vma->vm_file;
     834                 :            : 
     835                 :          0 :         if (!f || !f->f_mapping || !f->f_mapping->host) {
     836                 :            :                         return -EINVAL;
     837                 :            :         }
     838                 :            : 
     839                 :          0 :         if ((vma->vm_flags & (VM_SHARED|VM_WRITE)) != (VM_SHARED|VM_WRITE))
     840                 :            :                 return -EACCES;
     841                 :            : 
     842                 :          0 :         offset = (loff_t)(start - vma->vm_start)
     843                 :          0 :                         + ((loff_t)vma->vm_pgoff << PAGE_SHIFT);
     844                 :            : 
     845                 :            :         /*
     846                 :            :          * Filesystem's fallocate may need to take i_mutex.  We need to
     847                 :            :          * explicitly grab a reference because the vma (and hence the
     848                 :            :          * vma's reference to the file) can go away as soon as we drop
     849                 :            :          * mmap_sem.
     850                 :            :          */
     851                 :            :         get_file(f);
     852                 :            :         if (userfaultfd_remove(vma, start, end)) {
     853                 :            :                 /* mmap_sem was not released by userfaultfd_remove() */
     854                 :          0 :                 up_read(&current->mm->mmap_sem);
     855                 :            :         }
     856                 :          0 :         error = vfs_fallocate(f,
     857                 :            :                                 FALLOC_FL_PUNCH_HOLE | FALLOC_FL_KEEP_SIZE,
     858                 :          0 :                                 offset, end - start);
     859                 :          0 :         fput(f);
     860                 :          0 :         down_read(&current->mm->mmap_sem);
     861                 :          0 :         return error;
     862                 :            : }
     863                 :            : 
     864                 :            : #ifdef CONFIG_MEMORY_FAILURE
     865                 :            : /*
     866                 :            :  * Error injection support for memory error handling.
     867                 :            :  */
     868                 :            : static int madvise_inject_error(int behavior,
     869                 :            :                 unsigned long start, unsigned long end)
     870                 :            : {
     871                 :            :         struct page *page;
     872                 :            :         struct zone *zone;
     873                 :            :         unsigned int order;
     874                 :            : 
     875                 :            :         if (!capable(CAP_SYS_ADMIN))
     876                 :            :                 return -EPERM;
     877                 :            : 
     878                 :            : 
     879                 :            :         for (; start < end; start += PAGE_SIZE << order) {
     880                 :            :                 unsigned long pfn;
     881                 :            :                 int ret;
     882                 :            : 
     883                 :            :                 ret = get_user_pages_fast(start, 1, 0, &page);
     884                 :            :                 if (ret != 1)
     885                 :            :                         return ret;
     886                 :            :                 pfn = page_to_pfn(page);
     887                 :            : 
     888                 :            :                 /*
     889                 :            :                  * When soft offlining hugepages, after migrating the page
     890                 :            :                  * we dissolve it, therefore in the second loop "page" will
     891                 :            :                  * no longer be a compound page, and order will be 0.
     892                 :            :                  */
     893                 :            :                 order = compound_order(compound_head(page));
     894                 :            : 
     895                 :            :                 if (PageHWPoison(page)) {
     896                 :            :                         put_page(page);
     897                 :            :                         continue;
     898                 :            :                 }
     899                 :            : 
     900                 :            :                 if (behavior == MADV_SOFT_OFFLINE) {
     901                 :            :                         pr_info("Soft offlining pfn %#lx at process virtual address %#lx\n",
     902                 :            :                                         pfn, start);
     903                 :            : 
     904                 :            :                         ret = soft_offline_page(page, MF_COUNT_INCREASED);
     905                 :            :                         if (ret)
     906                 :            :                                 return ret;
     907                 :            :                         continue;
     908                 :            :                 }
     909                 :            : 
     910                 :            :                 pr_info("Injecting memory failure for pfn %#lx at process virtual address %#lx\n",
     911                 :            :                                 pfn, start);
     912                 :            : 
     913                 :            :                 /*
     914                 :            :                  * Drop the page reference taken by get_user_pages_fast(). In
     915                 :            :                  * the absence of MF_COUNT_INCREASED the memory_failure()
     916                 :            :                  * routine is responsible for pinning the page to prevent it
     917                 :            :                  * from being released back to the page allocator.
     918                 :            :                  */
     919                 :            :                 put_page(page);
     920                 :            :                 ret = memory_failure(pfn, 0);
     921                 :            :                 if (ret)
     922                 :            :                         return ret;
     923                 :            :         }
     924                 :            : 
     925                 :            :         /* Ensure that all poisoned pages are removed from per-cpu lists */
     926                 :            :         for_each_populated_zone(zone)
     927                 :            :                 drain_all_pages(zone);
     928                 :            : 
     929                 :            :         return 0;
     930                 :            : }
     931                 :            : #endif
     932                 :            : 
     933                 :            : static long
     934                 :          3 : madvise_vma(struct vm_area_struct *vma, struct vm_area_struct **prev,
     935                 :            :                 unsigned long start, unsigned long end, int behavior)
     936                 :            : {
     937                 :          3 :         switch (behavior) {
     938                 :            :         case MADV_REMOVE:
     939                 :          0 :                 return madvise_remove(vma, prev, start, end);
     940                 :            :         case MADV_WILLNEED:
     941                 :          0 :                 return madvise_willneed(vma, prev, start, end);
     942                 :            :         case MADV_COLD:
     943                 :          0 :                 return madvise_cold(vma, prev, start, end);
     944                 :            :         case MADV_PAGEOUT:
     945                 :          0 :                 return madvise_pageout(vma, prev, start, end);
     946                 :            :         case MADV_FREE:
     947                 :            :         case MADV_DONTNEED:
     948                 :          3 :                 return madvise_dontneed_free(vma, prev, start, end, behavior);
     949                 :            :         default:
     950                 :          2 :                 return madvise_behavior(vma, prev, start, end, behavior);
     951                 :            :         }
     952                 :            : }
     953                 :            : 
     954                 :            : static bool
     955                 :            : madvise_behavior_valid(int behavior)
     956                 :            : {
     957                 :          3 :         switch (behavior) {
     958                 :            :         case MADV_DOFORK:
     959                 :            :         case MADV_DONTFORK:
     960                 :            :         case MADV_NORMAL:
     961                 :            :         case MADV_SEQUENTIAL:
     962                 :            :         case MADV_RANDOM:
     963                 :            :         case MADV_REMOVE:
     964                 :            :         case MADV_WILLNEED:
     965                 :            :         case MADV_DONTNEED:
     966                 :            :         case MADV_FREE:
     967                 :            :         case MADV_COLD:
     968                 :            :         case MADV_PAGEOUT:
     969                 :            : #ifdef CONFIG_KSM
     970                 :            :         case MADV_MERGEABLE:
     971                 :            :         case MADV_UNMERGEABLE:
     972                 :            : #endif
     973                 :            : #ifdef CONFIG_TRANSPARENT_HUGEPAGE
     974                 :            :         case MADV_HUGEPAGE:
     975                 :            :         case MADV_NOHUGEPAGE:
     976                 :            : #endif
     977                 :            :         case MADV_DONTDUMP:
     978                 :            :         case MADV_DODUMP:
     979                 :            :         case MADV_WIPEONFORK:
     980                 :            :         case MADV_KEEPONFORK:
     981                 :            : #ifdef CONFIG_MEMORY_FAILURE
     982                 :            :         case MADV_SOFT_OFFLINE:
     983                 :            :         case MADV_HWPOISON:
     984                 :            : #endif
     985                 :            :                 return true;
     986                 :            : 
     987                 :            :         default:
     988                 :            :                 return false;
     989                 :            :         }
     990                 :            : }
     991                 :            : 
     992                 :            : /*
     993                 :            :  * The madvise(2) system call.
     994                 :            :  *
     995                 :            :  * Applications can use madvise() to advise the kernel how it should
     996                 :            :  * handle paging I/O in this VM area.  The idea is to help the kernel
     997                 :            :  * use appropriate read-ahead and caching techniques.  The information
     998                 :            :  * provided is advisory only, and can be safely disregarded by the
     999                 :            :  * kernel without affecting the correct operation of the application.
    1000                 :            :  *
    1001                 :            :  * behavior values:
    1002                 :            :  *  MADV_NORMAL - the default behavior is to read clusters.  This
    1003                 :            :  *              results in some read-ahead and read-behind.
    1004                 :            :  *  MADV_RANDOM - the system should read the minimum amount of data
    1005                 :            :  *              on any access, since it is unlikely that the appli-
    1006                 :            :  *              cation will need more than what it asks for.
    1007                 :            :  *  MADV_SEQUENTIAL - pages in the given range will probably be accessed
    1008                 :            :  *              once, so they can be aggressively read ahead, and
    1009                 :            :  *              can be freed soon after they are accessed.
    1010                 :            :  *  MADV_WILLNEED - the application is notifying the system to read
    1011                 :            :  *              some pages ahead.
    1012                 :            :  *  MADV_DONTNEED - the application is finished with the given range,
    1013                 :            :  *              so the kernel can free resources associated with it.
    1014                 :            :  *  MADV_FREE - the application marks pages in the given range as lazy free,
    1015                 :            :  *              where actual purges are postponed until memory pressure happens.
    1016                 :            :  *  MADV_REMOVE - the application wants to free up the given range of
    1017                 :            :  *              pages and associated backing store.
    1018                 :            :  *  MADV_DONTFORK - omit this area from child's address space when forking:
    1019                 :            :  *              typically, to avoid COWing pages pinned by get_user_pages().
    1020                 :            :  *  MADV_DOFORK - cancel MADV_DONTFORK: no longer omit this area when forking.
    1021                 :            :  *  MADV_WIPEONFORK - present the child process with zero-filled memory in this
    1022                 :            :  *              range after a fork.
    1023                 :            :  *  MADV_KEEPONFORK - undo the effect of MADV_WIPEONFORK
    1024                 :            :  *  MADV_HWPOISON - trigger memory error handler as if the given memory range
    1025                 :            :  *              were corrupted by unrecoverable hardware memory failure.
    1026                 :            :  *  MADV_SOFT_OFFLINE - try to soft-offline the given range of memory.
    1027                 :            :  *  MADV_MERGEABLE - the application recommends that KSM try to merge pages in
    1028                 :            :  *              this area with pages of identical content from other such areas.
    1029                 :            :  *  MADV_UNMERGEABLE- cancel MADV_MERGEABLE: no longer merge pages with others.
    1030                 :            :  *  MADV_HUGEPAGE - the application wants to back the given range by transparent
    1031                 :            :  *              huge pages in the future. Existing pages might be coalesced and
    1032                 :            :  *              new pages might be allocated as THP.
    1033                 :            :  *  MADV_NOHUGEPAGE - mark the given range as not worth being backed by
    1034                 :            :  *              transparent huge pages so the existing pages will not be
    1035                 :            :  *              coalesced into THP and new pages will not be allocated as THP.
    1036                 :            :  *  MADV_DONTDUMP - the application wants to prevent pages in the given range
    1037                 :            :  *              from being included in its core dump.
    1038                 :            :  *  MADV_DODUMP - cancel MADV_DONTDUMP: no longer exclude from core dump.
    1039                 :            :  *
    1040                 :            :  * return values:
    1041                 :            :  *  zero    - success
    1042                 :            :  *  -EINVAL - start + len < 0, start is not page-aligned,
    1043                 :            :  *              "behavior" is not a valid value, or application
    1044                 :            :  *              is attempting to release locked or shared pages,
    1045                 :            :  *              or the specified address range includes file, Huge TLB,
    1046                 :            :  *              MAP_SHARED or VMPFNMAP range.
    1047                 :            :  *  -ENOMEM - addresses in the specified range are not currently
    1048                 :            :  *              mapped, or are outside the AS of the process.
    1049                 :            :  *  -EIO    - an I/O error occurred while paging in data.
    1050                 :            :  *  -EBADF  - map exists, but area maps something that isn't a file.
    1051                 :            :  *  -EAGAIN - a kernel resource was temporarily unavailable.
    1052                 :            :  */
    1053                 :          3 : SYSCALL_DEFINE3(madvise, unsigned long, start, size_t, len_in, int, behavior)
    1054                 :            : {
    1055                 :            :         unsigned long end, tmp;
    1056                 :            :         struct vm_area_struct *vma, *prev;
    1057                 :            :         int unmapped_error = 0;
    1058                 :            :         int error = -EINVAL;
    1059                 :            :         int write;
    1060                 :            :         size_t len;
    1061                 :            :         struct blk_plug plug;
    1062                 :            : 
    1063                 :            :         start = untagged_addr(start);
    1064                 :            : 
    1065                 :          3 :         if (!madvise_behavior_valid(behavior))
    1066                 :            :                 return error;
    1067                 :            : 
    1068                 :          3 :         if (start & ~PAGE_MASK)
    1069                 :            :                 return error;
    1070                 :          3 :         len = (len_in + ~PAGE_MASK) & PAGE_MASK;
    1071                 :            : 
    1072                 :            :         /* Check to see whether len was rounded up from small -ve to zero */
    1073                 :          3 :         if (len_in && !len)
    1074                 :            :                 return error;
    1075                 :            : 
    1076                 :          3 :         end = start + len;
    1077                 :          3 :         if (end < start)
    1078                 :            :                 return error;
    1079                 :            : 
    1080                 :            :         error = 0;
    1081                 :          3 :         if (end == start)
    1082                 :            :                 return error;
    1083                 :            : 
    1084                 :            : #ifdef CONFIG_MEMORY_FAILURE
    1085                 :            :         if (behavior == MADV_HWPOISON || behavior == MADV_SOFT_OFFLINE)
    1086                 :            :                 return madvise_inject_error(behavior, start, start + len_in);
    1087                 :            : #endif
    1088                 :            : 
    1089                 :            :         write = madvise_need_mmap_write(behavior);
    1090                 :          3 :         if (write) {
    1091                 :          2 :                 if (down_write_killable(&current->mm->mmap_sem))
    1092                 :            :                         return -EINTR;
    1093                 :            :         } else {
    1094                 :          3 :                 down_read(&current->mm->mmap_sem);
    1095                 :            :         }
    1096                 :            : 
    1097                 :            :         /*
    1098                 :            :          * If the interval [start,end) covers some unmapped address
    1099                 :            :          * ranges, just ignore them, but return -ENOMEM at the end.
    1100                 :            :          * - different from the way of handling in mlock etc.
    1101                 :            :          */
    1102                 :          3 :         vma = find_vma_prev(current->mm, start, &prev);
    1103                 :          3 :         if (vma && start > vma->vm_start)
    1104                 :          0 :                 prev = vma;
    1105                 :            : 
    1106                 :          3 :         blk_start_plug(&plug);
    1107                 :            :         for (;;) {
    1108                 :            :                 /* Still start < end. */
    1109                 :            :                 error = -ENOMEM;
    1110                 :          3 :                 if (!vma)
    1111                 :            :                         goto out;
    1112                 :            : 
    1113                 :            :                 /* Here start < (end|vma->vm_end). */
    1114                 :          3 :                 if (start < vma->vm_start) {
    1115                 :            :                         unmapped_error = -ENOMEM;
    1116                 :            :                         start = vma->vm_start;
    1117                 :          0 :                         if (start >= end)
    1118                 :            :                                 goto out;
    1119                 :            :                 }
    1120                 :            : 
    1121                 :            :                 /* Here vma->vm_start <= start < (end|vma->vm_end) */
    1122                 :          3 :                 tmp = vma->vm_end;
    1123                 :          3 :                 if (end < tmp)
    1124                 :            :                         tmp = end;
    1125                 :            : 
    1126                 :            :                 /* Here vma->vm_start <= start < tmp <= (end|vma->vm_end). */
    1127                 :          3 :                 error = madvise_vma(vma, &prev, start, tmp, behavior);
    1128                 :          3 :                 if (error)
    1129                 :            :                         goto out;
    1130                 :            :                 start = tmp;
    1131                 :          3 :                 if (prev && start < prev->vm_end)
    1132                 :            :                         start = prev->vm_end;
    1133                 :            :                 error = unmapped_error;
    1134                 :          3 :                 if (start >= end)
    1135                 :            :                         goto out;
    1136                 :          3 :                 if (prev)
    1137                 :          3 :                         vma = prev->vm_next;
    1138                 :            :                 else    /* madvise_remove dropped mmap_sem */
    1139                 :          0 :                         vma = find_vma(current->mm, start);
    1140                 :            :         }
    1141                 :            : out:
    1142                 :          3 :         blk_finish_plug(&plug);
    1143                 :          3 :         if (write)
    1144                 :          2 :                 up_write(&current->mm->mmap_sem);
    1145                 :            :         else
    1146                 :          3 :                 up_read(&current->mm->mmap_sem);
    1147                 :            : 
    1148                 :          3 :         return error;
    1149                 :            : }
    

Generated by: LCOV version 1.14