Merge pull request #156 from planetlabs/ericrdunham/prevent-empty-filenames

sarasafavi · web-flow · commit d0e432a2568c · 2019-02-15T16:17:13.000-06:00
Prevent empty filenames when attempting to download assets without a Content-Disposition header
diff --git a/planet/api/utils.py b/planet/api/utils.py
@@ -16,9 +16,13 @@
 from datetime import datetime
 from . import exceptions
 import json
+import mimetypes
 import os
+import random
 import re
+import string
 import threading
+import urlparse
 from ._fatomic import atomic_open
 
 _ISO_FMT = '%Y-%m-%dT%H:%M:%S.%f+00:00'
@@ -89,11 +93,138 @@ def check_status(response):
 
 
 def get_filename(response):
-    cd = response.headers.get('content-disposition', '')
+    """Derive a filename from the given response.
+
+    >>> import requests
+    >>> from planet.api import utils
+    >>> response = requests.Response()
+    >>> response.headers = {
+    ...     'date': 'Thu, 14 Feb 2019 16:13:26 GMT',
+    ...     'last-modified': 'Wed, 22 Nov 2017 17:22:31 GMT',
+    ...     'accept-ranges': 'bytes',
+    ...     'content-type': 'image/tiff',
+    ...     'content-length': '57350256',
+    ...     'content-disposition': 'attachment; filename="open_california.tif"'
+    ... }
+    >>> response.url = 'https://planet.com/path/to/example.tif?foo=f6f1'
+    >>> print(utils.get_filename(response))
+    open_california.tif
+    >>> del response
+    >>> response = requests.Response()
+    >>> response.headers = {
+    ...     'date': 'Thu, 14 Feb 2019 16:13:26 GMT',
+    ...     'last-modified': 'Wed, 22 Nov 2017 17:22:31 GMT',
+    ...     'accept-ranges': 'bytes',
+    ...     'content-type': 'image/tiff',
+    ...     'content-length': '57350256'
+    ... }
+    >>> response.url = 'https://planet.com/path/to/example.tif?foo=f6f1'
+    >>> print(utils.get_filename(response))
+    example.tif
+    >>> del response
+    >>> response = requests.Response()
+    >>> response.headers = {
+    ...     'date': 'Thu, 14 Feb 2019 16:13:26 GMT',
+    ...     'last-modified': 'Wed, 22 Nov 2017 17:22:31 GMT',
+    ...     'accept-ranges': 'bytes',
+    ...     'content-type': 'image/tiff',
+    ...     'content-length': '57350256'
+    ... }
+    >>> response.url = 'https://planet.com/path/to/oops/'
+    >>> print(utils.get_filename(response)) #doctest:+SKIP
+    planet-bFL6pwki.tif
+    >>>
+
+    :param response: An HTTP response.
+    :type response: :py:class:`requests.Response`
+    :returns: a filename (i.e. ``basename``)
+    :rtype: str
+    """
+    name = (get_filename_from_headers(response.headers) or
+            get_filename_from_url(response.url) or
+            get_random_filename(response.headers.get('content-type')))
+    return name
+
+
+def get_filename_from_headers(headers):
+    """Get a filename from the Content-Disposition header, if available.
+
+    >>> from planet.api import utils
+    >>> headers = {
+    ...     'date': 'Thu, 14 Feb 2019 16:13:26 GMT',
+    ...     'last-modified': 'Wed, 22 Nov 2017 17:22:31 GMT',
+    ...     'accept-ranges': 'bytes',
+    ...     'content-type': 'image/tiff',
+    ...     'content-length': '57350256',
+    ...     'content-disposition': 'attachment; filename="open_california.tif"'
+    ... }
+    >>> name = utils.get_filename_from_headers(headers)
+    >>> print(name)
+    open_california.tif
+    >>>
+    >>> headers.pop('content-disposition', None)
+    'attachment; filename="open_california.tif"'
+    >>> name = utils.get_filename_from_headers(headers)
+    >>> print(name)
+    None
+    >>>
+
+    :param headers dict: a ``dict`` of response headers
+    :returns: a filename (i.e. ``basename``)
+    :rtype: str or None
+    """
+    cd = headers.get('content-disposition', '')
     match = re.search('filename="?([^"]+)"?', cd)
-    if match:
-        return match.group(1)
-    return cd
+    return match.group(1) if match else None
+
+
+def get_filename_from_url(url):
+    """Get a filename from a URL.
+
+    >>> from planet.api import utils
+    >>> urls = [
+    ...     'https://planet.com/',
+    ...     'https://planet.com/path/to/',
+    ...     'https://planet.com/path/to/example.tif',
+    ...     'https://planet.com/path/to/example.tif?foo=f6f1&bar=baz',
+    ...     'https://planet.com/path/to/example.tif?foo=f6f1&bar=baz#quux'
+    ... ]
+    >>> for url in urls:
+    ...     print('{} -> {}'.format(url, utils.get_filename_from_url(url)))
+    ...
+    https://planet.com/ -> None
+    https://planet.com/path/to/ -> None
+    https://planet.com/path/to/example.tif -> example.tif
+    https://planet.com/path/to/example.tif?foo=f6f1&bar=baz -> example.tif
+    https://planet.com/path/to/example.tif?foo=f6f1&bar=baz#quux -> example.tif
+    >>>
+
+    :returns: a filename (i.e. ``basename``)
+    :rtype: str or None
+    """
+    path = urlparse.urlparse(url).path
+    name = path[path.rfind('/')+1:]
+    return name or None
+
+
+def get_random_filename(content_type=None):
+    """Get a pseudo-random, Planet-looking filename.
+
+    >>> from planet.api import utils
+    >>> print(utils.get_random_filename()) #doctest:+SKIP
+    planet-61FPnh7K
+    >>> print(utils.get_random_filename('image/tiff')) #doctest:+SKIP
+    planet-V8ELYxy5.tif
+    >>>
+
+    :returns: a filename (i.e. ``basename``)
+    :rtype: str
+    """
+    extension = mimetypes.guess_extension(content_type or '') or ''
+    characters = string.ascii_letters + '0123456789'
+    letters = ''.join(random.sample(characters, 8))
+    name = 'planet-{}{}'.format(letters, extension)
+    return name
 
 
 def write_to_file(directory=None, callback=None, overwrite=True):
@@ -112,6 +243,7 @@ def write_to_file(directory=None, callback=None, overwrite=True):
                           write progress.
     :param overwrite bool: Overwrite any existing files. Defaults to True.
     '''
+
     def writer(body):
         file = os.path.join(directory or '.', body.name)
         if overwrite or not os.path.exists(file):
diff --git a/tests/test_utils.py b/tests/test_utils.py
@@ -14,6 +14,7 @@
 from mock import Mock
 import pytest
 from datetime import datetime
+import re
 from planet.api import utils
 from planet.api import exceptions
 from _common import read_fixture
@@ -110,3 +111,44 @@ def test_write_to_file(tmpdir):
     utils.write_to_file(str(tmpdir), callback=callback, overwrite=False)(body)
     assert body.write.call_count == 1
     assert callback.call_args[1]['skip'] == body
+
+
+@pytest.mark.parametrize('headers,expected', [
+    ({
+        'date': 'Thu, 14 Feb 2019 16:13:26 GMT',
+        'last-modified': 'Wed, 22 Nov 2017 17:22:31 GMT',
+        'accept-ranges': 'bytes',
+        'content-type': 'image/tiff',
+        'content-length': '57350256',
+        'content-disposition': 'attachment; filename="open_california.tif"'
+    }, 'open_california.tif'),
+    ({
+        'date': 'Thu, 14 Feb 2019 16:13:26 GMT',
+        'last-modified': 'Wed, 22 Nov 2017 17:22:31 GMT',
+        'accept-ranges': 'bytes',
+        'content-type': 'image/tiff',
+        'content-length': '57350256'
+    }, None),
+    ({}, None)
+])
+def test_get_filename_from_headers(headers, expected):
+    assert utils.get_filename_from_headers(headers) == expected
+
+
+@pytest.mark.parametrize('url,expected', [
+    ('https://planet.com/', None),
+    ('https://planet.com/path/to/', None),
+    ('https://planet.com/path/to/example.tif', 'example.tif'),
+    ('https://planet.com/path/to/example.tif?foo=f6f1&bar=baz', 'example.tif'),
+    ('https://planet.com/path/to/example.tif?foo=f6f1#quux', 'example.tif'),
+])
+def test_get_filename_from_url(url, expected):
+    assert utils.get_filename_from_url(url) == expected
+
+
+@pytest.mark.parametrize('content_type,check', [
+    (None, lambda x: re.match(r'^planet-[a-z0-9]{8}$', x, re.I) is not None),
+    ('image/tiff', lambda x: x.endswith('.tif')),
+])
+def test_get_random_filename(content_type, check):
+    assert check(utils.get_random_filename(content_type))