Scraping(Retty,食べログ,ぐるなび)

パッケージインストール(対応:tabeLogScraping.py rettyScraping.py)

pip install git+https://github.com/BDA2019TeamA/Scraping

使用方法(ぐるなびはAPIの都合上不可能)

from Scraping import *
retty = rettyScraping()
tabe = tabeLogScraping()

調子が悪かったらsetup.pyのinstall_requiresの部分を消して手動で必要なライブラリを入れる

Retty用の都道府県別スクレイピング(rettyScraping)

使用に必要なライブラリ

import requests
import pandas
from bs4 import BeautifulSoup
import re
import time
import ast
import json
import copy
import os
import csv
import sys
from pprint import pprint

使用方法

class rettyScraping を用いる。

基本的にはgetData()を用いてcsvを作成する。

引数は 都道府県名(str), どこから(int), どこまで(int), csv名/None(追記する時、ないときはNone)

出力されるcsv名は追記でない限りPRE{数字}.csvとなっている。

csvの中身

column

category:食べ物のカテゴリー
comment:コメント
name:店の名前
phone:電話番号
restaurantId:Rettyにおける店id
score:1~3の評価値
url:url
userId:コメントした人のid

食べログ用の都道府県別スクレイピング(tabeLogScraping.py)

使用に必要なライブラリ

import requests
import pandas
from bs4 import BeautifulSoup
import re
import time
import ast
import json
import copy
import os
import csv
import sys
from pprint import pprint

使用方法

class tabeLogScraping を用いる。

基本的にはgetData()を用いてcsvを作成する。

引数は 都道府県名(str), どこから(int), どこまで(int), csv名/None(追記する時、ないときはNone)

出力されるcsv名は追記を行わない限りAREA{都道府県のローマ字}.csvとなっている。

csvの中身

column

category:食べ物のカテゴリー
comment:コメント
name:店の名前
phone:電話番号
restaurantId:Rettyにおける店id
score:0~5の評価値

個別score

料理・味:0~5の評価値
サービス:0~5の評価値
雰囲気:0~5の評価値
CP(コスパ):0~5の評価値
酒・ドリンク:0~5の評価値

url:url
userId:コメントした人のid

Retty用の東京都内スクレイピング(rettyScraping)

retty_restaurantTokyo_Scraping.py

取得できるcsvの中身

'店舗ID'
'店舗名'
'カテゴリー'
'URL'
'住所'
'電話番号'
'地区名小'

retty_commentTokyo_Scraping.py

取得できるcsvの中身

'店舗ID'
'URL'
'投稿ID'
'ニックネーム'
'コメント'
'評価'

食べログ用の東京都内スクレイピング(tabeLogScraping.py)

tabeLog_restaurantTokyo_Scraping.py

取得できるcsvの中身

'店舗ID'
'店舗名'
'カテゴリー'
'URL'
'住所'
'電話番号'
'地区名小'

tabeLog_commentTokyo_Scraping.py

'店舗ID'
'URL'
'投稿ID'
'ニックネーム'
'コメント'
'評価'
'料理・味'
'サービス'
'雰囲気'
'CP(コスパ)'
'酒・ドリンク'

ぐるなび用のスクレイピング(gnavi_comment_Scraping,gnavi_restaurant_Scraping.py)

使用に必要なライブラリ

import sys
import urllib
import xml.etree.ElementTree as ET
import json
import requests
import csv
import pandas as pd
import time

使用方法

ぐるなびのAPI登録をする

gnavi_comment_Scraping.py

gnavi_restaurant_Scraping.py

それぞれ実行すると対応するcsvが取得できる

csvの中身

column(gnavi_comment_Scraping.py)

'店舗ID'
'URL'
'投稿ID'
'ニックネーム'
'コメント'
'評価'

column(gnavi_restaurant_Scraping.py)

'店舗ID'
'店舗名'
'カテゴリー'
'URL'
'住所'
'電話番号'
'地区名小'

Name		Name	Last commit message	Last commit date
Latest commit History 76 Commits
src/Scraping		src/Scraping
.gitignore		.gitignore
README.md		README.md
setup.py		setup.py

CrepeMaker/Scraping

Folders and files

Latest commit

History

Repository files navigation

Scraping(Retty,食べログ,ぐるなび)

調子が悪かったらsetup.pyのinstall_requiresの部分を消して手動で必要なライブラリを入れる

Retty用の都道府県別スクレイピング(rettyScraping)

使用に必要なライブラリ

使用方法

csvの中身

column

食べログ用の都道府県別スクレイピング(tabeLogScraping.py)

使用に必要なライブラリ

使用方法

csvの中身

column

個別score

Retty用の東京都内スクレイピング(rettyScraping)

retty_restaurantTokyo_Scraping.py

取得できるcsvの中身

retty_commentTokyo_Scraping.py

取得できるcsvの中身

食べログ用の東京都内スクレイピング(tabeLogScraping.py)

tabeLog_restaurantTokyo_Scraping.py

取得できるcsvの中身

tabeLog_commentTokyo_Scraping.py

ぐるなび用のスクレイピング(gnavi_comment_Scraping,gnavi_restaurant_Scraping.py)

使用に必要なライブラリ

使用方法

gnavi_comment_Scraping.py

gnavi_restaurant_Scraping.py

csvの中身

column(gnavi_comment_Scraping.py)

column(gnavi_restaurant_Scraping.py)

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 3

Uh oh!

Languages

Packages