from bs4 import BeautifulSoup as bS
import requests
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

URL = "https://www.imdb.com/chart/top"
webpage = requests.get(URL)
soup = bS(webpage.content, 'html.parser')

table = soup.find_all('table')[0]
body = table.find('tbody')

movies = []
for row in body.find_all('tr'): 
    movies.append(row.find('td', class_='titleColumn').find('a').contents[0])


movies.sort()

pdMovies = pd.DataFrame(np.zeros(27), index=list('#ABCDEFGHIJKLMNOPQRSTUVWXYZ'))

for i in range(len(movies)):
    if (movies[i][0].isalpha()): 
        pdMovies.at[movies[i][0].upper(), 0] += 1

    else:
        pdMovies.at['#', 0] += 1


x = list('#ABCDEFGHIJKLMNOPQRSTUVWXYZ')
y = pdMovies[0].to_numpy()

fig, ax = plt.subplots()
ax.bar(x, y)
ax.set_title('Top %d Movies (from IMDB), Organized by First Letter' % len(movies))
font = {
    'family': 'serif',
    'color' : 'C9',
    'weight': 'normal',
    'size': 16
}
ax.text(17, pdMovies.at['T', 0] - 3, int(pdMovies.at['T', 0]), fontdict=font)
print()


pdMovies = pd.DataFrame(np.zeros(27), index=list('#ABCDEFGHIJKLMNOPQRSTUVWXYZ'))

for i in range(len(movies)):
    if (len(movies[i]) >= 5 and movies[i][0:4] == 'The '):
        if (movies[i][4].isalpha()):
            pdMovies.at[movies[i][4].upper(), 0] += 1
        
        else:
            pdMovies.at['#', 0] += 1

    elif (movies[i][0].isalpha()): 
        pdMovies.at[movies[i][0].upper(), 0] += 1

    else:
        pdMovies.at['#', 0] += 1

x = list('#ABCDEFGHIJKLMNOPQRSTUVWXYZ')
y = pdMovies[0].to_numpy()

fig, ax = plt.subplots()
ax.bar(x, y)
ax.set_title('Top %d Movies (from IMDB), Organized by First Letter, Ignoring "The"' % len(movies))
font = {
    'family': 'serif',
    'color' : 'C9',
    'weight': 'normal',
    'size': 16
}
ax.text(16, pdMovies.at['S', 0] - 1, int(pdMovies.at['S', 0]), fontdict=font)
print()

A Statistical Look at the Features of Top Movies (According to IMDB)¶

By First Letter¶

By First Letter, Ignoring "The"¶