Домашно 2 – Целувката на хипертекстовия метаезик

„ Програмиране с Python“, ФМИ

15.4.2010

Що е то?

По-лесен начин за писане на HTML
Параграфите се ограждат с <p> </p>
Самотен нов ред: <br>
Заглавия: == abc == става <h2>abc</h2>. От H1 до H6.
* в началото на реда става <ul><li>…</li></ul>

Що е то?

[1-9]. в началото на реда става <ol><li>…</li>
URLs стават на <a href=„…“> линкове
[xxx]…[/xxx] става на <span class=„xxx“>…</span>

Не пишете `kiss()` ако можете

Not Invented Here
Дизайн на езика, тестване, писане - отнемат време
Добавки след време
Markdown
Textile
reStructuredText

Подход: Parser

Консумираме входящият текст по елемeнти (tokens)
Обръщаме списъка с елементи в дървовидна структура с автомат
Обхождаме дървото за да генерираме HTML

Подход: Parser

Защо да?
Валиден HTML
Сложни правила
Хващаме грешки във входящия текст
Не знаем регулярни изрази
Защо не? Няколко пъти повече код
Бонус: lex и yacc за Python

Подход: „Заменки“

Кълвем си познати думички и ги заменяме една по една.

def kiss(text):
    replacements = [("\n======", '<h6>'), ("======\n", '</h6>'),
         ("\n=====", '<h5>'), ("=====\n", '</h5>'), ...
         ("\n* ",'<li>'), ...
         ('http://', '<a href="http://'), ...
         ]
    for keyword, substitute in replacements:
	    text = text.replace(keyword, substitute)
    return text

Издишаме бързо
Четем текста като цял низ, не колекция от редове
Редът на правилата е ключов

Подход: Разделяме на функции

process_titles(), process_newlines(), process_lists(), …
kiss() композира process_*()
Отделен подход за всяка трансформация
По-лесно тестване
Модулярен код
Липсва координация между функциите

Подход: Колекция от регулярни изрази

Ако всички трансформации се свеждат до регулярни изрази

def kiss(text):
	patterns = [
         (регулярен израз, заменка),
         (регулярен израз, заменка),
         ...
    ]

    for pattern, substitute in replacements:
	    text = re.sub(keyword, substitute, text, 
                   flags = re.MULTILINE)

	return text

HTML

HTML има доста правила
<br></p> и <p><br> - излишно
</li><br> - невалидно
<ul>, <ol> и <h1> в <p> - невалидно
Може да имаме и HTML във входящия текст…
Подход: Поддържаме stack с отворените тагове
Подход: Генерираме лош HTML и после оправяме положението

Пълен пример 1/2

def kiss(text):
  domain_re = r'([a-z0-9-]+\.)+[a-z0-9-]+'
  patterns = (
    (r'^#.*\n?', ''), # коментари
    (r'(^\*.*\n){2,}', # списъци 
        lambda m: '\n\n<ul>'+sub(r'^\*(.*)$', r'<li>\1</li>', 
        m.group(0))+'</ul>\n\n'),
    (r'^(=+)(.*)\1?$', # заглавия
        lambda m: '\n\n<h%(level)d>%(heading)s</h%(level)d>\n\n' 
        % {'level': len(m.group(1)), 'heading': m.group(2)}),
    (r'(http://%s(/([a-z0-9/_.?&#-]*[a-z0-9/_&#-])?)?)' # адреси
        % domain_re, r'<a href="\1">\1</a>'),
    (r'([a-z0-9._+]+@%s)' % domain_re, # email адреси
        r'<a href="mailto: \1">\1</a>'),
    (r'\[([a-z]+)\]', r'<span class="\1">'), # специален текст
    (r'\[/[a-z]+\]', r'</span>'), # специален текст
    (r'\n{2,}', '</p><p>'), # 2+ нови реда
    (r'\n', '<br />'), # 1 нов ред

Пълен пример 2/2

    # оправяме сбъркания HTML
    (r'<p>\s*(<ul>|<h\d>)', r'\1'),
    (r'</ul>\s*</p>', '</ul>'),
    (r'(</ul>|</h\d>)\s*</p>', r'\1'),
    (r'(<br\s*/>\s*)+</p>', '</p>'),
    (r'(<p>\s*<br\s*/>)+', '<p>'),
    (r'(</li>\s*<br\s*/>)+', '</li>'),
    (r'<p>\s*</p>', ''),
  )
  text = '<p>\n' + text + '\n</p>'    
  for pattern, substitute in patterns:
   text = re.sub(keyword, substitute, text, 
     flags = re.MULTILINE)
  return text.strip()

Проблеми

Незатворени [специални] текстове

    (r'\[([a-z]+)\]', r'<span class="\1">'), # специален текст
    (r'\[/[a-z]+\]', r'</span>'), # специален текст

Алтернатива: не хваща [a]xx[b]yy[/b][/a]

    (r'\[([a-z]+)\](.*?)[/\1]', r'<span class="\1">\2</span>'), # специален текст

Не хваща грешки във входящия текст
Не можем да сме съвсем сигурни за валиден HTML

Повторения

  def parseH1():
     ... 10 реда код ...

  def parseH2():
     ... 10 реда код ...

  ...

  def parseH6():
     ... 10 реда код ...

Ако ползвате copy-paste нещо не е наред
Малко по-добре: parseHeading(1); parseHeading(2);
'=' * 5 == '====='

str.replace() и re.sub()

# по-лошо
matches = re.findall(регулярен израз, text)
text.replace(matches[0] + matches[1], 
    "<ul><li>" + matches[1] + "</li>")

# по-добре
text = re.sub(регулярен израз, 
    "<ul><li>\1</li>" , text)

# \1 == matches[1]

Необезопасени регулярни изрази

* Винаги escape-вайте външен текст

email = "ivan12m@abv.bg"
re.sub(email, "mailto:" + email, text) # работи

email = "ivan12m+seksimacki@abv.bg"
re.sub(email, "mailto:" + email, text) # не работи

re.sub(re.escape(email), 
    "mailto:" + email, text) # работи

Редовни

# komentari na 6liokavica
#print(kiss(test_text)) вместо

if __name__ == '__main__':
    test_text = """..."""
    print(kiss(test_text))

Още въпроси?

http://www.strfriend.com/ - визуално обяснение на регулярни изрази
Textile - http://textism.com/tools/textile/, easy_install textile
Markdown - http://daringfireball.net/projects/markdown/, easy_install markdown
reStructuredText - http://docutils.sourceforge.net/rst.html, easy_install docutils
Страница на курса - http://fmi.py-bg.net/
Форуми на курса - http://fmi.py-bg.net/topics/
Курсът в Twitter - http://twitter.com/pyfmi

„Домашно 2 – Целувката на хипертекстовия метаезик“, част от курса Програмиране с Python

Текстът на тази презентация се разпространява под Creative Commons Attribution

Домашно 2 – Целувката на хипертекстовия метаезик

„ Програмиране с Python“, ФМИ

15.4.2010

Що е то?

Що е то?

Не пишете `kiss()` ако можете

Подход: Parser

Подход: Parser

Подход: „Заменки“

Подход: Разделяме на функции

Подход: Колекция от регулярни изрази

HTML

Пълен пример 1/2

Пълен пример 2/2

Проблеми

Повторения

str.replace() и re.sub()

Необезопасени регулярни изрази

Редовни

Още въпроси?

„﻿Домашно 2 – Целувката на хипертекстовия метаезик“, част от курса Програмиране с Python

Текстът на тази презентация се разпространява под Creative Commons Attribution

﻿Домашно 2 – Целувката на хипертекстовия метаезик

„ Програмиране с Python“, ФМИ

15.4.2010

Що е то?

Що е то?

Не пишете kiss() ако можете

Подход: Parser

Подход: Parser

Подход: „Заменки“

Подход: Разделяме на функции

Подход: Колекция от регулярни изрази

HTML

Пълен пример 1/2

Пълен пример 2/2

Проблеми

Повторения

str.replace() и re.sub()

Необезопасени регулярни изрази

Редовни

Още въпроси?

„Домашно 2 – Целувката на хипертекстовия метаезик“, част от курса Програмиране с Python

Домашно 2 – Целувката на хипертекстовия метаезик

Не пишете `kiss()` ако можете