Module dhivehi_nlp.stemmer

Remove suffixes from words to return their root form.

ބަހުގެ ފަހަތުގައި ވާ އަކުރުތައް ނެގުމަށްފަހު ބަހުގެ އަސްލުގޮތް އަނބުރާ ދިނުން

"""Remove suffixes from words to return their root form.

ބަހުގެ ފަހަތުގައި ވާ އަކުރުތައް ނެގުމަށްފަހު ބަހުގެ އަސްލުގޮތް އަނބުރާ ދިނުން

import re
from dhivehi_nlp import tokenizer

def get_rules():
    Returns a dictionary of stemming rules.

    ބަހުގެ ފަހަތުގައި ވާ އަކުރުތައް ނެގުމަށްފަހު ބަހުގެ އަސްލުގޮތް ކަނޑައަޅާ ގަވައިދުތަކުގެ ޑިކްށަނަރީއެއް އަނބުރާދޭނެއެވެ
    return {
        "ކަން": "",
        "ކަމަކީ": "",
        "ކަމުން": "",
        "ކަމެއް": "",
        "ކަމަށް": "",
        "ފި": "",
        "ގެ": "",
        "ތައް": "",
        "ކޮށް": "",
        "ނާ": "",
        "ވައި": "",
        "ހަކަށް": "",
        "ތަކުގެ": "",
        "އްޗެއް": "ތި",
        "ގަކީ": "ގު",
        "ހެއް": "ސް",
        "ދުމާ": "ދުން",
        "ހުމެއް": "ހުން",
        "ކަމެއް": "ކަން",
        "ތަކަށް": "ތް",
        "ސުން": "ސް",
        "ނުމުން": "ން",
        "ތުން": "ތް",

def stem(text):
    Returns a stemmed form of the given word(s).
    If the input is a string with a single word or a list with one element, the
    return value is a string. Otherwise a list is returned.

    ބަހުގެ ފަހަތުގައި ވާ އަކުރުތައް ނެގުމަށްފަހު ބަހުގެ އަސްލުގޮތް އަނބުރާ ދިނުން
    >>> stem("އެކައްޗެއް")
    >>> stem(["ކަމެއްކަން", "ކަމެއްކަމަކީ", "ކަމެއްކަމުން", "ބަހެއް", "ގަހެއް", "އެކައްޗެއް"])
    ["ކަމެއް", "ކަމެއް", "ކަމެއް", "ބަސް", "ގަސް", "އެކަތި"]
    if isinstance(text, str):
        tokens = tokenizer.word_tokenize(text, removePunctuation=True)
        tokens = text
    patterns = re.compile("(" + "|".join(get_rules().keys()) + ")$")
    stems = []
    for i in tokens:
        stem = patterns.sub(lambda x: get_rules().get(,, i)
    if len(stems) == 1:
        stems = stems[0]
    return stems


