Using regular expressions to process text data

S.V. Kozlov, A. V. Svetlakov

Abstract


This article describes the use of regular expressions in solving syntactic and lexical analysis problems. The concept of a regular expression is given, its essence is briefly described. The authors set three main tasks of using regular expressions in software applications. The first of these is to check text messages for compliance with a given input field template. The solution of this problem allows you to verify the data and systematize them in the information system in a uniform form. The second task is to analyze blocks of text when entering data into them. The solution to this problem allows you to identify text fragments entered with errors, examine them and make an appropriate replacement according to the specified rules. The third task determines the direction of using regular expressions when writing translators in modern instrumental environments. Its solution opens up the possibility of developing interpreters and frequency dictionaries for lexical and syntactic text analysis. For each of the described tasks, corresponding examples of computer programs are given. The authors demonstrate the implementation of regular expressions in program code written in the C# programming language, their own developed text data analysis applications. The relevance of the article is related to the study of methods for syntactic and lexical analysis of information flows in text pattern recognition systems, which are effectively used as artificial intelligence tools.


Full Text:

PDF (Russian)

References


Kozlov S. V. Ispol'zovanie funkcional'nyh vozmozhnostej informacionnyh sistem v proizvodstvennoj sfere // JeNERGETIKA, INFORMATIKA, INNOVACII – 2017 (jelektrojenergetika, jelektrotehnika i teplojenergetika, matematicheskoe modelirovanie i informacionnye tehnologii v proizvodstve). Sbornik trudov VII-oj Mezhdunarodnoj nauchno-tehnicheskoj konferencii. – 2017. – V 3 t. T 1. – S. 298-301.

Andreev K. V., Bykov A. A., Kiseleva O. M. Matematicheskaja model' prediktivnogo kodirovanija radiotehnicheskih signalov, osnovannaja na algoritme izmenjajushhegosja shaga kodirovanija // Sovremennye naukoemkie tehnologii. 2020. – # 11-2. – S. 261-267.

Muha V. S. Matematicheskie modeli mnogomernyh dannyh // Doklady Belorusskogo gosudarstvennogo universiteta informatiki i radiojelektroniki. – 2014. – # 2 (80). – S. 143-158.

Vtjurin M. V. Primenenie formal'nyh grammatik dlja sokrashhenija ob"ema tekstovoj informacii // Innovacionnoe razvitie: tehnicheskij i tehnologicheskij aspekty. Sbornik statej mezhdunarodnoj nauchno-prakticheskoj konferencii. – 2019. – S. 22-25.

Kagirov I. A., Leont'eva A. B. Avtomaticheskij sintaksicheskij analiz russkih tekstov na osnove grammatiki sostavljajushhih // Izvestija vysshih uchebnyh zavedenij. Priborostroenie. – 2008. – T. 51. # 11. – S. 47-51.

Volkova I. A., Vylitok A. A., Rudenko T. V. Formal'nye grammatiki i jazyki. Jelementy teorii transljacii: uchebnoe posobie dlja studentov II kursa. – M., 2009 – 115 s.

Kompiljatory. Principy, tehnologii, instrumentarij / A. V. Aho, M. S. Lam, R. Seti, D. D. Ul'man. – M., 2008. – 1184 s.

Kozlov S. V., Svetlakov A. V. Teorija formal'nyh grammatik i ee primenenie // Sistemy komp'juternoj matematiki i ih prilozhenija. – 2021. – # 22. – S. 358-364.

Janchenko E. V. Ispol'zovanie formal'nyh grammatik v kriptografii // Sovremennye problemy telekommunikacij: materialy mezhdunarodnoj nauchno-tehnicheskoj konferencii. – Novosibirsk, 2021. – S. 155-158.

Bajdarmanova B. N. Nekotorye sposoby nahozhdenija jekvivalentnyh preobrazovanij v kontekste svobodnyh grammatik // Theoretical & Applied Science. – 2013. – # 5 (1). – S. 5-11.

Lebedeva E. A., Kozlov S. V. Soderzhanie i osobennosti razrabotki uchebno-metodicheskogo proekta po matematike «Sistemy linejnyh uravnenij» v srede programmirovanija C# // Razvitie nauchno-tehnicheskogo tvorchestva detej i molodezhi: sbornik materialov III Vserossijskoj nauchno-prakticheskoj konferencii s mezhdunarodnym uchastiem. – 2019. – S. 161-166.

Sinjakova N. D., Kozlov S. V. Primenenie web-servisov v obrazovanii // Prikladnaja matematika i informatika: sovremennye issledovanija v oblasti estestvennyh i tehnicheskih nauk. – Tol'jatti: Tol'jattinskij gosudarstvennyj universitet. 2020. – S. 977-982.

Favorskaja M. N. K voprosu ob ispol'zovanii formal'nyh grammatik pri raspoznavanii ob"ektov v slozhnyh scenah // Reshetnevskie chtenija. – 2009. – T. 2. – S. 540-541.

Borisenkova A. V., Kozlov S. V. Ispol'zovanie metoda kaskadov Haara pri raspoznavanii obrazov na izobrazhenijah // Razvitie nauchno-tehnicheskogo tvorchestva detej i molodezhi: Sbornik materialov III Vserossijskoj nauchno-prakticheskoj konferencii s mezhdunarodnym uchastiem. – 2019. – S. 28-33.

Munerman V. I. Realizacija parallel'noj obrabotki dannyh v oblachnyh sistemah // Sovremennye informacionnye tehnologii i IT-obrazovanie. – 2017. T. 13. # 2. – S. 57-63.

Makarov A. I., Mironov A. I., Munerman V. I. Realizacija parallelizma na urovne zadach v sistemah vysokoj dostupnosti // Sistemy vysokoj dostupnosti. – 2018. – T. 14. # 5. – S. 42-45.

Korotkova A. Ju. Reguljarnye vyrazhenija vo glave shablonov poiska i otbora // Informacionnye tehnologii v obrazovanii: materialy X Vserossijskoj nauchno-prakticheskoj konferencii. – 2018. – S. 167-170.

Pruckov A. V., Susanina I. V. Prakticheskoe primenenie funkcional'nogo programmirovanija i reguljarnyh vyrazhenij v bibliometricheskom analize // International Journal of Open Information Technologies. – 2022. – T. 10. # 5. – S. 63-68.

Dubova A. A. Poisk dannyh s ispol'zovaniem reguljarnyh vyrazhenij // V sbornike: Mezhdunarodnaja nauchno-tehnicheskaja konferencija molodyh uchenyh BGTU im. V.G. Shuhova. Posvjashhena 165-letiju V.G. Shuhova. – Belgorod, 2018. – S. 3881-3885.

Sheveljova K. V., Avdeev N. N. Primenimost' reguljarnogo vyrazhenija kak matematicheskoj modeli orfograficheskoj oshibki // Aktual'nye problemy prikladnoj matematiki, informatiki i mehaniki: sbornik trudov Mezhdunarodnoj nauchnoj konferencii. – 2019. – S. 335-340.

Gruzdev D. Ju., Makarenko A. S. Ob"ektno-orientirovannyj jazyk programmirovanija i reguljarnye vyrazhenija v praktike pis'mennogo perevodchika // Uspehi gumanitarnyh nauk. 2019. – # 8. – S. 146-153.

Romanjuk B.V. k voprosu o primenenii reguljarnyh vyrazhenij // V sbornike: Problemy informacionnoj bezopasnosti social'no-jekonomicheskih sistem. VIII Vserossijskaja s mezhdunarodnym uchastiem nauchno-prakticheskaja konferencija. – Simferopol', 2022. – S. 70-71.

Kozlov S. V., Svetlakov A. V. O LL(1)-grammatikah, algoritmah na nih i metodah ih analiza v programmirovanii // International Journal of Open Information Technologies. – 2022. T. 10. # 3. – S. 30-38.

Skripov A. V. Opisanie kontekstnyh uslovij formal'nyh jazykov grammatiki s kontekstual'nymi argumentami // Vestnik Ural'skogo instituta jekonomiki, upravlenija i prava. – 2013. # 1 (22). – S. 111-116.

Martynenko B. K. Reguljarnye jazyki i KS-grammatiki // Komp'juternye instrumenty v obrazovanii. – 2012. # 1. – S. 14-20.

Svetlakov A. V., Bahman V. A., Bodju V. Ju. Vizualizacija tehnologicheskogo marshruta s pomoshh'ju graficheskogo ispolnitelja // Potencial innovacionnogo razvitija Rossijskoj Federacii v novyh geopoliticheskih uslovijah: sbornik statej Nacional'noj (Vserossijskoj) nauchno-prakticheskoj konferencii. – Ufa, 2021. – S. 40-45.

Kuljukin K. S. Osobennosti zadachi uproshhenija kvantifikatorov v reguljarnyh vyrazhenijah // V knige: Konkurs nauchno-issledovatel'skih rabot studentov Volgogradskogo gosudarstvennogo tehnicheskogo universiteta. Tezisy dokladov. Redkollegija: S.V. Kuz'min (otv. red.) [i dr.]. – 2020. – S. 171-172.

Andrianov I. A., Grigor'eva A. N. Modernizacija indeksa dlja poiska po reguljarnym vyrazhenijam // Sistemy upravlenija i informacionnye tehnologii. – 2020. – # 2 (80). – S. 60-64.


Refbacks

  • There are currently no refbacks.


Abava  Absolutech Convergent 2020

ISSN: 2307-8162